Nostr

现在提供LLM inference的服务，无论是开源还是闭源，速度还是太慢了，至少要等个1~2秒钟，长回答要等半分钟。

目测未来一年内，会冒出来一个killer app，直接用Groq、Cerebras、SambaNova的服务+Llama的开源模型，无论是做计算、agent、chatbot，都能秒输入、秒回复，

到时候就是nvidia的死期了。

Please Login to reply.

No replies yet.