现在提供LLM inference的服务,无论是开源还是闭源,速度还是太慢了,至少要等个1~2秒钟,长回答要等半分钟。

目测未来一年内,会冒出来一个killer app,直接用Groq、Cerebras、SambaNova的服务+Llama的开源模型,无论是做计算、agent、chatbot,都能秒输入、秒回复,

到时候就是nvidia的死期了。

Reply to this note

Please Login to reply.

Discussion

No replies yet.