Subnostr

这段话的意思是说，多轮对话对于现在的很多应用非常重要。为了衡量模型处理长时间交互的能力，他们引入了一个新类别“多轮对话”，即包含两个或两个以上回合的对话。

关键发现：

- 14%的Arena投票是多轮对话的。

- Claude模型的评分显著提高，Claude 3.5 Sonnet与GPT-4o并列第一。

- Gemma-2-27B和Llama-3-70B是最好的开放模型，现在并列第十。

举例：

假设你在和一个AI聊天，第一次你问了它一个问题，然后根据它的回答，你接着又问了一个相关的问题，这就是一个多轮对话。这种对话能够更好地测试模型在上下文理解和持续交互中的能力。

总的来说，他们发现处理多轮对话的能力是衡量模型表现的重要标准，并且一些模型在这方面表现得非常好。

Please Login to reply.

No replies yet.