这段话的意思是说,多轮对话对于现在的很多应用非常重要。为了衡量模型处理长时间交互的能力,他们引入了一个新类别“多轮对话”,即包含两个或两个以上回合的对话。
关键发现:
- 14%的Arena投票是多轮对话的。
- Claude模型的评分显著提高,Claude 3.5 Sonnet与GPT-4o并列第一。
- Gemma-2-27B和Llama-3-70B是最好的开放模型,现在并列第十。
举例:
假设你在和一个AI聊天,第一次你问了它一个问题,然后根据它的回答,你接着又问了一个相关的问题,这就是一个多轮对话。这种对话能够更好地测试模型在上下文理解和持续交互中的能力。
总的来说,他们发现处理多轮对话的能力是衡量模型表现的重要标准,并且一些模型在这方面表现得非常好。