https://t.co/FAVryQg5bj允许用户不用登录就能和不同的语言模型(LLMs)聊天,并对它们的表现打分。最近,这个网站上出现了一个名为gpt2-chatbot的模型,它表现得比以往所有GPT-2模型都要好。用户可以在“直接聊天”(Direct Chat)和“竞技场”(Arena)两个板块使用这个模型,但“竞技场”里的版本是盲测(blinded version),也就是用户不知道他们正在和哪个模型互动。除了这个gpt2-chatbot,网站上没有提供关于这个特定模型名称的任何信息。网站提供API来获取所有模型的评分结果,但这个gpt2-chatbot模型除外。看起来,这个模型名称可能只是掩盖了其他东西。

作者个人认为,这个神秘的模型实际上可能是GPT-4.5或GPT-5。总体来说,输出的质量非常高,特别是在格式、结构和整体理解方面。很多有经验的语言模型和聊天机器人用户都注意到了这一点,并且意外地发现其表现非常好——作者本人也完全同意。对作者来说,使用这个模型就像是从GPT-3.5跳到GPT-4那样的进步。

简单来说,图片中讲述了一个被认为性能超出预期、并可能比它标榜的版本更先进的聊天机器人模型,并且分享了作者对于其真实身份的猜想和印象。

Reply to this note

Please Login to reply.

Discussion

No replies yet.