Subnostr

https://t.co/FAVryQg5bj允许用户不用登录就能和不同的语言模型（LLMs）聊天，并对它们的表现打分。最近，这个网站上出现了一个名为gpt2-chatbot的模型，它表现得比以往所有GPT-2模型都要好。用户可以在“直接聊天”（Direct Chat）和“竞技场”（Arena）两个板块使用这个模型，但“竞技场”里的版本是盲测（blinded version），也就是用户不知道他们正在和哪个模型互动。除了这个gpt2-chatbot，网站上没有提供关于这个特定模型名称的任何信息。网站提供API来获取所有模型的评分结果，但这个gpt2-chatbot模型除外。看起来，这个模型名称可能只是掩盖了其他东西。

作者个人认为，这个神秘的模型实际上可能是GPT-4.5或GPT-5。总体来说，输出的质量非常高，特别是在格式、结构和整体理解方面。很多有经验的语言模型和聊天机器人用户都注意到了这一点，并且意外地发现其表现非常好——作者本人也完全同意。对作者来说，使用这个模型就像是从GPT-3.5跳到GPT-4那样的进步。

简单来说，图片中讲述了一个被认为性能超出预期、并可能比它标榜的版本更先进的聊天机器人模型，并且分享了作者对于其真实身份的猜想和印象。

Reply to this note

Please Login to reply.

Discussion

No replies yet.