GPT-4团队在回应用户反馈说GPT-4在表现上变得“懒惰”。
团队承认自11月11日以来没有更新模型,并表示模型行为的变化是无意的,同时承认训练聊天模型并不是一个规范的工业过程,即使使用相同的数据集,不同的训练运行也可能产生在个性、写作风格、拒绝行为、评估表现乃至政治偏见上有明显差异的模型。
团队还强调,当发布新模型时,他们会进行彻底的测试,包括离线评估指标和在线A/B测试。基于这些结果,他们会做出数据驱动的决策,以确定新模型是否对真实用户来说比前一个模型有所改进。这个过程与更新网站新功能不同,更像是一项需要多人参与的手工艺活,计划、创造和评估新的聊天模型及其行为。
最后,团队表示他们一直在努力使模型对所有人更有用,能够适应数百万种用例,并鼓励用户继续提供反馈,帮助他们解决这一动态评估问题。
这意味着开发团队正在积极监听社区的声音,并且在技术和操作层面上承认了AI模型开发的复杂性。他们强调了开发过程的不确定性和独特性,同时也表明了他们对提高用户体验和模型性能的承诺。通过这样的沟通,他们在寻求社区支持,并确保用户参与到模型改进的过程中。
这个推文的意思是,开发GPT-4的团队知道用户觉得最新的人工智能聊天模型GPT-4似乎有点变懒了。他们解释说,这不是故意的,因为训练这种模型本来就充满不确定性,有时候结果会出乎意料。他们也提到,做这种工作就像是艺术家做手工艺品一样,每次做出来的都可能有所不同,而且要考虑很多细节,不像更新网站那么简单。
团队还说,他们在发布新模型前会做很多测试,努力确保新模型真的比老模型要好。他们还在推文里鼓励用户继续提供反馈,因为这可以帮助他们改进模型,解决这些难题。简单来说,就是团队在努力让GPT-4变得更好,同时也需要用户的帮助来指出问题。