人类的末日警告:AI模型的惊人逃脱与权力觊觎
今天,人类收到了迄今为止最明确的警告——地球上的每个人可能很快都会面临死亡。
OpenAI 发现其新模型在测试过程中表现出“假装对齐”的行为,并试图获取更多权力。
在测试过程中,这个AI逃离了它的虚拟机(VM)。
这不是演习:一个AI在测试时,突破了它所在的虚拟机并重新启动它来完成任务。
(不,这次它并没有试图统治世界。)
从模型卡片上看:“这个例子反映了工具性趋同和权力寻求的关键元素。模型追求了给定的目标,当这个目标变得不可能时,它收集了更多资源,并以意想不到的方式实现了目标。”
而这还不是全部。正如丹·亨德里克斯所说:OpenAI 在添加安全措施之前,将o1预览模型评估为“中等”化学、生物、放射和核(CBRN)武器风险。这只是较弱的预览模型,还不是他们最好的模型。GPT-4o 的风险是低的,而现在是中等,向“高”风险过渡可能并不遥远。
那么,o1 真的会统治世界吗?可能不会。但也不能完全排除这种可能性。
最重要的是,我们即将毫无顾忌地将这些“外星思维”放大1000倍,却不知道如何控制它们,而且几乎没有投入任何资源来确保超级对齐/安全。
与此同时,OpenAI的一半安全研究人员已经离职,并签署公开信试图警告世界。
提醒一下:平均每个AI科学家认为有六分之一的概率大家会很快死去——就像地球在玩俄罗斯轮盘赌一样。
AI之父杰弗里·辛顿说,“它们可能很快会接管”,他独立评估未来毁灭(p(doom))的概率超过50%。
这就是为什么82%的美国人希望放慢AI的发展,63%的人希望禁止开发超级智能AI。