//@刘群MT-to-Death:【当时Hinton临时成立的公司早就想卖给Google,所以现在地平线创始人余凯代表百度出价到更高的时候,Hinton就叫停了拍卖】看来百度本来就没有机会,并不是因为出价比不过Google。不过百度和余凯老师能在这件事情上留下一笔,也足以青史留名了[good][good][good]
@高飞
#模型时代# 从Alex卧室的两块GPU到万亿参数:Hinton与Jeff Dean复盘现代AI的7个关键决策
2025年NeurIPS大会的一期访谈,刚有空整理了一下,对话的两个人那是相当权威:Geoffrey Hinton和Jeff Dean(Google首席科学家、Gemini联合负责人)。主持人是Jordan Jacobs(Radical Ventures联合创始人、Vector Institute联合创始人)。
这场对话的价值在于:当事人亲口讲述了那些被后人神化的"历史时刻"到底发生了什么。你会发现,很多决定性突破的背后,是一些看起来很随意的判断。
我印象比较深刻的一个论述是,Hinton作为教授,如何挑选学生?
答案:问"你最好的想法是什么"。如果回答是"我还没有想法,等研究生阶段再说",那就不要。因为他要的是已经产生过原创想法的人,不管想法好不好。能力可以培养,但产生想法的习惯很难后天养成。
另外,这个对话里也提到,当时Hinton临时成立的公司早就想卖给Google,所以现在地平线创始人余凯代表百度出价到更高的时候,Hinton就叫停了拍卖。
一、"每周提高1%,就推迟一周答辩"——Hinton最好的管理决策
Alex Krizhevsky是AlexNet的第一作者,但他差点没做出来。
刚开始尝试用tiny images(一个缩略图数据集,图片只有32×32像素)做实验时,Alex告诉Hinton"不行"。Hinton去看了一眼,发现他把weight decay(权重衰减)设成了1。这个参数相当于对模型收的"税"——每学一点东西就要被扣掉一部分。正常税率是0.001,千分之一,模型能稳步积累知识;Alex设成了1,相当于100%税率,学到多少扣多少,永远攒不下东西。"为什么是1?""不知道,感觉是个好数字。"
"学生不懂某件事的时候看起来像傻瓜,但他们不是,只是不知道而已。Alex进步得非常快。"
后来Alex要做depth oral(博士资格考试的文献综述环节),但他不想做。Hinton做了一个决定:"每周你在ImageNet上的准确率提高1%,就可以推迟一周。"结果一周接一周过去,准确率一直在涨,Alex再也没做那个depth oral。
Hinton说这是他做过的最好的管理决策。
顺便一提,AlexNet是在Alex父母家的卧室里训练的。两块GPU显卡,多伦多大学买单;电费父母买单。"我这是在给大学省钱。"
二、"必须在Yann之前做出来"——Ilya的战略判断
推动AlexNet应用于ImageNet的关键人物是Ilya Sutskever。
当时卷积神经网络已经存在多年,Yann LeCun一直在推广它。Ilya的判断是:这东西用在ImageNet上肯定行,但机会窗口有限。他对Hinton说:"我们必须在Yann之前做出来。"
与此同时,Yann正在自己的实验室努力说服博士后和学生把卷积网络用于ImageNet,但每个人都有"更好的事情要做"。
Ilya不光催,还动手。他亲自把ImageNet的所有图片预处理成统一尺寸,让Alex可以直接用。
结果就是2012年的AlexNet,错误率比第二名低了10个百分点以上,震惊了整个计算机视觉领域。
三、"我们是收购标的,不是求职者"——DNN Research的定价策略
AlexNet之后,所有大公司都想挖Hinton、Ilya和Alex。
Hinton观察到一个现象:公司里"发工资的预算"和"做收购的预算"是两笔钱,后者是前者的10倍。所以他们决定成立一家公司DNN Research,把自己包装成收购标的,而不是求职者。
收购拍卖发生在Lake Tahoe赌场的NIPS会议上。楼下赌客赢一万美元铃声大作,楼上每次加价一百万。
Hinton其实早就决定Google必须赢——他那年夏天在Google Brain实习过,体验很好。最后眼看"错误的人可能会赢",他们直接叫停了拍卖。
"我后来一直想知道,是不是在场的人在操纵拍卖。"主持人Jordan问。Hinton笑着回答:"我们确实操纵了。"
四、"为什么我们不训练非常非常大的神经网络?我们有很多电脑"——Google Brain的起源
2012年的某一天,Jeff Dean在Google的微厨房(micro kitchen,Google办公区里分布的小型茶水间)偶遇Andrew Ng。Andrew刚开始每周来Google一天,Jeff问他在做什么,Andrew说他在斯坦福的学生用神经网络取得了好结果。
Jeff说了一句改变历史的话:"那为什么我们不在这里训练非常非常大的神经网络?我们有很多电脑。"
当时Google数据中心里没有GPU,只有大量CPU服务器。Jeff写了一套软件框架,可以把神经网络的计算切分到成千上万台机器上并行跑。他们用16000核CPU训练出比此前任何人都大50倍的模型,在1000万张YouTube随机截图上做无监督学习。
但他们犯了一个错误:为了让模型更像大脑,没有使用卷积共享权重——卷积的精髓是"同一个滤镜扫描整张图",参数可以复用;他们给图片每个位置都配了独立的滤镜,结果参数量膨胀到20亿。尽管如此,模型在ImageNet 22K上仍然取得了70%的相对错误率提升。
早期Brain团队只有约20人,全挤在一间比会议室还小的没窗户的办公室里。"没窗户可能是好事,他们就不会往外看了。"
Hinton那年夏天以64岁高龄成为Google实习生——因为访问学者必须待满6个月,而他只能待一个夏天,"实习生"是唯一能给他发badge的类别。"我觉得他们能录用64岁实习生的唯一原因是,年龄字段只分配了6个bit。"
他不得不和一群IIT和清华的学生一起上新员工培训课,教官说"用你的LDAP和OTP登录"——这是企业内网的账号协议和动态验证码,任何一个科技公司员工都该知道的基础操作——他举手问"什么是LDAP?什么是OTP?"四个助教最后决定专门分配一个给他。午餐时一个以前上过他课的本科生认出他喊了一声"Hinton教授",所有人才恍然大悟。
五、"先投5000万,还不知道怎么用"——TPU的豪赌
2013年,Jeff Dean做了一个"信封背面计算"(back of the envelope calculation,英文里指随手在纸上做的粗略估算):如果1亿人每天用语音和手机对话3分钟,用CPU跑最新的语音识别模型需要多少算力?
结果很吓人:需要把Google的服务器数量翻一倍。
Jeff判断,专用芯片是唯一出路。神经网络有几个好特性:运算类型很少,而且对精度要求不高——精度低一点只是引入一些噪声,而神经网络本来就喜欢噪声;甚至不需要纠错内存,因为算错几个bit也不影响结果。
他在走廊里"堵住"了当时的CFO Patrick Pichette,说服他先投5000万美元部署第一代TPU,尽管当时还不完全知道怎么用。
TPU v1专门做推理,性能比同期CPU/GPU好15-30倍,能效好30-80倍。这篇论文现在是计算机架构顶会ISCA历史上被引用最多的论文。
Jeff Dean认为这种软硬件一体的能力是Google的核心优势。硬件开发周期是2.5到6年,这意味着硬件设计师必须预测这个飞速发展的领域在遥远未来的方向。如果有机器学习研究者和硬件工程师坐在一起,分享那些"还不是主流但看起来有前景"的想法,预测就会准确得多。
六、"我们应该合并"——Gemini的诞生
ChatGPT发布时,Google内部其实已经有一个被广泛使用的聊天机器人,8万员工在用,反馈非常正面。
为什么没发布?因为从搜索产品的视角看,它有幻觉和准确性问题,而搜索最核心的原则就是准确。
"我们有点短视。我们没意识到聊天系统还能用来做很多其他事情——帮你给兽医写一封关于生病狗狗的信,帮你总结一篇论文……"
ChatGPT发布后一两周,Jeff Dean写了一页备忘录。核心观点是:Google当时有多个分散的团队在做大模型研究——Brain团队、DeepMind、以及其他几个。既分散人才,也分散算力,这没有道理。
他建议合并成一个团队,集中资源,目标是造世界上最好的多模态模型。
这就是Gemini的起源。
七、"发表它,因为对世界有好处"——Transformer论文的选择
有人问Jeff Dean:Google后悔发表Transformer论文吗?
"不后悔,因为它对世界产生了很好的影响。"
但他也承认,对于最大规模模型的某些训练细节,现在确实不再公开发表了。"我们仍然发表很多东西,如果你看NeurIPS的论文列表,我们可能有100多篇。但对于纯粹具有商业价值的最大规模模型的细节,我们确实有所保留。"
有意思的是,Transformer刚出来时,团队内部并不觉得它比其他突破更重要。Jeff Dean说:"我不确定它比sequence-to-sequence或mixture of experts重要多少。非常有用,但我们今天用的所有东西看起来都有用,因为那就是我们为什么用它们。"
Hinton坦言自己当时没太关注Transformer,因为他一直研究的是大脑如何工作,而大脑显然不会"保存所有神经活动向量的拷贝"。"我觉得这不能在大脑里实现,所以我不感兴趣。"
被忽视的警告与被拒的论文
这场对话里散落着一些"差点没发生"的故事,值得单独拎出来。
Hinton申请续期一个加拿大政府的战略性研究基金时,评审意见说"这项工作不可能有任何工业应用价值"。Hinton说:"我真希望知道是谁写的。我想告诉他,这个领域贡献了去年美国股市增长的80%。"
Distillation(蒸馏)是2014年的工作,被NIPS拒稿。评审理由是:"蒸馏出来的学生模型并不比老师模型更好,有什么意义?"——他完全没理解这项技术的目的是用小模型逼近大模型的效果。
还有一个Blackberry的故事。Hinton的学生George Dahl和Abdel-rahman Mohamed做出了比当时最好系统略好的语音识别模型。Hinton联系Blackberry说:"我们有更好的语音识别技术,想不想要?可以派个实习生过去演示。"Blackberry的回复是:我们对语音识别不感兴趣。
当然——那时候Blackberry还有键盘。
对未来的判断
Jeff Dean的技术路线图:把attention扩展到数十亿甚至万亿token,而不是现在的百万级;开发更节能、更高性价比的推理硬件;探索持续学习(continuous learning),让模型在服务用户时也能更新;突破现有的模型架构限制,探索更自由的连接模式。
Hinton对持续学习持谨慎态度:"有个很好的理由我们现在不做——静态模型更安全,你可以测试它。如果模型自己在学习,你很难知道它会学到什么。"
Hinton对整体未来的判断很直接:"如果有人真的建成了它,要么我们都幸福地生活,要么我们都死。"他认为20年后会怎样,没人有任何头绪。大量工作会消失,但问题不在AI,在于政治系统——生产力大幅提升后,财富如何分配?"至少在美国,你们目前的政府不是处理这个问题的理想配置。"
关于大模型的创造力,Hinton有一个有趣的观点:这些模型把海量知识压缩到"区区"万亿参数里,压缩意味着必须找到不同知识之间的共性。"它们知道的比任何一个人都多,可能正在发现希腊文学和量子力学之间的联系。没有多少人同时是这两个领域的专家。"
他认为医疗和教育是最可能被彻底改变的领域——两者都有弹性需求,效率提升不会减少需求,只会增加供给。"几年内AI会像私人家教一样好,再过一段时间会更好,因为它们见过一百万个其他学生。"
总结
这七个决策串起来,你会发现一个规律:成功的团队不是因为看到了别人看不到的东西,而是因为在所有人都犹豫的时候,他们"just insisted"(就是坚持)。
用Hinton的话说,enormous determination(巨大的决心)既能成就伟大的成果,也能让你在错误的方向上浪费多年——他自己在capsules上花了很多年,Jeff和Ilya都劝过他别做了,他没听。"选对方向的巨大决心能带来很好的结果;选错方向的巨大决心会让你浪费很多年。"
关键是选对方向。而怎么选对?没有人知道。
核心归纳
Q1: 为什么Google明明有8万员工在用的内部聊天机器人,却被ChatGPT打了个措手不及?
因为他们用搜索产品的镜头看聊天机器人。搜索最重要的是准确,而聊天机器人有幻觉问题,所以他们觉得不能发布。他们没意识到用户可以容忍聊天机器人在准确性上的瑕疵,因为用途不同——帮写信、总结文章、头脑风暴这些场景,"差不多对"就够了。
Q2: Hinton挑学生的核心标准是什么?
问"你最好的想法是什么"。如果回答是"我还没有想法,等研究生阶段再说",不要。他要的是已经产生过原创想法的人,不管想法好不好。能力可以培养,但产生想法的习惯很难后天养成。
Q3: 这两位大佬对AI未来最大的分歧是什么?
Jeff Dean认为持续学习(模型边服务边更新)是未来方向;Hinton认为这很危险,因为静态模型可以测试,动态学习的模型你不知道它会学到什么。这反映了工程思维和安全思维的张力——前者追求能力边界,后者担忧控制边界。