玩DOOM的极限操作:神经网络版
好吧,黑客们对在各种奇葩地方运行DOOM游戏已经成为一种传统。从恒温器到“智能”烤面包机,甚至ATM机。现在,他们居然在扩散模型中跑起了DOOM!每一个像素都是生成的。曾经有人说“Sora是一个数据驱动的物理引擎”,但其实不然,因为Sora无法互动。你只能设置初始条件(比如文本或初始帧),然后被迫观看模拟过程。
然而,GameNGen完全不同,这是一个真正的神经世界模型。它接受过去的帧(状态)和用户的动作(键盘/鼠标输入),并输出下一帧。就DOOM的质量而言,这是我见过最令人印象深刻的。
但是,别高兴得太早,这里面有不少坑。让我们深入探讨一下:
1. GameNGen过拟合严重:它在单个游戏上训练了0.9B帧(!!)。这个数量简直夸张,几乎是Stable Diffusion v1训练集的40%。这种情况下,它可能已经记住了DOOM在各种场景下从各个角度渲染的方式。而且说实话,DOOM本来也没多少内容。
2. GameNGen更像一个高级版NeRF:NeRF通过不同角度的图像重建3D场景,但基本没有泛化能力,无法“想象”新场景。GameNGen并不像Sora:设计上,它无法合成新游戏或互动机制。
3. 数据集才是硬核部分:作者们先训练RL代理以不同技能水平玩游戏,然后收集了0.9B(帧、动作)对进行训练。大多数在线视频数据集都没有动作,这意味着这种方法无法推广。对于动作驱动的世界模型来说,数据永远是瓶颈。
4. 两大实际应用场景:
- (1)写个提示语创建可玩的世界,这些世界本来需要游戏工作室花几年时间来制作。
- (2)使用世界模型来训练更好的具身AI。
可惜的是,这两个场景都实现不了。用GameNGen来训练代理没什么优势,还不如直接用DOOM模拟器。如果一个神经世界模型能模拟传统手工制作图形引擎无法实现的场景,那才有意思。
举个例子,什么是真正有用的神经世界模型?@elonmusk曾回复说“特斯拉可以用真实世界视频做类似事情”。不意外:Autopilot团队可能拥有数万亿对(摄像头画面、方向盘动作)。再次强调,数据才是难点!有如此丰富的真实数据,完全可能学习一个涵盖各种边缘情况的一般驾驶模拟器,用它来部署和验证新的FSD版本,而无需物理车辆。
总之,GameNGen还是一个非常棒的概念验证。至少我们现在知道,要把高分辨率DOOM压缩进神经网络需要0.9B帧的数据量上限。AI DOOM NeuralNetworks GameNGen