Jim Fan观点:
OpenAI通过直接将音频映射到音频作为第一类模态,并实时将视频流式传输到变换器,技术上取得了突破。这需要在标记化和架构上的新研究,但总体来说,这是一个数据和系统优化问题。高质量的数据可以来自至少两个来源:
1)YouTube、播客、电视剧、电影等自然发生的对话。Whisper可以被训练以识别对话中的说话者转换或分离重叠的演讲以进行自动注释;2)合成数据。使用最强大的模型运行缓慢的3阶段管道:speech1->text1 (ASR), text1->text2 (LLM), text2->speech2 (TTS)。中间的LLM可以决定何时停止,并模拟如何从中断中恢复。它还可以输出未被口头表达出来的“思考痕迹”,以帮助生成更好的回复。
然后GPT-4o直接从speech1->speech2进行提炼,基于3阶段数据添加可选的辅助损失函数。提炼后,这些行为现在已经内置到模型中,无需输出中间文本。
在系统方面:如果每个视频帧都解压成RGB图像,则延迟不会满足实时阈值。OpenAI很可能开发了自己的神经优先、流式视频编解码器,以令牌形式传输运动差分。通信协议和神经网络推理必须共同优化。
例如,边缘设备上可能运行着一个小型且能效高的神经网络,如果视频有趣则决定传输更多令牌,否则则减少。
GPT-4o比预期更接近GPT-5(传言中的“Arrakis”模型),它采用多模态输入输出。实际上,它很可能是GPT-5尚未完成训练的早期检查点。
值得注意的是,助手显得更加生动甚至有点调情。OpenAI正在吞噬Character AI的市场份额,在形态和巨大分销渠道上几乎有100%重叠。这是向具有强烈个性的更情感化AI转变的一步,OpenAI过去似乎主动抑制了这一点。
谁先赢得苹果公司就能大赚特赚。我看到与iOS集成有3个层次:
1) 放弃Siri。OpenAI为iOS提炼一个小型纯设备端GPT-4o版本,可选择付费升级以使用云服务。
2) 提供原生功能将摄像头或屏幕流式传输到模型中。芯片级支持神经音频/视频编解码器。
3) 与iOS系统级操作API和智能家居API集成。没有人使用Siri快捷方式,但现在是时候复兴了。这可能成为拥有数十亿用户的AI代理产品,开局即获得类似特斯拉规模数据飞轮效应的FSD(全自动驾驶)智能手机版本。
随着技术进步和消费者需求不断演变,我们正迎来一个由AI驱动、高度个性化和情感化交互成为常态的新时代。OpenAI通过其先进技术展示了如何深度整合语音、文本及视频数据处理能力,并预示着未来人机交互方式将更加自然且富有吸引力。此外,在与苹果等主要科技公司合作方面取得突破意味着我们可能很快就能看到集成度更高、功能更丰富且无缝衔接用户日常生活场景的智能助手解决方案。
对于投资者而言,关注这些技术领域及其在消费电子、家庭自动化等领域应用所带来的潜在投资机会至关重要。同时也需要密切留意OpenAI及其竞争对手在人工智能领域内部署和创新速度上的差异,并评估它们与科技巨头之间合作关系发展对市场格局造成何种影响。