Subnostr

Jim Fan认为：

Google正在向人工智能领域迈进，但他们的模型设计存在一个明显的局限：虽然能够接受多模态（比如文本、图像、声音等）的输入，但输出却没有做到同样的多模态整合。换句话说，Google的AI技术还不能将不同类型的数据输出融合得很自然，比如Imagen-3和音乐生成模型仍然是独立于Gemini的组件，没有被完全整合。

未来AI发展的方向应该是实现输入输出（I/O）在各种模式上的本地化融合。这种融合将使AI能够完成更复杂、更符合人类习惯的任务——比如使用更机械化的声音、加快说话速度、迭代编辑图像和生成连贯的漫画条带。这样做不仅可以避免在不同模态之间丢失信息（例如情感和背景声音），还可以开启新的上下文能力，让模型通过少量示例学会以新颖方式结合不同感官。

尽管GPT-4o并没有完美实现这一点，但它在形式上走在了正确的道路上。用Andrej关于LLM（大型语言模型）作为操作系统(OS)类比来说，我们需要让模型能够本地支持尽可能多的文件格式。

同时，Jim Fan认为Google在人工智能集成到搜索框方面终于开始做出了真正的努力。他察觉到了一个代理流程：规划、实时浏览和多模态输入都可以从着陆页面完成。对Google来说，最大的优势是其分发网络。即便Gemini不是世界上最好的模型，它也有可能成为世界上最广泛使用的模型。

简单来说，Jim Fan强调了Google在多模态输入输出、模型融合以及人工智能与搜索整合方面所做出的努力和取得的进展，并认为这是AI发展中不可避免的趋势。同时指出了当前技术存在的局限，并提出了未来发展方向和目标。

Reply to this note

Please Login to reply.

Discussion

No replies yet.