Jim Fan认为:

Google正在向人工智能领域迈进,但他们的模型设计存在一个明显的局限:虽然能够接受多模态(比如文本、图像、声音等)的输入,但输出却没有做到同样的多模态整合。换句话说,Google的AI技术还不能将不同类型的数据输出融合得很自然,比如Imagen-3和音乐生成模型仍然是独立于Gemini的组件,没有被完全整合。

未来AI发展的方向应该是实现输入输出(I/O)在各种模式上的本地化融合。这种融合将使AI能够完成更复杂、更符合人类习惯的任务——比如使用更机械化的声音、加快说话速度、迭代编辑图像和生成连贯的漫画条带。这样做不仅可以避免在不同模态之间丢失信息(例如情感和背景声音),还可以开启新的上下文能力,让模型通过少量示例学会以新颖方式结合不同感官。

尽管GPT-4o并没有完美实现这一点,但它在形式上走在了正确的道路上。用Andrej关于LLM(大型语言模型)作为操作系统(OS)类比来说,我们需要让模型能够本地支持尽可能多的文件格式。

同时,Jim Fan认为Google在人工智能集成到搜索框方面终于开始做出了真正的努力。他察觉到了一个代理流程:规划、实时浏览和多模态输入都可以从着陆页面完成。对Google来说,最大的优势是其分发网络。即便Gemini不是世界上最好的模型,它也有可能成为世界上最广泛使用的模型。

简单来说,Jim Fan强调了Google在多模态输入输出、模型融合以及人工智能与搜索整合方面所做出的努力和取得的进展,并认为这是AI发展中不可避免的趋势。同时指出了当前技术存在的局限,并提出了未来发展方向和目标。

Reply to this note

Please Login to reply.

Discussion

No replies yet.