Subnostr

Introducing GPT-4o and making more capabilities available（全文翻译）

GPT-4o（“o”代表“全能”）是迈向更自然的人机交互的一大步。它可以接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出。GPT-4o能够在短至232毫秒内响应音频输入，平均响应时间为320毫秒，这与人在对话中的反应时间类似。它在英语文本和代码处理上的表现与GPT-4 Turbo相当，而在非英语文本处理上有显著改善，同时API速度更快且成本降低了50%。相比现有模型，GPT-4o在视觉和音频理解方面表现尤为出色。

在GPT-4o之前，如果你想要与ChatGPT通过声音进行交流，需要经历平均2.8秒（GPT-3.5）到5.4秒（GPT-4）的延迟。

实现这一点的方式是通过三个不同的模型串联：

一个简单模型将音频转录为文本，

GPT-3.5或GPT-4接收文本并输出文本，最后一个简单模型将该文本转换回音频。这个过程意味着智能核心——GPT-4会丢失很多信息——它不能直接观察到语调、多个说话者或背景噪声，并且无法输出笑声、歌唱或表达情感。

而通过GPT-4o，我们训练了一个全新的模型来端到端地跨越文本、视觉和音频处理，这意味着所有输入和输出都由同一个神经网络处理。因为GPT-4o是我们第一个结合所有这些模态的模型，我们仍然只是开始探索这个模型能做什么以及它的局限性。

关于模型可用性：GPT-4o是我们在推动深度学习边界方面最新的一步，这次重点是实际可用性。在过去两年里，我们投入了大量努力，在技术栈的每一层面上进行效率改进。作为这项研究的首批成果，我们能够更广泛地提供GPT-4级别的模型。从今天开始，GPT-4o的文本和图像功能将逐步推出。我们将使GPT-4o在免费版本中可用，并为Plus用户提供高达5倍的消息限制。在未来几周内，我们将在ChatGPT Plus中推出使用GPT-4o的全新Voice Mode测试版。开发者现在也可以通过API访问作为文本和视觉模型的GPT-4o。

与GPT-4 Turbo相比，GPT-4o速度提升了2倍，价格降低了50%，并且拥有5倍更高的速率限制。我们计划在未来几周内向API中一小部分受信任的合作伙伴推出支持GPT-4o新的音频和视频功能。

Reply to this note

Please Login to reply.

Discussion

No replies yet.