Introducing GPT-4o and making more capabilities available(全文翻译)
GPT-4o(“o”代表“全能”)是迈向更自然的人机交互的一大步。它可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。GPT-4o能够在短至232毫秒内响应音频输入,平均响应时间为320毫秒,这与人在对话中的反应时间类似。它在英语文本和代码处理上的表现与GPT-4 Turbo相当,而在非英语文本处理上有显著改善,同时API速度更快且成本降低了50%。相比现有模型,GPT-4o在视觉和音频理解方面表现尤为出色。
在GPT-4o之前,如果你想要与ChatGPT通过声音进行交流,需要经历平均2.8秒(GPT-3.5)到5.4秒(GPT-4)的延迟。
实现这一点的方式是通过三个不同的模型串联:
一个简单模型将音频转录为文本,
GPT-3.5或GPT-4接收文本并输出文本,最后一个简单模型将该文本转换回音频。这个过程意味着智能核心——GPT-4会丢失很多信息——它不能直接观察到语调、多个说话者或背景噪声,并且无法输出笑声、歌唱或表达情感。
而通过GPT-4o,我们训练了一个全新的模型来端到端地跨越文本、视觉和音频处理,这意味着所有输入和输出都由同一个神经网络处理。因为GPT-4o是我们第一个结合所有这些模态的模型,我们仍然只是开始探索这个模型能做什么以及它的局限性。
关于模型可用性:GPT-4o是我们在推动深度学习边界方面最新的一步,这次重点是实际可用性。在过去两年里,我们投入了大量努力,在技术栈的每一层面上进行效率改进。作为这项研究的首批成果,我们能够更广泛地提供GPT-4级别的模型。从今天开始,GPT-4o的文本和图像功能将逐步推出。我们将使GPT-4o在免费版本中可用,并为Plus用户提供高达5倍的消息限制。在未来几周内,我们将在ChatGPT Plus中推出使用GPT-4o的全新Voice Mode测试版。开发者现在也可以通过API访问作为文本和视觉模型的GPT-4o。
与GPT-4 Turbo相比,GPT-4o速度提升了2倍,价格降低了50%,并且拥有5倍更高的速率限制。我们计划在未来几周内向API中一小部分受信任的合作伙伴推出支持GPT-4o新的音频和视频功能。