OpenAI空降GPT-4o：更快更强还免费

时事新闻2024-05-15 15:59:19无忧百科

备受关注的搜索产品“跳票”之后，OpenAI依然搞了个大的——推出GPT-4o，杀疯科技圈。其强大的自然对话能力以及对人类情感的实时感知，让人们怀疑，科幻电影《Her》里的萨曼莎、《钢铁侠》里的贾维斯是不是真的要来了。

北京时间5月14日凌晨，OpenAI举办线上“春季更新”活动，发布新旗舰生成式AI模型GPT-4o。据悉，GPT-4o的“o”代表“omni”，意为全能，是迈向更自然的人机交互的关键一步。

特别是在音频处理领域，过往独立模型之间的相互转化带来的延迟感，算得上是人工智能助手变科幻为现实的最大障碍之一。为应对这一情况，GPT-4o跨文本、视觉和音频端到端地训练了一个新模型，所有输入和输出都由同一个神经网络处理，成为其突破深度学习界限的最新举措，也完成了人工智能对话的“丝滑”实现。

在表现上，GPT-4o可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出。据悉，新模型使ChatGPT能够处理50种不同的语言，同时提高了速度和质量。

在反应速度上，GPT-4o可以在短短232毫秒内响应音频输入，平均响应时长也仅有320毫秒，与对话中的人类响应时间相似。相比起来，GPT-3.5语音对话的平均延迟为2.8秒、GPT-4为5.4秒。

GPT-4o更大的惊喜则在于对“情绪价值”的提供。比如机器人能够从急促的喘气声中理解“紧张”的含义，并且指导他进行深呼吸，还可以根据用户要求变换语调。在发布会上，还有演示者将手机举到自己面前正对着脸，要求ChatGPT告诉他自己长什么样子。第二次尝试后，ChatGPT对他说：“看起来你感觉非常快乐，喜笑颜开。”

更“炸裂”的是，所有用户均可免费使用该模型，而付费用户的容量限制是免费用户的5倍。据悉，GPT-4o的文本和图像功能已经开始向付费的ChatGPT Plus和Team用户推出，企业用户也即将推出。免费用户也将开始使用，但有使用限制。

在API使用方面，OpenAI首席技术官米拉·穆拉蒂表示，相比去年11月发布的GPT-4-turbo，GPT-4o价格降低一半，速度提升两倍。GPT-4o的语音和视频输入功能将在未来几周内推出。

此外，OpenAI还发布了桌面版的ChatGPT和新的用户界面。“我们认识到这些模型正变得越来越复杂。”穆拉蒂说道，“但我们希望用户与人工智能模型的交互体验能够更加自然、轻松，让用户可以将注意力完全集中在与模型的协作上，而无需在意界面本身。”

“语音对话的能力原本就有，但是这次可怕在于基本没有延迟的响应，还有对复杂环境，包括情绪、语气的识别”，阿里研究院执行院长袁媛对北京商报记者分析称，低延迟来自于推理架构的整体优化，而复杂环境识别理解又是模型能力的提升，“所以最后的winner，还是要赢在一个从头到脚的技术体系”。

此前OpenAI频传将推出AI搜索引擎，GPT-5的消息也甚嚣尘上。但当地时间5月10日，OpenAI表示，将于当地时间5月13日以直播的形式宣布产品更新，不过届时不会发布GPT-5，也不会发布搜索引擎产品。

GPT-5和搜索产品的缺席，也导致外界讨论OpenAI是否“慢下来了”。对此，袁媛认为，技术能力并不是跟着数字线性增长的，GPT-4o虽然还“姓”4，但已经能看到清晰的技术特点和可能的商业模式以及后续发展潜力，例如低延迟推理能力，还可能支持更多的模型能力，比如动作控制和交互。此外，“omni”代表的多模态信息输入输出，也有很大潜力。

受GPT-4o消息影响，A股多模态AI概念高开，其中汤姆猫涨停。公开信息显示，汤姆猫5月12日发布机构调研内容提到，公司正有序推进人工智能垂直模型与算力基础设施的建设。

国盛证券认为，GPT-4o是迈向更自然的人机交互的重大进步，新功能带来了崭新的多模态交互能力，通过新的端到端模型实现了体验上的新突破，有望在各类终端实现用户体验的最大化，利好智能终端Agent、机器人等方向。

北京商报记者杨月涵

本文标签：人工智能人机交互深度学习神经网络 gpt-4 openai 视频生成模型