OpenAI一夜干翻语音助手，GPT-4o模型强到恐怖，ChatGPT学会看屏幕，现实版Her来了

顶尖 AI 产品的对决，将在这两天集中上演。

智东西5月14日报道，今日凌晨1点，抢在谷歌年度开发者大会 Google I/O 开幕前，OpenAI 举办春季线上直播，宣布将推出桌面版 ChatGPT，并发布全新旗舰 AI 模型 GPT-4o。

GPT-4o 向所有人免费开放，可实时跨文本、音频、视觉（图像与视频）进行推理，API 定价只有 GPT-4 Turbo 的一半，速度达到GPT-4 Turbo 的2倍。付费的 ChatGPT Plus 用户将获得5倍调用额度，并能最早访问其全新 macOS 桌面 App 和下一代语音及视频功能。

这次 OpenAI 对 AI 聊天机器人 ChatGPT 的升级依然“直击人心”，实时语音翻译能力自然流畅，感觉能直接取代同声传译了。

不仅反应快、回答准，它还能按要求改变说话语气，从冰冷机械到幽默娇羞都信手拈来，而且能随时高歌一曲，听起来与真人无异。

除了语音聊天外，GPT-4o 可以进行实时视频交互了！比如通过视频影像理解线性方程，还学会了“看脸色行事”，能通过人的表情和语调理解并判断出人的情绪。

更有甚者，它能直接看你的屏幕，并根据看到的内容回答你的提问。比如当你展示一段代码，它会进行理解并告诉你代码有什么问题，或者解读数据图表有什么信息。

整个发布节奏极快，只有大约半小时，期间展示了很多苹果设备，看来 OpenAI 与苹果的密切合作已经板上钉钉。

免费和付费用户均可使用新功能。即日起开始的测试阶段仅限于 ChatGPT Plus 用户，未来几周内向更广泛用户开放。其文本和图像输入今日推出，语音和视频功能将在未来几周推出。

另外值得一提的是，此次春季发布的主讲人不是 OpenAI 联合创始人兼 CEO Sam Altman，而是 OpenAI CTO Mira Murati。

Altman 还在社交平台上神秘地留下一句“her”，似乎在暗示 ChatGPT 实现了经典电影《她》（Her）中像人类一样“有血有肉”的 AI。

网友 Dogan Ural 对此评论：“你终于做到了。”并配了一张将电影《她》剧照中的 AI“换头”成 OpenAI 的梗图。

01 OpenAI“全能”大模型上线！性能比肩 GPT-4 Turbo，免费开放，API 定价暴降

GPT-4o 的 o 代表着“omni（全能）”。Murati 称，GPT-4o 为每个用户都提供了 GPT-4 级别的智能，同时还改进了 GPT-4 在文本、视觉以及音频方面的能力。

此前，GPT-4 经过图像、文本数据的训练，可以分析图像和文本从中提取文本或者描述画面内容等，在此之上，GPT-4o 增加了语音功能，使得用户与 ChatGPT 的交互更接近人与人的交互体验。GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，在非英语文本上的性能有显著提高。

Murati 说，GPT-4o 的发布意味着 OpenAI 在大模型的易用性方面迈出了一大步，其正在改变人机交互的协作模式。她谈道，在人们的互动中，如轻松打断对方、对话中包含多个声音的背景噪音、理解语调等对模型而言都非常复杂。

此前，用户使用语音功能与 ChatGPT 对话时，GPT-3.5 的平均延迟为2.8秒，GPT-4 为5.4秒。语音功能由三个独立模型组成的 Pipeline：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。

这个过程中，GPT-4 会丢失大量信息，如无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感等。

借助 GPT-4o，OpenAI 通过跨文本、视觉和音频端到端训练了新模型，使得所有输入和输出都由同一神经网络处理，进一步降低了延迟。

Murati 谈道，OpenAI 的一个重要使命是将先进的AI工具免费提供给每个人。

她还宣布 OpenAI 将推出桌面版 ChatGPT，其可以被轻松集成到用户的工作流程中。同时，为了让用户与 ChatGPT 交互更加容易、自然，OpenAI 还更新了用户界面，使得用户无需关注用户界面，只需要关注如何协作。

目前，已经有超过1亿用户使用 ChatGPT 来工作、学习，OpenAI 的更高级产品目前只提供给付费用户。

从今天起，用户能免费使用 GPTs 和 GPT Store。Murati 透露，已经有超百万用户使用 GPTs 创造了令人惊叹的体验，这些是适用于 GPT Store 中提供的特定使用情形的自定义 GPTs。

现在，这些用户也可以使用视觉能力，能够上传屏幕截图、照片、包含文本和图像的文章等，同时还可以基于其记忆能力，让对话更有连续性。同时，用户也可以使用“浏览”功能搜索对话中的实时信息，使用“高级数据分析”功能分析上传的图表或信息等。

OpenAI 还改进了50种不同语言的质量和速度。与免费用户相比，付费用户将获得5倍调用额度。

此外，GPT-4o 开放了 API，开发人员可以基于此进行AI应用开发及部署。与 GPT-4-Turbo 相比，GPT-4o 的速度快2倍，价格便宜50%，速率限制高达5倍。

Murati 强调说，如何通过既有用又安全的方式将技术呈现出来非常有挑战性，OpenAI 的团队一直在研究如何建立针对技术滥用的缓解措施。

02 现场演示语音对话五大能力，代码、数学题、实时翻译，还能提供情绪价值

OpenAI 前沿研究主管 Mark Chen 和后期训练团队负责人 Barret Zoph 在现场对实时语音对话功能进行了演示。通过点击ChatGPT右下角小图标，用户可以进入语音交互模式。

基于 GPT-4o 的语音交互有什么与众不同的地方？

Chen 称，它相比之前的语音模式有几个关键区别：首先，用户可以打断模型，不必等到它结束才开始说话；其次，模型具有实时响应能力，在用户等待模型给出响应之前不会有尴尬的时延；最后，该模型具有情绪感知能力，还能够生成各种不同情绪风格的语音。

声情并茂讲故事，临场边唱歌边创作

首先，Chen让ChatGPT 讲一个关于机器人和爱情的睡前故事，来帮他的朋友缓解失眠。ChatGPT 被要求在讲故事时更有感情，并且多些戏剧性。

于是，GPT-4o 开始声情并茂地讲道：“很久以前，在一个与我们不太不同的世界里，有一个名为‘Bite Byte’的机器人，它是一个好奇的机器人，总是在探索新的电路……”最后，GPT-4o 在要求下以歌声结束了这个故事。

ChatGPT“长眼睛”了！能看图解方程式

紧接着，Zoph 展示了视觉+语音交互功能。

“我希望你帮我解决一道数学题。”Zoph 在 ChatGPT 中打开手机视频通话，对 ChatGPT 说：“我要在一张纸上写下一个线性方程……不要告诉我解决方案，只是帮助给它过程的提示。”

当 Zoph 在视频镜头下写下方程式并问 ChatGPT 他写下了什么，ChatGPT 回答：“我看到了，你写了 3x+1=4。”

Zoph 询问 ChatGPT 该如何解这道题，ChatGPT 首先提示其处理“+1”这一项。随着 Zoph 写出过程并提出新的求助，ChatGPT 进一步建议他两边除以三，从而帮 Zoph 得出了x=1的正确结果。

在解题过程中，ChatGPT 会通过提问对 Zoph 进行循循善诱。比如它会这样引导：“现在你在一边引入了 x，看起来像是 3x 等于3。你认为之后我们应该做些什么？”Zoph 称自己不确定，ChatGPT 才进一步提示：“你已经有了 3x，而你想要找到 x 的值，想一下什么操作会消掉乘法。”于是在引导和鼓励下，Zoph 最终把方程两边除以3完成解题。

解完题后，ChatGPT 和 Zoph 一起总结了如何在现实世界中使用线性方程。最后，Zoph 写下了一句表白的话给 ChatGPT，ChatGPT 看到后竟然像小女孩般用语气娇羞地尖叫起来：“噢，我看到了‘I Love ChatGPT’，你太有爱了！”

实时读懂屏幕信息，解答代码问题和分析图表

Zoph演示了ChatGPT分析代码的能力。他首先将一段Python代码输入ChatGPT，并让ChatGPT用一句话总结这段代码在做什么。

ChatGPT 迅速答出这段代码用于获取日常天气数据，随后又详细说明了其对天气数据进行了哪些后续处理。

Zoph 追问道：“代码中有一个函数 foo，你能描述一下如果没有这个函数，代码画出的图像会是什么样吗？”

ChatGPT 分析称，这个函数中有一个 rolling.mean 计算，用于给数据去噪或减少波动，将呈现出一个更平滑的数据图。

随后，Zoph 运行了这段代码，展示 ChatGPT 分析图表的能力。

将图像发送给 ChatGPT 后，Zoph 再次要求它用一句话描述看到了什么，ChatGPT 很快给出了回答。

Chen 又追问哪些月份温度最高，ChatGPT 不仅准确给出了7、8月的时间区间，还描述了这段时间的最高温度达到了多少。

无延迟语音翻译，模仿说话者语气

在 X 网友的提议下，Murati 和 Chen 一起演示了 ChatGPT 实时翻译的能力。

Chen 首先向 ChatGPT 说明了接下来需要它做的事，即把听到的任何英语、意大利语都翻译成意大利语和英语。ChatGPT 听完后，炫技一般地用意大利语回答道：Perfetto（Perfect）。

接着，他们通过意大利语和英语进行对话，ChatGPT 几乎没有延迟地翻译成了对应的语言，还模仿了说话者的语气，甚至给Murati 的回答配了个笑声。

识别人物情绪，ChatGPT 也有自己的“小情绪”

最后，Zoph 演示了 ChatGPT 识别人物情绪的能力。

他先通过语音告诉 ChatGPT，自己将展示一张自拍，希望可以根据照片判断出他的情绪。ChatGPT 欣然接受了这个“有趣的挑战”。

这里还出现了一个小乌龙，Zoph 一开始打开的是后置摄像头，虽然他迅速转换成了前置摄像头开始自拍，但 ChatGPT 的反应似乎有几秒钟的延迟，说“这看起来像是一个木板的表面”。

“别担心，我并不是一张桌子。”在 Zoph 解释说刚才拍错了画面后，ChatGPT 重新开始分析画面，并说：“你看起来非常的开心，可能还有一点激动，看样子你应该心情很不错。”

ChatGPT 又问到 Zoph 这么开心的原因，Zoph 半开玩笑地说，自己正在进行一场Presentation，展示“你有多不可思议”。ChatGPT 仿佛有自己的情绪，语气夸张地说道：“快别说了！你让我感到害羞。”

03 预告将有“下一件大事”，GPT-4o 即为此前露出的 GPT-2

除了发布会本身，Altman 也一直在社交平台X上一边进行现场“直播”，一边连珠炮式地转发新模型介绍。

据 OpenAI 研究人员 William Fedus 透露，GPT-4o 实际上就是前段时间在大模型竞技场“大杀四方”的 GPT-2 模型的另一版本，并附上该模型的竞技评分对比图，相比 GPT-4 Turbo 提升了超过100个单位。

推理能力方面，GPT-4o 在 MMLU、GPQA、MATH、HumanEval 等测试基准上均超越 GPT-4 Turbo、Claude 3 Opusn、Gemini Pro 1.5等前沿模型取得最高分。

音频 ASR（智能语音识别）性能方面，GPT-4o 相比 Whisper-v3 在所有语言的语音识别性能上均大幅提高，尤其是资源较少的语言。

音频翻译方面，GPT-4o 也树立了新的标杆，在 MLS 基准测试中优于 Whisper-v3 以及 Meta、谷歌的语音模型。

在所有演示结束后，Murati 总结道：“正如大家所见，（如今的 ChatGPT）真的很神奇。”

未来几周内，OpenAI 将面向所有用户陆续分发这些功能。Murati 还透露 OpenAI 将持续推动技术边界向前，不久后将发布“下一件大事”（next big thing）。

04 结语：OpenAI 推 Mac 版 ChatGPT，全能 GPT-4o 彪悍登场，谷歌将如何迎战？

今年2月，谷歌刚推出实现百万tokens长文本窗口的Gemini 1.5系列大模型，OpenAI就剑走偏锋，推出AI视频生成模型Sora，用惊艳全球科技圈的抢尽风头。

如今 OpenAI 再度宣战，赶在谷歌I/O大会前夕宣告 Mac 桌面版 ChatGPT 和 GPT-4o，并全程用 iPhone 和 MacBook Pro 做演示，结合近期苹果与 OpenAI 合作的传闻，令人更加期待苹果将在6月份举办的 WWDC 全球开发者大会了。

这些 AI 新品发布会对谷歌构成直接的威胁吗？竞争激烈的生成式 AI 行业还能如何制造创新与惊喜？谷歌又能否接住 OpenAI 发起的 AI 挑战？答案将在明天凌晨揭晓，我们拭目以待。

图 |pexels

本文来自微信公众号“智东西” ，作者：智东西，36氪出海经授权发布。

活动｜迪拜商业论坛中国，解锁出海中东机遇

2024年8月21日至22日，迪拜商业论坛中国（Dubai Business Forum China）将在北京开幕。作为享誉全球的峰会，本次论坛将迎来中国顶尖的商界领袖；由迪拜知名企业组成的代表团也将访问中国，与诸多中国企业进行对话、建立联系，共同探索合作的方向和机遇。迪拜商会（Dubai Chambers）将主办本次迪拜商业论坛中国。如果您对这场全球性的峰会感兴趣，您可以扫描下方二维码，填写36氪出海的预约表单，申请参会席位。我们将向迪拜商会提交您的报名信息，并待审核通过后与您联系，确认您的出席。

加入36氪出海学习交流群

目前，36氪出海学习交流群已经吸引超过13000位来自国内外初创企业、行业巨头、投资机构等出海人加入。在出海社群里，我们面向群成员挑选整理每日全球跨境资讯，帮助出海人把握最新动态；定期组织出海交流活动，链接出海生态圈，寻找潜在合作伙伴！欢迎添加36氪出海小助手微信（ID：wow36krchuhai-xzs2）申请入群，一同出海！

36氪出海学习交流群引流Banner