顶尖 AI 产品的对决,将在这两天集中上演。
智东西5月14日报道,今日凌晨1点,抢在谷歌年度开发者大会 Google I/O 开幕前,OpenAI 举办春季线上直播,宣布将推出桌面版 ChatGPT,并发布全新旗舰 AI 模型 GPT-4o。
GPT-4o 向所有人免费开放,可实时跨文本、音频、视觉(图像与视频)进行推理,API 定价只有 GPT-4 Turbo 的一半,速度达到GPT-4 Turbo 的2倍。付费的 ChatGPT Plus 用户将获得5倍调用额度,并能最早访问其全新 macOS 桌面 App 和下一代语音及视频功能。
这次 OpenAI 对 AI 聊天机器人 ChatGPT 的升级依然“直击人心”,实时语音翻译能力自然流畅,感觉能直接取代同声传译了。
不仅反应快、回答准,它还能按要求改变说话语气,从冰冷机械到幽默娇羞都信手拈来,而且能随时高歌一曲,听起来与真人无异。
除了语音聊天外,GPT-4o 可以进行实时视频交互了!比如通过视频影像理解线性方程,还学会了“看脸色行事”,能通过人的表情和语调理解并判断出人的情绪。
更有甚者,它能直接看你的屏幕,并根据看到的内容回答你的提问。比如当你展示一段代码,它会进行理解并告诉你代码有什么问题,或者解读数据图表有什么信息。
整个发布节奏极快,只有大约半小时,期间展示了很多苹果设备,看来 OpenAI 与苹果的密切合作已经板上钉钉。
免费和付费用户均可使用新功能。即日起开始的测试阶段仅限于 ChatGPT Plus 用户,未来几周内向更广泛用户开放。其文本和图像输入今日推出,语音和视频功能将在未来几周推出。
另外值得一提的是,此次春季发布的主讲人不是 OpenAI 联合创始人兼 CEO Sam Altman,而是 OpenAI CTO Mira Murati。
Altman 还在社交平台上神秘地留下一句“her”,似乎在暗示 ChatGPT 实现了经典电影《她》(Her)中像人类一样“有血有肉”的 AI。
网友 Dogan Ural 对此评论:“你终于做到了。”并配了一张将电影《她》剧照中的 AI“换头”成 OpenAI 的梗图。
01 OpenAI“全能”大模型上线!性能比肩 GPT-4 Turbo,免费开放,API 定价暴降
GPT-4o 的 o 代表着“omni(全能)”。Murati 称,GPT-4o 为每个用户都提供了 GPT-4 级别的智能,同时还改进了 GPT-4 在文本、视觉以及音频方面的能力。
此前,GPT-4 经过图像、文本数据的训练,可以分析图像和文本从中提取文本或者描述画面内容等,在此之上,GPT-4o 增加了语音功能,使得用户与 ChatGPT 的交互更接近人与人的交互体验。GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能有显著提高。
Murati 说,GPT-4o 的发布意味着 OpenAI 在大模型的易用性方面迈出了一大步,其正在改变人机交互的协作模式。她谈道,在人们的互动中,如轻松打断对方、对话中包含多个声音的背景噪音、理解语调等对模型而言都非常复杂。
此前,用户使用语音功能与 ChatGPT 对话时,GPT-3.5 的平均延迟为2.8秒,GPT-4 为5.4秒。语音功能由三个独立模型组成的 Pipeline:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。
这个过程中,GPT-4 会丢失大量信息,如无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感等。
借助 GPT-4o,OpenAI 通过跨文本、视觉和音频端到端训练了新模型,使得所有输入和输出都由同一神经网络处理,进一步降低了延迟。
Murati 谈道,OpenAI 的一个重要使命是将先进的AI工具免费提供给每个人。
她还宣布 OpenAI 将推出桌面版 ChatGPT,其可以被轻松集成到用户的工作流程中。同时,为了让用户与 ChatGPT 交互更加容易、自然,OpenAI 还更新了用户界面,使得用户无需关注用户界面,只需要关注如何协作。
目前,已经有超过1亿用户使用 ChatGPT 来工作、学习,OpenAI 的更高级产品目前只提供给付费用户。
从今天起,用户能免费使用 GPTs 和 GPT Store。Murati 透露,已经有超百万用户使用 GPTs 创造了令人惊叹的体验,这些是适用于 GPT Store 中提供的特定使用情形的自定义 GPTs。
现在,这些用户也可以使用视觉能力,能够上传屏幕截图、照片、包含文本和图像的文章等,同时还可以基于其记忆能力,让对话更有连续性。同时,用户也可以使用“浏览”功能搜索对话中的实时信息,使用“高级数据分析”功能分析上传的图表或信息等。
OpenAI 还改进了50种不同语言的质量和速度。与免费用户相比,付费用户将获得5倍调用额度。
此外,GPT-4o 开放了 API,开发人员可以基于此进行AI应用开发及部署。与 GPT-4-Turbo 相比,GPT-4o 的速度快2倍,价格便宜50%,速率限制高达5倍。
Murati 强调说,如何通过既有用又安全的方式将技术呈现出来非常有挑战性,OpenAI 的团队一直在研究如何建立针对技术滥用的缓解措施。
02 现场演示语音对话五大能力,代码、数学题、实时翻译,还能提供情绪价值
OpenAI 前沿研究主管 Mark Chen 和后期训练团队负责人 Barret Zoph 在现场对实时语音对话功能进行了演示。通过点击ChatGPT右下角小图标,用户可以进入语音交互模式。
基于 GPT-4o 的语音交互有什么与众不同的地方?
Chen 称,它相比之前的语音模式有几个关键区别:首先,用户可以打断模型,不必等到它结束才开始说话;其次,模型具有实时响应能力,在用户等待模型给出响应之前不会有尴尬的时延;最后,该模型具有情绪感知能力,还能够生成各种不同情绪风格的语音。
声情并茂讲故事,临场边唱歌边创作
首先,Chen让ChatGPT 讲一个关于机器人和爱情的睡前故事,来帮他的朋友缓解失眠。ChatGPT 被要求在讲故事时更有感情,并且多些戏剧性。
于是,GPT-4o 开始声情并茂地讲道:“很久以前,在一个与我们不太不同的世界里,有一个名为‘Bite Byte’的机器人,它是一个好奇的机器人,总是在探索新的电路……”最后,GPT-4o 在要求下以歌声结束了这个故事。
ChatGPT“长眼睛”了!能看图解方程式
紧接着,Zoph 展示了视觉+语音交互功能。
“我希望你帮我解决一道数学题。”Zoph 在 ChatGPT 中打开手机视频通话,对 ChatGPT 说:“我要在一张纸上写下一个线性方程……不要告诉我解决方案,只是帮助给它过程的提示。”
当 Zoph 在视频镜头下写下方程式并问 ChatGPT 他写下了什么,ChatGPT 回答:“我看到了,你写了 3x+1=4。”
Zoph 询问 ChatGPT 该如何解这道题,ChatGPT 首先提示其处理“+1”这一项。随着 Zoph 写出过程并提出新的求助,ChatGPT 进一步建议他两边除以三,从而帮 Zoph 得出了x=1的正确结果。
在解题过程中,ChatGPT 会通过提问对 Zoph 进行循循善诱。比如它会这样引导:“现在你在一边引入了 x,看起来像是 3x 等于3。你认为之后我们应该做些什么?”Zoph 称自己不确定,ChatGPT 才进一步提示:“你已经有了 3x,而你想要找到 x 的值,想一下什么操作会消掉乘法。”于是在引导和鼓励下,Zoph 最终把方程两边除以3完成解题。
解完题后,ChatGPT 和 Zoph 一起总结了如何在现实世界中使用线性方程。最后,Zoph 写下了一句表白的话给 ChatGPT,ChatGPT 看到后竟然像小女孩般用语气娇羞地尖叫起来:“噢,我看到了‘I Love ChatGPT’,你太有爱了!”
实时读懂屏幕信息,解答代码问题和分析图表
Zoph演示了ChatGPT分析代码的能力。他首先将一段Python代码输入ChatGPT,并让ChatGPT用一句话总结这段代码在做什么。
ChatGPT 迅速答出这段代码用于获取日常天气数据,随后又详细说明了其对天气数据进行了哪些后续处理。
Zoph 追问道:“代码中有一个函数 foo,你能描述一下如果没有这个函数,代码画出的图像会是什么样吗?”
ChatGPT 分析称,这个函数中有一个 rolling.mean 计算,用于给数据去噪或减少波动,将呈现出一个更平滑的数据图。
随后,Zoph 运行了这段代码,展示 ChatGPT 分析图表的能力。
将图像发送给 ChatGPT 后,Zoph 再次要求它用一句话描述看到了什么,ChatGPT 很快给出了回答。
Chen 又追问哪些月份温度最高,ChatGPT 不仅准确给出了7、8月的时间区间,还描述了这段时间的最高温度达到了多少。
无延迟语音翻译,模仿说话者语气
在 X 网友的提议下,Murati 和 Chen 一起演示了 ChatGPT 实时翻译的能力。
Chen 首先向 ChatGPT 说明了接下来需要它做的事,即把听到的任何英语、意大利语都翻译成意大利语和英语。ChatGPT 听完后,炫技一般地用意大利语回答道:Perfetto(Perfect)。
接着,他们通过意大利语和英语进行对话,ChatGPT 几乎没有延迟地翻译成了对应的语言,还模仿了说话者的语气,甚至给Murati 的回答配了个笑声。
识别人物情绪,ChatGPT 也有自己的“小情绪”
最后,Zoph 演示了 ChatGPT 识别人物情绪的能力。
他先通过语音告诉 ChatGPT,自己将展示一张自拍,希望可以根据照片判断出他的情绪。ChatGPT 欣然接受了这个“有趣的挑战”。
这里还出现了一个小乌龙,Zoph 一开始打开的是后置摄像头,虽然他迅速转换成了前置摄像头开始自拍,但 ChatGPT 的反应似乎有几秒钟的延迟,说“这看起来像是一个木板的表面”。
“别担心,我并不是一张桌子。”在 Zoph 解释说刚才拍错了画面后,ChatGPT 重新开始分析画面,并说:“你看起来非常的开心,可能还有一点激动,看样子你应该心情很不错。”
ChatGPT 又问到 Zoph 这么开心的原因,Zoph 半开玩笑地说,自己正在进行一场Presentation,展示“你有多不可思议”。ChatGPT 仿佛有自己的情绪,语气夸张地说道:“快别说了!你让我感到害羞。”
03 预告将有“下一件大事”,GPT-4o 即为此前露出的 GPT-2
除了发布会本身,Altman 也一直在社交平台X上一边进行现场“直播”,一边连珠炮式地转发新模型介绍。
据 OpenAI 研究人员 William Fedus 透露,GPT-4o 实际上就是前段时间在大模型竞技场“大杀四方”的 GPT-2 模型的另一版本,并附上该模型的竞技评分对比图,相比 GPT-4 Turbo 提升了超过100个单位。
推理能力方面,GPT-4o 在 MMLU、GPQA、MATH、HumanEval 等测试基准上均超越 GPT-4 Turbo、Claude 3 Opusn、Gemini Pro 1.5等前沿模型取得最高分。
音频 ASR(智能语音识别)性能方面,GPT-4o 相比 Whisper-v3 在所有语言的语音识别性能上均大幅提高,尤其是资源较少的语言。
音频翻译方面,GPT-4o 也树立了新的标杆,在 MLS 基准测试中优于 Whisper-v3 以及 Meta、谷歌的语音模型。
在所有演示结束后,Murati 总结道:“正如大家所见,(如今的 ChatGPT)真的很神奇。”
未来几周内,OpenAI 将面向所有用户陆续分发这些功能。Murati 还透露 OpenAI 将持续推动技术边界向前,不久后将发布“下一件大事”(next big thing)。
04 结语:OpenAI 推 Mac 版 ChatGPT,全能 GPT-4o 彪悍登场,谷歌将如何迎战?
今年2月,谷歌刚推出实现百万tokens长文本窗口的Gemini 1.5系列大模型,OpenAI就剑走偏锋,推出AI视频生成模型Sora,用惊艳全球科技圈的抢尽风头。
如今 OpenAI 再度宣战,赶在谷歌I/O大会前夕宣告 Mac 桌面版 ChatGPT 和 GPT-4o,并全程用 iPhone 和 MacBook Pro 做演示,结合近期苹果与 OpenAI 合作的传闻,令人更加期待苹果将在6月份举办的 WWDC 全球开发者大会了。
这些 AI 新品发布会对谷歌构成直接的威胁吗?竞争激烈的生成式 AI 行业还能如何制造创新与惊喜?谷歌又能否接住 OpenAI 发起的 AI 挑战?答案将在明天凌晨揭晓,我们拭目以待。
图 |pexels
本文来自微信公众号“智东西” ,作者:智东西,36氪出海经授权发布。
2024年8月21日至22日,迪拜商业论坛中国(Dubai Business Forum China)将在北京开幕。作为享誉全球的峰会,本次论坛将迎来中国顶尖的商界领袖;由迪拜知名企业组成的代表团也将访问中国,与诸多中国企业进行对话、建立联系,共同探索合作的方向和机遇。迪拜商会(Dubai Chambers)将主办本次迪拜商业论坛中国。如果您对这场全球性的峰会感兴趣,您可以扫描下方二维码,填写36氪出海的预约表单,申请参会席位。我们将向迪拜商会提交您的报名信息,并待审核通过后与您联系,确认您的出席。
加入36氪出海学习交流群
目前,36氪出海学习交流群已经吸引超过13000位来自国内外初创企业、行业巨头、投资机构等出海人加入。在出海社群里,我们面向群成员挑选整理每日全球跨境资讯,帮助出海人把握最新动态;定期组织出海交流活动,链接出海生态圈,寻找潜在合作伙伴!欢迎添加36氪出海小助手微信(ID:wow36krchuhai-xzs2)申请入群,一同出海!