36氪出海 - 助力中国公司全球化

英文站 KrASIA

日文站 KrJAPAN

36氪出海

GPT-4o版「Her」终于来了！讲笑话、学猫叫，AI女友能有多撩人？

行业大小事刚刚

有人测试发现，ChatGPT高级语音模式非常快，回答几乎没有延迟。

分享:

奥特曼的承诺，终于兑现了。

赶在7月结束前，GPT-4o语音模式终于开启了灰度测试，一小部分ChatGPT Plus用户已经拿到了尝鲜入场券。

如果打开ChatGPT App之后看到了下面这个界面，恭喜你成为了首批幸运儿。

OpenAI称，高级语音模式提供了更加自然、实时对话，可以随意打断，甚至它还可以感知、回应你的情绪。

预计在今年秋季，所有ChatGPT Plus用户，都能用上这个功能。

另外，视频和屏幕共享更强大的也在稍后推出。也就是，开启摄像头，就能和ChatGPT「面对面」聊天了。

一些被灰度到的网友们纷纷开启测试，发现了GPT-4o语音模式的诸多用例。

这不，有人就让它充当「二外教练」，教自己练习口语。

ChatGPT在下面的教学中，帮助网友纠正了Croissant（羊角面包）、Baguette（法式长棍）的发音。

与此同时，GPT-4o的输出token暴涨了16倍，从最初4000个token增加到64000个token。

这是OpenAI最近在官方网页中，悄然推出的测试版新模型gpt-4o-64k-output-alpha。

更长的输出token，就意味着，一次性可以得到大约4个完整的长篇电影剧本。

01.Her已来

之所以现在才放出GPT-4o语音功能，是因为过去几个月里，OpenAI一直对其进行安全性、质量测试。

他们与100+红队人员，就45种语言对GPT-4o语音能力进行了测试。

为保护人们的隐私，团队训练模型只使用4种「预设声音」说话。

他们还创建了一个系统，去阻止在这4种声音之外，其他声音的输出。

此外，内容过滤也是必不可少，团队还采取措施阻止暴力、有关版权内容的生成。

OpenAI预告，计划在8月初，会发布一份关于GPT-4o能力、局限性、安全评估的详细报告。

全网实测

下面是网友分享的GPT-4o语音模式的一些案例。

ChatGPT可以表演节奏口技。

ChatGPT还可以以害羞、生气、更愤怒的语气讲出了关于啤酒的笑话。

还有网友专为ChatGPT讲了一个笑话「为什么科学家不相信Adam-Atom，因为它们构成了一切」。

ChatGPT不失尴尬地笑了起来。

更搞笑的是，ChatGPT学起猫叫还是有一套的。

有人经过一番测试下来，发现ChatGPT高级语音模式非常快，回答几乎没有延迟。

当被要求模仿一些声音时，它总是可以真实复刻出声音。而且不同口音，也可以模仿出来。

ChatGPT用中文讲故事，也很生动。

OpenAI虽然声称，视频和屏幕共享功能稍后推出，不过已经有网友先用上了。

网友有一只猫咪新宠，为它搭建了小窝，准备了吃食，但不知道怎么样，于是就问问ChatGPT。

在视频的对话中，网友向它展示了猫咪的屋子，ChatGPT看过后评价道，「一定非常舒适」，并关心猫咪如何。

网友表示，它目前为止还没有吃东西，看起来有点担心。ChatGPT安慰道，「这很正常，对于猫咪来说需要适应的时间」。

可以看出，整个问答过程非常流畅，给人一种与真人交流的感受。

网友还翻出了日语版界面游戏机，但是自己又不会日语。

这时，他一边向ChatGPT展示游戏界面，一边让其帮自己做翻译，最后胡一起通关游戏。

不得不说，有了视觉+语音模式的加持，ChatGPT强了很多。

02.GPT-4o Long Output悄悄上线，输出高达64K

另外，支持更大token输出的GPT-4o随之而来。

就在昨天，OpenAI正式宣布向提供测试者GPT-4o Alpha版本，每次请求支持最多输出64K token，相当于200页小说。

测试者可以从「gpt-4o-64k-output-alpha」，访问GPT-4o的长输出功能。

不过，新模型的价格再次刷新天花板。每百万输入token 6美元，每百万输出token 18美元。

虽说输出token是GPT-4o的16倍，但价格也涨了3美元。

这么一比，果然还是gpt-4o-mini价格香！

研究员Simon Willison表示，长输出主要用于数据转换用例。

比如，将文档从一种语言翻译成另一种语言，或从文档中提取结构化数据，几乎每个输入token都需要在输出的JSON中使用。

在此之前，他所知道的最长输出模型是GPT-4o mini，为16K token。

为什么推出更长输出的模型？

显然，更长的输出，可以让GPT-4o提供更全面、细致的响应，对于一些场景非常有帮助。

比如，编写代码、以及对写作的改进。

这也是基于用户的反馈——需要更长输出内容才能满足用例，OpenAI才做出的调整。

上下文和输出之间的区别

GPT-4o自推出以来，便提供了最大128K的上下文窗口。而对于GPT-4o Long Output，最大上下文窗口仍然是128K。

那么，OpenAI如何在保持整体上下文窗口为128K的情况下，将输出token数量从4,000增加到64,000呢？

这是因为，OpenAI在最初就限制了输出token数量，最大为4000个token。

这意味着，用户可以在一次交互中最多以124,000个token作为输入，也最多只能得到4000个输出token。

当然，你也可以输入更多token，那就意味着输出token更少了。

毕竟长下文长度（128K）就固定在那里，不管输入怎么变，输出token也不会过4000。

而现在，OpenAI将输出token长度限制在64,000 token，也就是说，你可以比以往多输出16倍的token。

毕竟，输出计算量更大，价格涨幅也更大。

同样，对于最新的GPT-4o mini，上下文也是128K，但最大输出已提升至16,000个token。

那么，用户可以提供最多112,000个token作为输入，最终得到最多16,000个token的输出。

总的来说，OpenAI在这里提供了一个方案，限制输入token，以获取LLM更长的响应，而不是直接扩大上下文长度。

而市面上其他模型，长的都已经超过百万了（Gemini），稍微短一些的也有200K（Claude）；甚至有的模型输出都已经达到了200K，而OpenAI还在这儿抠抠搜搜。

这也就把难题扔给了开发者：想要输入多，那就得接受输出少；想要输出多，那就得输入少一些。

具体怎么衡量，看你们自己愿意牺牲哪一个了……

头图 | Unsplash

本文来自微信公众号“新智元（ID：AI_era）”，编辑：桃子、好困，36氪出海经授权转载。

活动｜迪拜商业论坛中国议程发布：深度解读D33机遇，助力企业出海迪拜

2024年8月21日，迪拜商业论坛中国（Dubai Business Forum China）将在北京开幕。本次论坛的主题为“中国、迪拜及全球市场：点燃国际贸易与投资机遇”，论坛将围绕解读迪拜 D33 经济计划展开，覆盖环保科技、电商、AI、医疗保健、可再生能源等高潜力行业议题，除了专题演讲、圆桌讨论，迪拜政商界高级别代表团将从报名通过的企业中挑选高增长的代表，匹配投资合作意向，在大会期间安排线下对接会议。欢迎扫描下方二维码，填写36氪出海的独家预约表单，申请参会席位。下方表单是本次迪拜商业论坛中国的唯一申请席位通道，请您务必填写，席位有限，欲报从速。本次活动的参会资格审核结果将由迪拜商会决定。

加入36氪出海学习交流群

目前，36氪出海学习交流群已经吸引超过14000位来自国内外初创企业、行业巨头、投资机构等出海人加入。在出海社群里，我们面向群成员挑选整理每日全球跨境资讯，帮助出海人把握最新动态；定期组织出海交流活动，链接出海生态圈，寻找潜在合作伙伴！欢迎添加36氪出海小助手微信（ID：wow36krchuhai-xzs2）申请入群，一同出海！

36氪出海学习交流群引流Banner

分享

//

热门行业

|

市场

|

公司

广告图片

关注公众号

扫一扫即刻关注
36氪出海微信公众号

推荐阅读

深度解析

TikTok 案背后，是更多在美国开展业务的中国企业们，将集体迎来一个并不乐观的信号。
社交文娱
TikTok 败诉，全球化的艰难一章才刚刚翻开
刚刚
“未来十年可能会出现20-30个具有中国背景的全球化消费品牌，其中一部分将从东南亚起步。”
消费品牌
专访｜东南亚消费市场“今夕何夕”？我们跟ATM Capital创始人聊了聊
刚刚
既是活跃市场的流量密码，又是一张能够四处行走的城市名片。
热点
中东｜土豪攒局的抓手：迪拜展会经济启示录
刚刚
当造富神话开始在海外直播间涌现，TikTok 商家如何抓住机会坐上牌桌？
电商平台
TikTok直播风起，百万大场背后的共同逻辑
刚刚