36氪出海 - 助力中国公司全球化

  • 英文站 KrASIA
  • 日文站 KrJAPAN
36氪出海
36氪出海
前沿科技

Anthropic找到了打败OpenAI的方法:自己也成为OpenAI

深度观察 

从 Claude 3 的崛起看 AI 竞争格局,新王能否撼动旧有霸权?

——领读语来自36氪出海运营
浦娜
查看「36氪出海·领读」的全部内容 >>

分享:

最近 Anthropic 真是风头正盛,堪称赢麻了。亚马逊刚刚宣布,再次对它追加 27.5 亿美元投资,共同加速生成式人工智能发展。加上去年 9 月投入的 12.5 亿美元,总共豪掷超过 40 亿美元,成为亚马逊三十年历史上最大的对外投资,也令 Anthropic 从去年至今的融资额一举超过 100 亿美元。

而公司开发的旗舰大模型 Claude 3 全家桶自推出 20 多天以来,也一路好评无数、口碑爆棚,并在最新的 Chatbot Arena 排行榜上正式打败 GPT-4,首次登上王位。

Claude 3 打趴 GPT-4,跃居用户体验榜首

我们知道,每当一款新的大模型推出时,都会拿 GPT-4 来作比较。拉出一张包括 MMLU、数学、推理、编程等各项测试的跑分对照表,证明自己哪些参数已经赶超 GPT-4。但归根结底,模型终究是给人用的,到底是不是真的比 GPT-4 厉害,还得是实际用户体验说了算。

昨天,Chatbot Arena 新鲜出炉了截至 3 月 26 日的聊天机器人对战榜成绩。

在收集了来自 47.7 万多野生用户对于市面上 75 款大模型的匿名投票后,Claude 3 超大杯 Opus 在群众的呼声中力压群雄,打败 GPT-4 Turbo 成功登顶第 1 名。大杯 Sonnet 排名第 4,就连 Claude 最轻巧的中杯 Haiku 都超越了初版 GPT-4 和欧洲新贵 Mistral Large,位列第 6 名。

与此同时 Google 仅 Gemini Pro 一员大将杀入前十,来自阿里巴巴的通义千问排在第 9。

如果说 Anthropic 发布 Claude 3 时引发的“大模型王位易主”讨论还存在参数争议,那么经过近一个月的场下实测,Claude 3 的确用实力证明了自己比 GPT-4 更能打,成为目前 LLM 争霸赛的最大赢家。

社区用户 Peter Gostev 还根据 Chatbot Arena 排行榜制作了从 23 年 5 月到 24 年 3 月,Top 15 大模型的动态演变史,清晰展现 Claude 3 势如破竹的“上位”全过程。

对榜单不熟悉的朋友,我们先一起来看看它是怎么打分的。

Chatbot Arena(聊天机器人竞技场)是由 UC Berkley、UCSD 和 CMU 合作研究组织 LMSYS Org 开发的 LLM 测试平台,通过众包方式进行匿名随机对战,评估和排名不同的语言模型。

具体规则是:用户向两个匿名模型输入同一个问题,然后对它们各自生成的答案进行评价,选择模型 A 更好、B 更好、平手或都很差。它支持多轮对话,直到用户认定赢家。并且如果在对话过程中泄露了模型身份,那么投票将不会被计入。最终,Chatbot Arena 会采用类似于国际象棋等竞技游戏中广泛使用的 Elo 评分机制,来综合评估大模型能力。

可以看出,与常见的 Benchmarks 跑分不同,Arena Elo 排行榜成绩完全是基于人类用户的使用体验和真实反馈,在实用性上更具参考价值。

Chatbot Arena 还放出一系列白热化的后台对战数据。

模型 A 在所有非平局 Battle 中战胜模型 B 的比例:

每一组模型组合(不包括平局)的对战次数:

公布这一结果的 LMSYS Org 认为,更让人印象深刻的是 Claude 3 Haiku。作为全家桶中最轻量级的模型,它的用户偏好已达到与 GPT-4 相当的水平,综合其速度、能力和 200k 上下文长度,在市场上现在无人能敌。(同时也夸了一下自家伯克利团队开发的 Starling-LM-7B-beta 近期攀升迅速,是市面上最好的 7B 开源模型。)

许多网友也纷纷注意到了这点,为 Haiku 鼓掌叫好:“我们拥有了一个 GPT-4 水平但比它便宜 10 倍的模型!”

Antrohpic 工程师 @alexalbert_ 亲自解释说,Haiku 模型的价格和速度被严重低估:“据估计,普通人一生大概会说 8.6 亿个单词,相当于约 12 亿个标记。而 Haiku 的价格是每百万标记输入 0.25 美元。意味着你仅花费 300 美元就可以让 Haiku 处理一个人一生中说的所有话。更疯狂的是,Haiku 可以每秒读取高达 2.4 万个标记。也就是说只需 5000 秒,大约 83 分钟内,就能分析完一个人一生的经历。”

人们表示给新王跪了, Claude 3 Opus 确实树立了新的 AI 行业标准,现实中使用率更高。

“我真的更喜欢 Claude。我只是使用免费版 Sonnet 并与 GPT-4 进行比较,对于日常对话和事实核实,它似乎更加智能。GPT-4 在编程方面仍占据主导地位,但我并不是特别相信它真有那么优秀。”

“苹果应该考虑和 Anthropic 合作,让 Claude 作为 iPhone 手机的配套 AI。”

——这还真有可能。最近有新的传言流出,iOS 18 的 AI 供应商也许会由 Google Gemini 悄悄换成 Claude 3。Sam Altman 因为一直想做 AI 硬件不被考虑,而安卓集成 Gemini 后会削弱 iOS 的独特性,此时人畜无害又口碑爆炸的 Claude 3 似乎才是最佳选择,扶持它也能让 AI 竞赛拖得更久更均衡。相信这些到苹果 6 月的 WWDC 开发者大会便会见分晓。

丰富民间用例验证,六边形战士 Claude 3

推上也有不少人展示了自己在日常工作中使用 Claude 3 的一些惊艳实例。

HyperWriteAI 公司 CEO Matt Shumer 分享了一个用于生成高质量提示的工具「claude-prompt-engineer」。用户只需描述任务和输入变量,Claude 3 就会帮你生成许多候选提示,并在排名赛中针对每个用例测试,最后返回最佳提示。

他表示之前的版本接入的是 GPT-4,而现在选用 Claude 3 编写出的提示比 GPT-4 质量要高得多。这个工具能自动生成测试用例,支持多变量,进一步自动化 prompt engineering 的工作流程,他本人已经在实际工作中使用,极大提升了效率。

他还做了一个使用 Claude 3 的开源投资分析师代理「claude-investor」。用户提供一个行业,就能快速查找主要公司的财务数据和新闻、分析每个公司的舆情和趋势,并根据投资潜力和目标价格对股票进行排名。

通过 Claude 3 强大的海量数据分析能力,生成详细的投资报告,帮助使用者查找高增长潜力的科技公司,跟踪投资组合中的股票表现,识别投资机会。从金融从业者到炒股小白都可以直接使用,很受社区欢迎。

用户 @dr_cintas 使用 Claude 3 生成了效果拔群的勾股定理演示动画。解锁了以动态视觉轻松解释各种原理的可能性。

再更生活化一些的例子也有。在宜家买过家具的同学都知道,看组装说明书实在是一项耗费脑细胞的活儿。用户 @gabchuayz 借助 Claude 3 强大的图像推理能力大大简化了这一流程。直接把说明书喂给模型,就生成简洁清晰的操作步骤。他在对比 GPT-4 后认为 Claude 3 输出的结果更具可读性,还能辨认出细小零件的编号,非常实用。

Claude 3 在代码审查和测试方面的潜力也得到了专业人士验证。

纽约大学 Tandon 工学院助理教授 Brendan Dolan-Gavitt 在 X 分享到,他将一个在 GitHub 上找到的小型 C 语言 GIF 解码库全部源代码提供给 Claude 3,并要求它编写一个 Python 函数用于生成随机的 GIF 图像,以测试解码器的解析能力。结果这个 GIF 生成器在解码器中覆盖了 92% 的代码行,并发现了 4 个内存安全性漏洞和一个程序挂起问题。证明 Claude 3 完全有能力成为人类程序员的工作助手。

ChatGPT 又变懒了?用户:弃

不过也有人觉得 Claude 3 厉害是厉害,但并不能代表 OpenAI 落于人后。毕竟 GPT-4 是 22 年夏天训练的,按照惯例,奥特曼的工具箱里早就准备好新武器了。

“Claude 现在是顶级的中央控制 AI 模型,GPT-4 长期的统治已经结束。但这一情况将随着一个被称为 GPT-5 的新秘密模型而改变。”

“Opus 可以享受这种喜悦,直到 GPT-5 发布那天”。

但问题是…. GPT-5 到底在哪儿呢?

不久前 Sam Altman 在 Lex Friedman 最新的播客采访中提到过,OpenAI 的目标绝不是给世界带来令人震惊的更新,而是恰恰相反,渐进式达到每一个里程碑,因此下一代 LLM 会考虑以一种新的形式与公众见面。但他也坚定表示,今年会官宣一个令人惊叹的新模型,不管是不是叫 GPT-5。在那之前,还会有其它东西先发布。

或许是加上各种事件和官司缠身, OpenAI 现在的行事风格确实不像以往那么激进了。最新推特是今天刚刚发布的准备与小部分美国开发者合作,测试基于访问量的 GPT 盈利模式的消息。“我们的目标是创造一个活跃的生态系统,在这里开发者因其创造力和影响力而获得奖励。”

然后底下的评论可想而知,似乎少有人关心这个已经被 Poe 玩了好几个月的创作者共享经济模式,满满都是在问什么时候发布 GPT-5 和开放 Sora。

可以清晰感受到,随着 Claude 3 这类优秀大模型的卓越性能被大量用户亲自验证,人们对于 OpenAI 的耐心越来越低,对 ChatGPT 要求的门槛也越来越高。加上 GPT-4 最近又开始不给力,过去曾出现过的“变懒变傻”问题再次重演,引得大批网友在推特抱怨讨伐,纷纷倒戈转向了 Claude 3(包括本人在内)。

“使用了 4 个月之后,我决定放弃 ChatGPT Plus。GPT-4 经常变得懒惰、缓慢、产生幻觉。与此同时我使用了免费的 Claude 3 sonnet 模型,它在上下文记忆、长回复以及速度方面给人留下了深刻印象——对程序员来说简直棒极了。正在考虑升级到高级版的 Claude。请 OpenAI 尽快修复 GPT-4 的问题。”

其实,诸如 Sora 这些技术再超前,没有真正走向市场让人们上手用到,也只是望梅止渴的镜花水月。而今一个主打公平公正,由近 50 万用户验证后投票的 Chatbot Arena 榜单放出,足以见 Claude 3 是凭实力拿下的新王之位。

而无论是 OpenAI 还是 Google 等公司都应该清楚认识到,在 GenAI 浪潮里陪他们一起翻滚了两年多的用户们也早就练出来了,大家对于新模型的适应性和流动性是很强的。换句话说,没有谁真得离不开谁,单纯靠信仰的时代已过,体验跟不上、更新不及时,用户就会流失,好用才是硬道理。

打败 OpenAI 的方法是成为 OpenAI

Anthropic 在发布 Claude 3 时承诺过,会在接下来的几个月内对该系列进行频繁更新。发布一系列功能来增强模型性能,包括工具使用、交互式编码和更高级的代理能力等。对企业用例和大规模部署也会有新动作。

作为一家自我定义为“人工智能安全公司”的 AI 企业,现在的 Anthropic 似乎在慢慢远离起初低调谨慎、时刻强调安全的行事作风,节奏变得越发主动强势。而以往人们在推特上见惯了 OpenAI、DeepMind 的 AI 大咖输出意见,却鲜少见到 Anthropic 工程师们的身影。最近这一人群仿佛也跟着 Claude 3 的大火走向台前高调起来,成为人们关注的技术 KOL。

再加上亚马逊总共 40 亿美元巨资入池,双方达成更深入的人工智能合作。Anthropic 把 AWS 作为其关键工作负载的主要云提供商,使用亚马逊 Trainium 和 Inferentia 芯片来训练和部署未来模型,并向全球 AWS 客户提供未来几代基础模型在 Amazon Bedrock 上的访问权限。

今天亚马逊之于 Anthropic 的模式,怎么看怎么像曾经的微软之于 OpenAI。按照这个路线,Anthropic 很有可能在商业化版图中铺开更大的摊子,野心勃勃地跟亚马逊合力打造另一个 AI 帝国。等到苹果选择哪家 AI 供应商的靴子落地,全球科技巨头+AI 公司的竞争格局又将被重新洗牌。

Anthropic 已经找到了打败 OpenAI 的方法,那就是成为 OpenAI。

也许,留给 OpenAI 的时间真得不多了。

图 | unsplash

本文来自微信公众号“硅星GenAI”,作者:张潇雪,36氪出海经授权发布。

加入36氪出海学习交流群

目前,36氪出海学习交流群已经吸引超过13000位来自国内外初创企业、行业巨头、投资机构等出海人加入。在出海社群里,我们面向群成员挑选整理每日全球跨境资讯,帮助出海人把握最新动态;定期组织出海交流活动,链接出海生态圈,寻找潜在合作伙伴!欢迎添加36氪出海小助手微信(ID:wow36krchuhai-xzs2)申请入群,一同出海!

分享
//
热门行业
|
市场
|
公司
汽车出海
广告图片
关注公众号
扫一扫即刻关注
36氪出海微信公众号

推荐阅读


深度解析

  • TikTok 败诉,全球化的艰难一章才刚刚翻开

    TikTok 案背后, 是更多在美国开展业务的中国企业们,将集体迎来一个并不乐观的信号。

    社交文娱

    TikTok 败诉,全球化的艰难一章才刚刚翻开

    刚刚