Anthropic找到了打败OpenAI的方法：自己也成为OpenAI

最近 Anthropic 真是风头正盛，堪称赢麻了。亚马逊刚刚宣布，再次对它追加 27.5 亿美元投资，共同加速生成式人工智能发展。加上去年 9 月投入的 12.5 亿美元，总共豪掷超过 40 亿美元，成为亚马逊三十年历史上最大的对外投资，也令 Anthropic 从去年至今的融资额一举超过 100 亿美元。

而公司开发的旗舰大模型 Claude 3 全家桶自推出 20 多天以来，也一路好评无数、口碑爆棚，并在最新的 Chatbot Arena 排行榜上正式打败 GPT-4，首次登上王位。

Claude 3 打趴 GPT-4，跃居用户体验榜首

我们知道，每当一款新的大模型推出时，都会拿 GPT-4 来作比较。拉出一张包括 MMLU、数学、推理、编程等各项测试的跑分对照表，证明自己哪些参数已经赶超 GPT-4。但归根结底，模型终究是给人用的，到底是不是真的比 GPT-4 厉害，还得是实际用户体验说了算。

昨天，Chatbot Arena 新鲜出炉了截至 3 月 26 日的聊天机器人对战榜成绩。

在收集了来自 47.7 万多野生用户对于市面上 75 款大模型的匿名投票后，Claude 3 超大杯 Opus 在群众的呼声中力压群雄，打败 GPT-4 Turbo 成功登顶第 1 名。大杯 Sonnet 排名第 4，就连 Claude 最轻巧的中杯 Haiku 都超越了初版 GPT-4 和欧洲新贵 Mistral Large，位列第 6 名。

与此同时 Google 仅 Gemini Pro 一员大将杀入前十，来自阿里巴巴的通义千问排在第 9。

如果说 Anthropic 发布 Claude 3 时引发的“大模型王位易主”讨论还存在参数争议，那么经过近一个月的场下实测，Claude 3 的确用实力证明了自己比 GPT-4 更能打，成为目前 LLM 争霸赛的最大赢家。

社区用户 Peter Gostev 还根据 Chatbot Arena 排行榜制作了从 23 年 5 月到 24 年 3 月，Top 15 大模型的动态演变史，清晰展现 Claude 3 势如破竹的“上位”全过程。

对榜单不熟悉的朋友，我们先一起来看看它是怎么打分的。

Chatbot Arena（聊天机器人竞技场）是由 UC Berkley、UCSD 和 CMU 合作研究组织 LMSYS Org 开发的 LLM 测试平台，通过众包方式进行匿名随机对战，评估和排名不同的语言模型。

具体规则是：用户向两个匿名模型输入同一个问题，然后对它们各自生成的答案进行评价，选择模型 A 更好、B 更好、平手或都很差。它支持多轮对话，直到用户认定赢家。并且如果在对话过程中泄露了模型身份，那么投票将不会被计入。最终，Chatbot Arena 会采用类似于国际象棋等竞技游戏中广泛使用的 Elo 评分机制，来综合评估大模型能力。

可以看出，与常见的 Benchmarks 跑分不同，Arena Elo 排行榜成绩完全是基于人类用户的使用体验和真实反馈，在实用性上更具参考价值。

Chatbot Arena 还放出一系列白热化的后台对战数据。

模型 A 在所有非平局 Battle 中战胜模型 B 的比例：

每一组模型组合（不包括平局）的对战次数：

公布这一结果的 LMSYS Org 认为，更让人印象深刻的是 Claude 3 Haiku。作为全家桶中最轻量级的模型，它的用户偏好已达到与 GPT-4 相当的水平，综合其速度、能力和 200k 上下文长度，在市场上现在无人能敌。（同时也夸了一下自家伯克利团队开发的 Starling-LM-7B-beta 近期攀升迅速，是市面上最好的 7B 开源模型。）

许多网友也纷纷注意到了这点，为 Haiku 鼓掌叫好：“我们拥有了一个 GPT-4 水平但比它便宜 10 倍的模型！”

Antrohpic 工程师 @alexalbert_ 亲自解释说，Haiku 模型的价格和速度被严重低估：“据估计，普通人一生大概会说 8.6 亿个单词，相当于约 12 亿个标记。而 Haiku 的价格是每百万标记输入 0.25 美元。意味着你仅花费 300 美元就可以让 Haiku 处理一个人一生中说的所有话。更疯狂的是，Haiku 可以每秒读取高达 2.4 万个标记。也就是说只需 5000 秒，大约 83 分钟内，就能分析完一个人一生的经历。”

人们表示给新王跪了， Claude 3 Opus 确实树立了新的 AI 行业标准，现实中使用率更高。

“我真的更喜欢 Claude。我只是使用免费版 Sonnet 并与 GPT-4 进行比较，对于日常对话和事实核实，它似乎更加智能。GPT-4 在编程方面仍占据主导地位，但我并不是特别相信它真有那么优秀。”

“苹果应该考虑和 Anthropic 合作，让 Claude 作为 iPhone 手机的配套 AI。”

——这还真有可能。最近有新的传言流出，iOS 18 的 AI 供应商也许会由 Google Gemini 悄悄换成 Claude 3。Sam Altman 因为一直想做 AI 硬件不被考虑，而安卓集成 Gemini 后会削弱 iOS 的独特性，此时人畜无害又口碑爆炸的 Claude 3 似乎才是最佳选择，扶持它也能让 AI 竞赛拖得更久更均衡。相信这些到苹果 6 月的 WWDC 开发者大会便会见分晓。

丰富民间用例验证，六边形战士 Claude 3

推上也有不少人展示了自己在日常工作中使用 Claude 3 的一些惊艳实例。

HyperWriteAI 公司 CEO Matt Shumer 分享了一个用于生成高质量提示的工具「claude-prompt-engineer」。用户只需描述任务和输入变量，Claude 3 就会帮你生成许多候选提示，并在排名赛中针对每个用例测试，最后返回最佳提示。

他表示之前的版本接入的是 GPT-4，而现在选用 Claude 3 编写出的提示比 GPT-4 质量要高得多。这个工具能自动生成测试用例，支持多变量，进一步自动化 prompt engineering 的工作流程，他本人已经在实际工作中使用，极大提升了效率。

他还做了一个使用 Claude 3 的开源投资分析师代理「claude-investor」。用户提供一个行业，就能快速查找主要公司的财务数据和新闻、分析每个公司的舆情和趋势，并根据投资潜力和目标价格对股票进行排名。

通过 Claude 3 强大的海量数据分析能力，生成详细的投资报告，帮助使用者查找高增长潜力的科技公司，跟踪投资组合中的股票表现，识别投资机会。从金融从业者到炒股小白都可以直接使用，很受社区欢迎。

用户 @dr_cintas 使用 Claude 3 生成了效果拔群的勾股定理演示动画。解锁了以动态视觉轻松解释各种原理的可能性。

再更生活化一些的例子也有。在宜家买过家具的同学都知道，看组装说明书实在是一项耗费脑细胞的活儿。用户 @gabchuayz 借助 Claude 3 强大的图像推理能力大大简化了这一流程。直接把说明书喂给模型，就生成简洁清晰的操作步骤。他在对比 GPT-4 后认为 Claude 3 输出的结果更具可读性，还能辨认出细小零件的编号，非常实用。

Claude 3 在代码审查和测试方面的潜力也得到了专业人士验证。

纽约大学 Tandon 工学院助理教授 Brendan Dolan-Gavitt 在 X 分享到，他将一个在 GitHub 上找到的小型 C 语言 GIF 解码库全部源代码提供给 Claude 3，并要求它编写一个 Python 函数用于生成随机的 GIF 图像，以测试解码器的解析能力。结果这个 GIF 生成器在解码器中覆盖了 92% 的代码行，并发现了 4 个内存安全性漏洞和一个程序挂起问题。证明 Claude 3 完全有能力成为人类程序员的工作助手。

ChatGPT 又变懒了？用户：弃

不过也有人觉得 Claude 3 厉害是厉害，但并不能代表 OpenAI 落于人后。毕竟 GPT-4 是 22 年夏天训练的，按照惯例，奥特曼的工具箱里早就准备好新武器了。

“Claude 现在是顶级的中央控制 AI 模型，GPT-4 长期的统治已经结束。但这一情况将随着一个被称为 GPT-5 的新秘密模型而改变。”

“Opus 可以享受这种喜悦，直到 GPT-5 发布那天”。

但问题是…. GPT-5 到底在哪儿呢？

不久前 Sam Altman 在 Lex Friedman 最新的播客采访中提到过，OpenAI 的目标绝不是给世界带来令人震惊的更新，而是恰恰相反，渐进式达到每一个里程碑，因此下一代 LLM 会考虑以一种新的形式与公众见面。但他也坚定表示，今年会官宣一个令人惊叹的新模型，不管是不是叫 GPT-5。在那之前，还会有其它东西先发布。

或许是加上各种事件和官司缠身， OpenAI 现在的行事风格确实不像以往那么激进了。最新推特是今天刚刚发布的准备与小部分美国开发者合作，测试基于访问量的 GPT 盈利模式的消息。“我们的目标是创造一个活跃的生态系统，在这里开发者因其创造力和影响力而获得奖励。”

然后底下的评论可想而知，似乎少有人关心这个已经被 Poe 玩了好几个月的创作者共享经济模式，满满都是在问什么时候发布 GPT-5 和开放 Sora。

可以清晰感受到，随着 Claude 3 这类优秀大模型的卓越性能被大量用户亲自验证，人们对于 OpenAI 的耐心越来越低，对 ChatGPT 要求的门槛也越来越高。加上 GPT-4 最近又开始不给力，过去曾出现过的“变懒变傻”问题再次重演，引得大批网友在推特抱怨讨伐，纷纷倒戈转向了 Claude 3（包括本人在内）。

“使用了 4 个月之后，我决定放弃 ChatGPT Plus。GPT-4 经常变得懒惰、缓慢、产生幻觉。与此同时我使用了免费的 Claude 3 sonnet 模型，它在上下文记忆、长回复以及速度方面给人留下了深刻印象——对程序员来说简直棒极了。正在考虑升级到高级版的 Claude。请 OpenAI 尽快修复 GPT-4 的问题。”

其实，诸如 Sora 这些技术再超前，没有真正走向市场让人们上手用到，也只是望梅止渴的镜花水月。而今一个主打公平公正，由近 50 万用户验证后投票的 Chatbot Arena 榜单放出，足以见 Claude 3 是凭实力拿下的新王之位。

而无论是 OpenAI 还是 Google 等公司都应该清楚认识到，在 GenAI 浪潮里陪他们一起翻滚了两年多的用户们也早就练出来了，大家对于新模型的适应性和流动性是很强的。换句话说，没有谁真得离不开谁，单纯靠信仰的时代已过，体验跟不上、更新不及时，用户就会流失，好用才是硬道理。

打败 OpenAI 的方法是成为 OpenAI

Anthropic 在发布 Claude 3 时承诺过，会在接下来的几个月内对该系列进行频繁更新。发布一系列功能来增强模型性能，包括工具使用、交互式编码和更高级的代理能力等。对企业用例和大规模部署也会有新动作。

作为一家自我定义为“人工智能安全公司”的 AI 企业，现在的 Anthropic 似乎在慢慢远离起初低调谨慎、时刻强调安全的行事作风，节奏变得越发主动强势。而以往人们在推特上见惯了 OpenAI、DeepMind 的 AI 大咖输出意见，却鲜少见到 Anthropic 工程师们的身影。最近这一人群仿佛也跟着 Claude 3 的大火走向台前高调起来，成为人们关注的技术 KOL。

再加上亚马逊总共 40 亿美元巨资入池，双方达成更深入的人工智能合作。Anthropic 把 AWS 作为其关键工作负载的主要云提供商，使用亚马逊 Trainium 和 Inferentia 芯片来训练和部署未来模型，并向全球 AWS 客户提供未来几代基础模型在 Amazon Bedrock 上的访问权限。

今天亚马逊之于 Anthropic 的模式，怎么看怎么像曾经的微软之于 OpenAI。按照这个路线，Anthropic 很有可能在商业化版图中铺开更大的摊子，野心勃勃地跟亚马逊合力打造另一个 AI 帝国。等到苹果选择哪家 AI 供应商的靴子落地，全球科技巨头+AI 公司的竞争格局又将被重新洗牌。

Anthropic 已经找到了打败 OpenAI 的方法，那就是成为 OpenAI。

也许，留给 OpenAI 的时间真得不多了。

图 | unsplash

本文来自微信公众号“硅星GenAI”，作者：张潇雪，36氪出海经授权发布。

加入36氪出海学习交流群

目前，36氪出海学习交流群已经吸引超过13000位来自国内外初创企业、行业巨头、投资机构等出海人加入。在出海社群里，我们面向群成员挑选整理每日全球跨境资讯，帮助出海人把握最新动态；定期组织出海交流活动，链接出海生态圈，寻找潜在合作伙伴！欢迎添加36氪出海小助手微信（ID：wow36krchuhai-xzs2）申请入群，一同出海！