

Anthropic找到了打败OpenAI的方法:自己也成为OpenAI
source link: https://www.aixinzhijie.com/article/6845284
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

文章来源:硅基GenAI
作者|张潇雪

最近Anthropic真是风头正盛,堪称赢麻了。
亚马逊刚刚宣布,再次对它追加27.5亿美元投资,共同加速生成式人工智能发展。加上去年9月投入的12.5亿美元,总共豪掷超过40亿美元,成为亚马逊三十年历史上最大的对外投资,也令Anthropic从去年至今的融资额一举超过100亿美元。
而公司开发的旗舰大模型Claude 3全家桶自推出20多天以来,也一路好评无数、口碑爆棚,并在最新的Chatbot Arena排行榜上正式打败GPT-4,首次登上王位。
Claude 3打趴GPT-4,跃居用户体验榜首
我们知道,每当一款新的大模型推出时,都会拿GPT-4来作比较。拉出一张包括MMLU、数学、推理、编程等各项测试的跑分对照表,证明自己哪些参数已经赶超GPT-4。但归根结底,模型终究是给人用的,到底是不是真的比GPT-4厉害,还得是实际用户体验说了算。
昨天,Chatbot Arena新鲜出炉了截至3月26日的聊天机器人对战榜成绩。
在收集了来自47.7万多野生用户对于市面上75款大模型的匿名投票后,Claude 3 超大杯Opus在群众的呼声中力压群雄,打败GPT-4 Turbo成功登顶第1名。大杯Sonnet排名第4,就连 Claude最轻巧的中杯Haiku都超越了初版GPT-4和欧洲新贵Mistral Large,位列第6名。
与此同时Google仅Gemini Pro一员大将杀入前十,来自阿里巴巴的通义千问排在第9。
如果说Anthropic发布Claude 3时引发的“大模型王位易主”讨论还存在参数争议,那么经过近一个月的场下实测,Claude 3的确用实力证明了自己比GPT-4更能打,成为目前LLM争霸赛的最大赢家。
社区用户Peter Gostev还根据Chatbot Arena排行榜制作了从23年5月到24年3月,Top15大模型的动态演变史,清晰展现Claude 3势如破竹的“上位”全过程。
对榜单不熟悉的朋友,我们先一起来看看它是怎么打分的。
Chatbot Arena(聊天机器人竞技场)是由UC Berkley、UCSD和CMU合作研究组织LMSYS Org开发的LLM测试平台,通过众包方式进行匿名随机对战,评估和排名不同的语言模型。
具体规则是:用户向两个匿名模型输入同一个问题,然后对它们各自生成的答案进行评价,选择模型A更好、B更好、平手或都很差。它支持多轮对话,直到用户认定赢家。并且如果在对话过程中泄露了模型身份,那么投票将不会被计入。最终,Chatbot Arena会采用类似于国际象棋等竞技游戏中广泛使用的Elo评分机制,来综合评估大模型能力。
可以看出,与常见的Benchmarks跑分不同,Arena Elo 排行榜成绩完全是基于人类用户的使用体验和真实反馈,在实用性上更具参考价值。
Chatbot Arena还放出一系列白热化的后台对战数据。
模型A在所有非平局Battle中战胜模型B的比例:
每一组模型组合(不包括平局)的对战次数:
公布这一结果的LMSYS Org认为,更让人印象深刻的是Claude 3 Haiku。作为全家桶中最轻量级的模型,它的用户偏好已达到与GPT-4相当的水平,综合其速度、能力和200k上下文长度,在市场上现在无人能敌。(同时也夸了一下自家伯克利团队开发的Starling-LM-7B-beta近期攀升迅速,是市面上最好的7B开源模型。)
许多网友也纷纷注意到了这点,为Haiku鼓掌叫好:“我们拥有了一个GPT-4水平但比它便宜10倍的模型!”
Antrohpic工程师@alexalbert_亲自解释说,Haiku模型的价格和速度被严重低估:“据估计,普通人一生大概会说8.6亿个单词,相当于约12亿个标记。而Haiku的价格是每百万标记输入0.25美元。意味着你仅花费300美元就可以让Haiku处理一个人一生中说的所有话。更疯狂的是,Haiku可以每秒读取高达2.4万个标记。也就是说只需5000秒,大约83分钟内,就能分析完一个人一生的经历。”
人们表示给新王跪了, Claude 3 Opus确实树立了新的AI行业标准,现实中使用率更高。
“我真的更喜欢Claude。我只是使用免费版Sonnet并与GPT-4进行比较,对于日常对话和事实核实,它似乎更加智能。GPT-4在编程方面仍占据主导地位,但我并不是特别相信它真有那么优秀。”
“苹果应该考虑和Anthropic合作,让Claude作为iPhone手机的配套AI。”
——这还真有可能。最近有新的传言流出,iOS 18的AI供应商也许会由Google Gemini悄悄换成Claude 3。Sam Altman因为一直想做AI硬件不被考虑,而安卓集成Gemini后会削弱iOS的独特性,此时人畜无害又口碑爆炸的 Claude 3似乎才是最佳选择,扶持它也能让AI竞赛拖得更久更均衡。相信这些到苹果6月的WWDC开发者大会便会见分晓。
丰富民间用例验证,六边形战士Claude 3
推上也有不少人展示了自己在日常工作中使用Claude 3的一些惊艳实例。
HyperWriteAI 公司CEO Matt Shumer分享了一个用于生成高质量提示的工具「claude-prompt-engineer」 。用户只需描述任务和输入变量,Claude 3就会帮你生成许多候选提示,并在排名赛中针对每个用例测试,最后返回最佳提示。
他表示之前的版本接入的是GPT-4,而现在选用Claude 3编写出的提示比GPT-4质量要高得多。这个工具能自动生成测试用例,支持多变量,进一步自动化prompt engineering的工作流程,他本人已经在实际工作中使用,极大提升了效率。
他还做了一个使用 Claude 3 的开源投资分析师代理「claude-investor」。用户提供一个行业,就能快速查找主要公司的财务数据和新闻、分析每个公司的舆情和趋势,并根据投资潜力和目标价格对股票进行排名。
通过 Claude 3 强大的海量数据分析能力,生成详细的投资报告,帮助使用者查找高增长潜力的科技公司,跟踪投资组合中的股票表现,识别投资机会。从金融从业者到炒股小白都可以直接使用,很受社区欢迎。
用户@dr_cintas使用Claude 3生成了效果拔群的勾股定理演示动画。解锁了以动态视觉轻松解释各种原理的可能性。
再更生活化一些的例子也有。在宜家买过家具的同学都知道,看组装说明书实在是一项耗费脑细胞的活儿。用户@gabchuayz借助Claude 3强大的图像推理能力大大简化了这一流程。直接把说明书喂给模型,就生成简洁清晰的操作步骤。他在对比 GPT-4后认为Claude 3输出的结果更具可读性,还能辨认出细小零件的编号,非常实用。
Claude 3在代码审查和测试方面的潜力也得到了专业人士验证。
纽约大学Tandon工学院助理教授Brendan Dolan-Gavitt在X分享到,他将一个在GitHub上找到的小型C语言GIF解码库全部源代码提供给Claude 3,并要求它编写一个Python函数用于生成随机的GIF图像,以测试解码器的解析能力。结果这个GIF生成器在解码器中覆盖了92%的代码行,并发现了4个内存安全性漏洞和一个程序挂起问题。证明Claude 3完全有能力成为人类程序员的工作助手。
ChatGPT又变懒了?用户:弃
不过也有人觉得Claude 3厉害是厉害,但并不能代表OpenAI落于人后。毕竟GPT-4是22年夏天训练的,按照惯例,奥特曼的工具箱里早就准备好新武器了。
“Claude现在是顶级的中央控制AI模型,GPT-4长期的统治已经结束。但这一情况将随着一个被称为GPT-5的新秘密模型而改变。”
“Opus可以享受这种喜悦,直到GPT-5发布那天”。
但问题是....GPT-5到底在哪儿呢?
不久前Sam Altman在Lex Friedman最新的播客采访中提到过,OpenAI的目标绝不是给世界带来令人震惊的更新,而是恰恰相反,渐进式达到每一个里程碑,因此下一代LLM会考虑以一种新的形式与公众见面。但他也坚定表示,今年会官宣一个令人惊叹的新模型,不管是不是叫GPT-5。在那之前,还会有其它东西先发布。
或许是加上各种事件和官司缠身, OpenAI现在的行事风格确实不像以往那么激进了。最新推特是今天刚刚发布的准备与小部分美国开发者合作,测试基于访问量的GPT盈利模式的消息。“我们的目标是创造一个活跃的生态系统,在这里开发者因其创造力和影响力而获得奖励。”
然后底下的评论可想而知,似乎少有人关心这个已经被Poe玩了好几个月的创作者共享经济模式,满满都是在问什么时候发布GPT-5和开放Sora。
可以清晰感受到,随着Claude 3这类优秀大模型的卓越性能被大量用户亲自验证,人们对于OpenAI的耐心越来越低,对ChatGPT要求的门槛也越来越高。加上GPT-4最近又开始不给力,过去曾出现过的“变懒变傻”问题再次重演,引得大批网友在推特抱怨讨伐,纷纷倒戈转向了Claude 3(包括本人在内)。
“使用了4个月之后,我决定放弃ChatGPT Plus。GPT-4经常变得懒惰、缓慢、产生幻觉。与此同时我使用了免费的Claude 3 sonnet模型,它在上下文记忆、长回复以及速度方面给人留下了深刻印象——对程序员来说简直棒极了。正在考虑升级到高级版的Claude。请OpenAI尽快修复GPT-4的问题。”
其实,诸如Sora这些技术再超前,没有真正走向市场让人们上手用到,也只是望梅止渴的镜花水月。而今一个主打公平公正,由近50万用户验证后投票的Chatbot Arena榜单放出,足以见Claude 3是凭实力拿下的新王之位。
而无论是OpenAI还是Google等公司都应该清楚认识到,在GenAI浪潮里陪他们一起翻滚了两年多的用户们也早就练出来了,大家对于新模型的适应性和流动性是很强的。换句话说,没有谁真得离不开谁,单纯靠信仰的时代已过,体验跟不上、更新不及时,用户就会流失,好用才是硬道理。
打败OpenAI的方法是成为OpenAI
Anthropic在发布Claude 3时承诺过,会在接下来的几个月内对该系列进行频繁更新。发布一系列功能来增强模型性能,包括工具使用、交互式编码和更高级的代理能力等。对企业用例和大规模部署也会有新动作。
作为一家自我定义为“人工智能安全公司”的AI企业,现在的Anthropic似乎在慢慢远离起初低调谨慎、时刻强调安全的行事作风,节奏变得越发主动强势。而以往人们在推特上见惯了OpenAI、DeepMind的AI大咖输出意见,却鲜少见到Anthropic工程师们的身影。最近这一人群仿佛也跟着Claude 3的大火走向台前高调起来,成为人们关注的技术KOL。
再加上亚马逊总共40亿美元巨资入池,双方达成更深入的人工智能合作。Anthropic把AWS作为其关键工作负载的主要云提供商,使用亚马逊Trainium和Inferentia芯片来训练和部署未来模型,并向全球AWS客户提供未来几代基础模型在Amazon Bedrock上的访问权限。
今天亚马逊之于Anthropic的模式,怎么看怎么像曾经的微软之于OpenAI。按照这个路线,Anthropic很有可能在商业化版图中铺开更大的摊子,野心勃勃地跟亚马逊合力打造另一个AI帝国。等到苹果选择哪家AI供应商的靴子落地,全球科技巨头+AI公司的竞争格局又将被重新洗牌。
Anthropic已经找到了打败OpenAI的方法,那就是成为OpenAI。
也许,留给OpenAI的时间真得不多了。
</div
Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK