大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

Anthropic找到了打败OpenAI的方法:自己也成为OpenAI

2024-03-29 简体 HK SG TW

今天小编分享的互联网经验:Anthropic找到了打败OpenAI的方法:自己也成为OpenAI,欢迎阅读。

最近 Anthropic 真是风头正盛,堪称赢麻了。

亚马逊刚刚宣布,再次对它追加 27.5 亿美元投资,共同加速生成式人工智能发展。加上去年 9 月投入的 12.5 亿美元,总共豪掷超过 40 亿美元,成为亚马逊三十年历史上最大的对外投资,也令 Anthropic 从去年至今的融资额一举超过 100 亿美元。

而公司开发的旗舰大模型 Claude 3 全家桶自推出 20 多天以来,也一路好评无数、口碑爆棚,并在最新的 Chatbot Arena 排行榜上正式打败 GPT-4,首次登上王位。

Claude 3 打趴 GPT-4,跃居用户体验榜首

我们知道,每当一款新的大模型推出时,都会拿 GPT-4 来作比较。拉出一张包括 MMLU、数学、推理、编程等各项测试的跑分对照表,证明自己哪些参数已经赶超 GPT-4。但归根结底,模型终究是给人用的,到底是不是真的比 GPT-4 厉害,还得是实际用户体验说了算。

昨天,Chatbot Arena 新鲜出炉了截至 3 月 26 日的聊天机器人对战榜成绩。

在收集了来自 47.7 万多野生用户对于市面上 75 款大模型的匿名投票后,Claude 3 超大杯 Opus 在群众的呼声中力压群雄,打败 GPT-4 Turbo 成功登顶第 1 名。大杯 Sonnet 排名第 4,就连 Claude 最轻巧的中杯 Haiku 都超越了初版 GPT-4 和欧洲新贵 Mistral Large,位列第 6 名。

与此同时 Google 仅 Gemini Pro 一员大将杀入前十,来自阿里巴巴的通义千问排在第 9。

如果说 Anthropic 发布 Claude 3 时引发的 " 大模型王位易主 " 讨论还存在参数争议,那么经过近一个月的场下实测,Claude 3 的确用实力证明了自己比 GPT-4 更能打,成为目前 LLM 争霸赛的最大赢家。

社区用户 Peter Gostev 还根据 Chatbot Arena 排行榜制作了从 23 年 5 月到 24 年 3 月,Top15 大模型的动态演变史,清晰展现 Claude 3 势如破竹的 " 上位 " 全过程。

对榜单不熟悉的朋友,我们先一起来看看它是怎么打分的。

Chatbot Arena(聊天机器人竞技场)是由 UC Berkley、UCSD 和 CMU 合作研究组织 LMSYS Org 开发的 LLM 测试平台,通过众包方式进行匿名随机对战,评估和排名不同的语言模型。

具体规则是:用户向两个匿名模型输入同一个问题,然后对它们各自生成的答案进行评价,选择模型 A 更好、B 更好、平手或都很差。它支持多轮对话,直到用户认定赢家。并且如果在对话过程中泄露了模型身份,那么投票将不会被计入。最终,Chatbot Arena 会采用类似于国际象棋等竞技游戏中广泛使用的 Elo 评分机制,来综合评估大模型能力。

可以看出,与常见的 Benchmarks 跑分不同,Arena Elo 排行榜成绩完全是基于人类用户的使用体验和真实反馈,在实用性上更具参考价值。

Chatbot Arena 还放出一系列白热化的后台对战数据。

模型 A 在所有非平局 Battle 中战胜模型 B 的比例:

每一组模型组合(不包括平局)的对战次数:

公布这一结果的 LMSYS Org 认为,更让人印象深刻的是 Claude 3 Haiku。作为全家桶中最轻量级的模型,它的用户偏好已达到与 GPT-4 相当的水平,综合其速度、能力和 200k 上下文长度,在市场上现在无人能敌。(同时也夸了一下自家伯克利团队开发的 Starling-LM-7B-beta 近期攀升迅速,是市面上最好的 7B 开源模型。)

许多网友也纷纷注意到了这点,为 Haiku 鼓掌叫好:" 我们拥有了一个 GPT-4 水平但比它便宜 10 倍的模型!"

Antrohpic 工程师 @alexalbert_ 亲自解释说,Haiku 模型的价格和速度被严重低估:" 据估计,普通人一生大概会说 8.6 亿个单词,相当于约 12 亿个标记。而 Haiku 的价格是每百万标记输入 0.25 美元。意味着你仅花费 300 美元就可以让 Haiku 处理一个人一生中说的所有话。更疯狂的是,Haiku 可以每秒读取高达 2.4 万个标记。也就是说只需 5000 秒,大约 83 分钟内,就能分析完一个人一生的经历。"

人们表示给新王跪了, Claude 3 Opus 确实树立了新的 AI 行业标准,现实中使用率更高。

" 我真得更喜欢 Claude。我只是使用免费版 Sonnet 并与 GPT-4 进行比较,对于日常对话和事实核实,它似乎更加智能。GPT-4 在编程方面仍占据主导地位,但我并不是特别相信它真有那么优秀。"

" 苹果应该考虑和 Anthropic 合作,让 Claude 作为 iPhone 手机的配套 AI。"

——这还真有可能。最近有新的传言流出,iOS 18 的 AI 供应商也许会由 Google Gemini 悄悄换成 Claude 3。Sam Altman 因为一直想做 AI 硬體不被考虑,而安卓集成 Gemini 后会削弱 iOS 的独特性,此时人畜无害又口碑爆炸的 Claude 3 似乎才是最佳选择,扶持它也能让 AI 竞赛拖得更久更均衡。相信这些到苹果 6 月的 WWDC 开发者大会便会见分晓。

丰富民间用例验证,六边形战士 Claude 3

推上也有不少人展示了自己在日常工作中使用 Claude 3 的一些惊艳实例。

HyperWriteAI 公司 CEO Matt Shumer 分享了一个用于生成高质量提示的工具「claude-prompt-engineer」 。用户只需描述任务和输入变量,Claude 3 就会帮你生成许多候选提示,并在排名赛中针对每个用例测试,最后返回最佳提示。

他表示之前的版本接入的是 GPT-4,而现在选用 Claude 3 编写出的提示比 GPT-4 质量要高得多。这个工具能自动生成测试用例,支持多变量,进一步自动化 prompt engineering 的工作流程,他本人已经在实际工作中使用,极大提升了效率。

他还做了一个使用 Claude 3 的开源投资分析师代理「claude-investor」。用户提供一个行业,就能快速查找主要公司的财务数据和新闻、分析每个公司的舆情和趋势,并根据投资潜力和目标价格对股票进行排名。

通过 Claude 3 强大的海量数据分析能力,生成详细的投资报告,帮助使用者查找高增长潜力的科技公司,跟踪投资组合中的股票表现,识别投资机会。从金融从业者到炒股小白都可以直接使用,很受社区欢迎。

用户 @dr_cintas 使用 Claude 3 生成了效果拔群的勾股定理演示动画。解锁了以动态视觉轻松解释各种原理的可能性。

再更生活化一些的例子也有。在宜家买过家具的同学都知道,看组装说明书实在是一项耗费腦细胞的活儿。用户 @gabchuayz 借助 Claude 3 强大的影像推理能力大大简化了这一流程。直接把说明书喂给模型,就生成简洁清晰的操作步骤。他在对比 GPT-4 后认为 Claude 3 输出的结果更具可读性,还能辨认出细小零件的编号,非常实用。

Claude 3 在代码审查和测试方面的潜力也得到了专业人士验证。

纽约大学 Tandon 工学院助理教授 Brendan Dolan-Gavitt 在 X 分享到,他将一个在 GitHub 上找到的小型 C 语言 GIF 解码库全部源代码提供给 Claude 3,并要求它编写一个 Python 函数用于生成随机的 GIF 影像,以测试解码器的解析能力。结果这个 GIF 生成器在解码器中覆盖了 92% 的代码行,并发现了 4 个内存安全性漏洞和一个程式挂起问题。证明 Claude 3 完全有能力成为人类程式员的工作助手。

ChatGPT 又变懒了?用户:弃

不过也有人觉得 Claude 3 厉害是厉害,但并不能代表 OpenAI 落于人后。毕竟 GPT-4 是 22 年夏天训练的,按照惯例,奥特曼的工具箱里早就准备好新武器了。

"Claude 现在是顶级的中央控制 AI 模型,GPT-4 长期的统治已经结束。但这一情况将随着一个被称为 GPT-5 的新秘密模型而改变。"

"Opus 可以享受这种喜悦,直到 GPT-5 发布那天 "。

但问题是 ....GPT-5 到底在哪儿呢?

不久前 Sam Altman 在 Lex Friedman 最新的播客采访中提到过,OpenAI 的目标绝不是给世界带来令人震惊的更新,而是恰恰相反,渐进式达到每一个里程碑,因此下一代 LLM 会考虑以一种新的形式与公众见面。但他也坚定表示,今年会官宣一个令人惊叹的新模型,不管是不是叫 GPT-5。在那之前,还会有其它东西先发布。

或许是加上各种事件和官司缠身, OpenAI 现在的行事风格确实不像以往那么激进了。最新推特是今天刚刚发布的准备与小部分美国开发者合作,测试基于访问量的 GPT 盈利模式的消息。" 我们的目标是创造一个活跃的生态系统,在这里开发者因其创造力和影响力而获得奖励。"

然后底下的评论可想而知,似乎少有人关心这个已经被 Poe 玩了好几个月的创作者共享经济模式,满满都是在问什么时候发布 GPT-5 和开放 Sora。

可以清晰感受到,随着 Claude 3 这类优秀大模型的卓越性能被大量用户亲自验证,人们对于 OpenAI 的耐心越来越低,对 ChatGPT 要求的门槛也越来越高。加上 GPT-4 最近又开始不给力,过去曾出现过的 " 变懒变傻 " 问题再次重演,引得大批网友在推特抱怨讨伐,纷纷倒戈转向了 Claude 3(包括本人在内)。

" 使用了 4 个月之后,我决定放弃 ChatGPT Plus。GPT-4 经常变得懒惰、缓慢、产生幻觉。与此同时我使用了免费的 Claude 3 sonnet 模型,它在上下文记忆、长回复以及速度方面给人留下了深刻印象——对程式员来说简直棒极了。正在考虑更新到高级版的 Claude。请 OpenAI 尽快修复 GPT-4 的问题。"

其实,诸如 Sora 这些技术再超前,没有真正走向市场让人们上手用到,也只是望梅止渴的镜花水月。而今一个主打公平公正,由近 50 万用户验证后投票的 Chatbot Arena 榜单放出,足以见 Claude 3 是凭实力拿下的新王之位。

而无论是 OpenAI 还是 Google 等公司都应该清楚认识到,在 GenAI 浪潮里陪他们一起翻滚了两年多的用户们也早就练出来了,大家对于新模型的适应性和流动性是很强的。换句话说,没有谁真得离不开谁,单纯靠信仰的时代已过,体验跟不上、更新不及时,用户就会流失,好用才是硬道理。

打败 OpenAI 的方法是成为 OpenAI

Anthropic 在发布 Claude 3 时承诺过,会在接下来的几个月内对该系列进行频繁更新。发布一系列功能来增强模型性能,包括工具使用、互動式编码和更高级的代理能力等。对企业用例和大规模部署也会有新动作。

作为一家自我定义为 " 人工智能安全公司 " 的 AI 企业,现在的 Anthropic 似乎在慢慢远离起初低调谨慎、时刻强调安全的行事作风,节奏变得越发主动强势。而以往人们在推特上见惯了 OpenAI、DeepMind 的 AI 大咖输出意见,却鲜少见到 Anthropic 工程师们的身影。最近这一人群仿佛也跟着 Claude 3 的大火走向台前高调起来,成为人们关注的技术 KOL。

再加上亚马逊总共 40 亿美元巨资入池,双方达成更深入的人工智能合作。Anthropic 把 AWS 作为其关键工作负载的主要云提供商,使用亚马逊 Trainium 和 Inferentia 芯片来训练和部署未来模型,并向全球 AWS 客户提供未来几代基础模型在 Amazon Bedrock 上的访问权限。

今天亚马逊之于 Anthropic 的模式,怎么看怎么像曾经的微软之于 OpenAI。按照这个路线,Anthropic 很有可能在商业化版图中铺开更大的摊子,野心勃勃地跟亚马逊合力打造另一个 AI 帝国。等到苹果选择哪家 AI 供应商的靴子落地,全球科技巨头 +AI 公司的竞争格局又将被重新洗牌。

Anthropic 已经找到了打败 OpenAI 的方法,那就是成为 OpenAI。

也许,留给 OpenAI 的时间真得不多了。

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們