开源模型首胜GPT-4！竞技场最新战报引热议，Karpathy：这是我唯二信任的榜单 - 大酷樂

今天小编分享的科学经验：开源模型首胜GPT-4！竞技场最新战报引热议，Karpathy：这是我唯二信任的榜单，欢迎阅读。

能打得过 GPT-4 的开源模型出现了！

大模型竞技场最新战报：

1040 亿参数开源模型Command R+攀升至第 6 位，与 GPT-4-0314 打成平手，超过了 GPT-4-0613。

这也是第一个在大模型竞技场上击败 GPT-4 的开放权重模型。

大模型竞技场，可是大神 Karpathy 口中唯二信任的测试基准之一。

Command R+ 来自 AI 独角兽 Cohere。这家大模型创业公司的联合创始人兼 CEO，正是Transformer 最年轻作者 Aidan Gomez（简称割麦子）。

这份战报一出，又掀起了一波大模型社区的热烈讨论。

大家伙儿兴奋的理由很简单：基础大模型卷了一整年，没想到在 2024 年格局还在不断地发展变化。

HuggingFace 联合创始人 Thomas Wolf 就说：

最近大模型竞技场上的情况发生了巨大的变化：

Anthropic 的 Claude 3 opus 在闭源模型中独占鳌头。

Cohere 的 Command R+ 则成为了开源模型中的最强者。

没想到，2024 年在开源和闭源两条路线上，人工智能团队的发展都如此之快。

另外，Cohere 机器学习总监 Nils Reimers 还指出了值得关注的一点：

Command R+ 最大的特色是对内置 RAG（检索增强生成）进行了全面优化，而在大模型竞技场中，RAG 这样的外挂能力并未纳入测试。

RAG 优化模型登上开源王座

在 Cohere 官方定位中，Command R+ 是一个 "RAG 优化模型 "。

就是说，这个 1040 亿参数的大模型主要针对检索增强生成技术进行了深度优化，以减少幻觉的产生，更适配于企业级工作负载。

和此前推出的 Command R 一样，Command R+ 的上下文視窗长度是 128k。

此外，Command R+ 还具备以下特点：

覆盖 10+ 种语言，包括英语、中文、法语、德语等；

能使用工具完成复杂业务流程的自动化

从测试结果来看，在多语种、RAG 和工具使用这三个维度上，Command R+ 都达到了 GPT-4 turbo 的水平。

但在输入成本方面，Command R+ 的价格仅为 GPT-4 turbo 的 1/3。

输出成本方面，Command R+ 则是 GPT-4 turbo 的 1/2。

正是这点引发了不少网友的关注：

不过，尽管在大模型竞技场这种人类主观评测上表现抢眼，还是有网友甩出了一些不同观点。

在 HumanEval 上，Command R+ 的代码能力就连 GPT-3.5 都没打过，在两组测试中分别排在 32 位和 33 位。

最新版 GPT-4 turbo 则没有悬念地拿下了第一。

另外，我们也在最近刚登上正经论文的弱智吧 benchmark 上简单测试了一下 Command R+ 的中文能力。

你给打个分？

需要说明的是，Command R+ 的开源只面向学术研究，并不能免费商用。

One More Thing

最后的最后，还是多聊一嘴割麦子小哥。

Aidan Gomez，Transformer 圆桌骑士中最年轻的一位，加入研究团队时只是个大學生——

不过，是在多伦多大学读大三时就加入了 Hinton 实验室的那种。

2018 年，割麦子被牛津大学录取，开始像他的论文搭子们那样攻读 CS 博士学位。

但在 2019 年，随着 Cohere 的创立，他最终选择退学加入 AI 创业的浪潮。

Cohere 主要是为企业提供大模型解决方案，目前估值达到了 22 亿美元。

参考链接：

[ 1 ] https://twitter.com/lmsysorg/status/1777630133798772766

[ 2 ] https://txt.cohere.com/command-r-plus-microsoft-azure/

— 完 —

【火热报名中】中国 AIGC 产业峰会

定档 4 月 17 日

峰会已经邀请到数位代表技术、产品、投资、用户等领網域嘉宾，共论生成式 AI 产业最新变革趋势。

最新确认嘉宾包括：商汤科技杨帆、轻松集团高玉石、印象笔记唐毅、蚂蚁集团李建国等，。

峰会将全程线上下同步直播，欢迎预约直播 ⬇️

点这里关注我，记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

>

熱門排行

王治郅：杨瀚森主要的问题是速度他郟君昊 | 2025-05-05
贸易战烧进电影院：特朗普拟重税打击習又夏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天寸飛蘭 | 2025-05-05
手机电池突破8000mAh？硅碳技术的回衛青柏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天繁綺文 | 2025-05-05
任天堂对Genki提起Switch 2商标侵郜萌運 | 2025-05-05
哪吒汽车APP和官网恢复正常知情人袁曼雁 | 2025-05-05
极越汽车 CEO 夏一平名下青岛/义乌集玲琳 | 2025-05-05
全国经济第一大省明确，推动组建农商佼昌翰 | 2025-05-05
桑保利：亚马尔有配合意识&有点像梅甄正浩 | 2025-05-05
高露现身上海虹桥机场黑色外套点缀亮色爱心装饰俏皮亮眼惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最强芯袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表情庆祝賁芳蕤 | 2023-05-02
曹操墓，里面都有啥？衛青柏 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露面賁芳蕤 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖尿病人集玲琳 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花板”？謝飛揚 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游戏+AI”能否逆风翻盘？衛青柏 | 2023-05-04
信用风险释放趋缓，结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望袁曼雁 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15日寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修正案集玲琳 | 2023-05-02
解除资格！停止一切合作佼昌翰 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
3699起联想小新mini主机上架 13代酷睿标压处理器習又夏 | 2023-05-05
前董事长被免，天山生物全面进入“中植系”时代？股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
事关农村土地承包和农民权益，《农村土地承包合同管理办法》5月1日起施行郟君昊 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线涨幅汇总袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，官方通报袁曼雁 | 2023-05-03
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的生活》证实将停办佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《与凤行》…在路上了惠惠君 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊带裙大秀好身材嬴覓晴 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，不容小觑幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02