大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

2024-10-17 简体 HK SG TW

今天小编分享的科学经验:国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10,欢迎阅读。

国产大模型首次在公开榜单上超过 GPT-4o!

就在刚刚," 大模型六小强 " 之一的零一万物正式对外发布新旗舰模型——Yi-Lightning(闪电)。

在大模型竞技场(Chatbot Arena)上,Yi-Lightning 性能直冲总榜单并列第6,数学分榜并列第 3,代码等其它分榜也名列前茅。

总成绩几乎与马斯克最新 xAI 大模型 Grok-2-08-13 持平,超越 GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet 等顶流。

同时,国内清华系大模型公司智谱 AI 的GLM-4-Plus也杀进了总榜,位居第 9位。

该榜单结果来自全球累积超千万次的人类用户盲测投票。

前段时间大模型竞技场还刚刚更新了规则,新榜单对 AI 回答的长度和风格等特征做了降权处理,分数更能反映模型真正解决问题的能力。

这次 Yi-Lightning 杀出重围,Lmsys 团队特意发帖子,称这是竞技场上的大新闻:

大模型竞技场总榜第六、国产第一

细看大模型竞技场分类榜上的 " 赛况 ",Yi-Lightning 各项能力都排在前头。

在中文能力上,Yi-Lightning 和 GLM-4-Plus 两个国产大模型都名列前位。

Yi-Lightning 跃居并列第二,和 o1-mini 相差无几。

数学能力,Yi-Lightning 和 Gemini-1.5-Pro-002 并列第 3,仅次于 o1-preview、o1-mini。

代码能力 Yi-Lightning 排名并列第 4。

另外在Hard Prompts和Longer Query分榜,Yi-Lightning 也都排在第 4 位。

最后同样值得关注的是,竞技场新功能风格控制过滤,确保分数反映模型真正解决问题的能力,而不是用漂亮的格式、增加回答长度。

在对长度和风格等特征做了降权处理后,所有模型分数均有下降,Yi-Lightning 排名变化不大,整体还与 GPT-4o、Grok-2 同一梯队。

发布会上,零一万物创始人兼 CEO 李开复博士展示了 Yi-Lightning 在不同场景上的能力。

Yi-Lightning 主打一个 " 推理速度更快,生成质量更好 "。

相比上半年 Yi-Large,Yi-Lightning 首包速度提升 1 倍,推理速度也提升了 4 成。

像是翻译下面这种文学作品,Yi-Lightning 不仅速度更快:

而且用词更精准,更具文学色彩:

那么 Yi-Lightning 是如何做到的?

好用还得极速

Yi-Lightning 采用MoE混合专家模型架构。

底层技术上,Yi-Lightning 在以下方面进行了提升。

首先是优化混合注意力机制(Hybrid Attention),只在模型的部分层次中将传统的全注意力(Full Attention)替换为滑动視窗注意力(Sliding Window Attention)。

由此以来,模型在保证处理长序列数据高性能表现的同时,还能大大降低推理成本。

Yi-Lightning 还引入了跨层注意力(Cross-Layer Attention, CLA),允许模型在不同的层次之间共享键(Key)和值(Value)头,减少对存储需求。

这使得 Yi-Lightning 能在不同层次之间更有效地共享信息。

总的来说,KV cache 缩小了 2-4 倍,同时将计算的复杂度从 O ( L ² ) 降至 O ( L ) 。

其次,Yi-Lightning 还采用了动态 Top-P 路由机制。

也就是说,Yi-Lightning 可以根据任务的难度动态自动选择最合适的专家网络组合——

训练过程中会激活所有专家网络,使模型能学习到所有专家知识;而推理阶段,根据任务的难度,模型会选择性激活更匹配的专家网络。

另外,之前有一些传言称国内大模型 " 六小强 ",有一些已经不做预训练了,李开复博士这次在发布会上直接 " 辟谣 ":

零一万物绝不放弃预训练。

而且在模型预训练阶段,团队还积累了丰富的多阶段训练方法,将整个训练分为两块,一块做好以后就把它固定起来,然后在这个固定的模型上再做后段训练。

训练前期,更注重数据多样性,使得 Yi-Lightning 尽可能学习不同的知识;训练后期更重内容更丰富、知识性更强的数据。

同时团队还在不同阶段采用不同的 batch size 和 LR schedule 保证训练速度和稳定性。

李开复博士还表示,零一万物开发模型讲究 " 模基共建 ",也就是共建模型和基础架构。

模型的训练、服务、推理设计,与底层的 AIInfra 架构和模型结构必须高度适配。

这样做的目的,不仅是让模型更好,而且让它在推理的时候能够更便宜。

再加上以上种种抬升 " 性价比 " 的技术加持,所以 Yi-Lightning 这次也是打到了白菜价——

0.99 元每 1M token

在中文等方面,Yi-Lightning 比肩 OpenAI 的 o1-mini,o1-mini 的定价是每百万输入 3 美元,每百万输出 12 美元。

Yi-Lightning 每百万 token 只需 0.99RMB 也是打到了骨折。

但李开复博士表示,即便这样也:不亏钱。

除了发布新模型,零一万物这次还首发了AI2.0 数字人方案。

目前该数字人已接入 Yi-Lightning,实时互动效果相比以往更强更自然了,belike:

最后谈起和国外头部大模型的差距,李开复博士表示这次 Yi-Lightning 的排名证明了国产大模型跟硅谷最顶尖模型的差距缩小到了五个月。

去跟追上美国最顶尖的模型,缩短这个时间差非常困难,要付出很大的努力和有独特的打法。在国内不少公司都在努力," 模基共建 " 则是零一万物自己摸索的独特路径。

参考链接:

[ 1 ] https://x.com/lmarena_ai/status/1846245604890116457

[ 2 ] https://x.com/01AI_Yi/status/1845776529185476613

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們