大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

国产模型指令跟随全球第一!来自LeCun亲推的「最难作弊」大模型新榜单

2024-11-21 简体 HK SG TW

今天小编分享的科学经验:国产模型指令跟随全球第一!来自LeCun亲推的「最难作弊」大模型新榜单,欢迎阅读。

What???

一直低调行事的国内初创公司,旗下模型悄悄地跃升成国内第一、世界第五(仅排在 o1 系列和 Claude 3.5 之后)!

而且是前十名中的唯一一家国产公司。

(该榜上国产第二名是阿里开源的 qwen2.5-72b-instruct,总榜第 13)。

而且它登上的这个排行榜 LiveBench,虽然现在还没有大模型竞技场(LMSYS Chatboat Arena)那么广为人知,但资格杠杠的——

图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun),联合纽约大学等在今年 6 月推出。

号称是" 全球首个无法作弊的 LLM 基准测试 "。

而这次冷不丁杀出来的黑马,其实比较熟悉国内大模型竞争格局的朋友们已经猜到了——

Step 系列,背后是大模型六小虎之一的阶跃星辰。

指令跟随高分拿下全球第一

在 LiveBench 榜单上,阶跃星辰自研的万亿参数语言大模型 Step-2-16k-202411 在 Global Average 上拿下 57.68 分。

位列总榜第五、国产第一。

这个榜单之前出现频率不高,一方面是它确实很新,今年 6 月才刚推出;另一方面更加现实,那就是此前国产大模型并未在这个榜单塔尖取得傲人成绩。

这倒也不耽误榜单自身的实力——

LeCun 和纽约大学等机构联手推出,专为大模型设计,目前包含 6 个类别的 17 个不同任务,每月更新新问题。

目标是确保榜单的问题不易受到污染 ,并且能够轻松、准确、公平地进行评估。

强调不易受到污染,是因为训练数据中包含了大量互联网内容,许多 BenchMark 很容易受到污染。

比如大家比较熟悉的数学测试集 GSM8K,最近被证明有好些模型已经在它这儿过拟合了。这显然为评估模型能力带来了困扰。

除了要小心 BenchMark 被污染,确保评估方式公平、无偏见也很重要。

一般来说,大家都采用的是 LLM 担任评委或人类当裁判这两种方式。而 LiveBench 选择采用客观、基本事实判断来评估每个问题。

那么,当我们首次正视这个榜单的时候,我们还能从其中看出些什么?

先说成绩出色的 Step-2。

IF Average 一项,也就是指令跟随,它以最高分拿下全球第一。

这个项目的内容,是对《卫报》近期新文章进行改写、简化、总结或生成故事。

86.57 这个成绩是真的非常高——榜单上其余众人(哪怕是 OpenAI 和 Anthropic 家的模型们)都在 70-80 分段,单项第二名的 Meta-LLaMA-3.1-405b-instruct-turbo 比它低了 8 分多。

这意味着,Step-2 在语言生成上对细节有强控制力,理解能力 max,然后更好地遵循人类指令。

更具体些可以理解为,当我们普通人输入语句颠倒、语意不清、表意模糊的非专业 · 真普通 · prompt 时,Step-2 能结合上下文、具体情境推断使用者的具体需求,把一个模糊指令从 "360p" 进行 "1080p" 的理解,精准捕捉模糊指令背后的真实意图。

同时意味着内容创作能力也很强,比如让它创作一首古诗词,它在字数、格律、押韵、意境等方面,都能有精准的把控。

完全自主研发,MoE 架构,万亿参数

在这次因为 LiveBench 又出来炸场一波之前,Step-2 留给外界的最深刻印象,一定有一个是 "国内首个由初创公司推出的万亿参数大模型"。

这有点像阶跃风格的具像化。在大模型六小虎中,阶跃的 Step 系列发布最晚,但出手毫不含糊。

今年 3 月,Step-2 在全球开发者先锋大会开幕式预览亮相,一下子就从前作 Step-1 的千亿参数规模,拉升到了万亿参数规模。

吊足了胃口后,夏天的 WAIC 2024 期间,Step-2 推出正式版。

模型采用了 MoE 架构。

一般而言,主流训练 MoE 模型有两种方式,不然就基于已有模型通过 upcycle(向上复用)开始训练,不然就从头开始训练。

Upcycle 方式所需算力相对更低、训练效率更高,但随随便便就到这种方式的天花板了。

比如基于拷贝复制得到的 MoE 模型,非常容易出现专家同质化严重的情况。

而选择从头开始训练 MoE 模型的话,能够探得更高的模型上限,但作为代价,训练难度也会增大。

但阶跃团队还是选择了后者,选择完全自主研发,选择从头开始训练。

过程中,通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计,Step-2 这个混合专家模型中的每个专家都得到了充分训练。

故而,Step-2总参数量达到万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分 Dense 模型。

此外,Step-2 的训练过程中,阶跃的系统团队突破了 6D 并行、极致显存管理、完全自动化运维等关键技术,支撑起了整个模型的高效训练。

初亮相时,阶跃官方表示:

Step-2 在数理逻辑、编程、中文知识、英文知识、指令跟随等方面体感全面逼近 GPT-4。

结合这次 LiveBench AI 的成绩来看,团队对 Step-2 的定位、优势所在,把握得很清晰。

基座模型技术能力强,关键是要让人用起来才行。

官方消息是,Step-2已经接入了阶跃星辰的 C 端智能生活助手「跃问」,Web 端和 App 都可以试一把。

如果是开发者,可以在阶跃星辰开放平台通过 API 接入使用 Step-2。

语言模型和多模态模型全都要

开篇咱们提到,Step 模型是一个系列,而 Step-2 是其语言模型的实力代表。

在这个系列中,除了语言模型,阶跃星辰的多模态模型也很有看头。

Step-1.5V是阶跃星辰的多模理解大模型,这款模型在三个方面优势突出:

一是感知能力。创新的图文混排训练方法,让 Step-1.5V 能理解复杂图表、流程图、准确感知物理空间复杂的几何位置,还能够处理高分辨率和极限长宽比的影像。

二是推理能力。根据影像内容进行各类高级推理任务,如解答数学题、编写代码、创作诗歌等。

三是视频理解能力。它不仅能够准确识别视频中的物体、人物和环境,还能够理解视频的整体氛围和人物情绪。

生成方面,阶跃手里有Step-1X 影像生成大模型。

Step-1X 采用 DiT(Diffusion Models with transformer)架构,有 600M、2B 和 8B 三种不同的参数量,语意理解和影像创意实现两手抓。

具体而言,不管文本指令简单还是复杂,不管是画单一对象还是多层次、复杂内涵场景,它都能 cover。

另外,该模型还支持针对中国元素的深度优化,使生成内容更适合国人的审美风格。

至于语言模型和多模态模型全都要,阶跃有自己的道理。

从成立一开始,阶跃星辰就明确了自身通往 AGI 的路线图:

单模态——多模态——多模态理解和生成的统一——世界模型—— AGI。

换言之,阶跃的目标是开发出能够实现 AGI 的多模态大模型,并利用这些自主研发的大模型,创造新一代的 AI 应用。

为着这个目标,这一年多来,阶跃已经写下了属于自己的答案。

研发迭代速度很快,不到一年,无论 Step-1 到 Step-2, 还是 Step-1V 到 Step-1.5V,整体持续跑步前进中。

产品也有自己的想法,没有局限在 ChatBot 上。Step-2 登顶国内的同一天,阶跃旗下的跃问还上了一个新功能:

简单設定,就能通过 iPhone 16 右下方侧边的 " 相机控制 " 按钮,一键调用 " 拍照问 " 功能。

没有 iPhone 16 的苹果用户,把系统更新到 iOS18 也能一步调用国产 AI 了。

虽然已经在六小虎中占据一席,但近日看阶跃,仍然想以黑马来形容它。

论技术和实力,Step-2 能突然杀到业界权威榜单国内第一,成为全球榜单前十唯一国产玩家。

大模型浪潮奔腾至今,已经有快两年的时间了。

两年里,投身其中的技术从业者们都在(看似分布其实共同)打造一个愿景,一个许多人都愿意参与并与之联系在一起的愿景。

有理由相信,阶跃 Step 系列,以及中国的大模型们,都会因为卓越的技术实力和不懈的创新追求,越来越熠熠生辉。

One More Thing

上个月,智源研究院推出辩论平台 FlagEval Debate,旨在通过引入模型辩论这一竞争机制对大模型能力评估提供新的度量标尺。

和大模型竞技场玩法有点类似,就是俩模型一个正方一个反方,双盲测试,辩论完后用户投票。

然后才揭晓正反双方都是谁。

模型辩论,主要靠的是信息理解、知识整合、逻辑推理、语言生成和对话能力。

当然了,同时还能测复杂语境中信息的处理深度和迁移应变能力,反映其学习与推理的进步水平。

浅玩了一下,有些议题还蛮有意思。

比如 " 博物馆着火,只能救一个,救猫还是救《蒙娜丽莎》" 这个议题。

俩模型吵到后面," 猫有九条命 " 的话都说出来了,笑死。

最后反复投了几次,Step-2 大胜 o1。

看来它辩论能力也很强呀……

榜单官网:https://livebench.ai/#/blog

跃问链接:https://yuewen.cn

FlagEval Debate 官网:https://flageval.baai.org/#/debate

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們