大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

國產模型指令跟随全球第一!來自LeCun親推的「最難作弊」大模型新榜單

2024-11-21 简体 HK SG TW

今天小編分享的科學經驗:國產模型指令跟随全球第一!來自LeCun親推的「最難作弊」大模型新榜單,歡迎閲讀。

What???

一直低調行事的國内初創公司,旗下模型悄悄地躍升成國内第一、世界第五(僅排在 o1 系列和 Claude 3.5 之後)!

而且是前十名中的唯一一家國產公司。

(該榜上國產第二名是阿裏開源的 qwen2.5-72b-instruct,總榜第 13)。

而且它登上的這個排行榜 LiveBench,雖然現在還沒有大模型競技場(LMSYS Chatboat Arena)那麼廣為人知,但資格杠杠的——

圖靈獎得主、Meta 首席 AI 科學家楊立昆(Yann LeCun),聯合紐約大學等在今年 6 月推出。

号稱是" 全球首個無法作弊的 LLM 基準測試 "。

而這次冷不丁殺出來的黑馬,其實比較熟悉國内大模型競争格局的朋友們已經猜到了——

Step 系列,背後是大模型六小虎之一的階躍星辰。

指令跟随高分拿下全球第一

在 LiveBench 榜單上,階躍星辰自研的萬億參數語言大模型 Step-2-16k-202411 在 Global Average 上拿下 57.68 分。

位列總榜第五、國產第一。

這個榜單之前出現頻率不高,一方面是它确實很新,今年 6 月才剛推出;另一方面更加現實,那就是此前國產大模型并未在這個榜單塔尖取得傲人成績。

這倒也不耽誤榜單自身的實力——

LeCun 和紐約大學等機構聯手推出,專為大模型設計,目前包含 6 個類别的 17 個不同任務,每月更新新問題。

目标是确保榜單的問題不易受到污染 ,并且能夠輕松、準确、公平地進行評估。

強調不易受到污染,是因為訓練數據中包含了大量互聯網内容,許多 BenchMark 很容易受到污染。

比如大家比較熟悉的數學測試集 GSM8K,最近被證明有好些模型已經在它這兒過拟合了。這顯然為評估模型能力帶來了困擾。

除了要小心 BenchMark 被污染,确保評估方式公平、無偏見也很重要。

一般來説,大家都采用的是 LLM 擔任評委或人類當裁判這兩種方式。而 LiveBench 選擇采用客觀、基本事實判斷來評估每個問題。

那麼,當我們首次正視這個榜單的時候,我們還能從其中看出些什麼?

先説成績出色的 Step-2。

IF Average 一項,也就是指令跟随,它以最高分拿下全球第一。

這個項目的内容,是對《衞報》近期新文章進行改寫、簡化、總結或生成故事。

86.57 這個成績是真的非常高——榜單上其餘眾人(哪怕是 OpenAI 和 Anthropic 家的模型們)都在 70-80 分段,單項第二名的 Meta-LLaMA-3.1-405b-instruct-turbo 比它低了 8 分多。

這意味着,Step-2 在語言生成上對細節有強控制力,理解能力 max,然後更好地遵循人類指令。

更具體些可以理解為,當我們普通人輸入語句颠倒、語意不清、表意模糊的非專業 · 真普通 · prompt 時,Step-2 能結合上下文、具體情境推斷使用者的具體需求,把一個模糊指令從 "360p" 進行 "1080p" 的理解,精準捕捉模糊指令背後的真實意圖。

同時意味着内容創作能力也很強,比如讓它創作一首古詩詞,它在字數、格律、押韻、意境等方面,都能有精準的把控。

完全自主研發,MoE 架構,萬億參數

在這次因為 LiveBench 又出來炸場一波之前,Step-2 留給外界的最深刻印象,一定有一個是 "國内首個由初創公司推出的萬億參數大模型"。

這有點像階躍風格的具像化。在大模型六小虎中,階躍的 Step 系列發布最晚,但出手毫不含糊。

今年 3 月,Step-2 在全球開發者先鋒大會開幕式預覽亮相,一下子就從前作 Step-1 的千億參數規模,拉升到了萬億參數規模。

吊足了胃口後,夏天的 WAIC 2024 期間,Step-2 推出正式版。

模型采用了 MoE 架構。

一般而言,主流訓練 MoE 模型有兩種方式,不然就基于已有模型通過 upcycle(向上復用)開始訓練,不然就從頭開始訓練。

Upcycle 方式所需算力相對更低、訓練效率更高,但随随便便就到這種方式的天花板了。

比如基于拷貝復制得到的 MoE 模型,非常容易出現專家同質化嚴重的情況。

而選擇從頭開始訓練 MoE 模型的話,能夠探得更高的模型上限,但作為代價,訓練難度也會增大。

但階躍團隊還是選擇了後者,選擇完全自主研發,選擇從頭開始訓練。

過程中,通過部分專家共享參數、異構化專家設計等創新 MoE 架構設計,Step-2 這個混合專家模型中的每個專家都得到了充分訓練。

故而,Step-2總參數量達到萬億級别,每次訓練或推理所激活的參數量也超過了市面上的大部分 Dense 模型。

此外,Step-2 的訓練過程中,階躍的系統團隊突破了 6D 并行、極致顯存管理、完全自動化運維等關鍵技術,支撐起了整個模型的高效訓練。

初亮相時,階躍官方表示:

Step-2 在數理邏輯、編程、中文知識、英文知識、指令跟随等方面體感全面逼近 GPT-4。

結合這次 LiveBench AI 的成績來看,團隊對 Step-2 的定位、優勢所在,把握得很清晰。

基座模型技術能力強,關鍵是要讓人用起來才行。

官方消息是,Step-2已經接入了階躍星辰的 C 端智能生活助手「躍問」,Web 端和 App 都可以試一把。

如果是開發者,可以在階躍星辰開放平台通過 API 接入使用 Step-2。

語言模型和多模态模型全都要

開篇咱們提到,Step 模型是一個系列,而 Step-2 是其語言模型的實力代表。

在這個系列中,除了語言模型,階躍星辰的多模态模型也很有看頭。

Step-1.5V是階躍星辰的多模理解大模型,這款模型在三個方面優勢突出:

一是感知能力。創新的圖文混排訓練方法,讓 Step-1.5V 能理解復雜圖表、流程圖、準确感知物理空間復雜的幾何位置,還能夠處理高分辨率和極限長寬比的影像。

二是推理能力。根據影像内容進行各類高級推理任務,如解答數學題、編寫代碼、創作詩歌等。

三是視頻理解能力。它不僅能夠準确識别視頻中的物體、人物和環境,還能夠理解視頻的整體氛圍和人物情緒。

生成方面,階躍手裏有Step-1X 影像生成大模型。

Step-1X 采用 DiT(Diffusion Models with transformer)架構,有 600M、2B 和 8B 三種不同的參數量,語意理解和影像創意實現兩手抓。

具體而言,不管文本指令簡單還是復雜,不管是畫單一對象還是多層次、復雜内涵場景,它都能 cover。

另外,該模型還支持針對中國元素的深度優化,使生成内容更适合國人的審美風格。

至于語言模型和多模态模型全都要,階躍有自己的道理。

從成立一開始,階躍星辰就明确了自身通往 AGI 的路線圖:

單模态——多模态——多模态理解和生成的統一——世界模型—— AGI。

換言之,階躍的目标是開發出能夠實現 AGI 的多模态大模型,并利用這些自主研發的大模型,創造新一代的 AI 應用。

為着這個目标,這一年多來,階躍已經寫下了屬于自己的答案。

研發迭代速度很快,不到一年,無論 Step-1 到 Step-2, 還是 Step-1V 到 Step-1.5V,整體持續跑步前進中。

產品也有自己的想法,沒有局限在 ChatBot 上。Step-2 登頂國内的同一天,階躍旗下的躍問還上了一個新功能:

簡單設定,就能通過 iPhone 16 右下方側邊的 " 相機控制 " 按鈕,一鍵調用 " 拍照問 " 功能。

沒有 iPhone 16 的蘋果用户,把系統更新到 iOS18 也能一步調用國產 AI 了。

雖然已經在六小虎中占據一席,但近日看階躍,仍然想以黑馬來形容它。

論技術和實力,Step-2 能突然殺到業界權威榜單國内第一,成為全球榜單前十唯一國產玩家。

大模型浪潮奔騰至今,已經有快兩年的時間了。

兩年裏,投身其中的技術從業者們都在(看似分布其實共同)打造一個願景,一個許多人都願意參與并與之聯系在一起的願景。

有理由相信,階躍 Step 系列,以及中國的大模型們,都會因為卓越的技術實力和不懈的創新追求,越來越熠熠生輝。

One More Thing

上個月,智源研究院推出辯論平台 FlagEval Debate,旨在通過引入模型辯論這一競争機制對大模型能力評估提供新的度量标尺。

和大模型競技場玩法有點類似,就是倆模型一個正方一個反方,雙盲測試,辯論完後用户投票。

然後才揭曉正反雙方都是誰。

模型辯論,主要靠的是信息理解、知識整合、邏輯推理、語言生成和對話能力。

當然了,同時還能測復雜語境中信息的處理深度和遷移應變能力,反映其學習與推理的進步水平。

淺玩了一下,有些議題還蠻有意思。

比如 " 博物館着火,只能救一個,救貓還是救《蒙娜麗莎》" 這個議題。

倆模型吵到後面," 貓有九條命 " 的話都説出來了,笑死。

最後反復投了幾次,Step-2 大勝 o1。

看來它辯論能力也很強呀……

榜單官網:https://livebench.ai/#/blog

躍問鏈接:https://yuewen.cn

FlagEval Debate 官網:https://flageval.baai.org/#/debate

—  完  —

點這裏關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們