權威榜單登頂國内第一，階躍星辰Step-2是如何煉成的

今天小編分享的科技經驗：權威榜單登頂國内第一，階躍星辰Step-2是如何煉成的，歡迎閲讀。

國際權威榜單 LiveBench 官網近日發布了一份最新的模型能力榜單。階躍星辰自研的萬億參數語言大模型 Step-2 在榜單中位列國產基座大模型第一，成績逼近 OpenAI 的 o1-mini-2024-09-12，超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等國際主流模型，是唯一進入榜單前十名的中國語言大模型，位列全球第五。

雖然大模型的評測榜單已經泛濫，但 LiveBench 卻是實打實的大有來頭。

LiveBench 是由圖靈獎得主、Meta 首席 AI 科學家楊立昆（Yann LeCun）聯合 Abacus.AI、紐約大學等機構推出的大模型測評基準。LiveBench 從包括數學、推理、編程、語言理解、指令遵循和數據分析在内的多個復雜維度對模型進行評估。之所以名字裏有個「live」，就是因為這個榜單采用了新穎的數據來源并保持每月更新，這杜絕了大模型通過預訓練和微調作弊的可能性。LiveBench 也被行業内譽為「世界上第一個不可玩弄的 LLM 基準測試」，官網上明晃晃地寫着「A Challenging，Contamination-Free LLM Benchmark」。

簡單來説，經常對着當今由 OpenAI 引領的大模型技術路線一通抨擊的楊立昆牽頭做了一個對刷榜行為異常警覺的大模型評測基準——而就是這樣一個十分嚴苛的榜單，Step-2 在其中 IF Average（Instruction Following，指令遵從）一項中拿到了第一。

根據評測基準 LiveBench 的論文中叙述，測評團隊在 IF Average 測試中為模型提供了一篇來自《衞報》的文章，要求模型遵循多個随機抽取的指令，同時要求模型完成與文章相關的四個任務之一：釋義、簡化、故事生成和總結。然後根據任務對指令的遵守情況來評分。評測結果是 Step-2 拿到了 86.57 的平均分，gemini-1.5-flash-002 得到了 84.55，在這兩個唯二超過 80 分的模型之後，meta-llama-3.1-70b-instruct-turbo 以 79.08 緊随其後，而以推理能力見長的 o1-preview-2024-09-12 得到了 77.72 分。

從 LiveBench 的測試結果看，目前 Step-2 在指令遵從的能力上力壓了當今所有國内外語言大模型。

強勁的 Step-2 萬億參數模型

説 Step-2「異軍突起」或許并不準确。

階躍星辰在今年 3 月發布了 Step-2 語言大模型預覽版，是當時國内首個由創業公司發布的萬億參數大模型。此後的幾個月内，階躍星辰快速迭代 Step-2，在 2024 年 WAIC（世界人工智能大會）期間對外發布了這款模型的正式版，彼時 Step-2 在數理邏輯、編程、中文知識、英文知識、指令跟随等方面體感已經全面逼近 GPT-4。目前，階躍星辰 C 端智能助手「躍問」已經接入了 Step-2 語言大模型，在躍問 App 和躍問網頁端皆可體驗。

但以成長速度來説，Step-2 用四個月追到與 GPT-4 幾乎身位平行，又用了 4 個月完成對 Gemini-1.5 和 GPT-o1 部分能力的反超，步子邁的确實很快。

但這也并不讓人太過意外，由于特殊的 MoE 架構，Step-2 從最初就被視為極富成長性的「高潛力」基礎模型。

在大規模語言模型（LLM）的發展過程中，Mixture of Experts（MoE）架構因其獨特的優勢受到越來越多的關注。這種架構通過選擇性地激活部分專家網絡，在提升模型性能的同時保持了較高的計算效率。而目前訓練 MoE 模型主要存在兩種策略：一種是基于已有模型的 upcycle（向上復用）訓練，另一種則是從頭開始訓練。

Upcycle 訓練是一種利用現有模型進行訓練的方法。它的優勢在于對計算資源的需求較低，訓練效率高。因為可以復用已有的模型參數，訓練過程更快。這種方法适合在資源有限的情況下快速開發和驗證模型。然而，upcycle 訓練的缺點是模型的性能上限較低。由于基于已有模型的拷貝，專家網絡可能會出現同質化問題，即多個專家學習到相似的特征，限制了模型的多樣性和最終性能。

相比之下，完全從零構建和訓練 MoE 模型，面臨着更高的訓練難度和更大的資源投入，但同時能夠帶來更高的模型性能上限。這種方法允許開發者設計更為復雜和多樣化的專家網絡，使得每個專家網絡都能夠學習到更加獨特和專門化的特征。同時也提供了更大的靈活性，開發者可以根據具體需求對模型架構進行精細的調整和優化。

市面上所謂的 MoE 大部分是前者，而階躍星辰團隊在設計 Step-2 MoE 架構時候選擇了後者。

這也意味着 Step-2 每次訓練或推理所激活的參數量都超過了市面上的大部分 Dense 模型。也讓 Step-2 有了另一個更讓外界印象深刻的标籤——萬億參數模型。而往往更大參數的語言模型意味着更好的交付效果，特别是在指令遵循、内容創作和語義理解層面。

躍遷式進化的階躍星辰

階躍星辰的名字來自于「階躍函數」。

階躍函數（Step Function）是一種分段常數函數，其特征是在某些特定點上發生突變，即函數值在這些點上會突然從一個常數值跳躍到另一個常數值。這種函數通常用于描述系統中某種瞬時的變化或狀态的切換。

在神經網絡中，階躍函數可以用作激活函數，幫助模型在輸入達到某個阈值時激活輸出。這種激活過程可以視為一種超線性增長，因為輸出在某個點上突然變得顯著。

階躍星辰也帶着相似的某種躍遷和超線性的感覺，這家大模型初創公司沒有喧鬧的天性，每次回到公眾的視線内都意味着有了重大的能力提升。

除了語言大模型 Step-2，階躍星辰也很早就在 Step 系列通用大模型家族中展開了多模态方面的探索。在 2024 年 3 月，階躍星辰推出了千億參數的多模态大模型的第一個版本 Step-1V，在 7 月的 WAIC 期間，階躍星辰一口氣連發三款 Step 系列通用大模型新品。除了 Step-2 萬億參數語言大模型正式版之外，也包括 Step-1V 的迭代版本 Step-1.5V 多模态理解大模型，以及 Step-1X 影像生成大模型。

半年時間，階躍星辰從萬億參數的語言大模型出發，迅速完成了語言模型和多模态模型的齊頭并進。

在 Step-2 萬億參數大模型的加持下，Step-1.5V 多模态模型在影像感知和理解能力上全面提升，并具備出色的視頻理解能力。它能準确地識别視頻中的物體、人物和環境，并理解視頻的整體氛圍與人物情緒。除此之外，Step-1.5V 有着非常可觀的推理能力，能根據影像内容進行解答數學題、編寫代碼、創作詩歌等高級推理任務。基于這款模型，階躍星辰還在 C 端智能助手「躍問」上線了智能視覺搜索功能「拍照問」，用户可以即拍即問，比如拍美食圖計算卡路裏、拍場景學習英文單詞等等。

如果説 Step-1.5V 的發布，标志了階躍星辰在極短的時間内實現了從影像理解到視頻理解的跨模态更新，那麼新發布的 Step-1X 影像生成大模型，則代表了階躍星辰在推動多模态理解和生成一致性的技術路線上也有了重要進展。

Step-1X 采用全鏈路自研的 DiT（Diffusion Models with transformer）模型架構，支持 600M、2B、8B 三種不同的參數量，能夠滿足不同場景的需求。并且 Step-1X 具備強大的語義對齊和指令跟随能力，還針對中國元素和文化進行了深度優化，更具中國風格。這也是 Step-1X 區别于其他模型的重要特色。

除了在基座模型層面布局全面、快速迭代之外，階躍星辰在產品化上步伐同樣迅速：智能助手「躍問」和 AI 開放世界平台「冒泡鴨」，是階躍星辰面向 C 端用户推出的兩款產品。

基于 Step 系列通用大模型的強大能力，「躍問」能準确地描述和理解影像中的文字、數據、圖表等信息，不僅能出色地完成内容創作、邏輯推理、數據分析等任務，也能滿足人們在生活場景中的各種需求，比如可以拍圖介紹文物古迹背後的歷史知識、幫忙制訂旅遊攻略、輔助健康管理等等。

「冒泡鴨」則打造了一個全新的 AI 開放世界。在這裏，用户可以探索故事、創作角色，沉浸屬于自己的開放世界。

目前 AI 應用普遍面臨用户使用門檻偏高的問題，階躍星辰也在通過一系列產品創新，讓 AI 應用獲得更多普世化場景，能夠真正為每個人解決問題。近期，「躍問」将智能視覺搜索功能「拍照問」接入了 iPhone 16 新發布的相機控制按鈕，支持用户一鍵調用智能問答搜索。是國内首個将大模型能力接入 iPhone 16 的大模型廠商，在多模态能力與硬體的結合上邁出了引人注目的一步。

在階躍星辰 CEO 姜大昕看來，模型和應用的關系猶如「靈魂與皮囊」，兩者的深度綁定才是實現技術極致的關鍵，應當形成一種協同進化的關系。應用将抽象的模型能力投射進現實，而模型能力最終決定着一切的上限。

近幾個月，OpenAI 發布的 o1 一定程度上印證了大模型此前并未受到足夠重視的技術方向，也就是強化學習以及強化學習所帶來的在推理和規劃能力上的突出表現。而在階躍星辰最初「模拟世界、探索世界和歸納世界」的 AGI 發展路線圖中，世界模型和強化學習就在确定要攻克的版圖上。

現在大模型技術曲線從陡坡放緩的大背景下，無論是模型多模态的能力、殺手級 AI 產品的出現，或者對強化學習訓練更好地運用，諸多亟待突破的地方，希望又比以往任何時候都更明确的落在基礎模型的能力上。

Step-2 和整個 Step 系列模型，或許就是那個階躍星辰撬動世界的支點。