今天小編分享的互聯網經驗:在 ICLR 2024,看見中國大模型的力量,歡迎閲讀。
作者 | 賴文昕
編輯 | 陳彩娴
近日(5.7-5.11),第十二屆國際學習表征會議(ICLR)在奧地利維也納的展覽會議中心召開。
ICLR 2024 的論文終審工作自 1 月份啓動以來,共收到了 7262 篇提交論文,相較于上一年度的 4966 篇,增幅達到了 46.1%,接近翻了一番。
在嚴格的評審過程中,大會最終接受了 2260 篇論文,整體接收率維持在 31%,與去年的 31.8% 基本持平,其中 Spotlights 和 Oral 兩種類型的論文展示分别有 367 篇(占 5%)和 86 篇(占 1.2%)論文獲選。
除了論文數量激增外,大模型(LLM)也成為今年 ICLR 的熱門關鍵詞之一。以 LLM 為研究主題的投稿論文數量暴漲,研究團隊來自全球各地,涵蓋多個細分方向,ICLR 也由此吸引了美國微軟、谷歌、OpenAI、Anthropic、Meta,以及中國智譜、百度、面壁等多個科技團隊的參會。
可以説,今年人工智能領網域首個舉辦的 ICLR 不僅是一個傳統的學術會議,也是全球工業界大模型團隊正面較量的縮影。ICLR 2024 的截稿日期是 2023 年 9 月 28 日,但在過去的大半年,LLM 在 AI 領網域依然狂飙不止。
更值得關注的是,從今年的 ICLR 論文成果與演講來看,經過一年的研究,各家在大模型上的研究已經不只停留在 " 研究 OpenAI"、" 追趕 OpenAI" 的階段。尤其是中國的研究團隊,他們已經不再單純模仿 OpenAI。
相反,LLM 的研究團隊都不約而同地提出了自己對 AGI 的思考。
LLM 成為絕對主角
ICLR 是由深度學習領軍人物、圖靈獎三巨頭之二的 Yoshua Bengio 和 Yann LeCun 牽頭發起的,首屆會議于 2013 年在美國亞利桑那州的斯科茨代爾舉辦。
盡管與 NeurIPS(神經信息處理系統大會)和 ICML(國際機器學習大會)相比,ICLR 的年資尚淺,但其學術影響力和認可度正日益提升,現已與前兩者一起被公認為機器學習領網域的三大頂級會議,參會人數與投稿數量也逐年顯著增加。
ICLR 歷年數據:https://papercopilot.com/statistics/iclr-statistics/
會議召開的前一天,ICLR 2024 的官方網站公布了本年度的獲獎論文名單,特别表彰了 5 篇傑出論文和 11 篇榮譽提名論文。5 篇傑出論文主要圍繞影像擴散模型、模拟人機互動、預訓練和微調、離散蛋白質序列數據的建模與 Vision Transformers 展開研究,其中預訓練與微調就是大模型相關。
根據 ICLR 公布的接收論文數據,被提及次數最多的前十個關鍵詞分别是:大語言模型(LLM)、強化學習、圖神經網絡、擴散模型、深度學習、表征學習、生成模型、聯邦學習、語言模型與可解釋性。
在這些關鍵詞中,LLM 排名第一,被 318 篇研究提及,與位列第二名的強化學習(201 篇)相比,整整多了 1/3,毫無疑問成為 ICLR 的絕對主角。
這 301 篇以 LLM 為研究主題的工作所涵蓋的具體方向也十分廣泛,如關于智能體(Agent)的研究、與強化學習結合、與其他生成模型結合、與三維重建結合、在 NLP 領網域的應用、在多模态領網域的應用、碳足迹建模等等。
在被 ICLR 接收的 LLM 相關論文中,有不少過去幾個月令人驚豔的新科研成果或產品,比如由深度賦智等中國團隊開發、開源的多 Agent 開發框架 MetaGPT。
MetaGPT 模拟了一個完整的虛拟軟體團隊,包括多個角色如產品經理和工程師,采用标準操作流程,旨在自動化編程任務,解決大模型應用問題,能輸出設計、架構和代碼。這篇論文在 ICLR 2024 中得到了 8.0 的高分。
普林斯頓大學和芝加哥大學聯合發布的 LLM 評估框架 SWE-bench 也被選中為 Oral 論文。
這是一個由來自 GitHub 中真實的 2294 個軟體工程問題以及 12 個流行的 Python 存儲庫中的拉取請求所組成的評估框架,通過給定代碼庫以及要解決的問題的描述,測評 LLM 編輯代碼庫解決問題的能力。
解決 SWE-bench 中的問題通常需要同時理解和協調多個函數甚至是檔案之間的更改,調用模型與執行環境互動,處理極長的上下文,并執行遠超出傳統代碼生成任務的復雜推理。可以説,這個測評标準的出現,讓市面上大模型的性能比拼有了更直觀的數據。
此外,還有 MIT、港中文及英偉達提出的超長上下文 LLM 高效微調方法 LongLoRA 。
這是一種十分有效的微調方法,通過稀疏的局部注意力進行微調, LongLoRA 實現了上下文擴展,節省了計算量,并具有與普通注意力微調相似的性能。
ICLR 2024 還出現了 LLM 與碳足迹的新穎結合。來自印第安納大學與傑克遜州立大學的研究團隊發現,能在訓練前預測新神經網絡的碳足迹的工具 mlco2 存在局限性,如無法估算密集或專家混合(MoE)LLM 的碳足迹,忽視關鍵架構參數,僅關注 GPU,且無法對具體碳足迹進行建模。
為解決這些局限,他們開發了一種專為密集和 MoE LLM 設計的、端到端碳足迹預測模型,顯著提高了 LLM 碳足迹估算的準确性。
關于 LLM 與三維重建的結合,澳大利亞國立大學與 Adobe 研究中心提出的 LRM,能夠在短短 5 秒内從單個輸入影像預測對象的 3D 模型。
與以往在小規模數據集上訓練的方法不同,LRM 采用高度可擴展的、基于 Transformer 的架構,擁有 5 億個可學習參數,并可以直接從數據集預測神經輻射場(NeRF)。研究團隊在大約包含 100 萬個對象的海量多視圖數據上以端到端的方式訓練了 LRM,包括來自 Objaverse 的合成渲染和來自 MVImgNet 的真實截圖。
無論是 MetaGPT 還是 LongLoRA,國内大模型的研發人員均參與其中,放眼望去,入選的華人作者更是比比皆是。
而來到 ICLR 2024 的大會現場,中國的大模型初創團隊如智譜 AI,互聯網科技大廠如字節、百度、美團、華為、螞蟻的身影更是遍布在展會各處,在 32 個參會企業中占領了其中的 6 席。
Keynote 演講中,智譜等來自中國的大模型公司也作了深入分享,吸引了來自國内外 LLM 參會者的廣泛關注。
不難發現,中國團隊已成為大模型研究熱潮中不可忽視的主力軍。
從 ICLR 看見 " 中國 AGI"
2023 年 ChatGPT 引爆大模型熱潮後,AGI 就成為了備受關注的焦點議題。如何通往 AGI,成為了無論是技術驅動、產品驅動還是商業驅動團隊都要争相回答的問題。
從 GPT-3 到 GPT-3.5,從 ChatGPT 到 GPT-4 與 GPT-4V,OpenAI 的下一步 "GPT-X" 一度成為行業最熱的話題猜測,并曾被狂熱地視為 "LLM 的下一步 "。
然而,随着越來越多的研究者加入,中國的大模型研究者開始批判思考 "OpenAI 模式 " 與 "GPT 路線 "。據 AI 科技評論與多個中國大模型團隊的交流,他們越來越相信,如果一味追趕 OpenAI,那麼 " 我們将最多成為 OpenAI,卻無法超越 OpenAI"。
比如,有大模型團隊指出,大模型不具備 " 智能湧現 " 的能力,一味追求通過擴大模型規模來實現模型智能的路線風險極高,大模型要通過具體的產品與服務來實現價值。2023 年斯坦福團隊獲選 NeurIPS 最佳論文的工作 "Are Emergent Capabilities of LLMs a Mirage?" 就指出,大模型的智能湧現能力也許是錯覺。
OpenAI 的單向路線以及過度依賴長序列的方法,也引起行業的反思。以長文本為例,如果説大模型的目标是實現 AGI,那麼從 AGI 的終極目标倒推,AGI 所應包含的能力并不是 OpenAI 大模型的現有架構所能很好解決的。類比人類的能力,人會通過多次做一件事、越做越熟練,且掌握一項技能(如騎自行車)後就不會遺忘,但目前的大模型并不具備類似人的這種 " 經驗性記憶 ",長文本與長序列目前也沒有顯示出表達這種能力的潛力。
相比模仿 OpenAI,中國的大模型創業者開始趨于從 AGI 的第一性原理出發,思考一條獨特的、同時符合中國市場與服務的技術路線。
即使是被外界視為從模型到產品全面對标 OpenAI 的智譜 AI,在如何實現 AGI 的路徑上也有與 OpenAI 不同的思考。這一差異在智譜團隊于 ICLR 2024 大會現場發表的主旨演講内容中可見一斑。作為唯一受邀作主旨演講的中國 LLM 團隊,智譜在 ICLR 圍繞 "ChatGLM 的 AGI 之路 " 分享了團隊的獨特思考。
盡管模型矩陣與 OpenAI 相似,但智譜的 AGI 核心與路徑卻大大區别于 OpenAI。
從 2019 年開始,智譜的大模型研究以 " 認知 "(Cognition)為核心,借鑑人類思維,将模型的能力研發分為負責快速直覺的 " 系統 1" 與負責慢速邏輯的 " 系統 2"。這借鑑了 Yoshua Bengio 最早提出的 "System 1" 與 "System 2" 理論。
智譜的思考是:系統 1 以 LLM 為核心,能迅速響應簡單問題;系統 2 則采用知識圖譜構建,能處理復雜的推理任務,建立短期和長期記憶,還具備無意識學習和自我管理等功能。這是為了讓計算機程式能像人類運用左右腦一樣,既能快速回答簡單問題,又能通過推理回答復雜問題。
此外,智譜的 GLM 大模型采取雙向自回歸路線,而 OpenAI 的 GPT 系列采取單向自回歸路線。雙向自回歸的特點是:在生成 token 時,GLM 可以只關注單側的上下文;在采用随機化的 token 控制策略處理已知 token 時,GLM 又能同時考慮兩側的上下文,實現對單向和雙向注意力機制的雙重管理。
這相當于将 BERT 的填空功能與 GPT 的生成能力相結合,通過自回歸的方式做 " 完形填空 "。因此,在某些任務,GLM-130B 的性能能超過 GPT-3。
此外,智譜的大模型技術團隊還認為,人類大腦具有多模态的感知與理解能力,以及短期和長期記憶能力以及推理能力的組合。因此,視覺語言模型(VLM)也是通往 AGI 不可缺少的一環。
CogVLM 就此誕生。這是一個開源的影像理解模型,旨在彌合 LLM 與視覺編碼器之間的差距。通過将文本信息與視覺編碼相結合,并對該組合模塊進行訓練,CogVLM 實現了文本與影像間精确的映射,極大地提升了模型對視覺内容的理解和生成能力,也被用于 Stable Diffufion 3 的影像标注。
技術團隊還研發了一個創新級聯框架 CogView3。作為第一個在文本到影像生成領網域實現級聯擴散的模型, CogView3 在人類評估中比當前最先進的開源文本到影像擴散模型 SDXL 性能高出 77.0%,推理時間卻僅為其大約一半的長度,其蒸餾變體在性能相當的情況下,甚至只需 SDXL 的 1/10 的推理時間。
随着 CogVLM 的加入,GLM-4V 也投入了使用,無論是面對包含世界常識的圖片還是需要理解推理的圖表,GLM-4V 都能提供言之有物的回復。
為了讓 GLM-4V 能自動產生不同的功能,如增加長文本的模式以儲存長期記憶,或從反饋中不斷自我學習完善,GLM 大模型技術團隊開發了能為 LLM 啓用通用代理(Agent)能力的 AgentTuning。
此前,大模型訓練是通過輸入數據讓其不斷學習和微調,但這個方法的缺點是它無法推廣至其他更廣泛的情況。而 AgentTuning 只需用少量案例和有限的标記數據,就可以将訓練好的模型推廣到不同的模型之中。
與此同時,大模型的 " 湧現能力 " 同樣是智譜技術團隊一直在探索的問題。在 LLM 烈火烹油的幾年間,Scaling Law 被封為鐵律,不少人認為模型大小與訓練數據量的增加才能讓模型 " 智能湧現 "。
OpenAI 科學家 Jason Wei 于 2022 年在機器學習期刊 TMLR 上發表了論文,提出 LLM 湧現能力中的某些能力僅在大模型中顯現,小模型并不具備,因此大模型的新興能力無法僅憑小模型的性能來預測,而增加模型的規模後,新興能力自然會呈線性提高。
而智譜在不久前發布的研究卻提出了一個新的理解:損失(Loss)才是湧現的關鍵,而非模型參數。
将訓練損失标為 X 軸、模型性能标為 Y 軸後,研究人員發現,如果訓練損失達到了 2.2 的阈值,模型性能就會攀升。由此可見,模型的 " 湧現能力 " 除了與模型大小、訓練數據量緊密關聯,也可能源自于訓練損失。
論文地址:https://arxiv.org/pdf/2403.15796.pdf
可以預見,GLM 系列将迎來新更新,GLM-4.5 及其後續版本将融合超級智能(SuperIntelligence)和超級對齊(SuperAlignment)技術,在增強模型的安全性的基礎上構建全面的多模态模型。而這些成果的迭代,都是源于一個團隊的創新思考。
在 ICLR 大會演講中,智譜提出了自己的 AGI 思考:
首先是在文本這一最關鍵的智能基礎上混合影像、視頻、音頻等多種模态,将 LLM 應用于聊天、OCR 識别等場景中;接着開發虛拟的 Agent 來協助用户完成多種任務,再之後是開發能與現實世界互動并得到其反饋的 Agent,接下來甚至可能是機器人,通過機器人和現實世界互動後得到真實反饋、以進一步實現 AGI ……
智譜團隊還提出了一個有意思的概念:GLM-OS。
在他們的設想中,這是一個以大模型為核心的通用計算系統,能利用現有的 All-Tools 功能,結合記憶和自我反饋機制,模拟人類的計劃 - 執行 - 檢查 - 行動(Plan-Do-Check-Act, PDCA)循環,實現自我優化。這一設想引起會議觀眾的熱烈關注,也展示了中國大模型團隊的前瞻性與思考力。
最後,團隊分享了自 2019 年起研發的 GLM-zero 技術,該技術探索了類似人類在睡眠中仍進行學習的無意識學習機制,涉及自我引導、反思和批評,旨在深化對意識、知識和學習行為的理解,也代表了 AGI 的重要一步。
值得關注的是,在今天,能調用以上技術 API 的智譜大模型 MaaS 開放平台(bigmodel.cn)就大幅降價,其中最具性價比的基座大模型 GLM-3-Turbo 模型的調用價格下調 80%,從 0.005/ 千 tokens 降至 0.001/ 千 tokens,新注冊用户獲贈還從 500 萬 tokens 提升至 2500 萬 tokens(包含 2000 萬入門級額度和 500 萬企業級額度)。
寫在最後
今天,Sam Altman 預告 OpenAI 将在 5 月 13 日發布新產品,既不是萬眾期待的 GPT-5,也不是前段時間廣為流傳的 ChatGPT 搜索引擎產品。在海内外大模型仍在追趕 GPT-4 之際,OpenAI 又要開拓新的版圖。
" 追趕 OpenAI,成為 OpenAI,超越 OpenAI。" 這似乎已成為國產大模型的魔咒。
但在過去一年,智譜 GLM-4、阿裏 Qwen-Max 與百度文心一言 4.0 等國產大模型在各類評測榜單表現亮眼,跻身于國際舞台。此次 ICLR 大會現場的 LLM 成果就已表明,2024 年," 追趕 OpenAI" 不再是中國大模型公司的核心," 超越 OpenAI" 與商業化落地才是國内團隊的目标。
對比 2012 到 2022 的深度學習十年,我們不難發現,大模型時代的 AI 發展周期在不斷加快。在加速的技術周期中,技術從研發到商業的距離也大幅縮減,對創新者也不斷提出了新的要求。
" 沒有第二個 OpenAI",但有 " 第一個 ChatGLM"、第一個文心一言、第一個通義千問……也許從前國内行業觀察者信心不足,但 ICLR 2024 結束後,國產大模型的力量走出國門,能與國際知名的 LLM 公司較量——這一事實,會更加振奮國内 LLM 的信心。
本文雷峰網作者 anna042023 将持續關注 AI 大模型領網域的人事、企業、商業應用以及行業發展趨勢,歡迎添加雷峰網作者交流,互通有無。