AI頂會ICLR，今年只有一家中國大模型公司受邀演講

今天小編分享的科學經驗：AI頂會ICLR，今年只有一家中國大模型公司受邀演講，歡迎閱讀。

機器學習三大頂會之一的ICLR 2024，正在維也納如火如荼地舉行。

雖然首個時間檢驗獎、傑出論文獎等 " 重頭戲 " 已經陸續頒布，但在其它環節中，我們卻發現了一件更有意思的事情。

同樣是作為 ICLR 重要組成部分的特邀演講（Invited Talk），每年都會邀請在機器學習領網域有突出貢獻和影響力的專家學者進行演講。

而今年，中國只有一位！

并且僅從他的演講主題The ChatGLM ’ s Road to AGI中，我們就能挖到更多的線索——

ChatGLM，正是由清華系初創智譜 AI所推出的千億參數大語言模型。

那麼被 ICLR 官方唯一 " 翻牌 " 的智譜 AI 團隊，又在長達 1 個小時的特邀演講中說了些什麼？

我們繼續往下看。

唯一受邀的中國大模型團隊

在 " 大模型之戰 " 開啟以來，智譜 AI 的 ChatGLM 不誇張地說，是一直處于國内第一梯隊的玩家之一。

事實上，智譜 AI 從 2019 年就已經入局 LLM 的研究；從目前的發展來看，智譜 AI 與 OpenAI 在 AIGC 的各個模态上均已呈現出生态對标之勢：

ChatGPT vs ChatGLM

DALL · E vs CogView

Codex vs CodeGeex

WebGPT vs WebGLM

GPT-4V vs GLM-4V

雖然生态對标得很緊密，但從技術路線上來看，智譜的 GLM 與 GPT 是截然不同的。

當下基于 Transformer 架構的模型大致可以分為三類：

僅編碼器架構（Encoder-only）、僅解碼器架構（Decoder-only）、編碼器 - 解碼器架構（Encoder-Decoder）。

GPT 是屬于 " 僅編碼器架構 " 的玩家，而 GLM 則是借鑑 " 編碼器 - 解碼器架構 " 的思路去發展；因此也有一番獨樹一幟的味道。

而作為此次唯一被 ICLR 邀請做演講的中國大模型公司，智譜 AI 團隊在現場先分享了自己是如何從 ChatGLM 一步步走向 GLM-4V，即從 LLM 邁向 VLM。

我們可以從下面這張發展時間線中，先有一個整體脈絡上的感知。

具體到技術上的實現，比較關鍵的節點便是CogVLM的提出，主打讓大模型帶上視覺。

CogVLM 模型主要包含四個組件，分别是 ViT 編碼器、MLP 适配器、大型預訓練語言模型和視覺專家模塊。

這個方法可以說是改變了視覺語言模型的訓練範式，從淺層對齊轉向深度融合。

值得一提的是，CogVLM 還被 Stable Diffufion 3 用來做了影像标注。

基于此，智譜 AI 團隊在本次特邀演講環節中，更多地介紹并亮出了近期的前沿成果。

例如CogView3，是一個更快、更精細的文生圖模型。

其創新之處便是提出了一個級聯框架，是第一個在文本到影像生成領網域實現級聯擴散的模型。

從實驗結果來看，CogView3 在人類評估中比當前最先進的開源文本到影像擴散模型 SDXL 高出 77.0%，同時只需要大約 SDXL 一半的推理時間。

CogView3 的蒸餾變體在性能相當的情況下，只需 SDXL 的 1/10 的推理時間。

同樣是基于 CogVLM，智譜 AI 所做的另一項研究CogAgent，則是一款具有視覺 Agent 能力的大模型。

CogAgent-18B 擁有 110 億的視覺參數和 70 億的語言參數 , 支持 1120*1120 分辨率的影像理解。在 CogVLM 的能力之上，它進一步擁有了 GUI 影像 Agent 的能力。

據了解，CogAgent-18B 已經在 9 個經典的跨模态基準測試中實現了最先進的通用性能；并且在包括 AITW 和 Mind2Web 在内的 GUI 操作數據集上顯著超越了現有的模型。

除此之外，智譜 AI 團隊還提出：AI 大模型的智能湧現，關鍵在于 Loss，而并非模型參數。

為此，團隊提出了Pre-training Loss作為語言模型 " 湧現能力 " 的指标，訓練了 30 多個不同模型參數和數據規模的語言模型，并評估了他們在 12 個英文和中文數據集上的表現：

Pre-training Loss 與下遊任務性能呈負相關，即預訓練損失越低，下遊任務性能越好。這一結論适用于不同參數尺寸的語言模型，不受模型大小、訓練數據量的影響。

對于一些下遊任務，當 Pre-training Loss 低于某個阈值時，性能才會超過随機猜測水平，呈現出 " 湧現能力 "。這些任務的性能阈值大致相同，約在 2.2 左右。

即使使用連續指标評估，仍觀察到 " 湧現能力 " 的存在。這表明湧現能力并非由非線性或離散指标導致。

再如針對 LLM 解決數學問題，提出了 Self-Critique 的迭代訓練方法，通過自我反饋機制，幫助 LLM 同時提升語言和數學的能力。

對于 ChatGLM 通向 AGI 的後續計劃，智譜 AI 在本次特邀演講中也亮出了自己的 " 三步走 "。

首先是 GLM-4 的後續更新版本，即 GLM-4.5。

據了解，新更新的模型将基于超級認知 SuperIntelligence 和超級對齊 SuperAlignment 技術，同時在原生多模态領網域和 AI 安全領網域有長足進步。

團隊表示：

通向通用人工智能之路，文本是最關鍵的基礎。

但下一步則應該把文本、影像、視頻、音頻等多種模态混合在一起訓練，變成一個真正原生的多模态模型。

其次，為了解決更加復雜的問題，團隊将引入 GLM-OS 的概念。

GLM-OS 是指以大模型為中心的通用計算系統，具體實現方法如下：

基于已有的 All-Tools 能力，再加上内存記憶 memory 和自我反饋 self-reflection 能力，GLM-OS 有望成功模仿人類的 PDCA 機制，即 Plan-Do-Check-Act 循環。

首先做出計劃，然後試一試形成反饋，調整規劃然後再行動以期達到更好的效果。大模型依靠 PDCA 循環機制形成自我反饋和自我提升——恰如人類自己所做的一樣。

最後，是 GLM-zero。

這項技術其實智譜 AI 從 2019 年以來便一直在鑽研，主要是研究人類的 " 無意識 " 學習機制：

當人在睡覺的時候，大腦依然在無意識地學習。

" 無意識 " 學習機制是人類認知能力的重要組成部分，包括自我學習 self-instruct、自我反思 self-reflection 和自我批評 self-critics。

團隊認為，人腦中存在着反饋 feedback 和決策 decision-making 兩個系統，分别對應着 LLM 大模型和 Memory 内存記憶兩部分，GLM-zero 的相關研究将進一步拓展人類對意識、知識、學習行為的理解。

而這也是 GLM 大模型團隊第一次向外界公開這一技術趨勢。

當然，除了這場特邀演講之外，回顧本屆 ICLR 其它亮點，可以說大模型着實是頂流中的頂流。

ICLR 2024，大模型赢麻了

首先是斬獲本屆 ICLR 頒發的第一個時間檢驗獎（Test of Time Award）的論文，可以說是經典中的經典——變分自編碼器（VAE）。

正是這篇 11 年前的論文，給後續包括擴散模型在内的生成模型帶來重要思想啟發，也才有了現如今大家所熟知的 DALL · E 3、Stable Diffusion 等等。

也正因如此，在獎項公布之際便得到了眾多網友的認可，紛紛表示 "Well deserved"。

論文一作Diederik Kingma現任 DeepMind 研究科學家，也曾是 OpenAI 創始成員、算法負責人，還是 Adam 優化器發明者。

VAE 采用了一個關鍵策略：使用一個較簡單的分布（如高斯分布）來近似復雜的真實後驗分布。模型的訓練通過最大化一個稱為證據下界（ELBO）的量來實現。

這種方法可以被看作是在影像重建的同時，對潛在變量的分布施加了一種 " 規範化 " 約束。

與傳統自編碼器相比，VAE 所學習的潛在表示通常具有更強的解釋性和更好的泛化能力。

在論文的實驗部分，作者展示了 VAE 在 MNIST 數據集上生成手寫數字影像的能力。

ICLR 2024 的首個時間檢驗獎還設定了亞軍（Runner Up）獎項。

同樣也是非常經典的一項研究，作者包括 OpenAI 首席科學家的 Ilya、GAN 的發明者 Ian Goodfellow。

這項研究名為Intriguing properties of neural networks，官方對其的評價是：

研究強調了神經網絡容易受到輸入的微小變化的影響。

這個想法催生了對抗性攻擊（試圖愚弄神經網絡）和對抗性防御（訓練神經網絡不被愚弄）領網域。

除了時間檢驗獎之外，每年的傑出論文獎（Outstanding Paper Awards）也是必看點之一。

本屆 ICLR 共有五篇論文榮登傑出論文獎。

第一篇：

Generalization in diffusion models arises from geometry-adaptive harmonic representations

這篇來自紐約大學、法蘭西學院的研究，從實驗和理論研究了擴散模型中的記憶和泛化特性。作者根據經驗研究了影像生成模型何時從記憶輸入轉換到泛化機制，并通過 " 幾何自适應諧波表征 " 與諧波分析的思想建立聯系，進一步從建築歸納偏差的角度解釋了這一現象。

第二篇：

Learning Interactive Real-World Simulators

研究機構來自 UC 伯克利、Google DeepMind、MIT、阿爾伯塔大學。匯集多個來源的數據來訓練機器人基礎模型是一個長期的宏偉目标。這項名為 "UniSim " 的工作使用基于視覺感知和控制文字描述的統一界面來聚合數據，并利用視覺和語言領網域的最新發展，從數據中訓練機器人模拟器。

第三篇：

Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors

來自特拉維夫大學、IBM 的研究深入探讨了最近提出的狀态空間模型和 Transformer 架構對長期順序依賴關系的建模能力。作者發現從頭開始訓練 Transformer 模型會導致對其性能的低估，并證明通過預訓練和微調設定可以獲得巨大的收益。

第四篇：

Protein Discovery with Discrete Walk-Jump Sampling

基因泰克、紐約大學的研究解決了基于序列的抗體設計問題，這是蛋白質序列生成模型的一個重要應用。作者引入了一種創新而有效的新建模方法，專門用于處理離散蛋白質序列數據的問題。

第五篇：

Vision Transformers Need Registers

來自 Meta 等機構的研究，識别了 vision transformer 網絡特征圖中的偽影，其特點是低信息量背景區網域中的高規範 Tokens。作者對出現這種情況的原因提出了關鍵假設，利用額外的 register tokens 來解決這些偽影問題，從而提高模型在各種任務中的性能。

而在五篇傑出論文獎中，與大模型相關的研究就占了四篇，可以說是赢麻了。

除此之外，還有 11 篇論文獲得了獲得榮譽提名（Honorable mentions），其中三篇論文是全華人陣容。

整體來看，本屆會議共收到了 7262 篇提交論文，接收 2260 篇，整體接收率約為 31%。此外 Spotlights 論文比例為 5%，Oral 論文比例為 1.2%。

One More Thing

ICLR 的創立者之一Yann LeCun（另一位是 Yoshua Bengio），在會議期間的 " 出鏡率 " 可以說是比較高了，頻頻出現在網友的照片中。

而他本人也開心地分享了自己的一張自拍合影：

不過也有網友指出：" 拍得不錯，就是可憐手機後邊的兄弟了。"

以及會場的展廳也是有點意思：

嗯，是有種全球大模型玩家線下 battle 的既視感了。

時間檢驗獎論文地址：

[ 1 ] https://arxiv.org/abs/1312.6114

[ 2 ] https://arxiv.org/abs/1312.6199

傑出論文獎論文地址：

[ 1 ] https://openreview.net/forum?id=ANvmVS2Yr0

[ 2 ] https://openreview.net/forum?id=sFyTZEqmUY

[ 3 ] https://openreview.net/forum?id=PdaPky8MUn

[ 4 ] https://openreview.net/forum?id=zMPHKOmQNb

[ 5 ] https://openreview.net/forum?id=2dnO3LLiJ1

參考鏈接：

[ 1 ] https://iclr.cc/virtual/2024/calendar?filter_events=Invited+Talk&filter_rooms=

[ 2 ] https://twitter.com/ylecun/status/1788560248988373170

[ 3 ] https://arxiv.org/abs/2311.03079

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~