今天小編分享的科學經驗:華人橫掃ICLR 2025傑出論文獎,三篇均為華人一作,中科大何向南團隊/清華姚班北大校友在列,歡迎閲讀。
ICLR 2025 傑出論文揭曉!
從 11672 篇中突出重圍,共有三篇獲獎論文,他們均有華人參與——
包括清華姚班、北大校友,OpenAI、DeepMind 大廠技術人員以及中科大何向南團隊。
獲獎的論文分别是:
Safety Alignment Should be Made More Than Just a Few Tokens Deep
Learning Dynamics of LLM Finetuning * AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models
這三篇均是華人學生為一作:OpenAI 研究員漆翔宇、不列颠哥倫比亞大學 Yi Ren 以及新國立的 Junfeng Fang,中科大 Houcheng Jiang。其中最後一篇是由全華人團隊完成。
一起來看看這三篇論文説了啥。
均是華人學生為一作
1、Safety Alignment Should be Made More Than Just a Few Tokens Deep
該研究由普林斯頓大學、DeepMind 的研究人員完成,其中華人包括普林斯頓漆翔宇,他博士已畢業,目前在 OpenAI 當技術人員。
同樣從普林斯頓博士畢業的還有呂凱風,今年 6 月他将前往清華叉院擔任助理教授,本科畢業于清華姚班。還有 DeepMind 的 Ma Xiao,本科畢業于北大。
這篇論文主要讨論了當前大語言模型在安全對齊方面存在的一個關鍵問題:安全對齊不夠深入,僅僅停留在前幾個輸出 token,并提出了相應的改進方法,包括數據增強、約束優化,都取得了很好的效果。
作者強調:未來的安全對齊不能只做 " 表面功夫 ",而要真正深入模型的生成邏輯。
2、Learning Dynamics of LLM Finetuning
該研究由 UBC(不列颠哥倫比亞大學)團隊完成。
大語言模型微調對對齊人類偏好至關重要,但現有分析缺乏動态視角。本文引入學習動力學框架,解析大模型在指令微調(SFT)和偏好微調(如 DPO)中參數更新對預測的影響,旨在解釋幻覺、重復生成等現象并優化對齊性能。
特别地,團隊提出了一種假設性解釋,説明為什麼特定類型的幻覺在微調後會得到加強,例如,模型可能會使用問題 B 回答中的短語或事實來回答問題 A,或者模型可能會在生成回答時不斷重復類似的簡單短語。另外他們擴展了框架,強調了一種 " 擠壓效應 ",來解釋運行 DPO 時間過長甚至會降低預期輸出的可能性。這一分析不僅為理解大模型的微調提供了一個新的視角,還啓發了一種簡單有效的方法來提高對齊性能。
3、AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models
該研究由中科大何向南團隊、新加坡國立大學蔡達成團隊等組成的全華人團隊完成。
大型語言模型(LLM)經常會出現幻覺,產生錯誤或過時的知識。因此,為了實現有針對性的知識更新,模型編輯方法應運而生。為了實現這一目标,一種流行的範式是定位編輯法,這種方法首先定位有影響力的參數,然後通過引入擾動對其進行編輯。但這種擾動不可避免地會破壞 LLMs 中原本保存的知識,尤其是在連續編輯的情況下。
這篇論文提出了 AlphaEdit 大語言模型知識編輯方法,解決現有方法更新知識易破壞原有知識的問題。技術亮點是将參數擾動投影到保留知識的零空間,僅專注更新目标知識,自動保護原有知識,且可輕松集成到現有方法。在各種模型(包括 LLaMA3、GPT2-XL 和 GPT-J)上進行的大量實驗表明,AlphaEdit 只需為投影添加一行代碼,就能将大多數定位編輯方法的性能平均提高 36.7%。
還有三篇提名
除此之外,還有三篇論文提名,他們分别是:
由普林斯頓、UC 伯克利等團隊提出的一種可擴展的機器學習數據歸因算法In-Run Data Shapley;Meta 出品的分割一切SAM 2.0版本以及谷歌研究院、DeepMind 以及 Mistral AI 提出提高語言模型推理效率新型方法。
獲獎論文鏈接:
https://arxiv.org/abs/2406.05946
https://arxiv.org/abs/2407.10490
https://arxiv.org/abs/2410.02355
參考鏈接:
https://blog.iclr.cc/2025/04/22/announcing-the-outstanding-paper-awards-at-iclr-2025/
* 本文系量子位獲授權刊載,觀點僅為原作者所有。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星标
科技前沿進展每日見