慘遭拒稿的Mamba，7個月後拿下首屆COLM傑出論文，華為俄羅斯實驗室等4篇入選 - 大酷樂

今天小編分享的科學經驗：慘遭拒稿的Mamba，7個月後拿下首屆COLM傑出論文，華為俄羅斯實驗室等4篇入選，歡迎閲讀。

頂流新會議首屆 COLM成功舉辦，Mamba 等 4 篇論文獲得傑出論文獎。

新架構 Mamba 系列經歷了等風波後，，現在開山之作也終于獲得了應有的認可。

雖然 COLM 剛剛才辦第一屆，熱鬧程度已不輸老牌頂會，根據參會者現場返圖，海報區人擠人。

作為專注語言建模的會議（Conference on Language Modeling），四篇獲獎論文分别探讨了序列建模的新架構、語言模型中的評估問題、數據中的知識截止問題、以及生成文本的檢測。

Mamba 作者 Tri Dao 參會感覺，由于專注于單一領網域，人們投入程度更高。

最佳論文講了啥

第一篇：Mamba: Linear-Time Sequence Modeling with Selective State Spaces，團隊來自 CMU、斯坦福

https://arxiv.org/abs/2312.00752

獲獎理由

Mamba 解決了結構化狀态空間序列模型中的關鍵架構和實現問題，創造了一個潛在可行的 Transformer 替代方案。雖然建模長序列的最優架構仍有待商榷，但這是具有次二次復雜性的序列建模中的一個重要且有影響力的進步。

第二篇：Auxiliary task demands mask the capabilities of smaller language models，團隊來自哈佛、斯坦福

https://arxiv.org/abs/2404.02418

獲獎理由

本文借鑑了人類兒童推理行為的研究，認為對語言模型性能的解釋應考慮任務需求——與正在評估的能力無關但可能影響模型分數的因素。作者表明，任務需求對小型語言模型的影響尤為顯著，表明當前的評估可能低估了它們的能力。

第三篇：Dated Data: Tracing Knowledge Cutoffs in Large Language Models，團隊來自約翰霍普金斯大學

https://arxiv.org/abs/2403.12958

本文介紹了大語言模型訓練中的 " 有效知識截止 "：與訓練期間使用的數據的特定部分相關的日期。作者引入了一種簡單的方法來評估資源的有效截止，并研究了有效截止與報告截止之間的不一致，揭示了大語言模型中數據文檔的重要後果。

第四篇：AI-generated text boundary detection with RoFT，團隊來自華為俄羅斯 AI 基礎與算法實驗室、倫敦瑪麗女王大學等

https://arxiv.org/abs/2311.08349

獲獎理由

本文提出了一種思考生成文本檢測的新方法：檢測包含人類編寫和人工智能生成的文本的文檔中人類編寫和人工智能生成的文本之間的過渡。鑑于大型語言模型如何用于協作文本創作，這種觀點特别有先見之明。實驗表明，基于困惑度的方法和内在維度估計優于傳統分類器，并且能夠很好地适應混合了人類和人工智能生成的文本的環境中的細微挑戰。

1036 投稿，入選率 28.8%

主辦方介紹了了第一屆 COLM 的總體情況，今年共有 1036 篇投稿，入選率 28.8%。選出 22 篇 spotlights，4 篇傑出論文，現場 930 人參會

還開了一個由于從 0 開始，增長趨勢是無窮大的小玩笑。

首屆七位組織者均是來自業界學界的大佬，其中有三位是華人學者谷歌周登勇、普林斯頓陳丹琦、Meta 的 Angela Fan。

除了傑出論文獎外，斯坦福 AI 實驗室主任 Christopher Manning的開幕演講也很受關注，根據現場參會學者總結，要點如下：

NLP 研究人員長久以來（樂于）專注在自己的領網域，但 ChatGPT 一出現，AI 就成了大語言模型的同義詞。真奇怪！

語言模型已經存在很長時間了，NLP 研究人員應該在 2000-2015 年左右就早點開發出更好的語言模型。

之前的語言模型在語音識别、機器翻譯領網域已經非常有用，人們并不真正期待它們能像當前的大模型一樣真正理解語言。

好的人工智能定義應該包括學習解決問題、實現目标和适應新環境。

系統 2 智能尚未真正實現

參考鏈接：

[ 1 ] https://colmweb.org/index.html

[ 2 ] https://x.com/aliceoh/status/1843295126292156600

[ 3 ] https://x.com/gabe_grand/status/18433155749544348340