見證歷史！AI想的科研idea，真被人類寫成論文發表了 - 大酷樂

今天小編分享的科學經驗：見證歷史！AI想的科研idea，真被人類寫成論文發表了，歡迎閲讀。

天啦撸！！AI 想出來的 idea，還真有人寫成論文了。

甚至預印本 arXiv、博客、代碼全都有了。

今年 8 月，Sakana AI（由 Transformer 論文 8 位作者的最後一位 Llion Jones 創業成立）這家公司推出了。

而現在，受其中一篇論文想法的啓發，人類研究員真的寫出相關論文并在 arXiv 上公開了。

OpenAI 前研究團隊負責人 Jeff Clune 激動直言：

簡直不敢相信！這是它產生的我最喜歡的想法之一。看到與人類達成一致真是太酷了，人類确實執行得更好。

話不多説，讓我們來康康論文具體内容。

翻開 "AI 科學家 " 之前撰寫的論文，我們找到了 Jeff Clune 提到的這一篇。

《Grokking Through Compression: Unveiling Sudden Generalization via Minimal Description Length》

通過壓縮實現 Grokking：借助最小描述長度（MDL）揭示突然泛化現象

根據描述，這篇論文的想法由 Claude 3.5 Sonnet 在第 22 次迭代時提出。

它主要探讨了神經網絡中最小描述長度（MDL）與 "grokking" 現象（模型經長時間訓練後突然泛化）的關系，從信息論視角研究突然泛化的機制。

其中，MDL 可以被看成一種衡量模型復雜度和可壓縮性的方法，即模型既要能夠很好地拟合數據，又不能過于復雜（避免過拟合）。

具體而言，研究引入了一種基于權重剪枝的新型 MDL 估計技術，并将其應用于多種數據集，包括模塊化算術和排列任務。相關實驗揭示了 MDL 減少與泛化能力提高之間存在強烈的相關性（下圖），MDL 的轉變點通常在 "grokking" 事件發生之前或與之同時出現。

此外，研究觀察到在 "grokking" 與非 "grokking" 情境下 MDL 演變模式的差異，前者以快速的 MDL 減少後持續泛化為特征。這些發現為理解 "grokking" 的信息論基礎提供了見解，并表明在訓練期間監控 MDL 可以預測即将發生的泛化。

Okk，了解了原論文，我們再來看人類選手最新發表的内容。

概括而言，他們研究了神經網絡在 "grokking" 現象中的復雜性動态，即網絡從記憶訓練數據到實現完美泛化的過渡過程，并提出了一種基于失真壓縮理論的新方法來衡量神經網絡的復雜性。

首先，作者之一 Branton DeMoss 自述，他們受到了 Sean Carroll 和 Scott Aaronson 之前研究的啓發。

通過觀察咖啡與奶油混合的現象，Scott 等人發現復雜性随着時間的推移首先上升，然後下降，這一過程與熵單調增加的趨勢相似。

而 DeMoss 團隊形式化了這一直覺，并将其應用于神經網絡，以跟蹤這些網絡學習的抽象復雜度。

展開來説，作者們同樣先介紹了grokking 現象，即神經網絡在長時間過度拟合訓練數據後突然能夠泛化的能力。

其中 x 軸表示優化步數，y 軸表示準确率；紅線代表訓練集的準确率，綠線代表驗證集的準确率。

可以看到，如果訓練一個小型 Transformer 來進行模拟，在幾百個訓練步驟之後，模型已經完美地拟合了訓練數據；然而，它直到大約 10^5 個訓練步驟才能實現泛化。

為了解釋這一現象，團隊引入了一種基于失真壓縮和 Kolmogorov 復雜性的新方法來衡量神經網絡的復雜性，并通過這一框架追蹤了 grokking 過程中網絡復雜性的動态變化。

按照作者的比喻，這就像 " 神經網絡的 JPEG"。

研究結果表明，網絡在從記憶到泛化的過渡中，其復雜性首先上升，随後在泛化發生時下降。

進一步地，研究發現如果神經網絡沒有任何形式的正則化（一種防止過拟合的技術），它将無法從記憶階段過渡到泛化階段，而是會無限期地保持記憶模式。

沒有正則化的反應：

有正則化的反應：

此外，作者指出傳統的復雜性評判标準（如參數數量和權重範數）并不能準确描述模型的復雜性，因為它們忽略了訓練過程中的變化。

對此，他們采用了最小描述長度（MDL）原則和 Kolmogorov 復雜度來定義和近似復雜性，并通過實驗驗證了這種方法，并強調了簡單模型在數據壓縮中的優勢。

最終，研究表明理解復雜性對預測模型泛化能力至關重要。

更多細節感興趣可以查閲原論文（地址文末）。

可以看出，一個由 AI 最初提出的想法，最終由人類來完成了更細致的論證。

有網友就分析指出 AI 寫的那篇實驗結果不及人類研究員：

而之前撰寫過 "AI 科學家 " 總論文的共同一作 Cong Lu 也表示：

誰知道未來 AI 還會激發出哪些其他想法……

BTW，就在 Sakana AI 公布"AI 科學家獨立生成 10 篇學術論文 "的消息後，公司在 9 月份還拿到了一筆2 億美元的 A 輪融資，裏面還有英偉達的參與。

總之，AI 以後不僅能自己寫論文，還能和人類搭配幹活了。

論文：

https://arxiv.org/abs/2412.09810

GitHub：

https://github.com/brantondemoss/GrokkingComplexity

博客：

https://brantondemoss.com/research/grokking/

參考鏈接：

[ 1 ] https://x.com/cong_ml/status/1869135740275450197

[ 2 ] https://x.com/BrantonDeMoss/status/1868666711890706675

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>