今天小編分享的科學經驗:打入AI底層!NUS尤洋團隊用擴散模型構建神經網絡參數,LeCun點贊,歡迎閲讀。
擴散模型,迎來了一項重大新應用——
像 Sora 生成視頻一樣,給神經網絡生成參數,直接打入了 AI 的底層!
這就是新加坡國立大學尤洋教授團隊聯合 UCB、Meta AI 實驗室等機構最新開源的研究成果。
具體來説,研究團隊提出了一種用于生成神經網絡參數的擴散模型 p ( arameter ) -diff。
用它來生成網絡參數,速度比直接訓練最多提高 44 倍,而且表現毫不遜色。
這一模型一經發布,就迅速在 AI 社區引發強烈讨論,圈内人士對此的驚嘆,毫不亞于普通人看到 Sora 時的反應。
甚至有人直接驚呼,這基本上相當于 AI 在創造新的 AI 了。
就連 AI 巨頭 LeCun 看了之後,也點贊了這一成果,表示這真的是個 cute idea。
而實質上,p-diff 也确實具有和 Sora 一樣重大的意義,對此同實驗室的 Fuzhao Xue(薛復昭)博士進行了詳細解釋:
Sora 生成高維數據,即視頻,這使得 Sora 成為世界模拟器(從一個維度接近 AGI)。
而這項工作,神經網絡擴散,可以生成模型中的參數,具有成為元世界級學習器 / 優化器的潛力,從另一個新的重要維度向 AGI 邁進。
言歸正傳,p-diff 到底是如何生成神經網絡參數的呢?
要弄清這個問題,首先要了解一下擴散模型和神經網絡各自的工作特點。
擴散生成過程,是從随機分布到高度特定分布的轉變,通過復合噪聲添加,将視覺信息降級為簡單噪聲分布。
而神經網絡訓練,同樣遵循這樣的轉變過程,也同樣可以通過添加噪聲的方式來降級,研究人員正是在這一特點的啓發之下提出 p-diff 方法的。
從結構上看,p-diff 是研究團隊在标準潛擴散模型的基礎之上,結合自編碼器設計的。
研究者首先從訓練完成、表現較好的網絡參數中選取一部分,并展開為一維向量形式。
然後用自編碼器從一維向量中提取潛在表示,作為擴散模型的訓練數據,這樣做可以捕捉到原有參數的關鍵特征。
訓練過程中,研究人員讓 p-diff 通過正向和反向過程來學習參數的分布,完成後,擴散模型像生成視覺信息的過程一樣,從随機噪聲中合成這些潛在表示。
最後,新生成的潛在表示再被與編碼器對應的解碼器還原成網絡參數,并用于構建新模型。
下圖是通過 p-diff、使用 3 個随機種子從頭開始訓練的 ResNet-18 模型的參數分布,展示了不同層之間以及同一層不同參數之間的分布模式。
為了評估 p-diff 所生成參數的質量,研究人員利用 3 種類型、每種兩個規模的神經網絡,在 8 個數據集上對其進行了測試。
下表中,每組的三個數字依次表示原始模型、集成模型和用 p-diff 生成的模型的測評成績。
結果可以看到,用 p-diff 生成的模型表現基本都接近甚至超過了人工訓練的原始模型。
效率上,在不損失準确度的情況下,p-diff 生成 ResNet-18 網絡的速度是傳統訓練的 15 倍,生成 Vit-Base 的速度更是達到了 44 倍。
額外的測試結果證明,p-diff 生成的模型與訓練數據有顯著差異。
從下圖(a)可以看到,p-diff 生成的模型之間的相似度低于各原始模型之間的相似度,以及 p-diff 與原始模型的相似度。
而從(b)和(c)中可知,與微調、噪聲添加方式相比,p-diff 的相似度同樣更低。
這些結果説明,p-diff 是真正生成了新的模型,而非僅僅記憶訓練樣本,同時也表明其具有良好的泛化能力,能夠生成與訓練數據不同的新模型。
目前,p-diff 的代碼已經開源,感興趣的話可以到 GitHub 中查看。
論文地址:
https://arxiv.org/abs/2402.13144
GitHub:
https://github.com/NUS-HPC-AI-Lab/Neural-Network-Diffusion