何恺明謝賽寧解剖擴散模型，新作剛剛出爐 - 大酷樂

今天小編分享的科學經驗：何恺明謝賽寧解剖擴散模型，新作剛剛出爐，歡迎閲讀。

CV 大神何恺明，也來搞擴散模型（Diffusion Model）了！

大神最新論文剛剛挂上 arXiv，還是熱乎的：解構擴散模型，提出一個高度簡化的新架構l-DAE（小寫的 L）。

并且通過與何恺明在視覺自監督學習領網域的代表作MAE（Masked Autoencoder）對比，更好地理解了擴散模型内部的工作原理。

不僅如此，這篇論文還發現在擴散模型中，去噪過程比擴散過程更重要。

這項工作陣容非常豪華，不僅有何恺明坐鎮，合著作者中還有紐約大學計算機科學助理教授、CV 大牛謝賽寧。

以及曾和他共同發表 ConvNeXT 工作的劉壯——他同時是 DenseNet 的共同一作。

給擴散模型開刀

團隊認為，盡管去噪擴散模型在生成任務上表現出色，但它們在表示學習方面的能力尚未得到充分探索。

為此，他們找到一個新穎的研究方法：

希望通過解構擴散模型，将其逐步轉化為類似于 MAE 的架構，以更深入地理解其在自監督學習中的表示學習能力。

先來一圖概括解構過程：

（如果你也覺得這個圖很眼熟，沒錯，就是謝賽寧在中使用的同款。）

以使用了 VQGAN tokenizer 的DiT模型作為基線，接下來介紹團隊如何一刀一刀把它改造成更簡化版本的。

移除類别條件

首先移除擴散模型中基于類别标籤的條件，很顯然，有條件标籤與自監督學習的目标不符。

這一步驟顯著提高了線性探測（linear probing）的準确率。

解構 VQGAN

接下來移除原本采用的 VQGan 感知損失和對抗損失，在自監督學習中，這兩種損失函數都不是必須的。

感知損失涉及到對類别标籤的依賴，這與自監督學習的目标不符；對抗損失涉及對生成過程的優化，而不是直接學習數據的表示。

移除兩種損失函數後，模型表現受到影響下降，但下一步又一把拉了回來。

替換噪聲調度器

在原始擴散模型中，噪聲調度通常遵循一個復雜的時間步序列。團隊采用了一種更簡單的線性衰減策略，讓噪聲水平在訓練過程中線性地從最大值衰減到零，而不是遵循復雜的非線性衰減路徑。

這種簡化的噪聲調度策略使得模型在訓練過程中更多地關注于較幹淨的數據，而不是在高度噪聲的數據上花費太多計算資源。

簡化 tokenizer

作者進一步改造了擴散模型中的 tokenizer，這是将輸入影像映射到潛在空間的關鍵組件。

他們比較了幾種不同的方法，包括卷積變分自編碼器（conv. VAE）、基于塊的變分自編碼器（patch-wise VAE）、基于塊的自編碼器（patch-wise AE）和基于塊的主成分分析（patch-wis PCA）。

最終發現，即使是簡單的 PCA 也能有效地工作。

通過逆 PCA（inverse PCA）将輸入影像投影到潛在空間，添加噪聲，然後再将噪聲影像投影回影像空間。這種方法允許模型直接在影像上進行操作，而不需要 tokenizer。

改變預測目标

與現代擴散模型通常預測噪聲不同，團隊讓模型預測幹淨的數據，通過調整損失函數實現。

最後一步，作者又讓模型直接預測原始影像，而不是經過 PCA 編碼的潛空間。這涉及到在 PCA 空間中計算殘差，并在損失函數中對 PCA 重建誤差進行加權。

最終，整個模型的工作流程就非常簡單了：

輸入是一張有噪聲的圖片，噪聲添加在 PCA 潛空間裏。輸出是原始的幹淨圖片。

經過這一系列改造，團隊發現：

模型的表示能力主要來源于去噪過程，而非擴散過程。

低維潛在空間非常關鍵，允許模型學習到數據的壓縮表示。

并且提出只有很少的現代組件對學習良好的表示至關重要，而許多其他組件是非必要的。

經過改造簡化後的模型稱為l-DAE，在自監督學習任務中表現出競争力，同時在結構上更接近于傳統的 DAE（去噪自編碼器）。

在實驗中，MAE 和 l-DAE 兩種自編碼器方法表現都超過了 MoCo v3，在 ViT-B（86m 參數）上，l-DAE 表現與 MAE 相當，但在更大規模的 ViT-L（304M）上還所有落後。

最後，團隊在簡短的結論中提出：

希望我們的發現能夠重新激發對基于去噪方法在當今自監督學習研究領網域的興趣。

兩位作者已離開 Meta

論文一經公布，幾位作者就激情當起了自個兒的首批自來水（doge）。

謝賽寧在推特上轉發了别人對 I-DAE 的分享和讨論，并表示：

越來越多研究表明，擴散模型也可以作為效果優秀的特征提取器來使用。

作者劉壯也在一旁開麥，表示擴散模型這東西，不僅僅能做生成相關的工作：

還有開發者驚訝地發現，居然還有人使用主成分分析，可有一陣子不見了。

不過，大神們的工作剛放出來嘛，還有待大家多多傳播和具體感知。

除這項最新研究涉及了 MAE 外，何恺明在提出代表作 MAE 後，還在此基礎上還發表了一系列研究。

例如，提出了一個用來訓練 CLIP 的快速、簡單且有效的方法FLIP（Fast Language-Image Pre-training），對 CLIP 架構引入類似于 MAE 的思路。

只在模型的極簡結構上，施加了一個簡單的 mask，就讓新模型的速度快了 3.7 倍，同時，性能還可以做到不降反升。

此外，還提出了不對 ViT 引入分層設計，只用普通 ViT 就能搞定目标檢測的ViTDet。

他們使用普通 ViT 作為骨幹網絡，基于 MAE 方法進行預訓練，由此得到的 ViTDet 能與之前所有基于分層骨幹網絡的先進方法競争。

其他學者同樣将 MAE 方法用在了眾多項目之中，MAE 開山論文目前谷歌學術引用量達 4174 次。

而何恺明近期的一次公開露面，是在香港中文大學參加了一個講座，講道。

同時，他在講座上回答了校友們提出的關于大模型、AI for Science 等相關的諸多問題。

其中幹貨滿滿，在現場的多半排了很久的長隊才一睹大神真容，不在現場的則像追劇似的搜羅網友發在網上的演講片段視頻。

這次論文合作者中，一作陳鑫磊，目前是 Meta FAIR 實驗室的研究科學家，也是浙大校友，研究興趣集中于預訓練，特别是有自監督或是多模态視覺表示的預訓練。

作者劉壯，同樣是 Meta FAIR 實驗室的研究科學家，同時也是清華姚班校友，研究重點為神經網絡。

至于另一位合作者謝賽寧這邊，他最近從 Meta AI 離職加入了紐約大學做助理教授，不過依然還是 LeCun 的同事。

論文地址：

https://arxiv.org/pdf/2401.14404.pdf

參考鏈接：

https://twitter.com/sainingxie/status/1750741794080407893

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>