今天小編分享的科技經驗:大模型一定就比小模型好?谷歌的這項研究說不一定,歡迎閱讀。
機器之心報道
編輯:Panda
在這個大模型不斷創造新成就的時代,我們通常對機器學習模型有一個直觀認知:越大越好。但事實果真如此嗎?
近日,Google Research 一個團隊基于隐擴散模型(LDM)進行了大量實驗研究,得出了一個結論:更大并不總是更好(Bigger is not Always Better),尤其是在預算有限時。
論文标題:Bigger is not Always Better: Scaling Properties of Latent Diffusion Models
論文地址:https://arxiv.org/pdf/2404.01367.pdf
近段時間,隐擴散模型和廣義上的擴散模型取得的成就不可謂不耀眼。這些模型在處理了大規模高質量數據之後,可以非常出色地完成多種不同任務,包括影像合成與編輯、視頻創建、音頻生成和 3D 合成。
盡管這些模型可以解決多種多樣的問題,但要想在真實世界應用中大規模使用它們,還需要克服一大障礙:采樣效率低。
這一難題的本質在于,為了生成高質量輸出,LDM 需要依賴多步采樣,而我們知道:采樣總成本 = 采樣步驟數 × 每一步的成本。
具體來說,目前人們首選的方法需要使用 50 步 DDIM 采樣。這個過程雖能确保輸出質量,但在具備後量化(post-quantization)功能的現代移動設備上卻需要相當長的延遲才能完成。因此,為了促進 LDM 的實際應用,就需要優化其效率。
事實上,這一領網域已經出現了一些優化技術,但對于更小型、冗餘更少的模型的采樣效率,研究社區還未給予适當關注。在這一領網域,一個重大障礙是缺少可用的現代加速器集群,因為從頭開始訓練高質量文生圖 LDM 的時間和資金成本都很高 —— 往往需要幾周時間和數十萬美元資金。
該團隊通過實驗研究了規模大小的變化對 LDM 的性能和效率的影響,其中關注重點是理解 LDM 的規模擴展性質對采樣效率的影響。他們使用有限的預算從頭開始訓練了 12 個文生圖 LDM,參數量從 39M 到 5B 不等。
圖 1 給出了一些結果示例。所有模型都是在 TPUv5 上訓練的,使用了他們的内部數據源,其中包含大約 6 億對已過濾的文本 - 影像。
他們的研究發現,LDM 中确實存在一個随模型規模變化的趨勢:在同等的采樣預算下,較小模型可能有能力超越較大模型。
此外,他們還研究了預訓練文生圖 LDM 的大小會如何影響其在不同下遊任務上的采樣效率,比如真實世界超分辨率、主題驅動的文生圖( 即 Dreambooth)。
對于隐擴散模型在文生圖和其它多種下遊任務上的規模擴展性質,該團隊得到了以下重要發現:
預訓練的性能會随訓練計算量而擴展。通過将模型的參數量從 39M 擴展到 5B,該團隊發現計算資源和 LDM 性能之間存在明顯聯系。這表明随着模型增大,還有潛力實現進一步提升。
下遊性能會随預訓練而擴展。該團隊的實驗表明:預訓練性能與在下遊任務上的成功之間存在很強的關聯。較小模型即使使用額外的訓練也無法完全趕上較大模型的預訓練質量所帶來的優勢。
較小模型的采樣效率更高。當給定了采樣預算時,較小模型的影像質量一開始會優于較大模型,而當放松計算限制時,較大模型會在細節生成上勝過較小模型。
采樣器并不會改變規模擴展效率。無論使用哪種擴散采樣器,較小模型的采樣效率總是會更好一點。這對确定性 DDIM、随機性 DDPM 和高階 DPM-Solver++ 而言都成立。
在步數更少的下遊任務上,較小模型的采樣效率更高。當采樣步數少于 20 步時,較小模型在采樣效率上的優勢會延伸到下遊任務。
擴散蒸餾不會改變規模擴展趨勢。即使使用擴散蒸餾,當采樣預算有限時,較小模型的性能依然能與較大蒸餾模型競争。這說明蒸餾并不會從根本上改變規模擴展趨勢。
LDM 的規模擴展
該團隊基于廣被使用的 866M Stable Diffusion v1.5 标準,開發了一系列強大的隐擴散模型(LDM)。這些模型的去噪 UNet 具有不同的規模,參數數量從 39M 到 5B 不等。該團隊通過逐漸增大殘差模塊中過濾器的數量,同時維持其它架構元素不變,實現了可預測的受控式規模擴展。表 1 展示了這些不同大小模型的架構差異。其中也提供了每個模型相較于基線模型的相對成本。
圖 2 展示了規模擴展過程中的架構差異。這些模型的訓練使用了他們的内部數據源,其中有 6 億對經過過濾的文本 - 影像。所有模型都訓練了 50 萬步,批量大小為 2048,學習率為 1e-4。這讓所有模型都能到達收益遞減的程度。
圖 1 表明這些不同大小的模型都具有穩定一致的生成能力。
對于文生圖任務,他們設定的采樣步數為常用的 50 步,采樣器為 DDIM,無分類器指導率為 7.5。可以看到,随着模型規模增大,所得結果的視覺質量明顯提升。
文生圖性能随訓練計算量的擴展規律
實驗中,各種大小的 LDM 的生成性能相對于訓練計算成本都有類似的趨勢,尤其是在訓練穩定之後 —— 通常是在 20 萬次迭代之後。這些趨勢表明不同大小的模型的學習能力具備明顯的擴展趨勢。
具體來看,圖 3 展示了參數量從 39M 到 5B 的不同模型的運行情況,其中的訓練計算成本是表 1 中給出的相對成本和訓練迭代次數的積。評估時,使用了相同的采樣步數和采樣參數。
在訓練計算量适中(即 < 1G,見圖 3)的場景中,文生圖模型的生成性能可在額外計算資源的幫助下很好地擴展。
預訓練能擴展下遊任務的性能
基于在文本 - 影像數據上預訓練的模型,該團隊又針對真實世界超分辨率和 DreamBooth 這兩個下遊任務進行了微調。表 1 給出了這些預訓練模型的性能。
圖 4 左圖給出了在超分辨率(SR)任務上的生成性能 FID 與訓練計算量的對應情況。
可以看出來,相比于訓練計算量,超分辨率的性能更依賴模型大小。實驗結果表明較小模型有一個明顯的局限性:不管訓練計算量如何,它們都無法達到與較大模型同等的性能。
圖 4 右圖給出了失真度指标 LPIPS 的情況,可以看到其與生成指标 FID 有一些不一致。雖如此,還是可以從圖 5 明顯看出:較大模型比較小模型更擅長恢復細粒度的細節。
基于圖 4 能得到一個關鍵見解:相比于較小的超分辨率模型,較大模型即使微調時間更短,也能取得更好的結果。這說明預訓練性能(由預訓練模型大小主導)對超分辨率 FID 分數的影響比對微調的持續時間(即用于微調的計算量)的影響大。
此外,圖 6 比較了不同模型上 DreamBooth 微調的視覺結果。可以看到視覺質量和模型大小之間也有相似的趨勢。
擴展采樣效率
分析 CFG 率的影響。文生圖生成模型需要超過單一指标的細致評估。采樣參數對定制化來說非常重要,而無分類器引導(CFG)率可以直接影響視覺保真度以及與文本 prompt 的語義對齊之間的平衡。
Rombach 等人的論文《High-resolution image synthesis with latent diffusion models》通過實驗表明:不同的 CFG 率會得到不同的 CLIP 和 FID 分數。
而這項新研究發現 CFG 率(一個采樣參數)會在不同的模型大小上得到不一致的結果。因此,使用 FID 或 CLIP 分數以定量方式确定每個模型大小和采樣步驟的最佳 CFG 率是很有趣的。
該團隊使用不同的 CFG 率(即 1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)對不同規模的模型進行了采樣,并以定量和定性方式比較了它們的結果。
圖 7 便是兩個模型在不同的 CFG 率下的視覺結果,從中可以看出其對視覺質量的影響。
該團隊觀察到,相比于 prompt 語義準确度,CFG 率的變化對視覺質量的影響更大,因此為了确定最佳 CFG 率,他們選取的評估指标是 FID 分數。
圖 8 給出了不同的 CFG 率對文生圖任務的 FID 分數的影響。
規模擴展效率趨勢。使用每個模型在不同采樣步驟下的最佳 CFG 率,該團隊分析了最優性能表現,以理解不同 LDM 大小的采樣效率。
具體來說,圖 9 比較了不同采樣成本下(歸一化成本 × 采樣步數)的不同模型及其最優性能。通過追蹤不同采樣成本下的最優性能點(豎虛線),可以看到一個趨勢:在一個采樣成本範圍内,較小模型的 FID 分數通常優于較大模型。
圖 10 則給出了較小和較大模型結果的定性比較,從中可以看到在相似的采樣成本條件下,較小模型是可以匹敵較大模型的。
不同大小的模型使用不同采樣器的采樣效率
為了評估采樣效率趨勢在不同模型規模下的普遍性,該團隊評估了不同大小的 LDM 使用不同擴散采樣器的性能。
他們使用的采樣器有三種:DDIM、随機性 DDPM、高階 DPM-Solver++。
圖 11 給出了實驗結果。
可以看出,當采樣步數較少時,DDPM 采樣器得到的質量通常低于 DDIM,而 DPM-Solver++ 則在影像質量上勝過 DDIM。
另一個發現也很重要,即三種采樣器都有一致的采樣效率趨勢:采樣成本一樣時,較小模型的性能會優于較大模型。由于 DPM-Solver++ 采樣器的設計并不适合用于超過 20 步的采樣,因此這也是其采樣範圍。
結果表明:不管使用什麼采樣器,LDM 的規模擴展性質始終保持一致。
不同大小的模型在不同下遊任務上的采樣效率
這裡關注的重點下遊任務是超分辨率。這裡是直接使用超分辨率采樣結果,而不使用 CFG。受圖 4 啟發(在下遊任務上,不同大小的 LDM 在采樣 50 步時性能差距較大),該團隊從兩個方面調查了采樣效率:較少采樣步數和較多采樣步數。
如圖 12 左圖所示,當采樣步數不超過 20 步時,不同大小模型的采樣效率趨勢在超分辨率任務上依然成立。但圖 12 右圖又表明,一旦超過這個範圍,較大模型的采樣效率就會超過較小模型。
這一觀察結果說明,在文生圖和超分辨率等任務上,不同大小模型在采樣步數較少時的采樣效率趨勢是一致的。
不同大小的已蒸餾 LDM 的采樣效率
雖然之前的實驗結果說明較小模型的采樣效率往往更高,但需要指出,較小模型的建模能力也往往更差一些。對于近期那些嚴重依賴建模能力的擴散蒸餾方法來說,這就成了一大難題。人們可能會預測出一個矛盾的結論:經過蒸餾的大模型的采樣速度快于經過蒸餾的小模型。
為了展示經過蒸餾的不同大小模型的采樣效率,該團隊使用條件一致性蒸餾方法在文生圖數據上對之前的不同大小模型進行了蒸餾操作,然後比較了這些已蒸餾模型的最佳性能。
詳細來說,該團隊在采樣步數 = 4(這已被證明可以實現最優的采樣性能)的設定下測試了所有已蒸餾模型;然後在歸一化的采樣成本上比較了每個已蒸餾和未蒸餾模型。
圖 13 左圖表明,在采樣步數 = 4 時,蒸餾可以提升所有模型的生成性能,并且 FID 全面提升。而在右圖中,可以看到在同等的采樣成本下,已蒸餾模型的表現優于未蒸餾模型。
但是,在特定的采樣成本下(即采樣成本≈ 8),較小的未蒸餾 83M 模型依然能取得與較大已蒸餾 866M 模型相近的性能。這一觀察進一步支持了該團隊提出的不同大小 LDM 的采樣效率趨勢,其在使用蒸餾時也依然成立。
© THE END
轉載請聯系本公眾号獲得授權
投稿或尋求報道:[email protected]