比Flux更強大的文生圖模型來了！秘訣是“集百家之長”

今天小編分享的科學經驗：比Flux更強大的文生圖模型來了！秘訣是“集百家之長”，歡迎閱讀。

打造更強大文生圖模型新思路有——

面對 Flux、stable diffusion、Omost 等爆火模型，有人開始主打" 集各家所長 "。

具體來說，清北、牛津、普林斯頓等機構的研究者提出了⼀個全新文生圖框架 IterComp。

它能提取不同模型在各自領網域的優勢，同時不引入額外的復雜指令或增加計算開銷。

論文一經發布，即在（前推特）獲得 AI 論文領網域大 V 轉發，吸引大量關注。

那麼，研究人員具體是如何實現的呢？

全新文生圖框架：IterComp

⾃ 2022 年以來，基于 diffusion 的文生圖模型取得了快速發展，尤其在復雜組合生成（complex/compositional generation）任務上取得了顯著進展。

例如，今年 8 月發布的 Flux 展現出了十分震撼的復雜場景生成能力與美學質量；

RPG 通過 MLLM 的輔助，将復雜的組合生成任務分解為簡單子任務；

InstanceDiffusion 通過布局控制（layoutbased），實現了與布局分布高度一致的精确影像生成。

然而，這些模型的優勢僅限于某些特定的組合生成任務，且存在諸多局限。

基于文本的生成方法（如 SDXL、SD3、Flux 等），由于其訓練數據和框架的優勢，在物體與場景的模拟上表現出色，特别在美學質量、屬性綁定和非空間關系（non-spatial relationships）方面具有顯著優勢。

然而，當涉及多個物體，且存在復雜的空間關系時，這類模型往往表現出明顯不足。

基于大語言模型（LLM-based）的生成方法，如 RPG 和 Omost，通常需要對 LLM 進⾏額外訓練或設計復雜的提示。

然而，對于 LLM 處理後的復雜指令，diffusion backbone 并不具備精确生成的能力。

基于布局（layourbased）的生成方法，如 Instancediffusion 和 LMD+，雖然提供了精确的控制，但在影像的美學質量和真實性上存在明顯下降，并且需要人為設計布局。

因此，一個值得深⼊探讨的問題是：

能否設計出一個強大的模型，在上述多個方面都表現出⾊，同時不引入額外的復雜指令或增加計算開銷？

基于此，研究人員提出一個全新的文生圖框架：IterComp。

要充分解決這⼀問題，研究面臨兩大難點：

1、如何提取不同模型在各自領網域的優勢，并引導模型進行有效學習？

針對該問題，研究人員首先構建了模型庫（model gallery ) ，其包含多種在不同方面表現出色的模型，每個模型都具備特定的組合生成偏好（composition-aware model preference）。

研究人員嘗試通過擴散模型對齊方法，将 base diffusion model 與模型庫中的組合生成偏好進行對齊。

團隊聚焦于 compositional generation 的三個關鍵方面：

屬性綁定（attribute binding）

空間關系（spatial relationship）

⾮空間關系（non-spatial relationship）

為此，研究人員收集了不同模型在這些方面的偏好數據，并通過人工排序，構建了⼀個面向組合生成的模型偏好數據集（composition-aware model preference dataset）。

針對這三個方面，團隊分别訓練三個 composition-aware reward models，并對 base 模型進行多獎勵反饋優化。

2、組合生成任務很難優化，如何更充分地學習到不同模型的組合偏好？

研究人員在 diffusion 領網域創新地引入迭代式學習框架（iterative feedback learning），實現 reward models 與 base diffusion model 之間 " 左腳踩右腳登天 "。

具體來說，在上述第一輪優化後，團隊将 optimized base diffusion model 以及額外選擇的其他模型（例如 Omost 等）添加進 model gallery。

對新增模型進行偏好采樣，與初始 model gallery 中的影像按照預訓練的 reward model 構建影像對。

這些影像對被用于進⼀步優化獎勵模型，随後繼續用更新的獎勵模型優化基礎擴散模型。

具體的流程如下偽代碼所示：

實驗

在定性實驗中，與其他三類 compositional generation 方法相比，IterComp 取得了顯著的組合質量的提升，并且不會引入額外的計算量。

從定量結果中可以看出，IterComp 在 T2I-CompBench 上取得了各方面的領先。

另外，針對影像真實性以及美學質量，IterComp 也表現出色。

然而 IterComp 的應用潛力不限于此，其可以作為強大的 backbone 顯著提升 Omost, RPG 等模型的生成能力。

更多細節歡迎查閱原論文。

論文地址：

https://arxiv.org/abs/2410.07171

代碼地址：

https://github.com/YangLing0818/IterComp

模型地址：

https://huggingface.co/comin/IterComp

Civitai:

https://civitai.com/models/840857

— 完 —

投稿請發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~