今天小編分享的科學經驗:字節開源新生圖模型:一個模型統一所有生圖任務,多主體融合效果SOTA,歡迎閱讀。
利用字節團隊魔改的 FLUX 模型,可以直接把多個參考主體放進一張圖了。
字節團隊以 FLUX 為基礎模型,提出了新的生圖模型 UNO,統一了影像生成任務中不同輸入條件的處理。
無論是單主體進行風格變換,還是不同物體的融合,UNO 都能直接搞定。
字節團隊認為,UNO 主要解決的是參考驅動的影像生成中的兩個主要挑戰——數據可擴展性和主體可擴展性。
傳統方法在從單主體數據集擴展到多主體數據集時面臨困難,且大多數方法僅關注單主體生成,難以應用于多主體場景。
為了解決這一問題,團隊提出了 " 模型 - 數據共同進化 " 的新範式,能夠在增強模型能力的同時,不斷豐富可用的訓練數據。
多主體參考生圖測試中,UNO 的 DINO 和 CLIP 得分均達到了 SOTA 水平。
網友評價說,UNO 看上去是一個巨大的飛躍,如果真的能搞定多主體參考,将會大幅激發定制化 AI 智能體的潛力。
另外,團隊還在 HuggingFace 上提供了在線試玩,但前提是擁有 HF 的 GPU 額度。
一個模型搞定單 / 多主體參考
如開頭所述,UNO 将單純的文生圖,以及單 / 多主體參考這些不同的任務都整合到了一個模型當中。
具體來說,除了直接的文生圖之外,它可以把多張參考圖當中的物體進行組合。
當然三個物體也照樣能很好地組合,官方提供的在線 Demo 當中最多可以上傳四張參考圖。
也可以對參考主體中的人物特征進行保持,生成不同場景的人物影像。
同時對于人物而言,也可以在保留基本特征的條件下進行風格轉換,包括被 GPT-4o 帶火的吉卜力風也能拿捏。
應用場景方面,官方給出了虛拟試穿和產品設計這兩組示例。
對于 UNO 的單主體生成能力,團隊使用了 DreamBench 進行了測試,使用了三個主要指标——
DINO 分數、CLIP-I 分數(這兩個用于評估主體相似度)和 CLIP-T 分數(用于評估文本忠實度)。
多主體生成測試則采用了一個特别設計的測試集——從 DreamBench 中選取了 30 種不同的雙主體組合,包括非生物體和生物體的組合。
最終,UNO 的測試成績無論在單主體還是多主體任務中都處于領先水平。
研究團隊還進行了用戶研究,邀請了 30 位評估者(包括領網域專家和非專家)對 300 個影像組合進行評估。
結果,UNO 在所有評估維度上都獲得了較高評分,特别是在主體相似度和文本忠實度方面的表現最為突出。
此外,團隊還展示了 UNO 和一些 SOTA 級模型的效果對比,可以直觀感受一下區别。
模型 - 數據共同進化
UNO 采用了這一種 " 模型 - 數據共同進化 " 的新範式,核心思想是用較弱的模型生成訓練數據,訓練更強的模型。
在模型架構方面,UNO 以開源模型 FLUX.1 dev 為基礎,繼承了其文生圖基礎能力和多模态注意力機制,采用了通用定制化模型框架。
具體來說,該框架采用漸進式跨模态對齊策略,将訓練過程分為兩個連續階段——
首先使用單主體數據對預訓練的文生圖(T2I)模型進行微調,使其獲得基本的主體到影像轉換(S2I)能力;
随後引入多主體數據繼續訓練,增強模型處理復雜場景的能力。
此外研究團隊提出了通用旋轉位置嵌入(UnoPE)技術,通過為文本和影像标記分配特定的位置索引,來調控多模态标記之間的互動。
UnoPE 采用從噪聲影像标記最大維度開始的對角線位置編碼方式,并通過調整位置索引範圍來防止生成影像過度依賴參考影像的空間結構,有效緩解了在擴展視覺主體控制時容易出現的屬性混淆問題。
數據方面,團隊利用 Diffusion Transformer 固有的上下文生成能力構建了數據合成框架。
團隊首先構建了一個包含 365 個頂層類别的分類樹,這些類别來自 Object365 數據集。
在每個類别下,還包含了更細粒度的分類,涵蓋年齡、職業和着裝風格等維度。
然後利用大模型在每個類别中生成豐富多樣的主體和場景描述,這些輸出與預定義的文本模板結合,可以為文生圖模型生成數百萬個文本提示。
最終,研究團隊設計了一個漸進式的合成管道,從單主體生成開始,逐步過渡到多主體上下文生成。
來自字節智能創作團隊
論文顯示,UNO 的作者字節智能創作團隊。
據介紹,該團隊是字節的 AI& 多媒體技術中台,研究方向包括計算機視覺、音視頻編輯、特效處理等技術。
之前字節提出的用于提升影像生成模型 " 美感 " 的 VMix,也是來自智能創作團隊,并且作者與這次的 UNO 基本相同。
本次 UNO 的項目負責人是 Fei Ding,是 Vmix 的通訊作者,之前還參與過 Realcustom++、Dreamtuner 等項目的工作。
UNO 的第一作者 Shaojin Wu、通訊作者黃夢琪,之前也都參與過 Vmix。
黃夢琪目前是中科大博士在讀,2023 年起至今一直在字節實習,預計今年畢業,導師是毛震東教授。
另外,字節招聘網站顯示,智能創作團隊目前正在招聘 AIGC 技術專家、多模态算法專家等崗位。
論文地址:
https://arxiv.org/abs/2504.02160
項目主頁:
https://bytedance.github.io/UNO/
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
不到一周!中國 AIGC 產業峰會觀眾正在火熱報名中 ♀️
全部嘉賓已就位 百度、華為、AWS、MSRA、無問芯穹、數勢科技、面壁智能、生數科技等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~
4 月 16 日周三,就在北京,一起來深度求索 AI 怎麼用
一鍵星标
科技前沿進展每日見