今天小編分享的科學經驗:按需搭配一鍵疊穿,效果拿下新SOTA!中山大學&字節智創數字人團隊提出虛拟試穿新框架,歡迎閱讀。
多件衣服按指定穿法一鍵虛拟試穿!
中山大學 & 字節智創數字人團隊提出了一個名為MMTryon的虛拟試穿框架,可以通過輸入多個服裝影像及指定穿法的文本指令來生成高質量的組合試穿結果。
比如選中一件大衣、一條褲子,再配一個包,用語言描述穿法," 啪 " 的一鍵就穿到了人像上:
無論是真人影像又或是漫畫人物,都能一鍵按照搭配試穿衣服:
對于單圖換裝,MMTryon 有效利用了大量的數據設計了一個表征能力強大的服裝編碼器,使得該方案能處理復雜的換裝場景及任意服裝款式;
對于組合換裝,MMTryon消除了傳統虛拟換裝算法中對服裝精細分割的依賴,可依靠一條文本指令從多張服裝參考影像中選擇需要試穿的服裝及對應的穿法,生成真實自然的組合換裝效果。
在基準測試中,MMTryon 拿下新 SOTA。
虛拟換裝技術旨在将模特所穿服飾或者衣服的平鋪圖穿到目标人物身上,達到換裝的效果,但是之前虛拟試穿的方案存在一些技術難點沒有解決。
首先,現有的方法通常是為單件試穿任務(上衣 / 下衣、連衣裙)而設計的,并且無法自定義着裝風格,例如,外套拉上 / 拉開拉鏈、上衣塞入 / 塞出等。
另外,之前的方案嚴重依賴特定于類别的分割模型來識别試穿區網域,如下圖所示如果分割錯誤則将直接導致試穿結果中出現明顯的試穿錯誤或者偽影等情況。
為了解決這些問題,研究團隊提出了 MMTryon,将參考影像中的服裝信息與文本指令中的着裝風格信息通過一種新穎的多模态和多參考注意機制來進行表示,這使得該方案支持組合式換裝以及多樣的試穿風格。
此外,為了消除對分割的依賴性,MMTryon 使用了表征能力豐富的服裝編碼器,并利用新穎的可擴展的數據生成流程增強現有的數據集,這樣在推理階段,MMtryon 無需任何分割,僅僅通過文本以及多個試穿對象即可實現高質量虛拟換裝。
在開源的數據集以及復雜場景下進行的大量實驗在定性和定量上證明了 MMTryon 優于現有 SOTA 方法。
接下來是更具體的方法。
首先研究團隊預訓練了一個服裝編碼器,在這一 stage 中 MMTryon 利用文本作為 query,将得到的特征與 grouding dino+SAM 所得到的 mask 計算一個 query 損失。
目标是經過 text query 後僅激活文本對應區網域的特征,這樣可以擺脫對于服裝分割的依賴。同時,利用大量的 pair 對更好的編碼服裝特征。
之後,為了更穩定的訓練組合換裝,需要多件服裝組合式換裝的 pair 圖,但是這樣的 pair 圖采集成本很高。
為此,研究團隊提出了一個基于大模型的數據擴增模式,利用視覺語言模型以及 grouding dino+SAM 去得到了不同區網域的 mask,來保護對應的上衣或者下衣區網域,利用 stable diffusion XL 去重繪保護區網域外剩下的内容,構建了 100w 的增強數據集,訓練中将增強數據集與 90w 原始數據一起加入訓練。
基于增強的數據集以及服裝編碼器,MMTryon 設計了多參考影像注意力模塊和多模态圖文注意力模塊,其中多參考圖影像注意力模塊用于将多件衣服的特征注入到目标影像來控制多件衣服的試穿,多模态圖文注意力模塊利用詳細的文本與影像的 clip 編碼來控制多樣的試穿風格。
可以看到,MMtryon 由于服飾編碼器豐富的表征能力,對于各種類型的換裝都可以有真實的虛拟試穿效果:
無論是真人影像還是挂台服飾,只需要多張服裝參考影像及文本,就可以組合式換裝并控制換裝風格。
甚至還能作為一個 fashion 換裝輔助設計來幫你買衣服:
在量化指标上,MMTryon 優于其他 baseline 的的效果,在開源數據集測試集合的 Human evaluation 中,MMTryon 也超過其它 baseline 模型
在復雜場景的 Human evaluation 中,MMTryon 也超越了目前的社區模型 outfit anyone。
研究人員收集了復雜場景女裝圖片 142 張,男裝圖片 57 張,非服裝圖片 87 張,共邀請 15 位參與者參與評測,選擇更喜歡的方案結果。從圖表中可以看出,MMTryon 的效果更受測試者的喜歡。
更多細節,感興趣的家人們可以查看論文~
論文鏈接:https://arxiv.org/abs/2405.00448
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>