今天小編分享的科學經驗:港大阿裡「視覺AI任意門」,一鍵向場景中無縫傳送物體,歡迎閱讀。
點兩下滑鼠,就能把物體無縫「傳送」到照片場景中,光線角度和透視也能自動适應。
阿裡和港大的這個 AI 版「任意門」,實現了零樣本的影像嵌入。
有了它,網購衣服也可以直接看上身效果了。
因為功能和任意門十分相似,所以研發團隊給它起的名字就叫 AnyDoor。
AnyDoor 一次能夠傳送多個物體。
不僅如此,它還能移動影像裡的已有物品。
有網友看了之後贊嘆到,或許接下來就會進化到(把物體傳入到)視頻了。
零樣本生成逼真效果
相對于已有的類似模型,AnyDoor 具有零樣本操作能力,無需針對具體物品調整模型。
除了這些需要進行參數調節的模型之外,AnyDoor 相對于其他 Reference 類模型也更為準确。
實際上,其他的 Reference 類模型只能做到保持語義一致性。
通俗地說,如果要傳送的物體是一只貓,其他模型只能保證結果中也有一只貓,但相似度無法保證。
我們不妨把 AnyDoor 的效果放大看看,是不是看不出什麼破綻?
用戶評價的結果也證實,AnyDoor 在質量和準确度方面表現均優于現有模型(滿分 4 分)。
而對于已有影像中物體的移動、換位,甚至改變姿态,AnyDoor 也能出色完成。
那麼,AnyDoor 是如何實現這些功能的呢?
工作原理
要想實現物體的傳送,首先就要對其進行提取。
不過在将包含目标物體的影像送入提取器之前,AnyDoor 首先會對其進行背景消除。
然後,AnyDoor 會進行自監督式的物體提取并轉換成 token。
這一步使用的編碼器是以目前最好的自監督模型 DINO-V2 為基礎設計的。
為了适應角度和光線的變化,除了提取物品的整體特征,還需要額外提取細節信息。
這一步中,為了避免過度約束,團隊設計了一種用高頻圖表示特征信息的方式。
将目标影像與 Sobel 算子等高通濾波器進行卷積,可以得到含高頻詳情的影像。
同時,AnyDoor 利用 Hadamard 對影像中的 RGB 色彩信息進行提取。
結合這些信息和過濾邊緣信息的遮罩,得到了只含高頻細節的 HF-Map。
最後一步就是将這些信息進行注入。
利用獲取到的 token,AnyDoor 通過文生圖模型對影像進行合成。
具體來說,AnyDoor 使用的是帶有 ControlNet 的 Stable Diffusion。
AnyDoor 的工作流程大致就是這樣。而在訓練方面,也有一些特殊的策略。
△AnyDoor 使用的訓練數據集
盡管 AnyDoor 針對的是靜态影像,但有一部分用于訓練的數據是從視頻當中提取出來的。
對于同一物體,視頻當中可以提取出包含不同背景的影像。
将物體與背景分離後标注配對,就形成了 AnyDoor 的訓練數據。
不過雖然視頻數據有利于學習,但還存在質量問題需要解決。
于是團隊設計了自适應時間步采樣策略,在不同時刻分别采集變化和細節信息。
通過消融實驗結果可以看出,随着這些策略的加入,CLIP 和 DINO 評分均逐漸升高。
團隊簡介
論文的第一作者是香港大學博士生陳汐(Xi Chen),他曾經是阿裡巴巴集團算法工程師。
陳汐的導師 Hengshuang Zhao 是本文的通訊作者,研究領網域包括機器視覺、機器學習等。
此外,阿裡方面還有來自達摩院、菜鳥集團的研究人員也參與了這一項目。
論文地址:
https://arxiv.org/abs/2307.09481