今天小編分享的科技經驗:「拖拽」就能實現精準P圖的DragGAN,論文作者親自揭秘技術了,歡迎閱讀。
在影像生成領網域,以 Stable Diffusion 為代表的擴散模型已然成為當前占據主導地位的範式。但擴散模型依賴迭代推理,雖然此方法可以實現具有簡單目标的穩定訓練,但推理過程需要高昂的計算成本。
在 Stable Diffusion 之前,生成對抗網絡(GAN)是影像生成模型中常用的基礎架構。相比于擴散模型,GAN 通過單個前向傳遞生成影像,因此本質上是更高效的。但由于訓練過程的不穩定性,擴展 GAN 需要仔細調整網絡架構和訓練因素。因此,GAN 方法很難擴展到非常復雜的數據集上,這是 GAN 式微的原因之一。
當前,GAN 主要是通過手動注釋訓練數據或先驗 3D 模型來保證其可控性,這通常缺乏靈活性、精确性和通用性。然而,一些研究者看重 GAN 在影像生成上的高效性,做出了許多改進 GAN 的嘗試。
其中,來自馬克斯普朗克計算機科學研究所、MIT CSAIL 和谷歌等機構的研究者們提出了一種強大的控制 GANs 的方式,即以用戶互動的方式拖動影像的任何關鍵點以精确到達目标點。
為了實現這一點,該研究提出了 DragGAN,它包含兩個主要組成部分:1)基于特征的運動監督,用于驅動關鍵點向目标位置移動;2)一種新的點追蹤方法,利用 GAN 的特征來定位關鍵點的位置。
通過 DragGAN,任何人都可以精确控制像素的移動位置來變形影像,從而操控各種空間屬性,如動物、汽車、人類、風景等的姿态、形狀、表情和布局。由于這些操控在 GAN 的生成影像流形上進行,因此 DragGAN 可以生成被遮擋的内容和以及保證物體的形變符合物體的結構。定性和定量比較都表明,DragGAN 在影像操控和點追蹤任務上優于先前的方法。此外,該研究還展示了通過 GAN 重建操控真實影像的例子。
為了讓大家更好的了解這一研究,機器之心最新一期線上分享邀請到了 DragGAN 論文第一作者潘新鋼,通過本次分享,大家可以更深入的了解這一項研究。
分享主題:Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
嘉賓簡介:潘新鋼是南洋理工大學計算機科學與工程學院助理教授。此前他在馬克斯普朗克計算機科學研究所從事博士後研究。他于清華大學獲得學士學位,于香港中文大學 MMLAB 獲得博士學位,師從湯曉鷗教授。他的主要研究方向是生成式 AI。
分享摘要:這次分享将主要介紹 DragGAN,一種新的影像編輯方法。通過 DragGAN,用戶可以通過互動的方式拖動 GAN 所生成的影像的任何關鍵點以精确到達目标點,從而實現對各種空間屬性如姿态、形狀、表情和布局等的操控。
相關鏈接
論文鏈接:https://arxiv.org/abs/2305.10973
項目主頁鏈接:https://vcai.mpi-inf.mpg.de/projects/DragGAN/
直播間:關注機器之心機動組視頻号,立即預約直播。
交流群:本次直播設有 QA 環節,歡迎加入本次直播交流群探讨交流。