大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

中科院等萬字詳解:最前沿影像擴散模型綜述

2024-03-09 简体 HK SG TW

今天小編分享的科學經驗:中科院等萬字詳解:最前沿影像擴散模型綜述,歡迎閲讀。

針對影像編輯中的擴散模型,中科院聯合 Adobe 和蘋果公司的研究人員發布了一篇重磅綜述。

全文長達 26 頁,共 1.5 萬餘詞,涵蓋 297 篇文獻,全面研究了影像編輯的各種前沿方法。

同時,作者還提出了全新的 benchmark,為研究者提供了便捷的學習參考工具。

在這份綜述中,作者從理論和實踐層面,詳盡總結了使用擴散模型進行影像編輯的現有方法。

作者從學習策略、輸入條件等多個角度對相關成果進行分類,并展開了深入分析。

為了進一步評估模型性能,作者還提出了一個測評基準,并展望了未來研究的一些潛在方向。

△基于擴散模型的影像編輯成果速覽

下面,作者将從任務分類、實現方式、測試基準和未來展望四個方面介紹基于擴散模型的影像編輯成果。

影像編輯的分類

除了在影像生成、恢復和增強方面取得的重大進步外,擴散模型在影像編輯方面也實現了顯著突破,相比之前占主導地位的生成對抗網絡(GANs),前者具有更強的可控性。

不同于 " 從零開始 " 的影像生成,以及旨在修復模糊影像、提高質量的影像恢復和增強,影像編輯涉及對現有影像外觀、結構或内容的修改,包括添加對象、替換背景和改變紋理等任務。

在這項調查中,作者根據學習策略将影像編輯論文分為三個主要組别:基于訓練的方法、測試時微調方法和無需訓練和微調的方法。

此外,作者還探讨了控制編輯過程使用的 10 種輸入條件,包括文本、掩碼、參考影像、類别、布局、姿勢、草圖、分割圖、音頻和拖動點。

進一步地,作者調查了這些方法可以完成的 12 種最常見的編輯類型,它們被組織成以下三個廣泛的類别:

語義編輯:此類别包括對影像内容和叙述的更改,影響所描繪場景的故事、背景或主題元素。這一類别内的任務包括對象添加、對象移除、對象替換、背景更改和情感表達修改。

風格編輯:此類别側重于增強或轉換影像的視覺風格和審美元素,而不改變其叙述内容。這一類别内的任務包括顏色更改、紋理更改和整體風格更改,涵蓋藝術性和現實性風格。

結構編輯:此類别涉及影像内元素的空間布局、定位、視角和特征的變化,強調場景内對象的組織和展示。這一類别内的任務包括對象移動、對象大小和形狀更改、對象動作和姿勢更改以及視角 / 視點更改。

影像編輯的實現方式基于訓練的方法

在基于擴散模型的影像編輯領網域,基于訓練的方法已經獲得了顯著的突出地位。

這些方法不僅因其穩定的擴散模型訓練和有效的數據分布建模而著名,而且在各種編輯任務中表現可靠。

為了徹底分析這些方法,作者根據它們的應用範圍、訓練所需條件和監督類型将它們分類為四個主要組别。

根據核心編輯方法,這些主要組别中的方法又可以細分為不同的類型。

下圖展示了兩種有代表性的 CLIP 指導方法—— DiffusionCLIP 和 Asyrp 的框架圖。

△樣本影像來自 CelebA 數據集上的 Asyrp

下面的圖片,展示的是指令影像編輯方法的通用框架。

△示例影像來自 InstructPix2Pix、InstructAny2Pix 和 MagicBrush。測試時微調的方法

在影像生成和編輯中,還會采用微調策略來增強影像編輯能力,測試時微調帶來了精确性和可控制性的重要提升。

如下圖所示,微調方法的既包括微調整個去噪模型,也包括專注于特定層或嵌入。

此外,作者還讨論了超網絡的集成和直接影像表示優化

下圖展示了使用不同微調組件的微調框架。

△樣本影像來自 Custom-Edit 免訓練和微調方法

在影像編輯領網域,無需訓練和微調的方法起點是它們快速且成本低,因為在整個編輯過程中不需要任何形式的訓練(在數據集上)或微調(在源影像上)。

根據它們修改的内容,可以分為五個類别,這些方法巧妙地利用擴散模型内在的原則來實現編輯目标。

下圖是免訓練方法的通用框架。

△樣本圖片來自 LEDITS++ 影像 inpainting(補全)和 outpainting(外擴)

影像補全和外擴通常被視為影像編輯的子任務,可以分為兩大類型——上下文驅動的補全(上排)與多模态條件補全(下排)。

△樣本分别來自于 Palette 和 Imagen Editor 全新測試基準

除了分析各種方法的實現原理,評估這些方法在不同編輯任務中的能力也至關重要,但現有的影像編輯測試标準存在局限。

例如,EditBench 主要針對文本和掩碼引導的補全,但忽略了涉及全局編輯的任務(如風格轉換);TedBench 雖然擴展了任務範圍,但缺乏詳細指導;EditVal 試圖提供更全面的任務和方法覆蓋範圍,但影像通常分辨率低且模糊……

為了解決這些問題,作者提出了EditEval基準,包括一個 50 張高質量影像的數據集,且每張影像都附有文本提示,可以評估模型在 7 個常見編輯任務的性能。

這 7 種任務包括物體添加 / 移除 / 替換,以及背景、風格和姿勢、動作的改變。

此外,作者還提出了 LMM 分數,利用多模态大模型(LMMs)評估不同任務上的編輯性能,并進行了真人用户研究以納入主觀評估。

△LMM Score 與用户研究的皮爾遜相關系數

下圖比較了 LMM Score/CLIPScore 與用户研究的皮爾遜相關系數。

挑戰和未來方向

作者認為,盡管在使用擴散模型進行影像編輯方面取得了成功,但仍有一些不足需要在未來的工作中加以解決。

減少模型推理步驟

大多數基于擴散的模型在推理過程中需要大量的步驟來獲取最終影像,這既耗時又耗費計算資源,給模型部署和用户體驗帶來挑戰。

為了提高推理效率,已經由團隊研究了少步驟或一步生成的擴散模型。

近期的方法通過從預訓練的強擴散模型中提取知識來減少步驟數,以便少步驟模型能夠模仿強模型的行為。

一個更具挑戰性的方向是直接開發少步驟模型,而不依賴于預訓練的模型(例如一致性模型)。

提高模型效率

訓練一個能夠生成逼真結果的擴散模型在計算上是密集的,需要大量的高質量數據。

這種復雜性使得開發用于影像編輯的擴散模型非常具有挑戰性。

為了降低訓練成本,近期的工作設計了更高效的網絡架構作為擴散模型的骨幹。

此外,另一個重要方向是只訓練部分參數,或者凍結原始參數并在預訓練的擴散模型之上添加一些新層。

復雜對象結構編輯

現有的工作可以在編輯影像時合成逼真的顏色、風格或紋理,但處理復雜結構時仍然會產生明顯的修改痕迹,例如手指、标志和文字。

研究者已經在嘗試解決這些問題,常用的策略是把 " 六個手指 " 等常見問題作為負面提示,以使模型避免生成此類影像,這在某些情況下是有效的,但不夠穩健。

近期的工作中,已有團隊開始使用布局、邊緣或密集标籤作為指導,編輯影像的全局或局部結構。

復雜的光照和陰影編輯

編輯對象的光照或陰影仍然是一個挑戰,因為這需要準确估計場景中的光照條件。

以前的工作(如 Total Relighting)使用網絡組合來估計前景對象的法線、反照率和陰影,以獲得逼真的重新照明效果。

最近,也由有團隊提出将擴散模型用于編輯面部的光照,ShadowDiffusion 也探索了基于擴散模型的陰影合成,可以生成合理的對象陰影。

然而,使用擴散模型在不同背景條件下準确編輯對象的陰影仍然是一個未解決的問題。

影像編輯模型的泛化性

現有基于擴散的影像編輯模型能夠為給定的一部分條件合成逼真的視覺内容,但在許多現實世界場景中仍然會失敗。

這個問題的根本原因在于,模型無法準确地對所有可能的樣本在條件分布空間中進行建模。

如何改進模型以始終生成無瑕疵的内容仍然是一個挑戰,解決這個問題有以下幾種思路:

首先是擴大訓練數據規模,以覆蓋具有挑戰性的場景,這種方式效果顯著,但成本較高,如在醫學影像、視覺檢測等領網域數據難以收集。

第二種方法是調整模型以接受更多條件,如結構引導、3D 感知引導和文本引導,以實現更可控和确定性的内容創作。

此外,還可以采用迭代細化或多階段訓練的方式,以逐步改進模型的初始結果。

可靠的評估指标

對影像編輯進行準确評估,對于确保編輯内容與給定條件的對齊至關重要。

盡管有如 FID、KID、LPIPS、CLIP 得分、PSNR 和 SSIM 等定量指标,但大多數現有評估工作仍然嚴重依賴于用户研究,這既不高效也不可擴展。

可靠的定量評估指标仍然是一個待解決的問題。最近,已經有團隊提出了更準确的指标來量化對象的感知相似性。

DreamSim 測量了兩幅影像的中等級别相似性,考慮了布局、姿态和語義内容,并且優于 LPIPS。

類似的,前景特征平均(FFA)也是一種簡單而有效的方法,可被用于測量對象的相似性。

另外,作者在本文中提出了的 LMM score,也是一種有效的影像編輯度量。

更多有關用于影像編輯的擴散模型的詳細信息,可以閲讀原作,同時作者也在 GitHub 上發布了附帶資源庫。

論文鏈接:

https://arxiv.org/abs/2402.17525

Github:

https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們