大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

復旦視頻擴散模型綜述:覆蓋300+文獻,探讨近期研究趨勢與突破,Github攬星2k+

2025-02-21 简体 HK SG TW

今天小編分享的科學經驗:復旦視頻擴散模型綜述:覆蓋300+文獻,探讨近期研究趨勢與突破,Github攬星2k+,歡迎閲讀。

視頻擴散模型新綜述來了,覆蓋 300+ 文獻的那種。

最近,復旦大學、上海市智能視覺計算協同創新中心聯合微軟等學術機構,在國際頂級期刊《ACM Computing Surveys》(CSUR)上發表了題為《A Survey on Video Diffusion Models》的綜述論文。

不僅系統地梳理了擴散模型在視頻生成、編輯及理解等前沿領網域的進展,還深入探讨了近期的研究趨勢與突破,涵蓋了該領網域近年來的重要成果。

該研究目前已在 Github 攬獲 2k+ Star。

本篇綜述論文的第一作者為復旦大學博士生邢桢,通訊作者為復旦大學吳祖煊副教授和姜育剛教授。

基于擴散模型的視頻生成

本文将目前基于擴散模型的主流視頻生成模型分為三大類:基于文本的視頻生成,基于其他條件的視頻生成,以及無條件的視頻生成。

(1)基于文本的視頻生成:

以自然語言為輸入的視頻生成是當前視頻生成領網域最重要的任務之一。

本文首先回顧了該領網域在擴散模型提出之前的研究成果,随後分别介紹了基于訓練和無需訓練的兩種擴散模型方法。

其中基于訓練的方法通常依靠大規模數據集,通過優化模型性能實現高質量視頻生成;而無訓練的方法則主要借助文生圖模型(T2I)和大語言模型(LLM)等技術實現視頻生成。

(2)基于其他條件的視頻生成:

該任務專注于細分領網域的視頻生成工作。本文将這些條件歸類為以下幾種:姿勢引導(pose-guided)、動作引導(motion-guided)、聲音引導(sound-guided)、影像引導(image-guided)、深度圖引導(depth-guided)等。

這些工作不僅提供了比純文本更為精準的控制條件,還将不同模态的信息融合到視頻生成的過程中,極大地豐富了視頻生成的技術手段和應用場景。

(3)無條件的視頻生成:

該方向的研究主要圍繞視頻表征方式的設計與擴散模型網絡架構設計展開,可以細分為基于 U-Net 的生成、基于 Transformer 的生成以及基于 Mamba 的生成。

基于擴散模型的視頻編輯

對于基于擴散模型的視頻編輯方法,本文同樣将目前主流的模型抽成了三大類:基于文本的視頻編輯,基于其他條件的視頻編輯,以及特定細分領網域的視頻編輯。

(1)基于文本的視頻編輯:

由于目前文本 - 視頻數據規模有限,大多數基于文本的視頻編輯任務都傾向于利用預訓練的 T2I 模型來解決視頻幀之間的連貫性和語義不一致性等問題。

本文中,作者進一步将此類任務細分為基于訓練的(training-based)、無需訓練的(training-free)和一次性調優的(one-shot tuned)方法,并分别加以總結。

(2)基于其他條件的視頻編輯:

随着大模型時代的到來,除了最為直接的自然語言信息作為條件的視頻編輯,由指令、聲音、動作、多模态等作為條件的視頻編輯正受到越來越多的關注,作者也對相應的工作進行了分類梳理。

(3)特定細分領網域的視頻編輯:

在一些特定領網域中,視頻編輯任務往往具有獨特的定制化需求。例如,視頻着色和人像視頻編輯等,這些任務針對特定場景提出了更加專門化的解決方案。

作者對相關研究成果進行了系統梳理,總結了這些領網域的主要方法和實踐經驗。

基于擴散模型的視頻理解

擴散模型不僅在傳統的視頻生成和編輯任務中取得了廣泛的應用,它在視頻理解任務上也展現了出巨大的潛能。

通過對前沿論文的追蹤,作者歸納了視頻時序分割、視頻異常檢測、視頻物體分割、文本視頻檢索、動作識别等多個現有的應用場景。

總結與展望

該綜述全面細致地總結了 AIGC 時代下擴散模型在視頻任務上的最新研究。

根據研究對象和技術特點,本文作者将百餘份前沿工作進行了分類和概述,并在一些經典的基準(benchmark)上對這些模型進行比較。

然而,擴散模型在視頻任務領網域仍面臨一些新的研究方向和挑戰,具體包括:

(1)大規模文本 - 視頻數據集的缺乏:

T2I 模型的成功很大程度上得益于數以億計的高質量文本 - 影像數據集,例如 LAION-5B;該數據集包含了數十億個影像 - 文本對,極大提升了模型的泛化能力。

相比之下,在 T2V 任務中,當前的數據集無論從規模上還是質量上都顯得遠遠不足。例如常用的 WebVid 數據集,該數據集的視頻不僅分辨率低(僅有 360P),還常帶有水印。

因此,未來的研究重點應該放在構建大規模、無水印、高分辨率的公開數據集上,同時提升數據集的标注質量和多樣性,以更好地支持視頻生成模型的訓練。

(2)物理世界的真實性:

盡管現有的視頻生成模型在許多場景中取得了令人矚目的成果,但在復雜場景的物理世界描述上仍存在較大的局限性。

例如,Sora 模型在生成涉及物理互動的視頻時,仍不能很好地生成完全符合物理規律的視頻。

作者指出,這些問題的根源在于當前模型對物理場景的理解仍較為淺顯,缺乏對物體剛性、重力、摩擦力等物理屬性的精确建模。

因此,未來的研究可以探索如何将物理學的規律嵌入到生成模型中,提升生成視頻中的物理屬性的合理性,從而使生成的視頻更真實。

(3)長視頻生成:

當前視頻生成模型面臨的一個顯著挑戰是視頻長度的限制。大多數模型只能生成時長不超過 10 秒的視頻内容。

這主要是因為長視頻生成不僅對計算資源提出了更高要求,還要求模型能夠有效建模時空連貫性。而現有的自回歸模型中,時序誤差累積問題尤為突出。

此外,盡管現有的分階段生成方法(如粗到細的多階段生成)能夠在一定程度上改善生成效果,但卻往往帶來更復雜的訓練和推理過程,導致生成速度變慢。

因此,未來的研究方向應致力于開發更高效、更穩定的長視頻生成方法,确保視頻在較長時間段内既保持物理合理性又不失質量穩定性。

(4)高效的訓練和推理:

T2V 模型的訓練和推理過程涉及到海量的視頻數據,在訓練和推理階段所需要的算力也呈幾何倍數增加,成本極高。

因此,未來的研究應當致力于通過改進模型架構,例如采用更高效的時空建模方法,或通過知識蒸餾等技術來壓縮模型的大小,減少訓練和推理過程中的計算復雜度,從而降低視頻生成的總體成本。

(5)可靠的基準和評價指标:

現有視頻領網域的評價指标主要集中在衡量生成視頻與原視頻之間的分布差異,但未能全面評估生成視頻的整體質量。

同時,用户測試作為重要的評估方式之一,既耗時費力又具有較強的主觀性。

因此,未來的研究需要致力于研發更加客觀、全面的自動化評價指标,既能衡量生成視頻的視覺質量,也能捕捉到其物理真實性和時空一致性。

(6)高可控性的視頻編輯:

目前大多數的視頻生成模型主要依賴文本描述來進行視頻編輯。然而,文本描述往往較為抽象,難以提供精确的控制。

例如,在涉及生成特定物體的移動軌迹、控制多個物體之間的互動等動态編輯任務時,現有方法仍然存在較大的局限性。

此外,對于復雜場景中的多物體編輯,生成模型也難以保持多個物體的時空一致性。

因此,未來的研究方向應當着力于提高視頻編輯的可控性,例如通過結合視頻分割、目标檢測等技術,使得模型能夠在視頻的局部區網域中執行更加精細的編輯操作,并提升在多物體場景下的動态編輯能力,從而實現更為靈活和精确的生成與編輯。

論文鏈接:https://arxiv.org/abs/2310.10647

論文主頁:https://github.com/ChenHsing/Awesome-Video-Diffusion-Models

—  完  —

投稿請工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們