大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

可組合擴散模型主打Any-to-Any生成:文本、影像、視頻、音頻全都行

2023-05-23 简体 HK SG TW

今天小編分享的科技經驗:可組合擴散模型主打Any-to-Any生成:文本、影像、視頻、音頻全都行,歡迎閱讀。

機器之心報道

編輯:陳萍、杜偉

一種模型統一多種模态實現了。

給定一句話,然後讓你想象這句話在現實場景中的樣子,對于人類來說這項任務過于簡單,比如「一輛進站的火車」,人類可以進行天馬行空的想象火車進站時的樣子,但對模型來說,這可不是一件容易的事,涉及模态的轉換,模型需要理解這句話的含義,然後根據這句話生成應景的視頻、音頻,難度還是相當大的。

現在,來自北卡羅來納大學教堂山分校、微軟的研究者提出的可組合擴散(Composable Diffusion,簡稱 CoDi)模型很好的解決了這個問題。比如,前面提到的「一輛進站的火車」,CoDi 根據這句話生成的效果如下:

與現有的生成式人工智能系統不同,CoDi 可以并行生成多種模态,其輸入不限于文本或影像等模态。

眾所周知,随着技術的發展,大模型的能力範圍已經不僅僅局限于一種模态的生成,而是從一種模态生成另一種模态正在變成現實,如我們常見的文本到文本的生成,文本到影像的生成,以及文本到音頻的生成。

然而,單一模态或一對一模态在應用到現實世界中會受到限制,因為現實世界是多模态的,然而将多種模态串聯在一起難度較大。人們迫切期待開發出一種全面而具有多功能的模型,這種模型可以從一組輸入條件中生成任意組合的模态,無縫地整合來自各種信息源的信息,從而實現強大的人機互動體驗(例如,同時生成連貫的視頻、音頻和文本描述)。

CoDi 就是為了實現這一目标而進行的,可以說這是第一個能夠同時處理和生成任意組合模态的模型。

論文主頁:https://codi-gen.github.io/

研究者表示 CoDi 不僅可以從單模态到單模态的生成,還可以接收多個條件輸入,以及多模态聯合生成。舉例來說,在給定文本 prompt 的情況下生成同步的視頻和音頻;或者在給定影像和音頻   prompt   的情況下生成視頻。

下面我們用具體的示例進行展示。首先考察 CoDi 生成影像的能力。

CoDi 可以将文本 + 音頻作為輸入,然後生成一張圖片:

在這個示例中,文本   prompt   大致為:油畫,恐怖畫風,craig mullins 風格。

除了文本 + 音頻,CoDi 還可以以文本 + 影像作為輸入,然後生成一張圖片:

在這個示例中,輸入   prompt   為:花瓶裡的花朵,靜物畫,Albert Williams 風格,以及一張圖片。

除此以外,CoDi 還能以三種模态(文本 + 音頻 + 圖片)作為輸入,生成符合要求的圖片。

接下來是展示 CoDi 視頻生成能力。給模型一句   prompt(坐在咖啡桌旁吃東西)+ 熊貓圖片,之後一只活靈活現的大熊貓就動了起來:

‍

此外,CoDi 還能輸入單個或多個   prompt,包括視頻,影像,文本或音頻,以生成多個對齊輸出。

在這個示例中,prompt   包括三部分(文本 + 影像 + 音頻):文本   prompt   為滑板上的泰迪熊,4k,高分辨率。影像是一個繁華的街道。語音輸入為譁譁的雨聲:

生成的視頻如下:

不僅如此,CoDi 還能根據一句話生成視頻和音頻,如:空中綻放的煙花。

視頻 + 音頻效果如下:

了解更多展示效果,請參考論文主頁。

方法概覽

潛在擴散模型

擴散模型(DM)是這樣一類生成式模型,它們通過模拟信息随時間的擴散來學習數據分布 p ( x ) 。在訓練期間,随機噪聲被迭代地添加到 x,同時模型學習對示例進行去噪。對于推理,擴散模型對從簡單分布(如高斯分布)中采樣的數據點進行去噪。潛在擴散(LDM)學習對應于 x 的潛在變量 z 的分布。通過降低數據維數來顯著降低計算成本。

可組合多模态調節

為了使自己的模型能夠以任何 input/prompt 模态的組合進行調節,研究者對齊文本、影像、視頻和音頻的 prompt 編碼器(分别用 C_t、C_i、C_v 和 C_a 表示),将來自任何模态的輸入映射到同一個空間。然後通過對每個模态的表示進行插值來實現多模态調節。通過對齊嵌入的簡單加權插值,他們利用單條件(即僅有一個輸入)訓練的模型來執行零樣本多條件(即有多個輸入)。整個過程如下圖 2 ( a ) ( 2 ) 所示。

不過以組合方式同時對四種 prompt 編碼器進行優化具有非常大的計算量,因此需要 O ( n^2 ) 對。此外對于某些雙模态,對齊良好的配對數據集有限或不可用,例如影像音頻對。

為了解決這些問題,研究者提出了一種簡單有效的方法「橋接對齊(Bridging Alignment)」,以高效地對齊編碼器。如下圖 2 ( a ) ( 1 ) 所示,他們選擇文本模态作為「橋接」模态,因為該模态普遍存在于配對數據中,例如文本影像對、文本視頻對和文本音頻對。研究者從預訓練文本影像配對編碼器 CLIP 開始,然後使用對比學習在音頻文本和視頻文本配對數據集上訓練音頻和視頻 prompt 編碼器,同時凍結文本和影像編碼器權重。

如此一來,所有四種模态在特征空間中對齊。CoDi 可以有效地利用和組合任何模态組合中的互補信息,以生成更準确和全面的輸出。生成質量的高低不受 prompt 模态數量的影響。研究者繼續使用橋接對齊來對齊具有不同模态的 LDM 的潛在空間,以實現聯合多模态生成。

可組合擴散

訓練一個端到端的 anything-to-anything 模型需要廣泛學習不同的數據資源,并且需要保持所有合成流的生成質量。為了應對這些挑戰,CoDi 被設計為可組合和集成的,允許獨立構建特定于單一模态的模型,之後實現順利集成。具體地,研究者首先獨立訓練影像、視頻、音頻和文本 LDM,然後這些擴散模型通過一種新機制「潛在對齊」來有效地學習跨模态的聯合多模态生成。

先看影像擴散模型。影像 LDM 遵循與 Stable Diffusion 相同的結構,并用相同的權重進行初始化。重用該權重将在大型高質量影像數據集上訓練的 Stable Diffusion 的知識和超高生成保真度遷移到 CoDi。

再看視頻擴散模型。為了對視頻時間屬性進行建模的同時保持視頻生成質量,研究者通過擴展具有時間模塊的影像擴散器來構建視頻擴散器。具體地,他們在殘差塊之前插入偽時間注意力。不過研究者認為偽時間注意力只能将像素(高度和寬度維數)展平為批維數來使視頻幀在全局範圍内彼此關注,從而導致局部像素之間跨幀互動的缺失。

接着是音頻擴散模型。為了在聯合生成中實現靈活的跨模态注意力,音頻擴散器在設計時具有與視覺擴散器相似的架構,其中梅爾頻譜圖可以自然地被視為具有 1 個通道的影像。研究者使用 VAE 編碼器将音頻的梅爾頻譜圖編碼為壓縮的潛在空間。在音頻合成中,VAW 解碼器将潛在變量映射到梅爾頻譜圖,并且聲碼器從梅爾頻譜圖生成音頻樣本。研究者使用了 [ 33 ] 中的音頻 VAE 和 [ 27 ] 的聲碼器。

最後是文本擴散模型。文本 LDM 中的 VAE 是 OPTIMUS [ 29 ] ,它的編解碼器分别是 [ 9 ] 和 GPT-2 [ 39 ] 。對于去噪 UNet,與影像擴散不同的是,殘差塊中的 2D 卷積被 1D 卷積取代。

基于潛在對齊的聯合多模态生成

最後一步是在聯合生成中啟用擴散流之間的交叉注意力,即同時生成兩種或多種模态。這通過向 UNet ϵ _ θ 添加跨模态注意力子層來實現,詳見圖 2 ( b ) ( 2 ) 。

此外在圖 2 ( b ) ( 3 ) 中,研究者在訓練聯合生成時也遵循了與「橋接對齊」類似的設計,即(1)首先訓練影像和文本擴散器中的交叉注意力權重以及它們在文本影像配對數據上的環境編碼器 V。(2)凍結文本擴散器的權重,并在文本音頻配對數據上訓練環境編碼器和音頻擴散器的交叉注意力權重。(3)凍結音頻擴散器及其環境編碼器,并在音頻視頻配對數據上訓練視頻模态的聯合生成。

從結果來看,盡管只接受了三個配對聯合生成任務(文本 + 音頻、文本 + 影像和視頻 + 音頻)的訓練,但 CoDi 能夠同時生成訓練中未見過的各種模态組合,例如下圖 5 中的聯合影像 - 文本 - 音頻生成。

實驗結果

表 1 提供了數據集、任務、樣本數量和領網域的概覽信息。

下圖 3 展示了各種單模态到單模态的生成示例演示。

CoDi 在音頻字幕和音頻生成方面實現了新 SOTA,如表 4 和表 6 所示。

在影像和視頻生成方面,CoDi 的表現與最先進的技術相媲美,如表 2 和表 3 所示。

如表 8 所示,CoDi 在給定的輸入模态分組中實現了高質量影像生成。此外,表 9 表明,CoDi 在給定各種輸入模态組的情況下與真值相似。

了解更多内容,請參考原論文。

©  THE END  

轉載請聯系本公眾号獲得授權

投稿或尋求報道:[email protected]

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們