大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

Meta版Sora無預警來襲!抛棄擴散模型,音視頻生成/畫面編輯全包,92頁論文無保留公開

2024-10-05 简体 HK SG TW

今天小編分享的科學經驗:Meta版Sora無預警來襲!抛棄擴散模型,音視頻生成/畫面編輯全包,92頁論文無保留公開,歡迎閱讀。

剛剛,Meta 搶在 OpenAI 之前推出自己的 Sora ——Meta Movie Gen

Sora 有的它都有,可創建不同寬高比的高清長視頻,支持 1080p、16 秒、每秒 16 幀。

Sora 沒有的它還有,能生成配套的背景音樂和音效、根據文本指令編輯視頻,以及根據用戶上傳的影像生成個性化視頻。

Meta 表示,這是 " 迄今為止最先進的媒體基礎模型(Media Foundation Models)"。

只需一句 " 把燈籠變成飛向空中的泡泡 ",就能替換視頻中的物體,同時透明的泡泡正确反射了背景環境。

上傳一張自己的照片,就能成為 AI 電影的主角。

生成的視頻不再無聲,也不只是能安一個背景音樂。

比如看這裡!視頻會配合滑板輪子轉動和落地配上逼真音效。(注意打開聲音)

有人表示,随着大量創作者學會使用 AI 視頻編輯工具,很難想象幾年後長視頻和短視頻會變成什麼樣。

這一次,與 Sora 只有演示和官網博客不同,Meta 在92 頁的論文中把架構、訓練細節都公開了。

不過模型本身還沒開源,遭到抱抱臉工程師貼臉開大,直接在評論區扔下 Meta 的開源主頁鏈接:

在這等着您嗷。

Meta 在論文中特别強調,數據規模、模型大小、訓練算力的擴展對于訓練大規模媒體生成模型至關重要。通過系統地提升這幾個維度,才使得如此強大的媒體生成系統成為可能。

其中最另業界關注的一點是,這一次他們完全扔掉了擴散模型和擴散損失函數,使用 Transformer 做骨幹網絡,流匹配(Flow Matching)做訓練目标。

用 Llama3 架構做視頻模型

具體來說 Movie Gen 由視頻生成和音頻生成兩個模型組成。

Movie Gen Video:30B 參數 Transformer 模型,可以從單個文本提示生成 16 秒、16 幀每秒的高清視頻,相當于 73K 個視頻 tokens。

對于精确視頻編輯,它可以執行添加、删除或替換元素,或背景替換、樣式更改等全局修改。

對于個性化視頻,它在保持角色身份一致性和運動自然性方面取得 SOTA 性能。

Movie Gen Audio:13B 參數 Transformer 模型,可以接受視頻輸入以及可選的文本提示,生成與視頻同步的高保真音頻。

Movie Gen Video 通過預訓練 - 微調範式完成,在骨幹網絡架構上,它沿用了 Transoformer,特别是 Llama3 的許多設計。

預訓練階段

在海量的視頻 - 文本和影像 - 文本數據集上進行聯合訓練,學習對視覺世界的理解。這個階段的訓練數據規模達到了 O ( 100 ) M 視頻和 O ( 1 ) B 影像,用以學習運動、場景、物理、幾何、音頻等概念。

微調階段

研究人員精心挑選了一小部分高質量視頻進行有監督微調,以進一步提升生成視頻的運動流暢度和美學品質。

為了進一步提高效果,模型還引入了流匹配(Flow Matching)作為訓練目标,這使得視頻生成的效果在精度和細節表現上優于擴散模型。

擴散模型通過從數據分布逐漸加入噪聲,然後在推理時通過逆過程去除噪聲來生成樣本,用大量的迭代步數逐步逼近目标分布。

流匹配則是通過直接學習樣本從噪聲向目标數據分布轉化的速度,模型只需通過估計如何在每個時間步中演化樣本,即可生成高質量的結果。

與擴散模型相比,流匹配方法訓練更加高效,計算成本更低,并且生成的結果在時間維度上具有更好的連續性和一致性。

在整體架構上,首先通過時空自編碼器(Temporal AutoEncoder, TAE)将像素空間的 RGB 影像和視頻壓縮到一個時空潛空間,學習一種更加緊湊的表征。

接着,輸入的文本提示被一系列預訓練的文本編碼器編碼成向量表示,作為模型的條件信息。這裡用到了多種互補的文本編碼器,包括理解語義的編碼器如 UL2、與視覺對齊的編碼器如 Long-prompt MetaCLIP,以及理解視覺文本的字元級編碼器如 ByT5。

最後,生成模型以 Flow Matching 的目标函數進行訓練,從高斯分布采樣的噪聲向量作為輸入,結合文本條件,生成一個輸出潛碼。這個潛碼經過 TAE 解碼,就得到最終的影像或視頻輸出。

此外 Movie Gen Video 在技術上還引入了多項創新:

為了讓模型同時适配影像和視頻,設計了一套因子化的可學習位置編碼(factorized learnable positional embedding)機制。對高度、寬度、時間三個維度分别編碼,再相加。這樣即适配了不同寬高比,又能支持任意長度的視頻。

針對推理效率問題,它采用了線性 - 二次時間步長調度(linear-quadratic t-schedule)策略。僅用 50 步就能逼近 1000 步采樣的效果,大幅提升了推理速度。

為了進一步提高生成效率,Movie Gen Video 模型還采用了基于時間平鋪(temporal tiling)的推理方法。應對生成高分辨率長視頻時,直接對整個視頻進行編碼和解碼可能會遇到的内存限制問題。

在時間平鋪推理中,輸入視頻在時間維度上被分割成多個片段,每個片段獨立進行編碼和解碼,然後在輸出時将所有片段重新拼接在一起。這種方法不僅降低了對内存的需求,還提高了推理的效率。

此外,在解碼階段使用了重疊和混合的方式來消除片段邊界處的偽影問題,即通過在片段之間引入重疊區網域,并對重疊區網域進行加權平均,确保生成的視頻在時間維度上保持平滑和一致。

另外 Meta 還開源了多個基準測試數據集,包括 Movie Gen Video Bench、Movie Gen Edit Bench 和 Movie Gen Audio Bench,為後續研究者提供了權威的評測工具,有利于加速整個領網域的進步。

這篇長達 92 頁的論文還介紹了更多在架構、訓練方法、數據管理、評估、并行訓練和推理優化、以及音頻模型的更多信息。

感興趣的可到文末鏈接查看。

One More Thing

AI 視頻生成這塊,這兩天熱鬧不斷。

就在 Meta 發布 Movie Gen 之前不久,OpenAI Sora 主創之一Tim Brooks跳槽谷歌 DeepMind,繼續視頻生成和世界模拟器方面的工作。

這讓很多人想到,就像當年谷歌遲遲不推出大模型應用,Transformer 8 個作者紛紛出走。

現在 OpenAI 遲遲發布不了 Sora,主要作者也跑了。

不過另外也有人認為,Tim Brooks 選擇現在離開,或許說明他在 OpenAI 的主要工作完成了,也讓人開始猜測:

Meta 的發布會迫使 OpenAI 放出 Sora 來回應嗎?

(截至目前為止,Sora 的另一位主創 Bill Peebles 還未發聲。)

現在 Meta 放出了帶有視頻編輯功能的模型,再加上 10 月 1 日 Pika 1.5 更新,主打給視頻中物體加上融化、膨脹、擠壓等物理特效。

不難看出,AI 視頻生成下半場,要開始卷向 AI 視頻編輯了。

論文地址:

https://ai.meta.com/static-resource/movie-gen-research-paper

參考鏈接:

[ 1 ] https://ai.meta.com/research/movie-gen/

[ 2 ] https://x.com/AIatMeta/status/1842188252541043075

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們