全方位超越 Sora，Meta 最新的 AI 視頻模型到底強在哪裏？

今天小編分享的科技經驗：全方位超越 Sora，Meta 最新的 AI 視頻模型到底強在哪裏？，歡迎閲讀。

這兩天，視頻生成模型領網域因為 Meta Movie Gen 的發布，又炸開了鍋。

行業内外感嘆最多的地方，無外乎兩點，一是生成效果自然逼真，還能同步生成與畫面匹配的聲音，很像當時 Sora 發布後引起的讨論和轟動；二是 Meta AI 的新模型自定義性很強，無論是視頻畫面比例，還是視頻元素與細節，都能根據用户的需求進行調整。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQP1vMJJ3LCIfFzI3RV-_eHkSkSEVWdq6fuX90b37Gg2JWzlrsz0PmjT8HeeKUIgX8CtBz10MEaoREtg0i2WVzga.mp4

所以，可能會引領視頻生成新變革的 Meta Movie Gen 到底有哪些細節？這些在官網和演示視頻裏的驚豔效果是怎麼煉成的？Meta AI 的視頻模型負責人 Andrew Brown 專門為 Meta Movie Gen 的理論技術做了解讀：

Movie Gen 在整體質量和一致性方面顯著優于 Sora。真實性和美觀性考驗照片寫實性，Movie Gen 全面獲勝。

Meta Movie Gen 是一組可以進行文本到視頻生成、文本到影像生成、個性化、編輯和視頻到音頻生成的模型。

擴展數據、計算和模型參數非常重要，将其與流匹配相結合，并轉向簡單的常用 LLM 架構 ( Llama ) ，從而實現了 SOTA 視頻生成質量。

我們（Meta AI）是第一個使用 Llama arch 進行媒體生成的人。

Movie Gen 是一個 30B 參數轉換器，可生成不同寬高比和同步音頻的 1080p 視頻，最大持續時間為 16 秒（16fps）。

我們（Meta）為 T2V 模型提供了多階段訓練方案。T2I + T2V 聯合訓練，導致收斂速度慢得多且質量更差。

文本到視頻的評估很困難。自動化指标非常差，并且與人類評估沒有很好的相關性。

視頻生成的「超級個體」

Meta Movie Gen 首發當天，APPSO 在第一時間報道解讀了這個最新的視頻生成模型，總體來説，Movie Gen 具有四種功能：視頻生成、個性化視頻生成、精準編輯和音頻生成。

先看最基礎的視頻生成 Movie Gen Video，多模态的能力使得新模型可以勝任多種不同的輸入方式，用户不僅可以通過簡單的文本、少許提示詞生成相應的視頻，還能直接把需要處理的圖片放到模型裏，根據文字要求，讓靜态的圖片變成動态的視頻。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQOGoRNNttaiv6GurKZSTJInN2JKv-I_KDeLmKlP0ezuMNoFSnPj2w_UKfMrU7TJ6OuhC5bYmfjbOwcXXRMldykb.mp4

▲ 提示文本：一個女孩正在海灘上奔跑，手裏拿着一只風筝；她穿着牛仔短褲和一件黃色 T 恤；陽光照耀着她。

你甚至還能讓 Movie Gen 幫忙重新生成或者優化一段視頻。不管選擇哪種輸入方式，Movie Gen 目前在官網的演示視頻，效果都非常好，人物表情自然，畫面細節到位，也能比較準确地按照提示詞或文本的要求來生成相應結果。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQPoimKxH0OjSM2nrwEMvGZ4p1MPTVxM86qgLLo3WWrQcs_3k7q2AFxNgDU7wQR9AiODYnzhAvNv66EYk5CL-JjC.mp4

Andrew Brown 介紹到，在視頻生成的過程中，擴展數據、計算和模型參數非常重要，将其與流匹配相結合，并轉向簡單的常用 LLM 架構 ( Llama ) ，從而實現了 SOTA 視頻生成質量。

而且，新模型中的 T2V、個性化和編輯模型都來自相同的培訓方案。在預訓練期間，Meta 首先訓練 T2I，然後訓練 T2V。使用該模型作為初始化，然後進行 T2V 後期訓練，并訓練個性化 T2V 和 V2V 編輯的能力。

另外，模型的訓練也按照分辨率的高低進行，先是低分辨率（256px）訓練，然後是高分辨率訓練（768px）。Meta AI 嘗試聯合訓練 T2I + T2V，但這導致收斂速度慢得多且質量比之前的還要差勁。

Movie Gen Video 之所以能夠做到逼真的生成結果，本質上還是因為高達 30B 參數轉換器模型的卓越能力，這個模型能夠以每秒 16 幀的速度生成長達 16 秒的視頻，而且最長能夠生成 45 秒的高質量和高保真音頻。

Meta 官方還在論文中透露：

這些模型可以推理物體運動、主體與物體之間的相互作用和相機運動，并且可以學習各種概念的合理運動。

這句話一共有三層意思，首先是模型本身可以幾乎還原出現實世界的物理運動，以及各種「合乎常理」的物理規律，而對于用户而言，看上去「自然且逼真」就是模型技術最成功的地方。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQODlBNBPphoHO0OxyhgRUjxX2_ypK3-g7d8uLcSSfQKz-BWwxaw6O3ru8Hj8P4hsQvePxUXjMkQP1s6LZS0dP-B.mp4

Movie Gen Video 能夠準确理解物理世界的運動規律，Meta AI 是下了大功夫的。該團隊在數億個視頻和數十億張影像上，對全新的模型進行了大量的預訓練。通過不停的重復、學習、總結、推理和運用，Movie Gen Video 才有了在官網裏的優異表現。

接着，模型還能主動模仿學習專業電影的運鏡、畫面、蒙太奇等。也就是説，通過 Movie Gen Video 生成的視頻，還有了類似電影拍攝的專業性和藝術性。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQNJgXGFWj-R5P_psMtiR6l5TLrDr8g45ckHVx0tERIlod4irfm29mLts61SShKHI7Gfnry7P6aWDk0FB8R9xZ3B.mp4

不過 Andrew Brown 提到，文本到視頻的評估很困難。因為自動化指标非常差，并且與人類評估沒有很好的相關性。也就是説，在視頻生成模型研制的早期，生成結果和人們印象中和觀察中的真實物理世界差别太大，最後 Meta 還是決定這種真實性的判斷，完全依賴人類的評估。

我們花費了大量精力将視頻評估分解為多個正交質量和對齊軸。

結果 Movie Gen 在和 1000 個提示評估集上的模型進行比較時，在質量和一致性方面獲勝或全面處于同等水平。

最後，模型能在此基礎上，推理和創作出接下來的内容，它就像一個專業的導演，指揮着畫面裏的一舉一動；也像一個經驗豐富的拟聲師，根據視頻内容或者文本提示，實時生成和畫面一一對應的配樂。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQM2lzIy5kQwBQ7F0FEBzOwq2YGB-hFKnmoz5SZmOmGhZCMKRc1sqsG0tK7EOVl8133rQjPhHxfRlp_WFBurPqR4.mp4

▲ 煙花爆炸瞬間的音效

同步生成音頻的能力，依靠得是 Movie Gen Audio。這是一個 13B 參數轉換器模型，可以接受視頻輸入以及可選的文本提示，以實現可控性生成與視頻同步的高保真音頻。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQOqaT9K5XXcswrfjz54HfHzFkGfKM815Wkif-RD-wo9OUIzwCUDqt7zVOWR9pgOCohjBFxpKaMIZd7uZDS3t6Al.mp4

和 Movie Gen Video 一樣， Movie Gen Audio 也進行了「海量」練習，Meta AI 将數百萬個小時的音頻參考投喂到模型的訓練裏。經過大量的對比總結，目前模型已經掌握了聲音和畫面之間的對應關系，甚至還能了解不同的 bgm 會帶給觀眾哪些不同的感受。

因此在遇到有關情緒和環境的提示詞時，Movie Gen Audio 總能找到和畫面完美契合的音樂。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQNH70f1iPeyIzxUYOBL3qIYNRE-HKJl1P2VXipWwPwO-NkFeTPsBB5dyJCeezKQbqm8ANlae1-riMBHhS77F90Q.mp4

同時，它可以生成環境聲音、樂器背景音樂和拟音聲音，在音頻質量、視頻到音頻對齊和文本到音頻對齊方面提供最先進的結果。

這使它們成為同類中最先進的模型。

雖然我們不敢就此和官方一樣，下一個如此自信的定論，但無論是從官方的視頻長度、畫面質量，還是背景音樂的貼合程度，Movie Gen Video 相較于以往的視頻生成模型，有了非常明顯的進步。

而且，和先前的偶像實力派 Sora 相比，Movie Gen 在整體質量和一致性方面都有着比較明顯的領先，Andrew Brown 毫不掩飾地説到在這場與 Sora 的比賽中：

Movie Gen 全面獲勝。

視頻編輯的「全能專家」

在 Movie Gen Video 和 Movie Gen Audio 的協同配合下面，Meta AI 全新的視頻生成模型有了全新的能力，不過上述的進步還只是技術基礎，同時具備音視頻生成能力後，Meta 還繼續擴展了全新模型的适用範圍，使它能夠支持個性化視頻的生成。

個性化顧名思義，就是結合用户需求，根據要求生成指定的視頻内容。

雖説先前的視頻模型也能做到個性化生成結果，但這個結果總是不盡人意，要麼是不能更改細節，只能重新來過，要麼是在連續更改細節時，畫面裏的其他元素無法保持一致性，總是會因為新視頻的生成而多少受到點影響。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQN93-PQzwvk9hXxtg_CXRKF0iuS3vDfYDAd6o7L2PLo9s46t2mt3PfVgBJfLqyzKvmH3_avUhVuR5vlaFA3KEiY.mp4

Movie Gen Video 在官網的演示中，很好地展現了他們在這方面的優勢。新模型不僅可以按照提示詞 / 參考影像的要求，生成個性化的視頻，還能在該視頻的基礎上，繼續優化調整細節，并且保證其他的生成内容不受幹擾，也就是「精細化修改」。

與需要專業技能或缺乏精确度的生成工具的傳統工具不同，Movie Gen 保留了原始内容，僅針對相關像素。

在創建保留人類身份和動作的個性化視頻方面，我們的模型取得了最先進的成果。

這項功能，對于很多自媒體工作室，或有視頻編輯需求的人，非常有用，它可以對更改對象進行全局修改，或者細節修改。大到根據文本重新生成整個畫面，小到只改變人物的發色、眼鏡的樣式等。比如可以通過模型來消除背景當中的無關雜物。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQOlcQl6jghERiA76vaIS8d0NbfUpcoRGuHFWNH6-eyueaTqKtLemFcJEZhv90zsF4xwtPoRtIyN_tKlsKHGG4Jx.mp4

或者給原視頻換上新的背景，不管是樣式還是顏色，都能随時改變，而且還可以把白天秒變成黑夜。

另外 Movie Gen Video 還能針對很多細節做出細微的調整，在保證視頻構圖、畫整體不變的同時，改變人物的衣服顏色、眼鏡佩戴樣式，主體穿着和寵物毛色等。

比如去除視頻裏的無關雜物、更換畫面背景樣式，增加視頻細節，改變主體衣着顏色等方面，都是他的強項。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQOgCjxW2-d5hyadozHguLaOWtBEbQbaGhvUFwsC94LlfL0kSDCRsE75H5mCtOBUJXON-J91a8-HeGuqKK9e6RC7.mp4

不過這還只是一種暢想，因為 Movie Gen Video 目前只支持 1080P、16 秒、每秒 16 幀的高清長視頻，或者最長 45 秒的高質量和高保真音頻。這樣的畫面分辨率以及視頻長度，對于一個有創作需求的個體或公司來説，好像都不太夠用。

但這種技術的突破，使得 AI 擁有了對視頻檔案無級調節的編輯能力，個性化定制、精準調節，加上 Movie Gen Audio 打開了視頻配音的大門，Movie Gen Video 雖然要等到明年才會和公眾正式見面，但以目前官方的演示結果來看，它真有可能為視頻、影視和 AI 行業注入新的動力，甚至帶來一場新的變革。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQNqaqS1K8y127TjMDSqVQFKxytdhtS2LIigdvwG1m1B7PSQ9MVJzbHUsmJ2r6NlDo5676AovslXGGRsFDAJof5C.mp4

包括 Movie Gen Video 在内的最新、最前沿的工具，正在試圖打破這種 AI 在視頻生成領網域的刻板印象，雖然目前以他們的能力，這一天的到來還有很久。

對于視頻生成模型來説，一開始很難直接影響，甚至觸及到普通人的日常生活，直到有了某部由 AI 創作的電影，可能才會在新鮮感上，引起大眾的注意。當下用 AI 做出的電影、番劇、動漫，多少都有些畫面不真實、動作很違和的缺點。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQOuOxod5gTk4x2RfQBdpu5EARkJdH_eqk-WC6V_5YLxIiD0Q8-9XD3dOjwIDskByjO4lIRgylv_LwkPkEb1vgX2.mp4

Meta AI 也在官網表示，随着模型技術的改善與發展，他們将會與電影制作人和創作者密切合作，整合他們的反饋。當下，無論是 Runway、Sora，還是最新的 Meta AI，都在飛速發展，起碼和一年前的生成效果比較起來，可以看到肉眼可見的進步。

AI 技術對人們生活的影響，不一定會在第一時間顯現出來，當大家還都在探讨 AI「有什麼用」的時候，那它對于大多數人的最大意義，就是多了一個好用的工具、一個好玩兒的玩具：

無論一個人是希望在好萊塢大展身手的電影制作人，還是喜歡為觀眾制作視頻的創作者，我們都相信每個人都應該有機會使用有助于提高創造力的工具。