今天小編分享的科技經驗:全方位超越 Sora,Meta 最新的 AI 視頻模型到底強在哪裏?,歡迎閲讀。
這兩天,視頻生成模型領網域因為 Meta Movie Gen 的發布,又炸開了鍋。
行業内外感嘆最多的地方,無外乎兩點,一是生成效果自然逼真,還能同步生成與畫面匹配的聲音,很像當時 Sora 發布後引起的讨論和轟動;二是 Meta AI 的新模型自定義性很強,無論是視頻畫面比例,還是視頻元素與細節,都能根據用户的需求進行調整。
所以,可能會引領視頻生成新變革的 Meta Movie Gen 到底有哪些細節?這些在官網和演示視頻裏的驚豔效果是怎麼煉成的?Meta AI 的視頻模型負責人 Andrew Brown 專門為 Meta Movie Gen 的理論技術做了解讀:
Movie Gen 在整體質量和一致性方面顯著優于 Sora。真實性和美觀性考驗照片寫實性,Movie Gen 全面獲勝。
Meta Movie Gen 是一組可以進行文本到視頻生成、文本到影像生成、個性化、編輯和視頻到音頻生成的模型。
擴展數據、計算和模型參數非常重要,将其與流匹配相結合,并轉向簡單的常用 LLM 架構 ( Llama ) ,從而實現了 SOTA 視頻生成質量。
我們(Meta AI)是第一個使用 Llama arch 進行媒體生成的人。
Movie Gen 是一個 30B 參數轉換器,可生成不同寬高比和同步音頻的 1080p 視頻,最大持續時間為 16 秒(16fps)。
我們(Meta)為 T2V 模型提供了多階段訓練方案。T2I + T2V 聯合訓練,導致收斂速度慢得多且質量更差。
文本到視頻的評估很困難。自動化指标非常差,并且與人類評估沒有很好的相關性。
視頻生成的「超級個體」
Meta Movie Gen 首發當天,APPSO 在第一時間報道解讀了這個最新的視頻生成模型,總體來説,Movie Gen 具有四種功能:視頻生成、個性化視頻生成、精準編輯和音頻生成。
先看最基礎的視頻生成 Movie Gen Video,多模态的能力使得新模型可以勝任多種不同的輸入方式,用户不僅可以通過簡單的文本、少許提示詞生成相應的視頻,還能直接把需要處理的圖片放到模型裏,根據文字要求,讓靜态的圖片變成動态的視頻。
▲ 提示文本:一個女孩正在海灘上奔跑,手裏拿着一只風筝;她穿着牛仔短褲和一件黃色 T 恤;陽光照耀着她。
你甚至還能讓 Movie Gen 幫忙重新生成或者優化一段視頻。不管選擇哪種輸入方式,Movie Gen 目前在官網的演示視頻,效果都非常好,人物表情自然,畫面細節到位,也能比較準确地按照提示詞或文本的要求來生成相應結果。
Andrew Brown 介紹到,在視頻生成的過程中,擴展數據、計算和模型參數非常重要,将其與流匹配相結合,并轉向簡單的常用 LLM 架構 ( Llama ) ,從而實現了 SOTA 視頻生成質量。
而且,新模型中的 T2V、個性化和編輯模型都來自相同的培訓方案。在預訓練期間,Meta 首先訓練 T2I,然後訓練 T2V。使用該模型作為初始化,然後進行 T2V 後期訓練,并訓練個性化 T2V 和 V2V 編輯的能力。
另外,模型的訓練也按照分辨率的高低進行,先是低分辨率(256px)訓練,然後是高分辨率訓練(768px)。Meta AI 嘗試聯合訓練 T2I + T2V,但這導致收斂速度慢得多且質量比之前的還要差勁。
Movie Gen Video 之所以能夠做到逼真的生成結果,本質上還是因為高達 30B 參數轉換器模型的卓越能力,這個模型能夠以每秒 16 幀的速度生成長達 16 秒的視頻,而且最長能夠生成 45 秒的高質量和高保真音頻。
Meta 官方還在論文中透露:
這些模型可以推理物體運動、主體與物體之間的相互作用和相機運動,并且可以學習各種概念的合理運動。
這句話一共有三層意思,首先是模型本身可以幾乎還原出現實世界的物理運動,以及各種「合乎常理」的物理規律,而對于用户而言,看上去「自然且逼真」就是模型技術最成功的地方。
Movie Gen Video 能夠準确理解物理世界的運動規律,Meta AI 是下了大功夫的。該團隊在數億個視頻和數十億張影像上,對全新的模型進行了大量的預訓練。通過不停的重復、學習、總結、推理和運用,Movie Gen Video 才有了在官網裏的優異表現。
接着,模型還能主動模仿學習專業電影的運鏡、畫面、蒙太奇等。也就是説,通過 Movie Gen Video 生成的視頻,還有了類似電影拍攝的專業性和藝術性。
不過 Andrew Brown 提到,文本到視頻的評估很困難。因為自動化指标非常差,并且與人類評估沒有很好的相關性。也就是説,在視頻生成模型研制的早期,生成結果和人們印象中和觀察中的真實物理世界差别太大,最後 Meta 還是決定這種真實性的判斷,完全依賴人類的評估。
我們花費了大量精力将視頻評估分解為多個正交質量和對齊軸。
結果 Movie Gen 在和 1000 個提示評估集上的模型進行比較時,在質量和一致性方面獲勝或全面處于同等水平。
最後,模型能在此基礎上,推理和創作出接下來的内容,它就像一個專業的導演,指揮着畫面裏的一舉一動;也像一個經驗豐富的拟聲師,根據視頻内容或者文本提示,實時生成和畫面一一對應的配樂。
▲ 煙花爆炸瞬間的音效
同步生成音頻的能力,依靠得是 Movie Gen Audio。這是一個 13B 參數轉換器模型,可以接受視頻輸入以及可選的文本提示,以實現可控性生成與視頻同步的高保真音頻。
和 Movie Gen Video 一樣, Movie Gen Audio 也進行了「海量」練習,Meta AI 将數百萬個小時的音頻參考投喂到模型的訓練裏。經過大量的對比總結,目前模型已經掌握了聲音和畫面之間的對應關系,甚至還能了解不同的 bgm 會帶給觀眾哪些不同的感受。
因此在遇到有關情緒和環境的提示詞時,Movie Gen Audio 總能找到和畫面完美契合的音樂。
同時,它可以生成環境聲音、樂器背景音樂和拟音聲音,在音頻質量、視頻到音頻對齊和文本到音頻對齊方面提供最先進的結果。
這使它們成為同類中最先進的模型。
雖然我們不敢就此和官方一樣,下一個如此自信的定論,但無論是從官方的視頻長度、畫面質量,還是背景音樂的貼合程度,Movie Gen Video 相較于以往的視頻生成模型,有了非常明顯的進步。
而且,和先前的偶像實力派 Sora 相比,Movie Gen 在整體質量和一致性方面都有着比較明顯的領先,Andrew Brown 毫不掩飾地説到在這場與 Sora 的比賽中:
Movie Gen 全面獲勝。
視頻編輯的「全能專家」
在 Movie Gen Video 和 Movie Gen Audio 的協同配合下面,Meta AI 全新的視頻生成模型有了全新的能力,不過上述的進步還只是技術基礎,同時具備音視頻生成能力後,Meta 還繼續擴展了全新模型的适用範圍,使它能夠支持個性化視頻的生成。
個性化顧名思義,就是結合用户需求,根據要求生成指定的視頻内容。
雖説先前的視頻模型也能做到個性化生成結果,但這個結果總是不盡人意,要麼是不能更改細節,只能重新來過,要麼是在連續更改細節時,畫面裏的其他元素無法保持一致性,總是會因為新視頻的生成而多少受到點影響。
Movie Gen Video 在官網的演示中,很好地展現了他們在這方面的優勢。新模型不僅可以按照提示詞 / 參考影像的要求,生成個性化的視頻,還能在該視頻的基礎上,繼續優化調整細節,并且保證其他的生成内容不受幹擾,也就是「精細化修改」。
與需要專業技能或缺乏精确度的生成工具的傳統工具不同,Movie Gen 保留了原始内容,僅針對相關像素。
在創建保留人類身份和動作的個性化視頻方面,我們的模型取得了最先進的成果。
這項功能,對于很多自媒體工作室,或有視頻編輯需求的人,非常有用,它可以對更改對象進行全局修改,或者細節修改。大到根據文本重新生成整個畫面,小到只改變人物的發色、眼鏡的樣式等。比如可以通過模型來消除背景當中的無關雜物。
或者給原視頻換上新的背景,不管是樣式還是顏色,都能随時改變,而且還可以把白天秒變成黑夜。
另外 Movie Gen Video 還能針對很多細節做出細微的調整,在保證視頻構圖、畫整體不變的同時,改變人物的衣服顏色、眼鏡佩戴樣式,主體穿着和寵物毛色等。
比如去除視頻裏的無關雜物、更換畫面背景樣式,增加視頻細節,改變主體衣着顏色等方面,都是他的強項。
不過這還只是一種暢想,因為 Movie Gen Video 目前只支持 1080P、16 秒、每秒 16 幀的高清長視頻,或者最長 45 秒的高質量和高保真音頻。這樣的畫面分辨率以及視頻長度,對于一個有創作需求的個體或公司來説,好像都不太夠用。
但這種技術的突破,使得 AI 擁有了對視頻檔案無級調節的編輯能力,個性化定制、精準調節,加上 Movie Gen Audio 打開了視頻配音的大門,Movie Gen Video 雖然要等到明年才會和公眾正式見面,但以目前官方的演示結果來看,它真有可能為視頻、影視和 AI 行業注入新的動力,甚至帶來一場新的變革。
包括 Movie Gen Video 在内的最新、最前沿的工具,正在試圖打破這種 AI 在視頻生成領網域的刻板印象,雖然目前以他們的能力,這一天的到來還有很久。
對于視頻生成模型來説,一開始很難直接影響,甚至觸及到普通人的日常生活,直到有了某部由 AI 創作的電影,可能才會在新鮮感上,引起大眾的注意。當下用 AI 做出的電影、番劇、動漫,多少都有些畫面不真實、動作很違和的缺點。
Meta AI 也在官網表示,随着模型技術的改善與發展,他們将會與電影制作人和創作者密切合作,整合他們的反饋。當下,無論是 Runway、Sora,還是最新的 Meta AI,都在飛速發展,起碼和一年前的生成效果比較起來,可以看到肉眼可見的進步。
AI 技術對人們生活的影響,不一定會在第一時間顯現出來,當大家還都在探讨 AI「有什麼用」的時候,那它對于大多數人的最大意義,就是多了一個好用的工具、一個好玩兒的玩具:
無論一個人是希望在好萊塢大展身手的電影制作人,還是喜歡為觀眾制作視頻的創作者,我們都相信每個人都應該有機會使用有助于提高創造力的工具。