Sora復刻版來了，微軟參與，華人團隊打造

今天小編分享的科學經驗：Sora復刻版來了，微軟參與，華人團隊打造，歡迎閱讀。

Sora 復刻版出現了——

Mora，還是多智能體那種。

△Mora：模拟數字世界

Sora 有的能力它基本都有，比如文本轉視頻、擴展視頻、視頻編輯、視頻拼接、模拟數字世界等等。

還支持生成 1024*576 分辨率的 12 秒視頻。

這項研究來自理海大學微軟研究院的華人團隊。他們運用多個視覺 agent，在多個任務中表現接近 Sora。

既如此，且來看 Mora 究竟實力如何。

Mora 復刻 Sora

先來看效果。

首先是文本到視頻的生成。

In the middle of a vast desert, a golden desert city appears on the horizon, its architecture a blend of ancient Egyptian and futuristic elements.The city is surrounded by a radiant energy barrier, while in the air, seve

( 在廣袤的沙漠中，一座金色的沙漠城市出現在地平線上，其建築融合了古埃及和未來元素。 )

效果還不錯，有點三體内味了。

再來看，基于文本提示的影像到視頻生成。

不妨就拿 Sora 視頻比較一下。

除此之外，還支持視頻編輯，比如修改一下視頻裡的車、給車鋪上一條彩虹之路。

這個效果嘛，就還有進步空間 ~

不過跟 Sora 同款的視頻拼接，是可以 Hold 住的。

多智能體框架

研究團隊提出了一個多智能體框架 Mora。

他們認為解決不同視頻生成任務，需要不同專業能力 agent 協作。為此，Mora 框架中有 5 個基本角色組成：

Prompt 選擇和生成 agent、文本到影像生成 agent、影像到影像生成 agent、影像到視頻生成 agent、視頻到視頻 agent。

每個 agent 負責特定的輸入和輸出，通過設定 agent 的角色和操作技能，團隊定義了各種任務基本工作流程。

根據任務不同，采用特定的 agent 組合。

目前他們主要設計了六個工作流：

文本到視頻生成；文本條件影像到視頻生成；擴展生成的視頻；視頻到視頻編輯；連接視頻以及模拟數字世界。

最終，在各個任務中，Mora 的表現都接近 Sora。

團隊認為，Mora 作為開源多 agent 框架，具有一定的靈活性和效率，還能無縫集成各種模型。

但與此同時，也有一定的進步空間。比如高質量視頻數據集的需求、指令遵循能力的提升、人類視覺偏好對齊等。

理海微軟團隊

此次研究來自理海大學孫力超團隊，此外還有微軟研究院研究員參與。

前段時間，同樣也是這個團隊用 37 頁論文逆向工程解剖 Sora。

感興趣的朋友可戳下方鏈接：

https://arxiv.org/abs/2403.13248

https://github.com/lichao-sun/Mora