今天小編分享的科技經驗:我們試了市面上八款視頻模型,發現 Sora 确實不太行了,歡迎閲讀。
頭圖來源:即夢 AI
過去一個月,随着 Sora 正式面向用户開放,視頻模型賽道進入了新一輪瘋狂内卷。不僅谷歌推出号稱最強視頻模型 Veo 2,國内的可靈、Minimax 也相繼更新。視頻模型的熱鬧,一時間甚至蓋過了近期大熱的推理模型和 3D 生成模型。
有意思的是,被認為行業标杆的 Sora ——這個去年春節期間發布的驚豔了全行業的期貨,卻在正式發布後遭到了極客們和不少業内人士的吐槽,認為其表現沒有想象中驚豔,尤其對比過去一年陸續發布的國内外視頻模型,Sora 看起來已經沒有優勢甚至還要落後于這些 " 後輩 "。
國内視頻模型已經吊打 Sora?出于好奇,筆者選取了下面 7 款國產視頻模型,加上 Sora,做了一個技術視角上未必嚴謹,但更代表用户直觀體驗的評測。
騰訊元寶
字節即夢 AI
快手可靈 AI
生數科技 Vidu 1.5
Pixverse
海螺 AI ( MiniMax )
智譜清影
筆者選取了創意短片、高校、幻想、二次元、網紅視頻五個内容領網域,分别用 ChatGPT 生成了五段提示詞,來看看這八個模型,在這五個領網域的生成表現到底如何。
最後先疊個甲:今天視頻大模型實際使用的時候還很難一步到位,往往需要多次生成數十條甚至更多的視頻,才能有幾個可用的結果。由于時間有限,我們在測試時每個 Prompt 只生成了幾段視頻,從中挑選了結果比較好的一個,由于測試數量有限,這裏不能作為嚴謹的能力測試,只讓大家對今天國產模型的能力有一個整體印象。
1. 創意短片
首先測試的是創意短片,這其實也是今天視頻模型最重要的商業化應用場景——今天一部分廣告營銷公司正在探索如何利用視頻大模型制作商業宣傳廣告。過去在這個領網域,制作一條高質量創意廣告的價格可能高達數萬乃至數百萬沒有。
而生成創意短片,其實考驗大模型兩方面的能力:第一是基于能否把一些抽象的概念,變成可以看得見、摸得着的故事,也就是創意能力;第二是把創意變成視頻畫面,也就是創作視頻的能力。
ChatGPT 生成的提示詞如下
用五個關鍵詞:科技、愛情、未來、機器人、失落,生成一個科幻愛情短片,展現未來世界中人工智能與人類情感的碰撞。
我們用每一個視頻模型都生成了數個視頻片段,從中選取了比較的好一個,具體結果及觀感如下所示:
騰訊元寶 AI
元寶生成的這段視頻效果比較一般,像是一個背景上貼了兩張視覺中國的機器人和人類摳圖。
字節即夢 AI
即夢的這段視頻的畫面感覺稍微好一點,有點像 2000 年前後的星戰電影,不過説是愛情,這兩位看起來卻像是同行,頗有點彩虹之風,這個精神狀态可以説很超前了。
快手可靈 AI
可靈的這段視頻,機器人和人類的質感和着裝更有未來科技感,五秒鍾的視頻像是演繹了《魂斷藍橋》裏愛人重逢的經典畫面,很有故事感,畫面還用了一些電影運鏡的手法。不過有點微妙的是,機器人看起來有點偏中性甚至女性,也有點彩虹風。
生數科技 Vidu 1.5:
Vidu 的這段和前幾段視頻走了一個完全不同的風格,很有賽博漫畫的感覺,是幾個大模型裏主題風格最獨特的一個。
Pixverse:
跟可靈 AI 的感覺有點像,而且也有點彩虹風。
海螺 AI ( MiniMax ) :
海螺 AI 的這條畫面和運鏡處理的都不錯,不過故事的诠釋有點不像愛情,像「戰友情」。
智譜清影:
智譜的這個确實有點抽象,人物建模有點像 3D 遊戲,還跳了一段舞,另外 5 秒左右的時候男主的眼睛有點詭異。
OpenAI Sora
最後是 Sora,這個确實有點難評價:機器人比真人大很多,而且全程無表情,像是機械神靈即将審判眼前的信徒。
綜合來看,在創意短片的這八條視頻裏,七個國產大模型的表現都明顯好于 Sora。其中幾個模型的表現可圈可點:可靈和海螺的視頻表現最自然,即夢比較真實,Vidu 比較則有特點。
2. 搞笑短片
第二組我們測試了搞笑短片,這其實是視頻模型另一個非常有潛力的應用場景——越來越多的短視頻創作者和内容公司正在嘗試通過視頻大模型來制作更生動、更貼近閱聽人需求的娛樂内容。
生成搞笑短片,主要考驗大模型在兩個維度上的能力:其一是反應能力,即對恰當的幽默點的捕捉,其二是畫面呈現能力,也就是能否通過将搞笑點準确傳遞,同時保持畫面流暢。
生成一個視頻,展示一只貓試圖跳上沙發,結果一頭栽進沙發的縫隙裏,表現出驚訝和尴尬的表情。
騰訊元寶
除了「試圖跳上沙發」表現成「爬上沙發」,元寶生成的這段視頻對提示詞的還原還是比較貼切的。
字節即夢 AI
漏掉了「試圖跳上沙發」的環節,只呈現了當一個人 / 貓尴尬的時候會讓自己看起來很忙碌的即視感。
快手可靈 AI
在完整表現提示詞的前提下,連「尴尬」的表情都有。
生數科技 Vidu
完成了試圖跳上沙發無果的部分,但是沒栽進沙發的縫隙裏,而是掉到了地上。
Pixverse
怎麼變成兩只貓……掉下來那只臉上不是「驚訝」而是「驚恐」。
海螺 AI ( MiniMax )
沒有掉進縫隙裏,但能看出貓咪臉上若隐若現的尴尬。
智譜清影
跳上沙發沒表現出來,中間貓貓還有點變形了,不過最後的「惱羞成怒」還是有點貼切的。
OpenAI Sora
「栽進沙發的縫隙裏」表現成貓咪的身體和沙發融為一體,瞬間變微型驚悚片。
綜合來看,在搞笑短片的這八條視頻裏,元寶、即夢 AI、可靈 AI 基本完整連貫地表現了提示詞裏的内容,其他模型的表現則有點多少缺失。
3. 幻想短片
第三組測試的是幻想短片。這同樣是視頻模型的一個重要探索方向——越來越多的内容創作者和公司開始嘗試利用視頻大模型打造具有高度沉浸感的奇幻世界。
生成幻想短片,其實考驗大模型兩方面的能力:第一是創意能力,能否從字面設定中,構建出一個充滿想象力的世界,将未知的場景轉化為具體可視的畫面;第二是細節呈現能力,能否呈現出豐富的光影效果和動态的環境設計。
一個人在夢中穿越不同的奇異世界,包括浮空島嶼、巨型植物、以及巨大的未知生物。
具體結果及觀感如下所示:
騰訊元寶
有點古風即視感,主打一個綠色調。
字節即夢 AI
這個就更綠了,還很像遊戲畫面。「一個人在夢中穿越不同的奇異世界」這一點是一點也沒體現。
快手可靈 AI
這個「穿越」很快速,但除了植物沒有其他生物了。
生數科技 Vidu 1.5
這個給人感覺很像「夢」,是那種五彩斑斓的夢,尤其開頭生動體現了噩夢中的「驚吓感」。
Pixverse
雖然人物最後一秒變形了,不過解讀出了除了大型植物意外以外的存在。
海螺 AI ( MiniMax )
人物變形得很明顯。不過這個夢的色彩還是蠻斑斓的。
智譜清影
主打一個粉色夢幻。
OpenAI Sora
遊戲操控彈跳視角。
綜合來看,在幻想短片的這八條視頻裏,可靈 AI 和 Vidu 的表現最貼切,尤其 Vidu 跟其他大模型生成的内容似乎不在一個次元。即夢 AI 和 Sora 都太像遊戲視角與畫面了。
4. 二次元
第四組的關鍵詞是二次元。風格化内容是視頻模型主推的方向之一,二次元這一風格閱聽人廣泛,市場需求強烈。這類短片的創作對大模型在畫風設定、角色設計和場景構建上要求較高,同時需要叙事和動态表現的深度融合。
制作一個二次元風格視頻,講述一位年輕少女在異世界冒險。她在一個被魔法和奇幻生物充斥的世界中,結識了各種夥伴,并面臨來自黑暗勢力的挑戰。
騰訊元寶
這完全是可以哄小孩的動畫短片了,小女孩最後眉飛色舞的。
字節即夢 AI
跟上一 part 的測試一樣,又很像遊戲畫面。
快手可靈 AI
這個也很像哄小孩的卡通片,只是有點看不出「冒險」,一派其樂融融的景象。
生數科技 Vidu 1.5
這個動畫的色彩有點過度飽和了。
Pixverse
這個短片有比較明顯的皮克斯動畫風格。
海螺 AI ( MiniMax )
開頭的年輕少女會有點讓人想起葫蘆娃,倒是号召來幾個夥伴,就是最左邊的夥伴變形了。
智譜清影
很日漫。
OpenAI Sora
除了沒有夥伴,對提示詞的表現是相對最貼切的,不過就沒有很二次元了。
這一組裏智譜清影生成的内容最貼合二次元,但在畫面上,Sora 終于表現不錯了,可靈 AI 產出的内容也很精美,pixverse 的皮克斯風格也很到位。
5. 網紅視頻
最後一組測試的是網紅視頻,網紅經濟已經成為全球範圍内的一大趨勢,從内容創作者到品牌營銷方,都在探索如何利用短視頻來吸引流量和提升影響力,看看大模型在這方面的表現如何。
抖音網紅在自拍時用創意特效改變背景,從普通街頭一瞬間變成夢幻彩虹世界,最後加上她的微笑和俏皮手勢。
騰訊元寶
看來沒識别出提示詞中的「她」。
字節即夢 AI
沒有體現「變」的過程,直接背了個彩虹圓盤在身上。
快手可靈 AI
這個生成效果真的很夢幻。
生數科技 Vidu 1.5
畫風似乎有點古早,像是少兒節目預告片開頭主持人亮相,然後也沒體現街頭這個背景。
Pixverse
最後的畫面定格有點吓人,左邊兩位女士的面部發生了畸變。
海螺 AI ( MiniMax )
這個就很貼切了。畫面裏的「人」很像人,畫風也自然舒服。
智譜清影
開頭畫面的主角嘴歪了。6 秒的視頻都有點詭異。
8.OpenAI Sora
第四秒出現的手,是兩只右手,而且上方的那一只手,看起來怪怪的。但主角的笑容很燦爛,主角也非常接近真人,抛開旁邊作為畫面輔助的那兩只手,足以以假亂真了。
這一組裏海螺 AI 和可靈 AI 勝出明顯,無論對提示詞的理解還是畫面的審美、真實感都勝出一籌。
結語
在這五個場景測試裏,國產視頻模型在中文互動條件下,面對非專業用户群體,整體表現是優于 Sora 的。尤其是在創意短片、搞笑短片和幻想短片的創作中,可靈 AI、海螺 AI、即夢 AI 和 Vidu 都展現了出色的創意和視覺效果,能夠捕捉幽默點、打造奇幻世界以及呈現獨特風格。
在二次元和網紅視頻的表現上,智譜清影看起來是最貼合二次元風格的畫風,而海螺 AI 則在網紅視頻中特效運用和場景切換上表現了不錯的創意能力和視覺效果。
但這畢竟是個有限次數下的不嚴謹測試,并不能代表各個模型在不同場景中的實際表現,畢竟文生視頻模型接下來的重點在于對場景的應用。
智源研究院副院長林詠華最近在采訪中提到「經過今年的發展,無論是開源模型,還是閉源模型,2025 年都會出現基于文生圖、尤其是文生視頻的應用。」
這也就意味着,2025 年視覺模型将從「基礎能力的提升」轉向「生產場景的比拼」未來的競争不僅僅是在畫質、速度等基礎指标上進行比拼,更将在具體應用場景中的表現上展開較量,特别是在廣告、娛樂等行業場景裏。
随着技術的不斷進步,視頻生成的成本和速度将逐步降低,市場的門檻也會随之降低,未來,AI 視頻生成将更多融入到更加復雜和多元的應用場景中,開啓全新的產業競争。
随着大模型的逐步成熟和應用場景的多樣化,如何在具體生產場景中發揮最大效能,将成為未來的關鍵競争點。
真正的挑戰就要來了。