Sora再次“期貨式”發布！國產大模型早已搶跑，哪家最出眾？

今天小編分享的科技經驗：Sora再次“期貨式”發布！國產大模型早已搶跑，哪家最出眾？，歡迎閱讀。

Sora 來了，但沒有完全來。在 12 天連續發布會活動的第三天，OpenAI 正式面向大眾發布了 AI 視頻大模型 Sora Turbo，最高支持生成 20 秒視頻，僅為初次公布 Sora 時宣傳時長的三分之一。更離譜的是，不是任何用戶都可以立即體驗 Sora Turbo，該應用仍處于小範圍測試階段。

在 Sora 之前，海外已有 AI 公司開發出了視頻大模型，但直到今年 2 月 Sora 首次亮相，視頻大模型行業才真正進入黃金發展期。然而帶動視頻大模型快速發展的 Sora，卻似乎掉隊了。

不說我們可能較為陌生的海外，僅僅是國内市場，就湧現了不下二十款 AI 視頻大模型，互聯網巨頭騰訊、阿裡巴巴、字節跳動等，更是每一家都推出了 AI 視頻大模型。站在行業的角度，AI 視頻大模型賦予了大模型理解和重構真實世界的能力，站在用戶的角度，AI 視頻大模型則給了我們發揮想象力的無限可能。

與面向泛用場景的大語言模型不同，視頻大模型的使用場景相對更加專業，因而現階段基本需要付費才能随心生成視頻。免費用戶只能領取系統的積分或每日贈送的次數生成視頻，而且可能無法體驗部分高階功能。正因如此，不關注 AI 大模型的小夥伴可能并不清楚國内有哪些視頻大模型。

接下來，小雷就盤點六款目前國内知名度較高的 AI 大模型，并分析其功能特性，或許未來它們就會成為你手中将想法、靈感轉化為現實的工具。

國内視頻大模型眾多，功能和體驗也有不小的差異，經過數月時間的提升，大多能夠識别人類自然語言，而非依靠限定詞生成内容。這是視頻大模型的一小步，卻是互聯網行業的一大步，理解自然語言，才擁有将我們想法或小說中的内容轉化成影像的能力。

至于視頻大模型該怎麼選，别急，跟随小雷一起看看互聯網巨頭們的視頻大模型表現如何，或許你的心中就會有答案。

1、可靈：行業先行者，體驗出眾。

訓練視頻大模型需要大量視頻資源，視頻平台具備先天優勢，Sora 發布後僅 4 個月，快手科技旗下的 AI 團隊就推出了視頻大模型可靈，如今更是進化到了 1.5 版本。就小雷的體驗而言，可靈在國内眾多視頻大模型中，體驗足以位列前三。

可靈支持文生視頻和圖片生成視頻（也可以加入文字描述）兩種模式，而且可以調整創意想象力和創意相關性。可靈 1.5 大模型免費用戶使用文生視頻功能，最高可生成 5 秒高品質視頻（1.5 版本不支持生成标準品質視頻，1.0 版本可生成 10 秒标準品質視頻），使用圖生視頻功能，則可以生成最高 10 秒标準品質或 5 秒高品質視頻，且支持運鏡調節。

小雷以 " 寧靜的海灘，滿月高懸在天空，微風吹動着海邊的椰子樹，發出譁啦啦的聲音，一只小貓咪慵懶地躺在沙灘上，舔舐着前腿上的毛發 " 為描述語生成了一段視頻。具體結果如下，無論是舔舐毛發還是風吹動椰子樹，細節豐富程度都非常高，唯一較為明顯的漏洞可能在于生成的結果是在白天，而非小雷描述的夜晚。

（圖源：可靈生成）

作為國内最早一批 AI 視頻大模型，可靈的表現極為出色，提供的功能選項較為豐富。期待可靈能夠盡快推出生成視頻更長的版本，達到微短劇的要求，幫助微短劇作者創作視頻，降低微短劇的制作成本，進而提升可靈的實用價值。

2、即夢：語言解析能力強，可惜缺乏靈動感。

快手推出可靈後，抖音不甘示弱，也推出了視頻大模型即夢。

除了文生視頻和圖生視頻外，即夢還加入了對口型功能，即導入圖片、視頻後，再上傳文本或錄音，即夢便可調整視頻。即夢發布時間雖晚一些，但更新迭代速度極快，至今官網已提供視頻 1.2、視頻 2.0、視頻 2.0 Pro 三個版本可用。

需要注意的是，該大模型注冊即送 60 積分，視頻 1.2 大模型生成 4/6/8 秒視頻分别需要 4/6/8 積分，視頻 2.0 模型生成 5 秒鍾視頻需要 5 積分，視頻 2.0 Pro 模型生成視頻則需要 20 積分。

小雷以相同的描述語，使用即夢視頻 2.0 Pro 模型生成了一段視頻，質量也相當不錯，小雷描述的場景基本展現了出來。不過這段視頻也不算完美，例如貓咪的動作過于單調和僵硬，缺少靈動感，樹葉也沒有随風而動等。

（圖源：即夢生成）

即夢對于自然語言的理解能力，在小雷看來比可靈還要更高一些，描述語中的元素基本具備，但生成的視頻質量略遜于可靈。

3、混元：功能有待豐富，成長空間較大。

說完了快手、抖音兩大短視頻巨頭，自然也不能落下騰訊公司。騰訊日前推出了混元視頻大模型，并在騰訊元寶 App 和網頁端上線。

騰訊混元視頻大模型現階段僅支持文生視頻，每日可免費生成 4 次标準品質和 2 次高品質視頻。小雷也使用騰訊混元大模型生成了一段視頻，太大的月亮造成了虛假感，貓咪舔舐毛發的動作更是滿滿的違和感，椰子樹距離過遠，細節不夠豐富。

（圖源：混元大模型生成）

或許是因為誕生時間太短，騰訊混元大模型生成的視頻質量欠佳，明顯不如可靈和即夢。不過擁有國内互聯網巨頭騰訊作為後盾，相信經過幾次迭代更新後，該大模型生成的視頻質量能夠媲美可靈和即夢。

4、Vidu：功能豐富，運鏡自然。

作為北京數生科技與清華大學聯合研發的 AI 視頻大模型，Vidu 可能沒有騰訊、字節跳動那樣強大的财力，但大模型的表現毫不遜色。該模型也推出了 1.5 版本，支持文生視頻和圖生視頻，還支持上傳同一主體不同角度的圖片，從而生成更具真實感的立體畫面。需要注意的是，該大模型免費用戶僅能生成 720P 視頻。

在實測中，Vidu 生成的視頻質量高不下于可靈和即夢，運鏡的自然流暢度比可靈還要強一些。細節方面也非常豐富，海水、椰子樹、風等元素均有展現，仔細看會發現遠處還有身影靠近。唯一的漏洞在于沙灘的質感不足，一般只有剛剛落潮的海灘才會有類似的情況。

（圖源：Vidu 生成）

Vidu 的表現已相當不錯，開放 API，探索商業模式後，大概率可以獲得不少投資，Vidu 可以利用這筆投資購買芯片和視頻資源。擁有足夠的視頻資源用于訓練大模型和算力支持，Vidu 才能加快前進的腳步。

5、清影：同具清華血脈，與 Vidu 有差距。

智譜清言的前身是清華大學計算機系知識工程研究室團隊，與 Vidu 算得上同出一門，甚至更具正統性。

智譜清言開發的 AI 視頻大模型清影功能極為豐富，支持文生視頻和圖生視頻，其中文生視頻可調節視頻風格、情感氛圍、運鏡方式等參數，圖生視頻則最高支持 16 秒 4K 60 幀視頻生成，是小雷體驗過的視頻大模型中，生成視頻最長的。

然而，清影生成的視頻卻令小雷大失所望，别的就不說了，我的貓呢？？？而且畫面幾乎看不出來這是一段視頻，小雷差點以為我生成的是圖片。

（圖源：清影生成）

與同出一門的 Vidu 相比，清影的問題十分明顯，對于自然語言的理解能力可能存在問題，有待進一步提升。

6、PixVerse：畫面唯美，動作卻很僵硬。

對于愛詩科技，國内普通網友可能比較陌生，但其創始人王長虎曾擔任微軟亞洲研究院主管研究員，後續跳槽到字節跳動，先後擔任了人工智能技術總監、視覺技術負責人等職位，主導了字節跳動視覺大模型的基礎建設工作。

愛詩科技的視頻大模型 PixVerse 功能同樣豐富，支持特效、風格、比例等元素的設定和調整，還能預設角色，生成視頻最長為 8 秒。不過注冊贈送的積分只有 90，每日再贈送 30 積分，生成 5 秒視頻需要 30 積分，8 秒視頻則為 60 積分。

從生成的視頻來看，PixVerse 的特性與其名字一樣充滿唯美感，畫面色調十分讨喜小貓的毛發細節和背後的水面的波紋都很到位。

（圖源：PixVerse 生成）

與即夢相同，PixVerse 生成視頻的問題也出在貓咪身上，小貓的動作過于刻意，反而出現了僵硬感。瑕不掩瑜，PixVerse 的表現非常出色，讓我們看到了愛詩科技的實力。

數月時間，國内 AI 企業在視頻大模型領網域已邁出了從無到有的關鍵一步，現在正從有到強進發。就小雷的體驗而言，可靈、即夢、Vidu、PixVerse 均表現不錯，并列第一梯隊，騰訊混元視頻模型位列第二梯隊，清影則位列第三梯隊。

因使用場景、風格要求等細節的不同，視頻大模型的輸出結果可能會存在一定的差異，小雷的體驗不能表現出這些視頻大模型的全部實力。

即便是表現較好的大模型，在細節方面也存在一定的漏洞，除了上文頻頻提到的貓咪動作僵硬問題，還有一個非常明顯且普遍的情況，即沙灘的沙子不會因為貓咪的動作而流動。AI 視頻大模型雖在不斷更新迭代，并取得了不菲的成果，但細節方面依然有不少進步的空間。

（圖源：豆包 AI 生成）

AI 視頻大模型的更新重點圍繞自然語言解析能力、畫面細節打磨和運鏡、時長三大方面，這三大核心因素也決定了 AI 視頻大模型未來能夠取得的成果。唯有能夠理解人類自然語言，才能真正讓每一個人都能利用 AI 視頻大模型盡情釋放想象力，畫面和運鏡的更新可以提高視頻質量，時長足夠的前提下，AI 視頻大模型方能成為用戶手中創作微短視頻的助手。

另外，盡管 AI 視頻大模型普遍采用收費方案，但價格過于昂貴，以至于付費用戶有限，再加上訓練成本和推理成本居高不下，大多數 AI 視頻大模型公司的處境并不樂觀。主攻視頻生成領網域的 AI 公司，要麼與 B 端客戶聯合，針對定制場景打造專屬版本，要麼就要加速更新迭代，滿足 C 端用戶的需求，尋找盈利點。

近期亞馬遜雲科技、谷歌、OpenAI 等企業相繼發布了 AI 視頻大模型，預計明年還會有更多 AI 公司推出視頻大模型，整個行業的競争将愈發激烈。這些已走在前面的企業，應當盡快利用自身優勢創造盈利點，避免在更卷的環境中被淘汰。