徹底颠覆！從業者感慨：要卷死一堆視頻公司了

今天小編分享的财經經驗：徹底颠覆！從業者感慨：要卷死一堆視頻公司了，歡迎閱讀。

作者丨孔海麗

編輯丨張偉賢

圖源丨圖蟲

視頻領網域的 "GPT 時刻 " 也來了。

北京時間 2 月 16 日凌晨，OpenAI 推出了新的文生視頻模型 Sora，可以把簡短的文本描述轉換為長達 60 秒的高清視頻，繼文本、圖片的革命之後，繼續颠覆視頻領網域。

OpenAI 一口氣放出的 48 個示例視頻中，既有對現實世界的高度還原，也有動畫或科幻大片，角色與場景互動復雜、運動軌迹清晰、情感生動、細節逼真，一鏡到底和多機位統統不在話下。

更重要的是，Sora 初步實現了對真實世界的洞察與學習，已經能夠理解角色在物理世界中的存在方式并預判運行軌迹。

盡管目前 Sora 仍難以準确模拟復雜場景的物理特性，并且可能無法理解因果關系，比如人物吹蠟燭之後，燭火并未搖曳或熄滅。但這種趨勢已經擺上了台面，OpenAI 開辟了一個全新的賽道，并讓其他仍困在幾秒視頻時長的 AI 視頻模型創業公司，遭受降維式輾軋。一位 AI 大模型從業者感慨：" 要卷死一堆文生視頻公司了，秒殺…… "

一個能夠理解、感知、創造内容的 AI 視頻模型，将撕開無限可能。OpenAI 扔下的這枚重磅炸彈，商業落地場景非常豐富，戰栗的将不只是影視行業，整個内容創作行業或都将被動搖。

在實際應用層，Sora 可能會為短視頻創作、遊戲呈現效果、機器人具身智能、自動駕駛等，帶來巨大的影響與突破。假以時日，真實世界與視頻虛拟世界的區隔，或許也将被削弱，大洋彼岸已經在擔心 AI 視頻會影響總統大選了，正在采取行動應對 AI 生成的深度偽造。

對于 Sora 模型的意義，OpenAI 官方如此表述：" 能夠理解和模拟現實世界的模型的基礎，我們相信這一能力将是實現 AGI 的重要裡程碑 "。

上難度：理解真實世界

與現有文生視頻技術相比，OpenAI 的 Sora 幾乎将 AI 視頻的競争，從冷兵器時代推進到了現代化戰争階段，時長、效果、互動性，都秒殺現有技術。

視頻生成領網域面對的一個重要挑戰就是，在生成的較長視頻中保持時空連貫性和一致性。市面上現有的 AI 視頻產品，時長一旦超出幾秒，将無法正确呈現物體之間的互動關系，逐漸 " 離譜 "。

因為 AI 對視頻的學習，依賴大量的訓練數據，如果訓練數據中沒有涵蓋某種特定的過渡效果或動作，AI 就很難學會如何在生成視頻時應用這些效果。也就是說，時長一旦變長，現有 AI 的能力就會 " 露餡 "。

更根本的原因在于，現有 AI 無法理解物理世界的運行法則，也就無法預測物體和角色在時間線上的運動軌迹。

但 OpenAI 做到了。Sora 直接将時長提升到了 60 秒，且效果高清，細節豐富。

OpenAI 官網呈現的一則 60 秒視頻顯示，女主與周圍的街道、人群、燈光、都非常清晰自然，完全沒有 AI 視頻常見的 " 掉幀 " 問題，甚至肢體動作、面部表情、水中倒影、墨鏡折射畫面都很連貫。

另一則視頻中，穿過東京郊區的火車車窗倒影，不僅顯示了車窗外掠過的建築，近距離經過的另一節車廂甚至加深了車内燈光、人物的折射清晰度，非常符合常理，并且流暢自然。

Sora 經常能夠為短期和長期物體間的依賴關系建模。例如，在生成的視頻中，人物、動物和物體即使在被遮擋或離開畫面後，仍能被準确地保存和呈現。并且，Sora 能夠在單個樣本中生成同一角色的多個鏡頭，并在整個視頻中保持其外觀的一致性。

一則太空人科幻視頻中，同時呈現了近景、遠景中的主角，被太空船内部場景切分開的人物鏡頭，分别處于凝視、行走、思考等不同的狀态，人物一致、行為連貫。

據 OpenAI 官網介紹，Sora 是一種擴散模型，相較其他模型，看起來具備了 " 理解 " 和 " 思考 " 能力。

與 AI 視頻明星創業公司 Runway 所使用的 Gen 模型相比，Sora 模型不僅了解用戶在提示中要求的内容，還了解這些角色在物理世界中的存在方式，能夠理解和模拟運動中的物理世界，能夠生成具有多個角色、特定類型的運動，以及主題和背景的準确細節的復雜場景。

與 GPT 模型類似，Sora 使用的是 transformer 架構，該架構對視頻的時空序列包和影像潛在編碼進行操作，能夠主動填補視頻中的 " 缺失幀 "，從而看起來具備 " 預測性 "，使得 AI 視頻模型不再那麼 " 被動 "。

一位 AI 大模型從業人士對 21 世紀經濟報道記者表示，OpenAI 又一次改寫了遊戲規則，把文生視頻推高到了 " 理解真實世界 " 的維度。

這也正是世界模型的特點——讓機器能夠像人類一樣對真實世界有一個全面而準确的認知。世界模型不僅包括對事物的描述和分類，還包括對事物的關系、規律、原因和結果的理解和預測，從而進行推理和決策。

英偉達人工智能研究院 Jim Fan 表示：" 如果你還是把 Sora 當做 DALLE 那樣的生成式玩具，還是好好想想吧，這是一個數據驅動的物理引擎。" 有技術人員告訴 21 世紀經濟報道記者，Jim Fan 的言外之意在于，不能忽略 Sora 所折射的 " 世界模型 " 的更進一步—— AI 已經可以讀懂物理規律。

随着訓練的繼續推進，AGI 的實現或許不再是紙上談兵。

打擊力：颠覆現實世界

OpenAI 推出 Sora 之後，互聯網世界除了感嘆，還有一片哀嚎。

在 OpenAI 的推文下面，不少評論打出 "gg 皮克斯 "、"gg 好萊塢 "（注：gg 是競技遊戲禮貌用語，good game 的縮寫，用于表達 " 打得好，我認輸 "），馬斯克更是在 X 上發表評論，稱 "gg 人類 "。

有不少網友感慨自己 " 要失業了 "，視頻行業将被徹底颠覆。

有來自電影制作行業的從業人士告訴 21 世紀經濟報道記者，如果 Sora 繼續進化下去，取代一部分傳統視頻制作方式是必然的，就像 AI 繪畫取代畫師、設計師一樣，這是趨勢。

" 短視頻、概念視頻、廣告、微短劇、甚至是長視頻裡，都會大量使用 AI 生成視頻。"該人士表示：" 不過傳統影視劇該怎麼拍還得拍。"

觀點普遍認為，AI 視頻模型将改變電影工業的生產方式，雖然不能完全取代現有人力，但将會成為新的生產工具，影視行業從業人士需要盡快把工具 " 為我所用 "。

一位影視編劇提出了另一種想法，她認為，Sora 這類 AI 視頻模型大大降低了精美視頻的制作門檻，以後編劇的奇思妙想将有更大的呈現空間，" 技術不到位 "、" 經費不夠 " 的掣肘都将減小很多。

比如，OpenAI 的一則視頻中，巨大的猛犸象緩緩走來，形象逼真，身後騰起了雪霧，遠處被白雪覆蓋的樹林與山脈清晰可見。而眾所周知，動畫《冰川時代》的實際制作費用達到 8000 萬美元之高，耗時 4 年之久。

" 那些有才華但苦于缺少投資的導演們，可能會借力 Sora 創造出許多驚人的作品。" 她補充說。

目前，Sora 尚未對公眾開放，OpenAI 正在與一些視覺藝術家、設計師和電影制作人合作，以探索如何讓 Sora 對創意專業人士提供有效幫助。

而雙刃劍的另一面，是 AI 視頻模型給現實世界帶來的虛假信息威脅也将大大增加。

近期，AI 合成的泰勒 · 斯威夫特不雅照曾引起過軒然大波，就連白宮方面也呼籲國會 " 應立刻采取行動 "，而美國政壇和民眾也對背後凸顯的技術、法律漏洞感到擔憂。

AI 生成 " 惡性視頻 " 對現實世界造成的困擾，将數倍于圖片效果。為此，美國聯邦貿易委員會将致力于利用工具來檢測、阻止相關冒充欺詐行為。

為此，OpenAI 表示，将在提供 Sora 之前采取幾個重要的安全措施，與錯誤信息、仇恨内容和偏見等領網域的專家進行合作，對模型進行對抗性測試；OpenAI 也在構建工具來檢測誤導性内容，例如檢測分類器，可以判斷視頻何時由 Sora 生成。

除了開發新技術為 Sora 保障安全性，現有的安全方法也适用于 Sora 模型，例如那些請求極端暴力、色情内容、仇恨影像、名人肖像或他人 IP 的提示将被模型拒絕，也開發了強大的影像分類器，用于查看生成的每個視頻的幀數，以确保在向用戶顯示視頻之前遵守 OpenAI 的使用政策。

但 OpenAI 也承認，無法預測人們使用 Sora 的所有有益方式，也無法預測人們濫用它的所有方式。

不過，目前 Sora 還有其局限性，比如可能難以準确模拟復雜場景的物理特性，并且可能無法理解因果關系的具體實例。例如，一個人咬一口餅幹之後，餅幹可能沒有咬痕。該模型還可能混淆提示的空間細節，例如，左右混淆，人類在朝着跑步機的尾部跑步。也可能難以精确描述随時間推移發生的事件，例如，五只灰狼幼崽嬉戲的畫面中，幼崽數量可能忽多忽少，有的幼崽會憑空出現或消失。

随着技術進步，或許未來，如何判定視頻真假，也将成為一門學問。

壓迫感：巨頭步步碾壓

另一廂，谷歌也于同一日發布了 Gemini 1.5 版本，在文本的長度上實現了大幅突破。但終究被 OpenAI 的視頻模型搶盡了風頭。

一批 AI 視頻模型創業公司也将命懸一線。

文生視頻的生成模型最早出現在 2022 年底，Pika lab、Runway 都分别貢獻過 AI 生成視頻的話題。早期，就連 Meta 和谷歌的 AI 視頻都有着 " 一眼 AI" 的問題，清晰度、邏輯性有明顯缺陷。

經過不懈努力，Runway 在 2023 年 11 月發布了 AI 視頻生成工具 Gen-2，修復了視頻畫質，也克服了不連貫、閃爍變形以及低清等問題，但生成的視頻時長最多只能達到 18 秒。

眼下，OpenAI 一舉把 AI 視頻生成時長拉到了 60 秒，并且運鏡復雜、場景多變、人物還能夠表達豐富的情感色彩，簡直斷了其他小公司未來的路。

業内分析人士表示，如果其他 AI 視頻模型創業公司無法盡快追趕 OpenAI，恐怕将直接失去生存空間。

但這種追趕并不容易。前述 AI 大模型從業者向 21 世紀經濟報道記者表示，僅就公開信息而言，其他公司與 OpenAI 在技術能力、訓練量、耗資程度方面，都有着代際差異。

" 如果長期關注 AI 文生視頻的進展，就會知道 OpenAI 的 Sora 有多強大，是專業拳手暴打小白的差距。"、"AI 真的抽成兩種，OpenAI 和其他 AI" ……相關評論也是層出不窮。

一位關注 AI 大模型的投資人向 21 世紀經濟報道記者透露，小型公司跑出來的概率變得更渺茫了，尤其是這麼燒錢的領網域，很難在巨頭的陰影下做出亮點。

從文本大模型、影像大模型，再到如今的視頻大模型，OpenAI 深刻诠釋了 " 一步先、步步先 " 的殘酷性。

實際上，Sora 之所以能這麼出色，也與 OpenAI 之前的領先優勢有關。

OpenAI 放出的技術報告透露，Sora 模型對語言有深刻的理解，使其能夠準确地解釋提示并生成表達生動情感的引人注目的角色。這背後有 GPT 的功勞，OpenAI 會先利用 GPT 将簡短的用戶提示轉換為更長的詳細内容，再發送到視頻模型。

他們還為視頻生成調用了 DALL · E3（OpenAI 的影像生成模型）中的 re-captioning 技術，為視覺訓練數據生成高度描述性的文本，使得模型能夠更忠實地遵循用戶指令。

除了能夠以文本生成視頻，Sora 模型還能夠獲取現有的靜止影像并從中生成視頻，提高視頻的準确性及細節顆粒度，還可以對現有視頻進行擴展或填充 " 缺失幀 "。

也就是說，Sora 是站在 OpenAI 的大語言模型 GPT 以及圖片大模型 DALL · E 的肩膀上，并且跑出了加速度。

一位矽谷 AI 行業創業人士感慨說："創業之路，離天堂太遠，離巨頭太近，如果又沒有自己的壁壘，實在太容易被淘汰了。"

而其他落後于 OpenAI 的科技巨頭，在 AI 大模型這條路上，也要時時接受來自先行者的壓迫感。

SFC

本期編輯劉雪瑩實習生陶陶

21 君薦讀