國内大廠集體“屏蔽”Sora

今天小編分享的互聯網經驗：國内大廠集體“屏蔽”Sora，歡迎閱讀。

圖片來源 @視覺中國

文 | 偲睿洞察，作者 | Renee

在 AI 的長河裡，從不缺一鳴驚人、一夜成名的技術。上圖，便是從 Sora 的示範視頻上截取的，無論是略顯蓬松的貓毛，還是主人被吵醒緊蹙的眉毛，與真實世界裡的畫面，别無兩樣。

半個月前，Open AI 發布了首個文生視頻模型 Sora，再次讓 AI 界沸騰——其是第一個能夠根據人類指令生成長達一分鍾視頻的模型，上一個讨論度這麼高的產品，還是 ChatGPT。

從 ChatGPT 到 Sora，這 16 個月裡，AI 界的戰火已從千模大戰的戰場上，蔓延到各個細分應用之中。

對于普通人來說，就是原先你可以問諸如文心一言、訊飛星火等通用大模型各種問題，生成各種文字、圖片答案，現在可以通過文字描述，生成還原度極高的視頻。以下便是 OpenAI 的示範視頻，提示詞是一架無人機在阿馬爾菲海岸的岩石露頭上環繞着一座美麗而歷史悠久的教堂 ······

更令人驚訝的是，以往的視頻模型是多個真實圖片的組合，并不具備理解力，而 Sora 是 " 聽懂 " 人話後，進行視頻的建構。

我們能看到，在 OpenAI Sora 官方介紹頁裡，紙飛機有了自我意識，自由翱翔。這或許就是 OpenAI 終極的目标，也将是無數 AI 大廠的願景。

現下，Sora 已然敲響戰鼓，百度、字節等以 AI 為标籤的大廠們是否會緊跟腳步，以及能不能造出類似模型，是擺在李彥宏、張一鳴們面前的問題。但目前大廠們都在靜默之中，等待着屬于自己的質變。

當然，一旦造出來，類 Sora 模型變現路徑倒是要比 ChatGPT" 現實 " 不少。

其可以是抖音、好看視頻等視頻平台的高效創作工具，也可以制作簡單的特效，給近日爆火的微短劇提供更多題材。更進一步的猜測是，影視作品中大部分特效成本、人力成本都可以省去。

不過，對于國内以大模型創業的企業來說，又增加了一道坎——還沒把 ChatGPT 消化掉，又來了個新課題。跟，沒有更多的精力，不跟，沒有熱度有可能涼得更快。

Sora 到底牛在哪裡？

一系列文章、視頻展現效果顯示，Sora 的出世意味着細分應用文生視頻模型迎來了 iPhone 時刻。

事實上，文生視頻并不是新鮮事兒，去年年底，全球 AI 企業陸陸續續發布了自己的文生視頻模型。去年 11 月份，Meta 發布了視頻生成模型 Emu Video。從官方示例中可以看出，其局限于較為簡單的動作。

緊接着，Stability.ai 也發布了開源視頻生成模型 Stable Video Diffusion ( SVD ) ，并且也在官方論文中大方承認自己的不足——生成的視頻相對缺少動态性。

也就是說，生成有高度一致性且有豐富動态性的視頻，讓視頻内容真正地動起來，是去年年底視頻生成領網域中的最大挑戰。

在 Sora 發布以前表現最好的，莫過于 PixelDance。從展示的結果來看，在基礎模式下（用戶只需要提供一張指導圖片 + 文本描述），人物動作、臉部表情、相機視角控制、特效動作，Pixeldance 都可以很好地完成。

國内大廠也同樣是去年年底開始布局。

字節跳動于去年 11 月 18 日推出了文生視頻模型 PixelDance，可生成有高度一致性且有豐富動态性的視頻。阿裡緊随其後也上線了 Animate Anyone 模型，一張人物照片，再配合骨骼動畫引導，就能生成動畫視頻。

23 年末，百度發布了文生視頻工具 " 度加剪輯 "，據稱可以一鍵獲取最新熱點、ai 生成文案、一鍵生成視頻。同時一大批 " 應 ChatGPT 而生 " 的 AI 創業公司也在去年年底參與進來，共同探索 AI 大模型應用。

而時間來到 2024 年 2 月中旬，OpenAI 的 Sora 還是憑借更逼真、流暢的效果，遙遙領先。

為何 Sora 可以一騎絕塵？紅衣大叔周鴻祎給出了答案，大概的意思是，在這之前我們做視頻、做圖用的都是 Diffusion，我們可以把視頻看成是多個真實圖片的組合，它并沒有真正掌握這個世界的知識。

但 Sora 能像人一樣理解坦克是有巨大衝擊力的，坦克能撞毀汽車，而不會出現汽車撞毀坦克的情況。OpenAl 利用它的大語言模型優勢，把 LLM 和 Diffusion 結合起來訓練，讓 Sora 實現了對現實世界的理解和對世界的模拟兩層能力。

自 Transformer 架構引領通用大模型浪潮後，LLM+Diffusion 這一新興研究框架或許又會有大批量的追随者。

開源後跟不跟，不開源搞不搞，成為每個 AI 廠商面前的難題。

誰都能玩得起嗎？

事實上，要不要跟随 Sora 這個問題，或許并不再取決于個人 / 公司意願，而是一些硬性條件 + 軟實力。例如，公司還有足夠的芯片嗎？

去年，據偲睿洞察測算，ChatGPT 光是訪問階段就要耗去 3 萬多個 A100，這俨然已是巨頭們的遊戲。按照去年一份流傳出的交流紀要顯示，大廠們手握着豐厚的資源——阿裡雲 AI 專家提到，阿裡雲在雲上有上萬片的 A100，整體能夠達到 10 萬片，集團體量應該是阿裡雲的 5 倍。騰訊雲利用 H800 加速卡打造的大模型算力集群，集群規模達到了數千台伺服器。

盡管 Sora 只是一個視頻模型，但對算力的渴求也不小。目前，訓練端由于暫無明确算法架構和訓練詳細數據。據民生證券測算，一個月内訓練完 Youtube 全部新增視頻需要約 231 片 A100。考慮到模型都是經過多次訓練得到，算力需求仍有較大程度提高的可能性。而推理端的需求量更是驚人，假設 Sora 模型參數為 30 億，則對應1846 萬個 A100 需求。

緊接着，第二個致命的問題是，公司有高質量的數據集嗎？現階段，谷歌、OpenAI 等國際大廠們，都在争搶高質量的文本數據集。

根據第一批大模型弄潮兒的經驗，若是沒有備足充足的彈藥，很有可能會草草離場。

據智東西不完全統計，2023 年 11 月 -2024 年 1 月，有 4 家 AI 大模型創企宣布關停。在這之中，其中有大廠獨立出來的團隊，有明星產品創始人新成立的公司，也有已經走過十餘年的 " 老牌 " 企業。有的缺錢、有的缺精準定位，想要玩 AI，空有一腔熱血遠遠不夠。

事實上，更致命的問題是，公司有 AI 天才嗎？

周鴻祎表示，科技競争最終比拼的是人才密度和深厚積累。這裡的人才密度，絕不是說規模——畢竟 OpenAI 的 Sora 團隊只有 13 個人，應屆博士帶隊，00 後參與。

我們不得不佩服 OpenAI 的勇氣，将 " 選賢舉能 " 發揮得淋漓盡致，除了未知的潛能，年輕人還有一個最大的優勢——能熬。據謝賽寧透露，Sora 是 Bill 他們在 OpenAI 的嘔心瀝血之作，" 雖然不知道細節，但他們每天基本不睡覺高強度工作了一年 "。

從以上部分團隊成員背景可以看出，其門檻極高——大部分都是名校博士畢業 + 實習 / 工作經驗，有本科學生，不過也要有着創業經歷、多段工作經歷。無論是 OpenAI 公司，還是人才本人，都積累了無數個量變，為質變做準備。

或許，包括 OpenAI 在内的 AI 公司們，都在等哪個 " 無名小卒 "（要麼是 MIT、清北級别的學生，要麼 3-5 年創業、大廠經歷，要麼是二者的結合）悟得了 AI 的真理，一戰成名，成為 AI 大神。

ChatGPT 和 Sora 告訴我們的是，A100、高質量數據、AI 天才，是新時代的稀缺物資，國内大廠尚有欠缺，從零開始的大模型創業公司們怕是跟不上熱度，也跟不上速度。

微短劇，或許是現下大廠高性價比變現方式

在 AI 各類資源都很有限的情況下，All in AI 的大廠們在跟随之前，必然會考慮投資回報比，也就是 Sora 能夠極大地改變哪些行業的模式？同時還和大廠已有業務密切相關？

答案，非短視頻行業莫屬。

對于定位于熱點話題視頻的創作者們，Sora 可謂是極大地提高了工作效率。畢竟熱點話題比拼的是時效，大家很難有二創的空間，只要學會了，便能快速拉開差距。目前在國内，已經有電商服務機構向帶貨主播推出 "AI 根據熱梗自動撰寫視頻腳本 " 的服務。

而對于一些深度話題，創作者們則可以與 AI 分工合作。

創作者產出事件 / 產品的差異化内容、确認文章大綱；而 AI 負責重復勞動的部分，例如展現產品的特性，給文字自動加背景視頻，無需創作者去各大網站搜羅。也就是說，創作者們能夠靠着 AI 省去不少事，出現更多的 " 靈光一現 "，吸引更多的用戶停留。

在這之中，最大的受益人便是平台。于是，我們也就不難理解為何 2 月 7 日，抖音集團 CEO 張楠辭去集團 CEO 一職，把精力聚焦在剪映的發展上。據了解過去一年，張楠已經把絕大多數精力傾斜到剪映相關業務上，并親自帶隊在 AI 輔助創作上尋求突破，即将推出一個 AI 生圖和視頻的產品。

視頻平台快手必然會在這個方向努力：在去年的那一波卷大模型的浪潮中，快手宣布已組建大模型研發團隊，推進在搜索、AIGC 輔助生成圖文視頻方面的應用。

百度，也正在跟上節奏。盡管好看視頻在百度的存在感并不高，但每年都在實打實地推進該業務： 2020 年下半年開始，百度開始一系列大手筆運作。百度先後投資 MCN 機構牧雲文化、引入宋健（内容生态平台總經理，年前已離職），以及在 11 月 17 日宣布斥資 36 億美元并購 YY 中國。

2024 年微短劇爆火，百度也在不斷加碼該市場。據光子星球報道，百度将在上半年完成與微短劇适配的基礎設施建設，包括創作者生态、分發邏輯、用戶運營等，并嘗試跑通變現路徑。

微短劇，或許是百度等類 Sora 視頻模型的 " 用武之地 "。

相比于大型的影視大作，微短劇的特效制作、内容創作各方面門檻都較低，與此同時，類 Sora 模型能給近日爆火的微短劇提供更多題材範圍，例如科幻等。若是人物細節逼真，演員的片酬都可能為零，如果分攤成本極低的話，視頻内容行業将很快被洗牌。

百度們亟需推出中國 Sora，除了因為新業務的需要，還需考慮到站位的問題。作為上一個千模大戰的發起者，百度再次迎來證明自己的時刻。

2024 年的春天，來得很晚，無論是真實的天氣，還是 AI 行業。

去年冬天，研究部門能拿着以往 AI 積累，趕上大模型的浪潮，市場部門也能借此開大會、與友商們一起打響千模大戰。

今年冬天，研究員們還在加班加點想着怎麼把通用大模型落實到千行萬業時，文生視頻這一細分領網域又出現一個勁敵。

永遠在黑暗中前行，永遠有人走得更快，國内 AI 大廠們的黎明，忽近忽遠。

不過，離黎明更近的 Sora，也需加強常識學習——在完整看完頭圖的原視頻之後發現，女孩的胳膊與手并不在同一個維度。