OpenAI首個文生視頻模型Sora炸街！整個視頻行業飯碗要被端了？業内人士：為時尚早

今天小編分享的科技經驗：OpenAI首個文生視頻模型Sora炸街！整個視頻行業飯碗要被端了？業内人士：為時尚早，歡迎閱讀。

《科創板日報》2 月 17 日訊（記者黃心怡）2 月 16 日凌晨，OpenAI 發布了首個文生視頻模型 Sora，可以用文字指令生成長達 1 分鍾的高清視頻。

當前大模型在各個領網域的應用，主要集中在文生文、文生圖之上，而在文生視頻領網域卻進步緩慢。此次文生視頻模型 Sora 的發布，無疑令人振奮。不少業内分析指出，這将對于廣告業、電影預告片、短視頻行業帶來巨大的颠覆。但也有從業者保持冷靜：短期内的颠覆速度不一定那麼快，更多地是借助新技術，激發更多人的創作力。

▍短期内較難帶來颠覆性影響

在官網上已經更新了 48 個視頻實例中，Sora 能夠準确呈現視頻細節，還能深刻理解物體在現實世界中的存在狀态，并生成具有豐富情感的角色。

例如，某個 Prompt（大語言模型的提示詞）的描述是美麗、白雪皚皚的東京城市熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道，跟随幾個人享受美麗的雪天，在附近的攤位上購物。絢麗的櫻花花瓣和雪花一起在風中飛舞。

在 Sora 生成的視頻裡，鏡頭從俯視白雪覆蓋的東京，慢慢推進到兩個行人在街道上手牽手行走，街旁的櫻花樹和攤位的畫面均細致呈現。

不少業内人士認為，這個進展的意義難以想象，将對電影、小說、動漫、教育、遊戲、自媒體行業全部具有深遠的影響。

但也有視頻剪輯從業人員破冷水：" 大規模應用後能否催生更多好作品不清楚，但制造視頻垃圾的速度一定會指數級增長。"

前百度產品委員會主席宋健表示：Sora 确實很牛，但如果認為三年後就沒人拍視頻了，抖音 Tiktok 會被很快颠覆，那還是為時過早。

" 從平台的角度，抖快視頻号本質上還是以視頻為載體的社交平台，特效甚至視頻化本身只是個形式。做產品的肯定知道從零建一個社交平台到底有多難，需要天時地利人和，技術只是其中的變量之一。此外，生成式視頻的信息量不如真實拍攝大。比如一個 30 歲的男人和一個 20 歲的女人對話，表達、語氣、表情的背後都是他們積累了 50 年的數據總和。這些是生成式 AI 當前無法替代的。而且用戶對這些細節很敏感。"

宋健認為，如若希望借助 Sora 這種視頻生成式技術，把視頻行業變成一個 " 人純粹消費機器工業化内容 " 的局面，這恐怕沒戲。但如果說，通過借助新技術，讓人和人之間產生新的連接，激活新的創作產能，這是有戲的。但也得尊重行業規律，日拱一卒地通過 " 技術 " 迭代 " 生态 "，而不是直接把技術強怼給用戶。

▍有望縮短實現通用人工智能的時間

360 集團創始人周鴻祎也表示，今天 Sora 可能給廣告業、電影預告片、短視頻行業帶來巨大的颠覆，但速度不一定那麼快。

"AI 不一定那麼快颠覆所有行業，但它能激發更多人的創作力。很多人談到 Sora 對影視工業的打擊，我倒不覺得是這樣，因為機器能生產一個好視頻，但視頻的主題、腳本和分鏡頭策劃、台詞的配合，都需要人的創意至少需要人給提示詞。一個視頻或者電影是由無數個 60 秒組成的。今天 Sora 可能給廣告業、電影預告片、短視頻行業帶來巨大的颠覆，但它不一定那麼快擊敗 TikTok，更可能成為 TikTok 的創作工具。"

周鴻祎認為，大語言模型的厲害之處在于，能完整地理解這個世界的知識。而此前所有的文生圖、文生視頻都是在 2D 平面上對圖形元素進行操作，并沒有适用物理定律。

" 這次很多人從技術上、從產品體驗上分析 Sora，強調它能輸出 60 秒視頻，保持多鏡頭的一致性，模拟自然世界和物理規律，實際這些都比較表象。最重要的是 Sora 的技術思路完全不一樣。Sora 產生的視頻裡，它能像人一樣理解坦克是有巨大衝擊力的，坦克能撞毀汽車，而不會出現汽車撞毀坦克這樣的情況。"

周鴻祎認為，這也代表未來的方向。有強勁的大模型打底子，基于對人類語言的理解，對人類知識和世界模型的了解，再疊加很多其他的技術，就可以創造各個領網域的超級工具。

" 比如生物醫學蛋白質和基因研究，包括物理、化學、數學的學科研究上，大模型都會發揮作用。這次 Sora 對物理世界的模拟，至少将會對機器人具身智能和自動駕駛帶來巨大的影響。原來的自動駕駛技術過度強調感知層面，而沒有工作在認知層面。其實人在駕駛汽車的時候，很多判斷是基于對這個世界的理解。比如對方的速度怎麼樣，能否發生碰撞，碰撞嚴重性如何，如果沒有對世界的理解就很難做出一個真正的無人駕駛。"

周鴻祎預測，Sora 的出現，或意味着 AGI（通用人工智能）實現将從 10 年縮短到 1 年。

"OpenAI 訓練這個模型應該會閱讀大量視頻。一旦人工智能接上攝像頭，把所有的電影都看一遍，把 YouTube 上和 TikTok 的視頻都看一遍，對世界的理解将遠遠超過文字學習，一幅圖勝過千言萬語，而視頻傳遞的信息量又遠遠超過一幅圖，這就離 AGI 真的就不遠了，不是 10 年 20 年的問題，可能一兩年很快就可以實現。

▍多模态大模型将成為生成式 AI 的重點發展方向

随着文生圖、圖片對話技術的成熟，文生視頻已成為多模态大模型下一步發展的重點。展望 2024 年，機構人士認為，大模型領網域的競争将進一步白熱化，多模态大模型将成為生成式 AI 的重點發展方向，并有望推動本輪 AI 行情進一步擴散。

在國盛證券看來，AI 文生視頻是多模态應用的下一站。文生視頻即根據給定的文字提示直接生成視頻。随着文生視頻技術的日趨成熟和廣泛應用，或将為當下熱門的短劇市場帶來變數。該技術有望極大降低短劇制作的綜合成本，為解決 " 重制作而輕創作 " 的共性問題提供解決方案，短劇制作的重心有望回歸高質量劇本創作。

中信證券表示，多模态大模型算法的突破将帶來自動駕駛、機器人等技術的革命性進步，持續看好本輪生成式 AI 浪潮對科技產業的長周期影響和改變，繼續關注算力、算法、數據、應用等環節的領先廠商。

東吳證券判斷，多模态是 AI 商業宏圖的起點，有望真正為企業降本增效，且企業可将節省下來的成本用于提高產品、服務質量或者技術創新，推動生產力進一步提升；同時，也可能出現新的、空間更大的用戶生成内容平台。