今天小編分享的科技經驗:OpenAI首個文生視頻模型Sora炸街!整個視頻行業飯碗要被端了?業内人士:為時尚早,歡迎閱讀。
《科創板日報》2 月 17 日訊(記者 黃心怡)2 月 16 日凌晨,OpenAI 發布了首個文生視頻模型 Sora,可以用文字指令生成長達 1 分鍾的高清視頻。
當前大模型在各個領網域的應用,主要集中在文生文、文生圖之上,而在文生視頻領網域卻進步緩慢。此次文生視頻模型 Sora 的發布,無疑令人振奮。不少業内分析指出,這将對于廣告業、電影預告片、短視頻行業帶來巨大的颠覆。但也有從業者保持冷靜:短期内的颠覆速度不一定那麼快,更多地是借助新技術,激發更多人的創作力。
▍短期内較難帶來颠覆性影響
在官網上已經更新了 48 個視頻實例中,Sora 能夠準确呈現視頻細節,還能深刻理解物體在現實世界中的存在狀态,并生成具有豐富情感的角色。
例如,某個 Prompt(大語言模型的提示詞)的描述是美麗、白雪皚皚的東京城市熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟随幾個人享受美麗的雪天,在附近的攤位上購物。絢麗的櫻花花瓣和雪花一起在風中飛舞。
在 Sora 生成的視頻裡,鏡頭從俯視白雪覆蓋的東京,慢慢推進到兩個行人在街道上手牽手行走,街旁的櫻花樹和攤位的畫面均細致呈現。
不少業内人士認為,這個進展的意義難以想象,将對電影、小說、動漫、教育、遊戲、自媒體行業全部具有深遠的影響。
但也有視頻剪輯從業人員破冷水:" 大規模應用後能否催生更多好作品不清楚,但制造視頻垃圾的速度一定會指數級增長。"
前百度產品委員會主席宋健表示:Sora 确實很牛,但如果認為三年後就沒人拍視頻了,抖音 Tiktok 會被很快颠覆,那還是為時過早。
" 從平台的角度,抖快視頻号本質上還是以視頻為載體的社交平台,特效甚至視頻化本身只是個形式。做產品的肯定知道從零建一個社交平台到底有多難,需要天時地利人和,技術只是其中的變量之一。此外,生成式視頻的信息量不如真實拍攝大。比如一個 30 歲的男人和一個 20 歲的女人對話,表達、語氣、表情的背後都是他們積累了 50 年的數據總和。這些是生成式 AI 當前無法替代的。而且用戶對這些細節很敏感。"
宋健認為,如若希望借助 Sora 這種視頻生成式技術,把視頻行業變成一個 " 人純粹消費機器工業化内容 " 的局面,這恐怕沒戲。但如果說,通過借助新技術,讓人和人之間產生新的連接,激活新的創作產能,這是有戲的。但也得尊重行業規律,日拱一卒地通過 " 技術 " 迭代 " 生态 ",而不是直接把技術強怼給用戶。
▍有望縮短實現通用人工智能的時間
360 集團創始人周鴻祎也表示,今天 Sora 可能給廣告業、電影預告片、短視頻行業帶來巨大的颠覆,但速度不一定那麼快。
"AI 不一定那麼快颠覆所有行業,但它能激發更多人的創作力。很多人談到 Sora 對影視工業的打擊,我倒不覺得是這樣,因為機器能生產一個好視頻,但視頻的主題、腳本和分鏡頭策劃、台詞的配合,都需要人的創意至少需要人給提示詞。一個視頻或者電影是由無數個 60 秒組成的。今天 Sora 可能給廣告業、電影預告片、短視頻行業帶來巨大的颠覆,但它不一定那麼快擊敗 TikTok,更可能成為 TikTok 的創作工具。"
周鴻祎認為,大語言模型的厲害之處在于,能完整地理解這個世界的知識。而此前所有的文生圖、文生視頻都是在 2D 平面上對圖形元素進行操作,并沒有适用物理定律。
" 這次很多人從技術上、從產品體驗上分析 Sora,強調它能輸出 60 秒視頻,保持多鏡頭的一致性,模拟自然世界和物理規律,實際這些都比較表象。最重要的是 Sora 的技術思路完全不一樣。Sora 產生的視頻裡,它能像人一樣理解坦克是有巨大衝擊力的,坦克能撞毀汽車,而不會出現汽車撞毀坦克這樣的情況。"
周鴻祎認為,這也代表未來的方向。有強勁的大模型打底子,基于對人類語言的理解,對人類知識和世界模型的了解,再疊加很多其他的技術,就可以創造各個領網域的超級工具。
" 比如生物醫學蛋白質和基因研究,包括物理、化學、數學的學科研究上,大模型都會發揮作用。這次 Sora 對物理世界的模拟,至少将會對機器人具身智能和自動駕駛帶來巨大的影響。原來的自動駕駛技術過度強調感知層面,而沒有工作在認知層面。其實人在駕駛汽車的時候,很多判斷是基于對這個世界的理解。比如對方的速度怎麼樣,能否發生碰撞,碰撞嚴重性如何,如果沒有對世界的理解就很難做出一個真正的無人駕駛。"
周鴻祎預測,Sora 的出現,或意味着 AGI(通用人工智能)實現将從 10 年縮短到 1 年。
"OpenAI 訓練這個模型應該會閱讀大量視頻。一旦人工智能接上攝像頭,把所有的電影都看一遍,把 YouTube 上和 TikTok 的視頻都看一遍,對世界的理解将遠遠超過文字學習,一幅圖勝過千言萬語,而視頻傳遞的信息量又遠遠超過一幅圖,這就離 AGI 真的就不遠了,不是 10 年 20 年的問題,可能一兩年很快就可以實現。
▍多模态大模型将成為生成式 AI 的重點發展方向
随着文生圖、圖片對話技術的成熟,文生視頻已成為多模态大模型下一步發展的重點。展望 2024 年,機構人士認為,大模型領網域的競争将進一步白熱化,多模态大模型将成為生成式 AI 的重點發展方向,并有望推動本輪 AI 行情進一步擴散。
在國盛證券看來,AI 文生視頻是多模态應用的下一站。文生視頻即根據給定的文字提示直接生成視頻。随着文生視頻技術的日趨成熟和廣泛應用,或将為當下熱門的短劇市場帶來變數。該技術有望極大降低短劇制作的綜合成本,為解決 " 重制作而輕創作 " 的共性問題提供解決方案,短劇制作的重心有望回歸高質量劇本創作。
中信證券表示,多模态大模型算法的突破将帶來自動駕駛、機器人等技術的革命性進步,持續看好本輪生成式 AI 浪潮對科技產業的長周期影響和改變,繼續關注算力、算法、數據、應用等環節的領先廠商。
東吳證券判斷,多模态是 AI 商業宏圖的起點,有望真正為企業降本增效,且企業可将節省下來的成本用于提高產品、服務質量或者技術創新,推動生產力進一步提升;同時,也可能出現新的、空間更大的用戶生成内容平台。