今天小編分享的互聯網經驗:Sora“拯救”元宇宙,世界模型的潛力才剛釋放,歡迎閱讀。
圖片來源 @視覺中國
文|數科星球,作者丨苑晶,編輯丨大兔
熟悉的配方、熟悉的操作。
Open 深夜 " 放大招 ",其世界模型 Sora 一經發布引起了諸多讨論。其中,在二級市場中,文生視頻和元宇宙概念熱度劇增,在經歷長時間遇冷後,有可能成為 2024 年火爆題材之一。
應該說,Sora 的最大貢獻是作為革命性平台,極大降低了視頻輸出成本。這被一度看作是元宇宙發展的核心桎梏。
表面上,它的出現衝擊了貼片廣告、影視或嚴肅新聞的禁脔。深層次而言,它更是可以改變教育、文旅和會展等諸多行業的遊戲規則。
元宇宙 + 世界模型 =?
時至今日,元宇宙的概念已不新鮮。經過多年發育,其不僅在一級、還是二級市場均走過一輪又一輪浪潮。它從科幻小說和電影的概念,走入了人們視野多年。
對于不同人而言,它或許是一部頭顯設備、一部優秀的遊戲作品、一個教育軟體或是一套工業數字孿生系統。
當這個概念如日中天之時,人們對其遐想聯翩。認為它是下一個流量入口、認為它是巨頭不得不搶占的高地。而如今,在概念遇冷時刻,站在當下回望歷史,會發現,它可能正在走出迷惘,距離其找到其應有的價值更近了一步。
其實,元宇宙一詞誕生的伊始,便充斥着以扎克伯格等人的焦慮。那時,移動互聯網幾近終局,不同年齡層、不同畫像、不同功能的移動互聯網產品均已出世。所以,或許是為了挽救股價、搶占新的制高點,元宇宙一詞被捧得很高。
它的火爆符合創投行業的一種規律,即" 雖然不太明白,但幹就完了 "。在二級市場中,這種思維被稱作" 先相信、先下手、先跑路 "。更何況有巨頭背書,更何況那麼多人趨之若鹜。
後知後覺,只配享用一地雞毛。
但緊接着,元宇宙產品研發難、設備體積重量大、雲傳輸速率低和内容配套缺乏問題等種種暴露,讓即便是業内人士(如 Oculus 的顧問 CTO 約翰卡馬克)都開始了诘難。
最有發言權的,可能非開發者莫屬。
事實上,在元宇宙行業裡,開發者的境遇并沒有想象的那麼好,他們除了要做 iOS、安卓之類的适配工作外,還需要調整每款頭顯設備帶來的算力、視場角、分辨率、刷新率、控制方式、輸入輸出方式等方面的更新。
而多出來的工作量,或許并沒有帶來相對應的回報。
在資本又向着新能源、生成式 AI、智能制造、電動汽車等進軍後,產業大變局顯得 " 更香 ",推行元宇宙的科技巨頭遇到了更粗的大腿和更完美的故事。
所以這都導致了一個結果,也是科技界人士正在反思的:我們是否仍然需要沉浸式體驗、3D 的頭顯世界是否具備性價比、元宇宙究竟能為我們帶來什麼?
在 Sora 出現後,行業或許迎來了新的轉機。
世界模型的場景:不止文旅、教育和會展
Sora 未出現前,國内的元宇宙從業者便已經開始了本土化實踐。可以看到的是,在文旅、教育、會展等方面,相關應用已經開始發力。
" 我們應該如何讓不同地網域、不同國家的人參與同一場盛會?"這是一個來自數科星球社群的從業者的問題。我們覺得,答案可能是通過元宇宙。
在過去幾年,進博會、工博會和服貿會等會展人頭攢動。在真實物理世界裡,其線下會展似乎已逐漸逼近極限承載能力。所以,虛拟化場景或将在提升效率方面顯示出更多裨益。
只是,大多數會展類元宇宙產品還看起來比較初級,更多的產品看起來像是擁有虛拟場景的 " 騰訊會議 "。直白點說,絕大部分只有社交關系,但缺乏豐富的内容。
或許,世界模型的出現将彌補上述缺憾。
另外,在教育領網域,在北京課改的新背景下,思維訓練、各科融合趨勢開始顯現。在一些補習老師對于北京市中小學期末考試試卷的調研後發現,試題正在向着跨學科、大閱讀量、多情景的方向演化。
在北京的海澱區、西城區,上述趨勢尤為明顯。
補習老師們紛紛吐槽 " 補習已死 "。這意味着,以往 " 做題家 " 模式将在新的考試模式下将難以生存。而另一方面,在網絡的反饋中,眾多家長更是難以應對當下的知識爆炸時代。
另外,在中小學中,由于試題不按套路出牌、跳過了由淺入深的思維訓練卻依舊保留了分數導向,讓孩子的思維承受能力瀕臨極限,甚至一些孩子開始抑郁、走向崩潰。
所以,基于教育教學的元宇宙場景似乎更令人期待。借助虛實融合,學生們也許能夠可通過元宇宙所提供的教學場景體驗更加直觀的知識輸出。
教學場景的問題仍然是内容制作成本高。所以,這又是 Sora 的一大場景。
文旅行業的問題同樣如此。
一直以來,不喜旅遊的人總在抱怨:目的地旅遊千篇一律、人山人海更是對體驗產生了負向影響。吃的、喝的同質化現象嚴重,似乎只有歷史人文和特殊的自然風光可持續吸引遊客。
現在,人們在挑選旅遊目的地的過程中似乎更痛苦了,因為大量的網紅打卡地缺乏真切的旅遊體驗,名不副實和收智商稅的行為比比皆是,導致遊客們在小紅書上的停留時間增加,用戶在進行詳盡的攻略後,線下旅遊的神秘感又被提前透支。
所以,為了彌補這樣的缺憾,文旅從業者們紛紛将目光瞄向了元宇宙。核心邏輯是,相比線下物理場景、商業業态的更新,線上的變化似乎可以更快、更直觀。所以,目前,國内的大多數目的地景點、酒旅集團紛紛在開拓線上 IP、數字動漫等方面熱情高漲。
看起來,這仍然利好 Sora。
2024 主旋律:與 Sora 貼身肉搏
Sora 世界模型的推出,讓人們自然想到:國内有何企業可與之抗衡。
如果說,在過去的 2023 年,國内的大模型均圍繞 GPT-4" 貼身肉搏 ";那麼可以預測,在 2024 年,文生視頻行業會集中火力趕超 Sora。
Sora 的優勢是顯而易見的。業界專業人士預測,它會增加文生視頻能力,提高生成視頻片段的質量,加速可應用性。就好比過去一年中,GPT-4 持續刺痛國内大模型的神經那樣,事實上,Sora 的出現對萬興科技這類公司來說也是機會大于挑戰的——它會更快加速視頻生成類工具的成熟應用。
技術上,OpenAI 采用 DiT 等技術實現世界模型(暫時沒有明确的數學定義),達到理解真實世界的運動和物理能力。它用于文生視頻,可以生成超逼真的符合物理和運動學的復雜場景的視頻,也就是說,可以理解和模拟真實世界。理解和模拟真實世界是 AGI 關鍵一步,能夠加速通用人工智能的實現。
僅圍繞春節場景,在過去無人機表演、《長安三萬裡》的虛實融合就給人們留下了深刻印象。在未使用大模型技術的情況下,在數字經濟的高地四川,人們就利用 AR、VR 技術打造了沉浸式的三國元宇宙。
對于喜歡歷史的人而言,這種體驗是前所未有的。有了世界模型後,用戶的體驗似乎能再上一個、甚至幾個台階。
目前,Sora 依然遵循 OpenAI 的 Scaling Law,大力出奇迹,大量數據,大模型和大量算力。專業人士對數科星球表示,Sora 底層采用了遊戲、無人駕駛和機器人領網域驗證的世界模型,構建文生視頻模型,達到模拟世界的能力,具體采用 DiT(Diffusion Transformer),處理不同持續時間、分辨率和比例的視頻 / 影像。
他們普遍認為,世界模拟器是 AI 生成視頻的另一種方式,它的成功,會給視頻生成賽道產生一波衝擊,會有大量公司湧入該賽道,加速視頻生成成熟。
新的體驗或将圍繞 AGI 展開。
與以往不同的是,AGI 具備相當于人類智慧程度的 AI,一個 AGI 可以執行任何人類可以完成的智力任務,可以處理任意數據。眾所周知,繼文本、影像之後,Sora 拓展到了視頻領網域,它是能夠理解和模拟現實世界的模型,是 AGI 實現的重要裡程碑。
僅以 Sora 公布的 60 秒視頻中,它提供的體驗便已嘆為觀止。在國内創作者如雲的背景下,想必在 2024 年,會有更多意想不到發生。
不過,時下專業人士認為,從技術到用戶體驗 Sora 還有短板:
總體而言,作為行業先驅,OpenAI 通過 Sora 驗證了世界模型可行性,驗證了大模型做視頻生成的可行性。在國内的相關產品中,已出現了萬興科技的天幕大模型等大模型產品,并更為專注垂類創作。
似乎,這又是一場追随與反超越劇情。但它又是十分令人期待的,因為相比較文字和圖片而言,視頻擁有更多的閱聽人和可能性。