大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

Sora爆火,一次典型的OpenAI式勝利

2024-02-20 简体 HK SG TW

今天小編分享的互聯網經驗:Sora爆火,一次典型的OpenAI式勝利,歡迎閱讀。

圖片來源 @視覺中國

文 | 讀懂财經

在 2022 年的春節,OpenAI 推出的 ChatGPT 快速引爆了資本圈與 AI 圈,至此拉開了 AI 大航海的序幕。

到了今年,類似的故事也在發生。2 月 16 日凌晨,在沒有任何預兆和消息透露的情況下,OpenAI 突然發布了自己的首個文生視頻模型:Sora。很顯然,這給了整個 AI 行業一點小小的震撼。

相比市面上現有的 AI 視頻模型,Sora 展示出了遠超預期的能力:不僅直接将視頻生成的時長一次性提升了 15 倍,在視頻内容的穩定性上也有不小的提升。更重要的是,在公布的演示視頻裡,Sora 展示了對物理世界部分規律的理解,這是過去文生視頻模型一大痛點。

随着 Sora 的發布,另一個有趣的事情是,為什麼總是 OpenAI?要知道,在 Sora 發布前,探索 AI 視頻模型的公司并不少,包括大眾熟知的 Runway、Pika,也取得了不錯的進展。但 OpenAI 依然實現了降維打擊。

這是一場典型的 OpenAI 式勝利:聚焦 AGI 這一終極目标,不拘泥于具體場景,通過 Scaling Law,将生成式 AI 的 " 魔法 " 從文本延伸到了視頻和現實世界。‍‍‍‍‍‍

在這個過程中,AI 所創造的虛拟世界與現實世界的邊界逐漸模糊,OpenAI 距離 AGI 的目标也将越來越近。

01 降維打擊的 Sora

在 Sora 發布前,大眾對文生視頻方案并不陌生。根據知名投資機構 a16z 此前的統計,截至 2024 年底,市場上共有 21 個公開的 AI 視頻模型,包括大眾熟知的 Runway、Pika、Genmo 以及 Stable Video Diffusion 等等。

那麼相比現有的 AI 視頻模型,Sora 所展示出來的優勢,主要集中在以下幾點:

一是視頻長度的巨大提升。Sora 生成長達 1 分鍾的超長視頻,這樣内容長度遠遠高于市面上的所有 AI 視頻模型。

根據 a16z 統計,現有的 AI 視頻模型制作的視頻長度大都在 10 秒以内,像此前大熱的 Runway Gen 2、Pika,其制作的視頻長度分别只有 4 秒和 3 秒。60 秒的視頻長度,也意味着其基本達到了抖音等短視頻平台的内容要求。

二是視頻内容的穩定性。對 AI 視頻來說,它們基本上是生成幀,在幀與幀之間創造時間上連貫的動畫。但由于它們對三維空間以及物體應如何互動沒有内在的理解,導致 AI 視頻往往會出現人物扭曲和變形。

比如說,這樣的情況經常會出現:片段的前半部分,一個人在在街道上行走,後半部分卻融化在地面上——模型沒有 " 堅硬 " 表面的概念。由于缺乏場景的三維概念,從不同角度生成相同片段也很困難。

但 Sora 的獨特之處在于,其所制作的 60 秒視頻不僅能夠實現一鏡到底,視頻中的女主角、背景人物,都達到了驚人的一致性,各種鏡頭随意切換,人物都是保持了極高的穩定性。以下是 Sora 發布的演示視頻:

Prompt: 一位時尚女性走在充滿溫暖霓虹燈和動畫城市标牌的東京街道上。她穿着黑色皮夾克、紅色長裙和黑色靴子,拎着黑色錢包。她戴着太陽鏡,塗着紅色口紅。她走路自信又随意。街道潮溼且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

三是深刻的語言理解能力使 Sora 能夠精準地識别用戶的指令,從而在生成的視頻中呈現出豐富的表情和生動的情感。這種深層次的理解不僅局限于簡單的命令,Sora 還理解這些東西在物理世界中的存在方式,甚至能夠實現相當多的物理互動。

舉個例子,就拿 Sora 對于毛發紋理物理特性的理解來說,當年皮克斯在制作《怪物公司》主角毛怪時,為能呈現其毛發柔軟波動的質感,技術團隊為此直接連肝幾個月,才開發出仿真 230 萬根毛發飄動的軟體程式。而如今 Sora 在沒有人教的情況下,輕而易舉地就實現了。

" 它學會了關于 3D 幾何形狀和一致性的知識," 項目的研究科學家 Tim Brooks 表示。" 這并非我們預先設定的——它完全是通過觀察大量數據自然而然地學會的。"

毫無疑問,相比于其他 " 玩具級 " 的視頻生成 AI,Sora 在 AI 視頻領網域實現了降維打擊。

02 把視覺數據統一起來

從技術層面來說,圖片生成和視頻生成的底層技術框架較為相似,主要包括循環神經網絡、生成對抗網絡(generative adversarial networks,GAN)、自回歸模型(autoregressive transformers)、擴散模型(diffusion models)。

與 Runway、Pika 等主流 AI 視頻聚焦于擴散模型不同,Sora 采取了一個新的架構—— Diffusion transformer 模型。正如它的名字一樣,這個模型融合了擴散模型與自回歸模型的雙重特性。Diffusion transformer 架構由加利福尼亞大學伯克利分校的 William Peebles 與紐約大學的 Saining Xie 在 2023 年提出。

在這個新架構中,OpenAI 沿用了此前大語言模型的思路,提出了一種用 Patch(視覺補丁)作為視頻數據來訓練視頻模型的方式,是一個低維空間下統一的表達部門,有點像文本形式下的 Token。LLM 把所有的文本、符号、代碼都抽象為 Token,Sora 把圖片、視頻都抽象為 Patch。

簡單來說,OpenAI 會把視頻和圖片切成很多小塊,就像是拼圖的每一片一樣。這些小塊就是 Patch,每一個補丁就像是電腦學習時用的小卡片,每張卡片上都有一點點信息。

通過這種方式,OpenAI 能夠把視頻壓縮到一個低維空間,然後通過擴散模型模拟物理過程中的擴散現象來生成内容數據,從一個充滿随機噪聲的視頻幀,逐漸變成一個清晰、連貫的視頻場景。整個過程有點像是把一張模糊的照片變得清晰。

按 OpenAI 的說法,将視覺數據進行統一表示這種做法的好處有兩點:

第一,采樣的靈活性。Sora 可以采樣寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介于兩者之間的所有視頻(如下列 3 個視頻)。這使得 Sora 可以直接以其原生寬高比為不同設備創建内容,快速以較低尺寸制作原型内容。

第二,取景與構圖效果的改善。根據經驗發現,以原始寬高比對視頻進行訓練可以改善構圖和取景。比如,常見的将所有訓練視頻裁剪為正方形的模型,有時會生成僅部分可見主體的視頻。相比之下,Sora 的視頻取景有所改善。

為什麼 OpenAI 能夠想到将視覺數據進行統一表示的方法?除了技術原因外,也很大程度上得益于 OpenAI 與 Pika、Runway,對 AI 視頻生成模型的認知差異。

03 世界模型,通過 AGI 的道路

在 Sora 發布前,AI 視頻生成往往被人看作是 AI 應用率先垂直落地的場景之一,因為這很容易讓人想到颠覆短視頻、影視 / 廣告行業。

正因為如此,幾乎所有的 AI 視頻生成公司都陷入了同質化競争:過多關注更高畫質、更高成功率、更低成本,而非更大時長的世界模型。你能看到,Pika、Runway 做視頻的時長都不超過 4s 範圍,雖然可以做到畫面足夠優秀,但物體動态運動表現不佳。

但 OpenAI 對 AI 視頻生成的探索更像是沿着另一條路線前進:通過世界模型,打通虛拟世界與現實世界的邊界,實現真正 AGI。在 OpenAI 公布的 Sora 技術報告裡,有這樣一句話:

" 我們相信 Sora 今天展現出來的能力,證明了視頻模型的持續擴展(Scaling)是開發物理和數字世界(包含了生活在其中的物體、動物和人)模拟器的一條有希望的路。" ‍

世界模型,最早是由 Meta 首席科學家楊立昆(Yann LeCun)在 2023 年 6 月提出的概念,大致意思是可以理解為是要對真實的物理世界進行建模,讓機器像人類一樣,對世界有一個全面而準确的認知,尤其是理解當下物理世界存在的諸多自然規律。

換言之,OpenAI 更願意把 Sora 視為理解和模拟現實世界的模型基礎,視為 AGI 的一個重要裡程碑,而不是 AI 應用落地的場景。這意味着,相比其他玩家,OpenAI 永遠用比問題更高一維度的視角看待問題。

在實際情況裡,這會讓解決問題變得更加容易。正如愛因斯坦說過,我們不能用創造問題時的思維來解決問題。從這個角度上說,也能夠解釋為什麼 OpenAI 總能時不時給行業來點小震撼。

盡管從目前看,AI 生成的視頻仍然有着各種各樣的問題,比如模型難以準确模拟復雜場景的物理,也可能無法理解因果關系的具體實例,但不可否認的是,至少 Sora 開始理解部分物理世界的規則,讓眼見不再為實,基于物理規則所搭建的世界真實性遇到前所未有挑戰。

當大模型從過去文本中學習的模式,開始轉為向視頻和真實世界學習。随着 Scaling Law 的邏輯在各個領網域湧現,或許賽博世界與物理世界的邊界将變得更加模糊。

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們