大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

Sora啓示錄:信仰、對抗與未來

2024-02-20 简体 HK SG TW

今天小編分享的互聯網經驗:Sora啓示錄:信仰、對抗與未來,歡迎閲讀。

圖片來源 @視覺中國

文 | 硅基研究室,作者 | 山核桃

随着 OpenAI 正式發布首個文生視頻大模型 Sora,過去幾天裏圍繞 Sora 技術配方的猜測,對行業影響的讨論成為了科技圈的頭條。一位 AI 創業者對 Sora 評價是:" 沒有想到文生視頻的 GPT 時刻能來的這麼快。"

從創業者和行業觀察角度,文生視頻一直被視為多模态 AIGC「聖杯」,除了本身相較于文生圖來説難度更高外,在數據質量、算力以及多融合技術的復雜性上都有諸多需要突破的關卡,這也是為什麼即便是行業異常火熱,從 Runway 等 AI 視頻初創公司崛起,再到去年 Pika 爆火,業内人士也樂觀地認為 2024 是 AI 行業的「視頻大年」,但還是在時間上留了保守态度。比如,Pika 聯合創始人 Chenlin Meng 在去年接受采訪預測:" 目前視頻生成處于類似 GPT-2 的時刻。"

但 Sora 所呈現的效果還是打破了業内人士的預期。

無論是同行們——馬斯克「人類願賭服輸」,Runway 聯合創始人「game on」的感慨,還是技術層面,如前阿裏總裁賈揚清「非常牛」的評價,似乎讓人們一夜之間又回到了一年多前令人恐懼和焦慮的 GPT-3 時刻。

在各類觀點之外,Sora 崛起究竟能給創業者乃至技術界帶來哪些啓示?目前國内外文生視頻的發展進度又如何?

01 Sora 是 OpenAI 技術路線的又一次驗證

「硅基研究室」曾在《Pika 爆火,但 AI 視頻還沒到「GPT 時刻」》一文中系統梳理 AI 生成視頻模型背後的技術路線,主要可分為三個階段——

階段一為基于 GAN(生成式對抗網絡遊戲)和 VAE 模型(變分自編碼器),可以自回歸地形成視頻幀,但該技術的局限性在于應用範圍窄,生成視頻分辨率低,且僅能生成靜态、單一的畫面;

階段二為受 GPT3 和 DALLE 啓發,行業開始采用 Transformer 架構,出現了谷歌的 Phenaki、微軟的 NUWA 等一系列的視頻生成模型,巨頭押注之中,提升了視頻模型的能力,例如可以捕捉上下文,實現顆粒度更細的語義控制等,卻缺點也更明顯了——計算量太大了,對配對數據集的要求也更大。

階段三也則是受 stable diffusion 等文生圖應用擴散模型的啓發(diffusion models),從影像到視頻領網域,采用擴散架構成為了主流,Meta 的 Make-a-video、英偉達的 Video LDM,初創公司 Runway 的 Runway-Gen1、Runway-Gen2、字節的 MagicVideo 等也都是采用了擴散架構。

但擴散模型這一技術路線在算法、數據上存在難點,比如如何改善計算成本和提升數據集質量這一老問題,以及在生成效果與質量上,例如畫面的一致性、分辨率、生成長度上也有不少的問題。

圖片來源:東吳證券

而 Sora 所呈現出的效果,如生成風格的多樣性、畫面的一致性等優勢恰好彌補了過去視頻生成模型的劣勢。而復盤 Sora 之所以能加速視頻模型進程,綜合官方的技術文檔和專家的猜測觀點,核心邏輯依舊是 OpenAI 技術路線的又一次驗證,這套路線的特點是:大力出奇迹、足夠簡潔和堅守技術信仰。

一是大力出奇迹,Sora 遵循了 OpenAI 推崇的 Scaling Law。在 Scaling Law 的指導下,OpenAI 擅長以更大規模的算力和數據提升模型性能表現。思謀科技創始人賈佳亞評價 Sora:"Sora 是大力出奇迹,在學術界連 VIT 的 256*256 的分辨率都沒法改的情況下,Sora 直接用上了高清以及更大的分辨率,這沒幾千上萬張 H100 都不敢想象如何開始這個項目。"

二是簡潔性。根據技術文檔和專家猜測,Sora 是使用了混合模型架構——是 Transformer 架構的 Diffusion 擴散模型,據紐約大學數據科學中心的助理教授謝賽寧的猜測(注:他也是 Sora 技術文檔中所引用的一篇關鍵論文的作者之一),Sora 應該是建立在一種混合模型 DiT 之上(DiT 是一個帶有 Transformer 主幹的擴散模型,它 = [ VAE 編碼器 +ViT+DDPM+VAE 解碼器 ] )。

同時,Sora 參考了文生文模型中的 Token 原理。在文生文模型中,文本被同意轉化為 token 的數字表示形式,用以模型訓練。而 OpenAI 提出了一種用 patch(視覺補丁)統一影像與視頻的方法。

OpenAI 官方公布的示例視頻

謝賽寧就評價這些技術特點是「簡單性和可擴展性」,沒有專注于創新。" 因為簡單性意味着靈活性。"

三是不變的技術信仰。Sora 的爆發并非是短期,而是源自業界(比如老大哥谷歌)的技術嘗試以及 OpenAI 長期的技術積累,從文本、影像等諸多技術嘗試中均可見一斑。

創新無法被計劃,但所有的創新都可以成為颠覆式創新的墊腳石,這仍然是 OpenAI 給大公司留下的啓示。

02 與 Sora 的距離有多遠?

不可否認的是,在「太牛了」等感嘆後,國内外的大模型企業也開始了新一輪的焦慮:從文本、影像再到視頻模型,随着差距進一步拉大,「追趕」又成了新一輪的主題。

去年 Pika 爆火時,行業曾預測,未來在視頻領網域也會是一家公司領先一到兩年,其他公司在追趕。但現在,競争的時間視窗正因 Sora 而大大縮小。面對與 OpenAI 的競争,Pika 創始人郭文景回應:" 我們覺得這是一個很振奮人心的消息,我們已經在籌備直接衝,将直接對标 Sora。"

根據美國 VC 機構 a16z 的統計,2023 年,文生視頻領網域發布相關工具與產品達到了 21 種,發布產品的多為初創企業。

圖片來源:a16z

但當前,國内國外的文生視頻領網域呈現出不同的競争态勢。

在國外,一方面形成了「科技巨頭 + 創業派 + 專業派」的組合,目前頭部科技巨頭基本都已入局,只是產品尚未全面公測。專業派則是如 Adobe 此類面向專業級用户的老牌軟體巨頭。而創業派則是包括了 Runway、Pika 等。另一方面,由于海外較為細分和垂直化的科技生态,也湧現出如 HeyGen、Descript、Rephrase.ai 等圍繞輕量化視頻制作的工具或平台型企業,這一部分初創企業目前也在通過收購或被收購,擴充生态。比如 OpenAI 參投了 Descript,而 Rephrase.ai 則被 Adobe 收購。

反觀國内,目前的路線和競争格局還尚不清晰。「硅基研究室」梳理,大廠也在積極押注視頻生成,如字節跳動的文生視頻模型 MagicVideo-V2、阿達摩院的 Zeroscope 等。不久前,張楠辭任抖音集團 CEO,同時轉向剪映發展,也被外界解讀為字節對視頻領網域押注。

盡管技術水平不同,生态也不同,但擺在國内外企業面前的難點與挑戰也是類似的。

首先在技術方面,由于是閉源模型,Sora 并未公開更多的技術細節,路徑依舊是模糊的。據魔搭社區開發者的讨論,一些可能的技術難點如下:Sora 究竟是如何保證視頻特征被更好地保留的?Sora 的數據集組成如何?如何保證海量高質量的數據(數據的獲取和标注又是如何完成的?)

其次在算力方面,初創企業難以復刻 OpenAI「大力出奇迹」的路徑,奧特曼近期一系列押注算力的計劃也再度印證了算力的稀缺性。随着大模型的發展速度更快,算力成本是否能如奧特曼所想的那樣降低,二者之間誰的速度更快,這一速度線往往就是初創企業的生死線。

盡管焦慮,但并非沒有路可走。如一位開發者所言:"OpenAI 畫了一條「模糊」的路,但有了這條模糊的路,大家就可以去嘗試,從而畫出通往視頻生成的正确的清晰的路。"

南洋理工大學研究工程師周弈帆就認為從技術貢獻上來看,Sora 其中一項創新就是使用了一種不限制輸入形狀的 DiT。"DiT 能支持不同形狀的輸入,大概率是因為它以視頻的 3D 位置生成位置編碼,打破了一維編碼的分辨率限制。後續大家或許會逐漸從 U-Net 轉向 DiT 來建模擴散模型的去噪模型。"(注:UNet 是一種流行的卷積神經網絡架構,特别适合影像分割任務)

而對一些内容創作者而言,他們關心的不僅是技術,也有開源問題。實驗電影人、AIGC 藝術家 @海辛在即刻中寫道:"我還是更相信開源社區,OpenAI 總是提供很好的範式,DallE2,GPT,Sora.. 但至今你都沒辦法讓 DallE2 畫具體某個遊戲畫風的角色 / 場景,由于數據集本身的多樣性不夠,導致沒有辦法做具體的項目風格,風格沒有辦法自定義,對于大多數商業項目來説就沒有意義,即實用性很低。"

如人們所預測的 2024,無疑是 AI 視頻大年,Sora 提供了一種新的技術路線和方向,也為内容創作者提供了新的工具,新的追趕開始了,新的競争與創意也從此刻開始,也正在發生。

參考資料:

1、魔搭社區:復刻 Sora 有多難?一張圖帶你讀懂 Sora 的技術路徑

2、Hugging Face:文生視頻 : 任務、挑戰及現狀

3、未盡研究:Sora 模型只有 3B

4、國盛證券:AI 文生視頻:多模态應用的下一站

5、東吳證券:多模态技術加速,AI 商業宏圖正啓

6、天才程式員周弈帆:OpenAI 視頻模型 Sora 科研貢獻速覽

7、甲子光年:Sora 湧現,OpenAI 又一次暴力美學的勝利

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們