大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

爆火Sora參數規模僅30億?謝賽寧等大佬技術分析來了

2024-02-19 简体 HK SG TW

今天小編分享的科學經驗:爆火Sora參數規模僅30億?謝賽寧等大佬技術分析來了,歡迎閲讀。

就説 Sora 有多火吧。

生成的視頻上線一個、瘋傳一個。

作者小哥新上傳的效果,很快引來圍觀。

失敗案例都讓人看得上瘾。

将近 1 萬人點贊。

學術圈更炸開鍋了,各路大佬紛紛開麥。

紐約大學助理教授謝賽寧(ResNeXt 的一作)直言,Sora 将改寫整個視頻生成領網域。

英偉達高級研究科學家Jim Fan高呼,這就是視頻生成的GPT-3 時刻啊!

尤其在技術報告發布後,讨論變得更加有趣。因為其中諸多細節不是十分明确,所以大佬們也只能猜測。

包括"Sora 是一個數據驅動的物理引擎 "、"Sora 建立在 DiT 模型之上、參數可能僅 30 億 "等等。

所以,Sora 為啥能如此驚豔?它對視頻生成領網域的意義是?這不,很快就有了一些可能的答案。

視頻生成的 GPT-3 時刻

總的來説,Sora 是一個在不同時長、分辨率和寬高比的視頻及影像上訓練而成的擴散模型,同時采用了Transformer架構,也就是一種" 擴散型 Transformer"。

關于技術細節,官方報告簡單提了以下6 點:

一是視覺數據的 " 創新轉化 "。

與大語言模型中的 token 不同,Sora 采用的是 "Patches(補片)" 來統一不同的視覺數據表現形式。

如下圖所示,在具體操作中,模型先将視頻壓縮到低維潛空間中,然後将它們表示分解為時空補片,從而将視頻轉換為補片。(啊這,説了又仿佛什麼都沒説)

二是訓練了一個視頻壓縮網絡。

它可以降低視覺數據維度,輸入視頻,輸出時空上壓縮的潛表示。

Sora 就在這上面完成訓練。相應地,OpenAI 也訓練了一個專門的解碼器。

三是時空補片技術(Spacetime latent patches)。

給定一個壓縮的輸入視頻,模型提取一系列時空補片,充當 Transformer 的 token。正是這個基于補片的表示讓 Sora 能夠對不同分辨率、持續時間和長寬比的視頻和影像進行訓練。

在推理時,模型則通過在适當大小的網格中排列随機初始化的補片來控制生成視頻的大小。

四是擴展 Transformer 也适用于視頻生成的發現。

OpenAI 在這項研究中發現,擴散型 Transformer 同樣能在視頻模型領網域中完成高效擴展。

下圖展示出随着訓練資源的增加,樣本質量明顯提升(固定種子和輸入條件)。

五是視頻多樣化上的一些揭秘。

和其他模型相比,Sora 能夠 hold 住各種尺寸的視頻,包括不同分辨率、時長、寬高比等等。

也在構圖和布局上優化了更多,如下圖所‍示,很多業内同類型模型都會盲目裁剪輸出視頻為正方形,造成主題元素只能部分展示,但 Sora 可以捕捉完整的場景:

報告指出,這都要歸功于 OpenAI 直接在視頻數據的原始尺寸上進行了訓練。

最後,是語言理解方面上的功夫。

在此,OpenAI 采用了 DALL · E 3 中引入的一種重新标注技術,将其應用于視頻。

除了使用描述性強的視頻説明進行訓練,OpenAI 也用 GPT 來将用户簡短的提示轉換為更長的詳細説明,然後發送給 Sora。

這一系列使得 Sora 的文字理解能力也相當給力。

關于技術的介紹報告只提了這麼多,剩下的大篇幅都是圍繞 Sora 的一系列效果展示,包括文轉視頻、視頻轉視頻,以及圖片生成。

可以看到,諸如其中的 "patch" 到底是怎麼設計的等核心問題,文中并沒有詳細講解。

有網友吐槽,OpenAI 果然還是這麼地 "Close"(狗頭)。

正是如此,各路大佬和網友們的猜測也是五花八門。

謝賽寧分析:

1、Sora 應該是建立在 DiT 這個擴散 Transformer 之上的。

簡而言之,DiT 是一個帶有 Transformer 主幹的擴散模型,它 = [ VAE 編碼器 + ViT + DDPM + VAE 解碼器 ] 。

謝賽寧猜測,在這上面,Sora 應該沒有整太多花哨的額外東西。

2、關于視頻壓縮網絡,Sora 可能采用的就是 VAE 架構,區别就是經過原始視頻數據訓練。

而由于 VAE 是一個 ConvNet,所以 DiT 從技術上來説是一個混合模型。

3、Sora 可能有大約 30 億個參數。

謝賽寧認為這個推測不算不合理,因 Sora 可能還真并不需要人們想象中的那麼多 GPU 來訓練,如果真是如此,Sora 的後期迭代也将會非常快。

英偉達 AI 科學家 Jim Fan 則認為:

Sora 應該是一個數據驅動的物理引擎。

Sora 是對現實或幻想世界的模拟,它通過一些去噪、梯度下降去學習復雜渲染、" 直覺 " 物理、長鏡頭推理和語義基礎等。

比如這個效果中,提示詞是兩艘海盜船在一杯咖啡裏航行厮殺的逼真特寫視頻。

Jim Fan 分析,Sora 首先要提供兩個 3D 資產:不同裝飾的海盜船;必須在潛在空間中解決 text-to-3D 的隐式問題;并且要兩艘船避開彼此的路線,兼顧咖啡液體的流體力學、保持真實感、帶來仿佛光追般的效果。

有一些觀點認為,Sora 只是在 2D 層面上控制像素。Jim Fan 明确反對這種説法。他覺得這就像説 GPT-4 不懂編碼,只是對字元串進行采樣。

不過他也表示,Sora 還無法取代遊戲引擎開發者,因為它對于物理的理解還遠遠不夠,仍然存在非常嚴重的 " 幻覺 "。

所以他提出Sora 是視頻生成的 GPT-3 時刻。

回到 2020 年,GPT-3 不是一個很完美的模型,但是它有力證明了上下文學習的重要性。所以不要糾結于 GPT-3 的缺陷,多想想後面的 GPT-4。

除此之外,還有膽大的網友甚至懷疑 Sora 用上了虛幻引擎 5來創建部分訓練數據。

他甚至挨個舉例分析了好幾個視頻中的效果以此佐證猜想:

不過反駁他的人也不少,理由包括 " 人走路的鏡頭明顯還是奇怪,不可能是引擎的效果 "、"YouTube 上有數十億小時的各種視頻,ue5 的用處不大吧 " ……

如此種種,暫且不論。

最後,有網友表示,盡管不對 OpenAI 放出更多細節抱有期待,但還是很想知道 Sora 在視頻編碼、解碼,時間插值的額外模塊等方面是不是有創新。

OpenAI 估值達 800 億美元

在 Sora 引發全球關注的同時,OpenAI 的估值也再次拉高,成為全球第三高估值的科技初創公司。

随着最新一要約收購完成,OpenAI 的估值正式達到800 億美元,僅次于字節跳動和 SpaceX。

這筆交易由風投公司 Thrive Capital 牽頭,外部投資者可以從一些員工手中購買股份,去年年初時 OpenAI 就完成過類似交易,使其當時的估值達到 290 億美元。

而在 Sora 發布後,GPT-4 Turbo 也大幅降低速率限制,提高 TPM(每分鍾最大 token 數量),較上一次實現 2 倍提升。

總裁 Brockman 還親自帶貨宣傳。

但與此同時,OpenAI 申請注冊 "GPT" 商标失敗了。

理由是 "GPT" 太通用。

One More Thing

值得一提的是,有眼尖的網友發現,昨天 Stability AI 也發布了 SVD 1.1。

但似乎在 Sora 發布不久後火速删博。

有人鋭評,這不是翻版汪峰麼?不應該删,應該返蹭個熱度。

這還玩個 p 啊。

還有人感慨,Sora 一來,立馬就明白張楠為啥要聚焦剪映了。

以及賣課大軍也聞風而動,把商機拿捏死死的。

參考鏈接:

[ 1 ] https://openai.com/research/video-generation-models-as-world-simulators

[ 2 ] https://twitter.com/DrJimFan/status/1758210245799920123

[ 3 ] https://x.com/sainingxie/status/1758433676105310543?s=20

[ 4 ] https://twitter.com/charliebholtz/status/1758200919181967679

[ 5 ] https://www.reuters.com/technology/openai-valued-80-billion-after-deal-nyt-reports-2024-02-16/

—  完  —

點這裏關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們