大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

看3.2億幀視頻學會3D生成,智源開源See3D:只需單圖即可生成3D場景

2024-12-11 简体 HK SG TW

今天小編分享的科學經驗:看3.2億幀視頻學會3D生成,智源開源See3D:只需單圖即可生成3D場景,歡迎閲讀。

近日,著名 AI 學者、斯坦福大學教授李飛飛團隊 WorldLabs 推出首個「空間智能」模型,僅輸入單張圖片,即可生成一個逼真的 3D 世界,這被認為是邁向空間智能的第一步。

幾乎同時,國内智源研究院推出了首個利用大規模無标注的互聯網視頻學習的 3D 生成模型See3D— See Video, Get 3D。

△See3D 支持從文本、單視圖和稀疏視圖到 3D 的生成,同時還可支持 3D 編輯與高斯渲染

不同于傳統依賴相機參數(pose-condition)的 3D 生成模型,See3D 采用全新的視覺條件(visual-condition)技術,僅依賴視頻中的視覺線索,生成相機方向可控且幾何一致的多視角影像。

這一方法不依賴于昂貴的 3D 或相機标注,能夠高效地從多樣化、易獲取的互聯網視頻中學習 3D 先驗。

See3D 不僅支持零樣本和開放世界的 3D 生成,還無需微調即可執行 3D 編輯、表面重建等任務,展現出在多種 3D 創作應用中的廣泛适用性。

相關的模型、代碼、Demo 均已開源,更多技術細節請參考 See3D 論文。

論文地址 :

https://arxiv.org/abs/2412.06699

項目地址 :

https://vision.baai.ac.cn/see3d

效果展示

1. 解鎖 3D 互動世界:輸入圖片,生成沉浸式可互動 3D 場景,實時探索真實空間結構。

‍

(備注:為了實現實時互動式渲染,當前對 3D 模型和渲染過程進行了簡化,離線渲染真實效果更佳。)

‍

‍△實時 3D 互動

‍

2. 基于稀疏圖片的 3D 重建:輸入稀疏的 ( 3-6 張 ) 圖片,模型可生成一個精細化的 3D 場景。

△基于 6 張視圖的 3D 重建

△基于 3 張視圖的 3D 重建

3.   開放世界 3D 生成:根據文本提示,生成一副藝術化的圖片,基于此圖片,模型可生成一個虛拟化的 3D 場景。

△開放世界 3D 生成樣例

4. 基于單視圖的 3D 生成:輸入一張真實場景圖片,模型可生成一個逼真的 3D 場景。

△基于單張圖片的 3D 生成研究動機

3D 數據具有完整的幾何結構和相機信息,能夠提供豐富的多視角信息,是訓練 3D 模型最直接的選擇。然而,現有方法通常依賴人工設計(designed artists)、立體匹配(stereo matching)或運動恢復結構(Structure from Motion, SfM)等技術來收集這些數據。

盡管經過多年發展,當前 3D 數據的積累規模依然有限,例如 DLV3D ( 0.01M ) 、RealEstate10K ( 0.08M ) 、MVImgNet ( 0.22M ) 和 Objaverse ( 0.8M ) 。這些數據的采集過程不僅耗時且成本高昂,還可能難以實施,導致其數據規模難以擴展,無法滿足大規模應用的需求。

與此不同,人類視覺系統無需依賴特定的 3D 表征,僅通過連續多視角的觀察即可建立對 3D 世界的理解。單幀影像難以實現這一點,而視頻因其天然包含多視角關聯性和相機運動信息,具備揭示 3D 結構的潛力。

更重要的是,視頻來源廣泛且易于獲取,具有高度的可擴展性。基于此,See3D 提出 "SeeVideo,Get3D" 的理念,旨在通過視頻中的多視圖信息,讓模型像人類一樣,學習并推理物理世界的三維結構,而非直接建模其幾何形态。

方法介紹

為了實現可擴展的 3D 生成,See3D 提供了一套系統化的解決方案,具體包括:

1)數據集:團隊提出了一個視頻數據篩選流程,自動去除源視頻中多視角不一致或觀察視角不充分的視頻,構建了一個高質量、多樣化的大規模多視角影像數據集 WebVi3D。該數據集涵蓋來自 1600 萬個視頻片段的 3.2 億幀影像,可通過自動化流程随互聯網視頻量的增長而不斷擴充。

△WebVi3D 數據集樣本展示

2)模型:标注大規模視頻數據的相機信息成本極高,且在缺乏顯式 3D 幾何或相機标注的情況下,從視頻中學習通用 3D 先驗是更具挑戰的任務。為解決這一問題,See3D 引入了一種新的視覺條件——通過向掩碼視頻數據添加時間依賴噪聲,生成一種純粹的 2D 歸納視覺信号。這一視覺信号支持可擴展的多視圖擴散模型(MVD)訓練,避免對相機條件的依賴,實現了 " 僅通過視覺獲得 3D" 的目标,繞過了昂貴的 3D 标注。

△See3D 方法展示

3)3D 生成框架:See3D 學到的 3D 先驗能夠使一系列 3D 創作應用成為可能,包括基于單視圖的 3D 生成、稀疏視圖重建以及開放世界場景中的 3D 編輯等,支持在物體級與場景級復雜相機軌迹下的長序列視圖的生成。

△基于 See3D 的多視圖生成

優勢

a ) 數據擴展性:模型的訓練數據源自海量互聯網視頻,相較于傳統 3D 數據集,構建的多視圖數據集 ( 16M ) 在規模上實現了數量級的提升。随着互聯網的持續發展,該數據集可持續擴充,進一步增強模型能力的覆蓋範圍。

b ) 相機可控性:模型可支持在任意復雜的相機軌迹下的場景生成,既可以實現場景級别的漫遊,也能聚焦于場景内特定的物體細節,提供靈活多樣的視角操控能力。

c ) 幾何一致性:模型可支持長序列新視角的生成,保持前後幀視圖的幾何一致性,并遵循真實三維幾何的物理規則。即使視角軌迹發生變化,返回時場景依然保持高逼真和一致性。

總結

通過擴大數據集規模,See3D 為突破 3D 生成的技術瓶頸提供了新的思路,所學習到的 3D 先驗為一系列 3D 創作應用提供了支持。希望這項工作能夠引發 3D 研究社區對大規模無相機标注數據的關注,避免高昂的 3D 數據采集成本,同時縮小與現有強大閉源 3D 解決方案之間的差距。

* 本文系量子位獲授權刊載,觀點僅為作者所有。

—  完  —

量子位  QbitAI

վ ' ᴗ ' ի 追蹤 AI 技術和產品新動态

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們