大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

3D版DeepSeek卷起開源月:兩大基礎模型率先SOTA!又是VAST

2025-03-29 简体 HK SG TW

今天小編分享的科學經驗:3D版DeepSeek卷起開源月:兩大基礎模型率先SOTA!又是VAST,歡迎閱讀。

3D 生成版 DeepSeek 再上新高度!

國產、易用、性能強且開源——

新模型一露面就刷新 SOTA,并且第一時間加入開源全家桶。

順時針轉個圈圈給大家看,效果是這樣:

加上 " 皮膚 " 是這樣:

再來一個,效果是這樣:

肉眼可見,這次妥妥更新變成了更細節的細節控~

以上效果,都來自3D 大模型明星初創公司 VAST,其剛剛上新的兩個基礎模型,TripoSG 和 TripoSF,為團隊的最新研發成果。該團隊去年 3 月開源了 TripoSR,在開源 3D 生成基礎模型中爆火全球。

TripoSG,發布即開源,一露面就刷新開源 3D 生成模型 SOTA,讓廣大開發者第一時間享受技術進步的成果。

TripoSF,目前為開源第一階段,已經用實力證明了自己:橫掃一切開源和閉源的現有方法,拿下新 SOTA。

你就說秀不秀吧(手動狗頭)?!

——但基礎模型還只是 VAST 最近大秀一波技術肌肉的上半程表演。

量子位獲悉,接下來 VAST 要連續開源一個月,每周都有新開源項目公布。而 TripoSG 和 TripoSF 是開源月裡第二周的項目。

在整個開源月裡,除了第一波單張影像端到端生成三維組合場景、第二波 3D 基礎模型,接下來還有三維部件補全模型、通用三維模型綁定生成模型、三維幾何精細化模型以及 SIGGRAPH Asia 2024 RTL 收錄的互動式草圖生三維模型等等技術将與大家見面。

港真,我的胃口已經被吊起來了。

在 DeepSeek 之後,各領網域的國產之光們紛紛開啟了開源大秀。而 VAST,就是領先的 3D 大模型領網域公司率先發起的攻勢。

并且這個開源攻勢,持續一個月!

開源月第一彈,兩個基礎模型拿下開閉源新 SOTA

3D 版 DeepSeek 登場,一出手就是開源月;第二波出擊比第一波更猛,開源 2 個強大的基礎模型,很有誠意的那種。

它們分别是:

TripoSG:開源的 3D 模型新 SOTA;目前開源 1.5B 版本。

TripoSF:以開源之身,刷新閉源 3D 模型 SOTA;目前階段性開源部抽成果。

都沿用了 VAST 最著名的 Tripo 系列來命名,但各有偏重——

TripoSG

對于 TripoSG,官方介紹是這樣的:

一款在質量、細節和保真度上實現重大突破的基礎 3D 生成模型。

其開源内容,包括 1.5B 版本 TripoSG 的模型權重、推理代碼以及互動式演示 Demo。

讓我們從技術側來剖析一下 TripoSG 的廬山真面目。

簡單來說,TripoSG 身上體現了 VAST 針對 3D 領網域特性,引入的多項關鍵設計創新。

第一,率先将基于校正流(RF,Rectified Flow)的 Transformer 架構應用于 3D 形狀生成。

之所以選擇基于矯正流來做,是因為 VAST 在研究過程中發現,相較于傳統的擴散模型(Diffusion Model),矯正流在噪聲和數據之間提供了更簡潔的線性路徑建模,有助于實現更穩定、高效的訓練。

拿它結合已被驗證的可擴展性和卓越性能的 Transformer 架構(如 DiT),屬于強強結合,讓 TripoSG 擁有很穩定的強大内核。

第二,TripoSG 是首個在 3D 領網域發布的 MoE Transformer 模型。

以 Transformer 為基礎,TripoSG 融合了包括跳躍連接(skip-connections)在内的關鍵增強設計,以改善跨層特征融合。

此外,獨立的交叉注意力(cross-attention)機制能夠高效地注入全局(CLIP)和局部(DINOv2)影像特征,讓輸入的 2D 影像和輸出的 3D 形狀之間精準對齊。

這還不夠,VAST 團隊為了實現 TripoSG 的高效 Scaling ——從 1.5B 拓展到 4B 那種——團隊在 Transformer 中集成了 MoE 層。

這個辦法此前都只在大語言模型領網域實踐過,VAST 發現 3D 領網域同樣适用。

這樣一來,可以在幾乎不增加推理計算成本的前提下,顯著提升模型參數容量,并重點應用于網絡中更深、更關鍵的層級。

第三,開發了高質量 VAE 與創新幾何監督。

VAST 開發了一種采用符号距離函數(SDFs,Signed Distance Functions)進行幾何表示的 VAE,相較之下,比此前常用的體素占用栅格(occupancy grids)具有更高的精度。

需要注意的是,基于 Transformer 的 VAE 架構在分辨率上有很強的泛化性,無需重新訓練,即可處理更高分辨率的輸入。

與此同時,TripoSG 還引入了一種混合監督訓練策略,将标準的 SDF 損失與表面法線引導   ( surface normal guidance ) 和 程函方程損失 ( eikonal loss )   相結合。

讓 VAE 能學習到幾何上更準确、細節更豐富的表示,又能為後續的流模型提供了質量更高的潛空間。

第四,重視數據治理,特意開發一套完善、精細的數據構建與治理流水線。

流程各階段如下:

質量評分(Scoring)——數據篩選(Filtering)——修復與增強(Fixing & Augmentation)—— SDF 數據生產(SDF Production)

通過這一流程,VAST 為 TripoSG 構建了一個包含 200 萬高質量 " 影像 -SDF" 訓練樣本對的數據集。

消融實驗明确證明,在此高質量數據集上訓練的模型性能顯著優于在更大規模、但未經過濾的原始數據集上訓練的模型(這一點凸顯了數據質量與數量同等重要,甚至更為關鍵)。

集以上四點于一身的 TripoSG,經 Normal-FID 等量化指标評估,以及基于大型多模态模型(如基于 GPTEval3D 框架的 Claude 3.5)的定性評估,輕松拿下 3D 開源模型界的新 SOTA。

讓我們來看看 3D 模型開源界新王的表現——

首先,TripoSG 為什麼能拿下新 SOTA,必然是在語義一致性上有超出現有模型的表現。

簡單來說,TripoSG 輸出的 3D 形狀,能準确反映輸入影像的語義内容和視覺外觀。

當你告訴它你想要一個三鬥櫃,既寫實又稍微 Q 一點那種,你将得到:

不渲染可能視覺上沒那麼明顯,但一上色,你就能發現 " 哎喲不錯哦 ",确實是古樸寫實但又兼具可愛風。

還有一些日常生活的使用痕迹:

非常能直觀感受到的一點是,即使面對具有復雜拓撲結構或包含精細元素的挑戰性輸入,TripoSG 也能生成連貫、合理的形狀。

TripoSF

再來看 TripoSF。

研發 TripoSF,VAST 有專門的針對性目标,旨在突破傳統 3D 建模在細節、復雜結構和擴展性上的瓶頸。

具體來說,3D 模型雖然也在不斷發展之中,但現有方法仍有不足。比如預處理帶來的細節損失、對復雜幾何形狀表達能力的不足,或在高分辨率下面臨高昂的内存和計算成本……

令人頭秃。

據 VAST 官方表示,此前一直在研究中尋找 3D 模型的 tokenizer,現在終于有所進展——

沒錯,就是TripoSF 的核心表示方法,SparseFlex。這家夥拉高了 3D 生成任務的上限。

它借鑑了 Flexicubes(可微分地提取帶尖銳特征的網格)的優勢,并創造性地引入了稀疏體素結構,僅在物體表面附近的區網域存儲和計算體素信息。

帶來的效果很顯著,約有以下三點:

大幅降低内存占用,讓 TripoSF 能夠在 1024 ³ 的高分辨率下進行訓練和推理。

原生支持任意拓撲處理:不僅通過省略空白區網域的體素,自然地表示開放表面(如布料、葉片),還有效捕捉内部結構。

支持基于渲染損失的直接優化:SparseFlex 是可微分的,允許 TripoSF 使用渲染損失進行端到端訓練,避免了數據轉換(如水密化)導致的細節退化。

為了實現上述第一點,VAST 還做了很多功課,最終推出一種叫 " 視錐體感知的分區體素訓練 " 的策略。

視錐體感知的分區體素訓練借鑑了實時渲染中的視錐體剔除思想,在每次訓練迭代中,僅激活和處理位于相機視錐體内的 SparseFlex 體素。

有針對性和選擇性的激活,顯著降低訓練開銷,讓 1024 ³ 這樣高分辨率下的高效訓練成為可能。

另一邊,視錐體感知的分區體素訓練策略首次使僅通過渲染監督即可重建模型的内部精細結構——在此之前,依賴水密表面數據的方法沒法完成這個任務。

當然,還有不得不提的關鍵一步,即基于 SparseFlex 表示和高效的訓練策略,VAST 還構建了 TripoSF VAE(變分自編碼器),它成為了 TripoSF 重建和生成能力的基礎。

具體到輸入到輸出,是醬嬸兒的:

輸入:處理從三維網格采樣得到的點雲數據。

編碼:使用稀疏 Transformer 将輸入幾何映射為緊湊的隐空間編碼。

解碼:從隐編碼重建高分辨率的 SparseFlex 參數,并采用自剪枝上采樣模塊   ( self-pruning upsampling )   來保持稀疏性并精确定義邊界,尤其對開放表面效果顯著。

輸出:生成 SparseFlex 參數,可用于提取高質量的三維網格。

一頓操作過後,來看 TripoSF 的實戰表現——

實驗結果表明,TripoSF 的質量達到了新 SOTA。

在多個标準基準測試中,TripoSF 與先前方法相比,實現了約 82% 的 Chamfer Distance 降低和約 88% 的 F-score 提升。

而用 TripoSF 得到的模型,是這樣的:

多看幾個項目效果也能發現,确如論文中表述的那樣,有了 SparseFlex 的 TripoSF,分辨率高,細節退化情況大幅降低。

就,獲得的 3D 模型真的更真實了!我們多看幾個 Case:

BTW,與 TripoSG 的開源策略不同,TirpoSF 選擇了階段性開源的方法。

現在,TirpoSF 開源了 TripoSF VAE 的預訓練模型及相關的推理代碼。

不過滿血版開源應該也不遠了!VAST 官方表示,滿血版預計将在 Tripo 3.0 時開放。

且按耐住着急的心多等一會兒吧~

開源全家桶,從基礎模型到創新應用全覆蓋

開源月第二周發布兩個基礎模型之外,量子位也搶先打聽到了 VAST 開源月的後續内容。

主打一個 3D 生成全流程技術覆蓋。

下周的開源月第三彈,主打 3D 生成模型的專業能力——

三維部件補全模型、通用三維模型綁定生成模型。

開源月最後一周的壓軸好戲,主打在 3D 生成領網域的前沿探索——

三維幾何精細化模型以及 SIGGRAPH Asia 2024 RTL 收錄的互動式草圖生三維模型。

至于開源質量嘛,我們可以通過今天的 TripoSG 和 TripoSF,以及近期 VAST 的其它動作,窺一斑而知全豹。

這次開源月正式啟幕的第一周,VAST 第一發是在 3 月 13 日開源了兩個項目:

一個是MV-Adapter,VAST 和北航、上海交大聯合出品。

雖于去年 12 月第一次問世,但 3 月 13 日又有新一步的進展,開放了幾何控制下的多視圖生成模型權重。

它是第一個基于适配器的多視圖影像生成解決方案,可以在不改變原始網絡結構或特征空間的情況下,增強文生圖模型及其衍生產品。

另一個開源的項目叫MIDI。

它能僅憑單張影像,創建高保真 3D 場景,論文已中 CVPR 2025。

這一系列開源屬于是既有技術深度,又有覆蓋廣度了。

實際上,作為全球領先的 3D 生成技術提供方,VAST 一直很看重在技術前沿的探索。

單在 2024 年一年裡,就發表了幾十篇新論文;同時積極投身開源社區,此前的開源項目還包括:

世界最大 3D 生成算法框架 threestudio、圖生 3D 的 Wonder3D,和 Stable Diffusion 背後公司 Stability AI 一起開源的 TripoSR ……

憑借技術上的活躍度,VAST 旗下的 Tripo 系列在全網社交媒體上,也屬于是 3D 生成領網域的當紅炸子雞(doge)。

不僅業餘玩家玩得起勁,也獲得了不少專業藝術工作者的認可,可以說是 3D 生成版的國產之光了。

對了,關于技術,此前 VAST 的 CTO 梁鼎還給量子位分享過他們的總體目标:

第一步是靜态的内容生成,就像生成一個個雕塑。

第二步是動态的内容生成,讓原本靜态的雕塑動起來,和用戶互動。

他還認為,在今年(2025 年)年底之前,每個人都可以零門檻、零成本地進行實時 3D 内容創作。

現在,VAST 用開源月,讓每個人朝向這個目标更進一步。

而一系列技術新成果和開源推進之下,VAST 也越來越受到關注,正在成為 3D 大模型賽道最具代表性的明星公司。

有個 VC 和技術招聘領網域的江湖套梗是這樣說的:

語言、影像和視頻之後,3D 是 AIGC 領網域的下一個未來……那3D 大模型賽道,究竟有誰在啊?

VAST。

【 TripoSG 】

Homepage:https://yg256li.github.io/TripoSG-Page/

論文 arXiv:https://arxiv.org/abs/2502.06608

GitHub 代碼:https://github.com/VAST-AI-Research/TripoSG

抱抱臉模型權重:https://huggingface.co/VAST-AI/TripoSG

抱抱臉演示:https://huggingface.co/spaces/VAST-AI/TripoSG

【 TripoSF 】

Homepage:https://xianglonghe.github.io/TripoSF/

論文 arXiv:https://arxiv.org/abs/2503.21732

GitHub 代碼:https://github.com/VAST-AI-Research/TripoSF

抱抱臉模型權重:https://huggingface.co/VAST-AI/TripoSF

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

點亮星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們