大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

3D版DeepSeek卷起开源月:两大基础模型率先SOTA!又是VAST

2025-03-29 简体 HK SG TW

今天小编分享的科学经验:3D版DeepSeek卷起开源月:两大基础模型率先SOTA!又是VAST,欢迎阅读。

3D 生成版 DeepSeek 再上新高度!

国产、易用、性能强且开源——

新模型一露面就刷新 SOTA,并且第一时间加入开源全家桶。

顺时针转个圈圈给大家看,效果是这样:

加上 " 皮肤 " 是这样:

再来一个,效果是这样:

肉眼可见,这次妥妥更新变成了更细节的细节控~

以上效果,都来自3D 大模型明星初创公司 VAST,其刚刚上新的两个基础模型,TripoSG 和 TripoSF,为团队的最新研发成果。该团队去年 3 月开源了 TripoSR,在开源 3D 生成基础模型中爆火全球。

TripoSG,发布即开源,一露面就刷新开源 3D 生成模型 SOTA,让广大开发者第一时间享受技术进步的成果。

TripoSF,目前为开源第一阶段,已经用实力证明了自己:横扫一切开源和闭源的现有方法,拿下新 SOTA。

你就说秀不秀吧(手动狗头)?!

——但基础模型还只是 VAST 最近大秀一波技术肌肉的上半程表演。

量子位获悉,接下来 VAST 要连续开源一个月,每周都有新开源项目公布。而 TripoSG 和 TripoSF 是开源月里第二周的项目。

在整个开源月里,除了第一波单张影像端到端生成三维组合场景、第二波 3D 基础模型,接下来还有三维部件补全模型、通用三维模型绑定生成模型、三维几何精细化模型以及 SIGGRAPH Asia 2024 RTL 收录的互動式草图生三维模型等等技术将与大家见面。

港真,我的胃口已经被吊起来了。

在 DeepSeek 之后,各领網域的国产之光们纷纷开启了开源大秀。而 VAST,就是领先的 3D 大模型领網域公司率先发起的攻势。

并且这个开源攻势,持续一个月!

开源月第一弹,两个基础模型拿下开闭源新 SOTA

3D 版 DeepSeek 登场,一出手就是开源月;第二波出击比第一波更猛,开源 2 个强大的基础模型,很有诚意的那种。

它们分别是:

TripoSG:开源的 3D 模型新 SOTA;目前开源 1.5B 版本。

TripoSF:以开源之身,刷新闭源 3D 模型 SOTA;目前阶段性开源部抽成果。

都沿用了 VAST 最著名的 Tripo 系列来命名,但各有偏重——

TripoSG

对于 TripoSG,官方介绍是这样的:

一款在质量、细节和保真度上实现重大突破的基础 3D 生成模型。

其开源内容,包括 1.5B 版本 TripoSG 的模型权重、推理代码以及互動式演示 Demo。

让我们从技术侧来剖析一下 TripoSG 的庐山真面目。

简单来说,TripoSG 身上体现了 VAST 针对 3D 领網域特性,引入的多项关键设计创新。

第一,率先将基于校正流(RF,Rectified Flow)的 Transformer 架构应用于 3D 形状生成。

之所以选择基于矫正流来做,是因为 VAST 在研究过程中发现,相较于传统的扩散模型(Diffusion Model),矫正流在噪声和数据之间提供了更简洁的线性路径建模,有助于实现更稳定、高效的训练。

拿它结合已被验证的可扩展性和卓越性能的 Transformer 架构(如 DiT),属于强强结合,让 TripoSG 拥有很稳定的强大内核。

第二,TripoSG 是首个在 3D 领網域发布的 MoE Transformer 模型。

以 Transformer 为基础,TripoSG 融合了包括跳跃连接(skip-connections)在内的关键增强设计,以改善跨层特征融合。

此外,独立的交叉注意力(cross-attention)机制能够高效地注入全局(CLIP)和局部(DINOv2)影像特征,让输入的 2D 影像和输出的 3D 形状之间精准对齐。

这还不够,VAST 团队为了实现 TripoSG 的高效 Scaling ——从 1.5B 拓展到 4B 那种——团队在 Transformer 中集成了 MoE 层。

这个办法此前都只在大语言模型领網域实践过,VAST 发现 3D 领網域同样适用。

这样一来,可以在几乎不增加推理计算成本的前提下,显著提升模型参数容量,并重点应用于网络中更深、更关键的层级。

第三,开发了高质量 VAE 与创新几何监督。

VAST 开发了一种采用符号距离函数(SDFs,Signed Distance Functions)进行几何表示的 VAE,相较之下,比此前常用的体素占用栅格(occupancy grids)具有更高的精度。

需要注意的是,基于 Transformer 的 VAE 架构在分辨率上有很强的泛化性,无需重新训练,即可处理更高分辨率的输入。

与此同时,TripoSG 还引入了一种混合监督训练策略,将标准的 SDF 损失与表面法线引导   ( surface normal guidance ) 和 程函方程损失 ( eikonal loss )   相结合。

让 VAE 能学习到几何上更准确、细节更丰富的表示,又能为后续的流模型提供了质量更高的潜空间。

第四,重视数据治理,特意开发一套完善、精细的数据构建与治理流水线。

流程各阶段如下:

质量评分(Scoring)——数据筛选(Filtering)——修复与增强(Fixing & Augmentation)—— SDF 数据生产(SDF Production)

通过这一流程,VAST 为 TripoSG 构建了一个包含 200 万高质量 " 影像 -SDF" 训练样本对的数据集。

消融实验明确证明,在此高质量数据集上训练的模型性能显著优于在更大规模、但未经过滤的原始数据集上训练的模型(这一点凸显了数据质量与数量同等重要,甚至更为关键)。

集以上四点于一身的 TripoSG,经 Normal-FID 等量化指标评估,以及基于大型多模态模型(如基于 GPTEval3D 框架的 Claude 3.5)的定性评估,轻松拿下 3D 开源模型界的新 SOTA。

让我们来看看 3D 模型开源界新王的表现——

首先,TripoSG 为什么能拿下新 SOTA,必然是在语义一致性上有超出现有模型的表现。

简单来说,TripoSG 输出的 3D 形状,能准确反映输入影像的语义内容和视觉外观。

当你告诉它你想要一个三斗柜,既写实又稍微 Q 一点那种,你将得到:

不渲染可能视觉上没那么明显,但一上色,你就能发现 " 哎哟不错哦 ",确实是古朴写实但又兼具可爱风。

还有一些日常生活的使用痕迹:

非常能直观感受到的一点是,即使面对具有复杂拓扑结构或包含精细元素的挑战性输入,TripoSG 也能生成连贯、合理的形状。

TripoSF

再来看 TripoSF。

研发 TripoSF,VAST 有专门的针对性目标,旨在突破传统 3D 建模在细节、复杂结构和扩展性上的瓶颈。

具体来说,3D 模型虽然也在不断发展之中,但现有方法仍有不足。比如预处理带来的细节损失、对复杂几何形状表达能力的不足,或在高分辨率下面临高昂的内存和计算成本……

令人头秃。

据 VAST 官方表示,此前一直在研究中寻找 3D 模型的 tokenizer,现在终于有所进展——

没错,就是TripoSF 的核心表示方法,SparseFlex。这家伙拉高了 3D 生成任务的上限。

它借鉴了 Flexicubes(可微分地提取带尖锐特征的网格)的优势,并创造性地引入了稀疏体素结构,仅在物体表面附近的区網域存储和计算体素信息。

带来的效果很显著,约有以下三点:

大幅降低内存占用,让 TripoSF 能够在 1024 ³ 的高分辨率下进行训练和推理。

原生支持任意拓扑处理:不仅通过省略空白区網域的体素,自然地表示开放表面(如布料、叶片),还有效捕捉内部结构。

支持基于渲染损失的直接优化:SparseFlex 是可微分的,允许 TripoSF 使用渲染损失进行端到端训练,避免了数据转换(如水密化)导致的细节退化。

为了实现上述第一点,VAST 还做了很多功课,最终推出一种叫 " 视锥体感知的分区体素训练 " 的策略。

视锥体感知的分区体素训练借鉴了实时渲染中的视锥体剔除思想,在每次训练迭代中,仅激活和处理位于相机视锥体内的 SparseFlex 体素。

有针对性和选择性的激活,显著降低训练开销,让 1024 ³ 这样高分辨率下的高效训练成为可能。

另一边,视锥体感知的分区体素训练策略首次使仅通过渲染监督即可重建模型的内部精细结构——在此之前,依赖水密表面数据的方法没法完成这个任务。

当然,还有不得不提的关键一步,即基于 SparseFlex 表示和高效的训练策略,VAST 还构建了 TripoSF VAE(变分自编码器),它成为了 TripoSF 重建和生成能力的基础。

具体到输入到输出,是酱婶儿的:

输入:处理从三维网格采样得到的点云数据。

编码:使用稀疏 Transformer 将输入几何映射为紧凑的隐空间编码。

解码:从隐编码重建高分辨率的 SparseFlex 参数,并采用自剪枝上采样模块   ( self-pruning upsampling )   来保持稀疏性并精确定义边界,尤其对开放表面效果显著。

输出:生成 SparseFlex 参数,可用于提取高质量的三维网格。

一顿操作过后,来看 TripoSF 的实战表现——

实验结果表明,TripoSF 的质量达到了新 SOTA。

在多个标准基准测试中,TripoSF 与先前方法相比,实现了约 82% 的 Chamfer Distance 降低和约 88% 的 F-score 提升。

而用 TripoSF 得到的模型,是这样的:

多看几个项目效果也能发现,确如论文中表述的那样,有了 SparseFlex 的 TripoSF,分辨率高,细节退化情况大幅降低。

就,获得的 3D 模型真的更真实了!我们多看几个 Case:

BTW,与 TripoSG 的开源策略不同,TirpoSF 选择了阶段性开源的方法。

现在,TirpoSF 开源了 TripoSF VAE 的预训练模型及相关的推理代码。

不过满血版开源应该也不远了!VAST 官方表示,满血版预计将在 Tripo 3.0 时开放。

且按耐住着急的心多等一会儿吧~

开源全家桶,从基础模型到创新应用全覆盖

开源月第二周发布两个基础模型之外,量子位也抢先打听到了 VAST 开源月的后续内容。

主打一个 3D 生成全流程技术覆盖。

下周的开源月第三弹,主打 3D 生成模型的专业能力——

三维部件补全模型、通用三维模型绑定生成模型。

开源月最后一周的压轴好戏,主打在 3D 生成领網域的前沿探索——

三维几何精细化模型以及 SIGGRAPH Asia 2024 RTL 收录的互動式草图生三维模型。

至于开源质量嘛,我们可以通过今天的 TripoSG 和 TripoSF,以及近期 VAST 的其它动作,窥一斑而知全豹。

这次开源月正式启幕的第一周,VAST 第一发是在 3 月 13 日开源了两个项目:

一个是MV-Adapter,VAST 和北航、上海交大联合出品。

虽于去年 12 月第一次问世,但 3 月 13 日又有新一步的进展,开放了几何控制下的多视图生成模型权重。

它是第一个基于适配器的多视图影像生成解决方案,可以在不改变原始网络结构或特征空间的情况下,增强文生图模型及其衍生产品。

另一个开源的项目叫MIDI。

它能仅凭单张影像,创建高保真 3D 场景,论文已中 CVPR 2025。

这一系列开源属于是既有技术深度,又有覆盖广度了。

实际上,作为全球领先的 3D 生成技术提供方,VAST 一直很看重在技术前沿的探索。

单在 2024 年一年里,就发表了几十篇新论文;同时积极投身开源社区,此前的开源项目还包括:

世界最大 3D 生成算法框架 threestudio、图生 3D 的 Wonder3D,和 Stable Diffusion 背后公司 Stability AI 一起开源的 TripoSR ……

凭借技术上的活跃度,VAST 旗下的 Tripo 系列在全网社交媒体上,也属于是 3D 生成领網域的当红炸子鸡(doge)。

不仅业余玩家玩得起劲,也获得了不少专业艺术工作者的认可,可以说是 3D 生成版的国产之光了。

对了,关于技术,此前 VAST 的 CTO 梁鼎还给量子位分享过他们的总体目标:

第一步是静态的内容生成,就像生成一个个雕塑。

第二步是动态的内容生成,让原本静态的雕塑动起来,和用户互动。

他还认为,在今年(2025 年)年底之前,每个人都可以零门槛、零成本地进行实时 3D 内容创作。

现在,VAST 用开源月,让每个人朝向这个目标更进一步。

而一系列技术新成果和开源推进之下,VAST 也越来越受到关注,正在成为 3D 大模型赛道最具代表性的明星公司。

有个 VC 和技术招聘领網域的江湖套梗是这样说的:

语言、影像和视频之后,3D 是 AIGC 领網域的下一个未来……那3D 大模型赛道,究竟有谁在啊?

VAST。

【 TripoSG 】

Homepage:https://yg256li.github.io/TripoSG-Page/

论文 arXiv:https://arxiv.org/abs/2502.06608

GitHub 代码:https://github.com/VAST-AI-Research/TripoSG

抱抱脸模型权重:https://huggingface.co/VAST-AI/TripoSG

抱抱脸演示:https://huggingface.co/spaces/VAST-AI/TripoSG

【 TripoSF 】

Homepage:https://xianglonghe.github.io/TripoSF/

论文 arXiv:https://arxiv.org/abs/2503.21732

GitHub 代码:https://github.com/VAST-AI-Research/TripoSF

抱抱脸模型权重:https://huggingface.co/VAST-AI/TripoSF

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

点亮星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們