今天小编分享的科学经验:单图0.5秒生成3D模型!Stability AI&华人团队VAST出品,欢迎阅读。
无需 GPU 即可部署,0.5 秒就能通过单张图片生成 3D 模型。
大语言模型风暴再起的一晚,3D 生成领網域也有新开源模型引发关注。
二月底,Stability AI 悄然换将,新任 CTO Christian 是图形学和机器视觉大佬。上任不到五天,立刻官宣为开源社区带来重磅炸弹:和华人团队 VAST 联合推出 3D 生成模型TripoSR。
只需短短的 0.5 秒,TripoSR 就能把单张图片转化为一个几何结构完整、材质纹理清晰的 3D 模型,无需任何 prompt 和专业知识,甚至不需要依赖 GPU。
△图源 Stability AI 官网
可以看出,不管是人物角色、家装建筑、食物摆件,TripoSR 都能理解和还原。
△图源 TripoSR 技术报告
TripoSR 的灵感来源于 2023 年 11 月 Adobe 提出的 LRM。
和 Sora 作为视频生成模型使用的 Transformer 架构相似,TripoSR 和 LRM 都基于 Transformer 架构。
这种方式将影像生成 3D 模型的任务巧妙地理解为一场跨维度的语言翻译。想象一下,每一张输入的影像都是一种独特的语言,而模型的任务,就是将这种影像语言翻译成另一种三维的表达—— 3D 模型语言。
在这场翻译中,影像语言的 " 词汇 " 由输入影像精心切割成的一块块小方块,类比于视频语言的 " 词汇 " 是 patch,而 3D 模型语言的 " 词汇 " 则是由 " 三平面(triplane)" 构成的三维空间中的小方块。这个方法的核心就在于它能够将这些影像语言的 " 词汇 " 一一对应地转化为 3D 模型语言的 " 词汇 ",从而将二维的影像转化为三维的模型。
在 transformer 架构的强力推动下,LRM 在超过百万级别的公开三维数据集上接受了训练,这标志着它与以往那些仅限于特定类别的研究工作划清了界限。这种对任意用户输入的广泛适应性和超高的运行效率赢得了赞誉在学术界和工业界掀起了一阵热潮。
尽管如此,LRM 的代码和模型并未对外开放,加之其训练成本之高——需要 128 块 A100 GPU 连续运行一周——这使得许多资源有限的研究团队望而却步,从而在一定程度上限制了这项技术向更广泛领網域的推广。
或许还有人有印象 Stability AI 此前开源的 3D 项目 Stable Zero123。
这个项目基于另一个受到广泛关注的开源项目 threestudio,尽管这个集成尝试取得了不少进展,但由于其依赖的技术(比如 score distillation sampling)需要较长的优化和计算时间,使得生成一个 3D 模型既缓慢又资源消耗巨大,这个问题仍未能被充分解决。
直至 TripoSR 的出现,学术界和开源界一直缺少一个开放、快速、且具备强大泛化能力的 3D 生成基础模型和框架。
该模型基于 LRM 的原始算法,通过精细筛选和渲染的 Objaverse 数据集子集以及一系列的模型和训练改进,显著提高了从有限训练数据中泛化的能力,同时也增强了 3D 重建的保真度。
△与其他算法对比
因此,可以说 Tripo AI 和 Stability AI 联合推出的首个 LRM 高质量开源实现—— TripoSR 极大地填补了 3D 生成式人工智能领網域的一个关键空白。
△性能表现:F-Score(越高越好)与推理时间(越低越好)的关系
作为 Stable Diffusion 背后公司,Stability AI 无需多做介绍,那么此番与 Stability AI 携手的 Tripo AI 又是何许人也?
根据公开信息,Tripo AI 背后是一个叫作 VAST AI Research 的新锐 3D 研究机构。
自 2023 年底相继开源了 Wonder3D、CSD、TGS 等工作的代码和权重,获得了开源社区的广泛好评。
Tripo 是 VAST 在 2023 年 12 月推出的通用 3D 生成模型。能实现 8 秒内通过文字或图片生成 3D 网格模型,并通过 5 分钟进行精细化生成,生成模型质量在几何和材质层面都接近手工水平。
根据其披露的运营动态,目前已上线模型生成之外,风格化、自动骨骼绑定等更多 3D 生成相关功能。
你觉得 2024 年会是 3D 生成领網域爆发的一年吗?
参考链接:
[ 1 ] TripoSR 模型代码:https://github.com/VAST-AI-Research/TripoSR
[ 2 ] TripoSR 模型权重:https://huggingface.co/stabilityai/TripoSR
[ 3 ] TripoSR Demo:https://huggingface.co/spaces/stabilityai/TripoSR
[ 4 ] https://stability.ai/news/triposr-3d-generation
* 本文系量子位获授权刊载,观点仅为作者所有。