今天小编分享的互联网经验:前商汤通用模型负责人打造3D大模型「Tripo」,3D生成迈入「秒级」时代,欢迎阅读。
在 AI 领網域的持续创新中,3D 建模一直是等待着自己的 "ChatGPT" 时刻。
传统 3D 建模涉及游戏、影视、建筑等多个行业,其制作流程繁琐,生产周期长,成本高昂。每个 3D 模型的创建成本至少需要数千元,而生成式 AI 技术在 2D 影像生成方面的成功为其在 3D 建模中的应用带来了新的可能性。
2021 年,OpenAI 发布了 DALL · E,通过输入文字 prompt 生成清晰的影像,标志着文字生成图片技术的成熟。这个项目成功地将 AI 应用于 2D 影像生成,为 AI 在 3D 建模领網域的应用提供了启示。
2023 年初,通用 3D 大模型公司「VAST」正式成立,算法团队成员全部来自海内外的顶尖高校和技术大厂,具有丰富的人工智能及图形学经验。VAST 团队的目标是减少制作高质量 3D 资产和环境所需的专业知识和成本,使 3D 内容生成变得更加容易。
3D 大模型生成的内容
通过集结来自全球顶级高校和技术大厂的团队,VAST 在技术和数据方面取得了双重优势,尤其是 3D 大模型的算法方面。此外,他们拥有千万级别的 3D 原生数据库,为 AI 模型提供了丰富的学习资源。
与过去 3D 生成的技术路线不同的是,VAST 团队认为通过统一表示、模型和数据,以及借鉴其他模态的成功经验,可以有效地解决当前 3D 内容生成面临的挑战,实现通用且可扩展的解决方案。这对算法、数据量、伺服器等有很高的要求一一不过这恰恰也是 VAST 团队的核心优势。
VAST 这一思路提高了生成模型的成功率和效率。目前,已经实现 8 秒钟生成带纹理 3D 网格模型,可以进入传统管线进行二次编辑和调整。在此基础上,可以再用 5 分钟的时间进行优化,优化后的 3D 模型可以接近人类手工制作的 3D 模型质量,成功率超过 95%。
在 3D 内容的生成上,AI 同样面临着诸多挑战。传统流程中,3D 数字内容的生成由积累长时间学习和工作经验的专业艺术家进行创作,且不同艺术家的工作流程不同,缺乏统一标准。对于现有的生成式大模型来说,3D 数字内容是一种全新的语言体系,使得 AI 学习生成高质量 3D 模型变得复杂。
宋亚宸认为,要实现 AI 在 3D 生成领網域的长足发展,需要跳出对人类知识的依赖,通过更庞大的数据和更多的计算,学习一种通用方法。
经过近一年的探索,VAST 在 2023 年 12 月上线通用 3D 大模型 Tripo。Tripo 基于海量 3D 高质量原生数据库训练,是一个数十亿参数级别的 3D 大模型。与传统的 3D 建模相比,Tripo 在生成的质量、速度、成功率上取得了领先地位。
Tripo 的成功主要得益于 VAST 在 " 通用 3D 大模型 " 路线上的技术探索。通过 Tripo,VAST 展示了强大的泛化能力,不论是写实还是风格化任务,亦或是结构复杂的幻想生物,都能在短时间内完成,为 3D 创意内容的未来发展描绘了巨大的潜力。
现阶段,用户使用 Tripo 生成的 3D 模型资产可以直接应用于影视、游戏、设计等多个领網域,且单个模型的生成时间可以控制在几秒时间——相较于传统渲染引擎的数十分钟甚至几个小时,Tripo 的效率提升了几个量级。
长期来看,VAST 对于 3D 大模型的发展前景充满信心。宋亚宸表示,未来团队会持续优化大模型,并基于数据和技术积累,推出 AIGC 游戏和生成式 AI 多人竞技产品。" 做好大模型,不断验证内容范式,一定会迎来平台型机会。"