Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩 - 大酷樂

今天小编分享的科学经验：Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩，欢迎阅读。

Stable Diffusion 背后公司 Stability AI 又上新了。

这次带来的是图生 3D方面的新进展：

基于 Stable Video Diffusion 的Stable Video 3D（SV3D），只用一张图片就能生成高质量 3D 网格。

Stable Video Diffusion（SVD）是 Stability AI 此前推出的高分辨率视频生成模型。也就是说，此番登场的 SV3D首次将视频扩散模型应用到了 3D 生成领網域。

官方表示，基于此，SV3D 大大提高了 3D 生成的质量和视图一致性。

模型权重依然开源，不过仅可用于非商业用途，想要商用的话还得买个 Stability AI 会员 ~

话不多说，还是来扒一扒论文细节。

将视频扩散模型用于 3D 生成

引入潜在视频扩散模型，SV3D 的核心目的是利用视频模型的时间一致性来提高 3D 生成的一致性。

并且视频数据本身也比 3D 数据更容易获得。

Stability AI 这次提供两个版本的 SV3D：

SV3D_u：基于单张影像生成轨道视频。

SV3D_p：扩展了 SV3D_u 的功能，可以根据指定的相机路径创建 3D 模型视频。

研究人员还改进了 3D 优化技术：采用由粗到细的训练策略，优化 NeRF 和 DMTet 网格来生成 3D 对象。

他们还设计了一种名为掩码得分蒸馏采样（SDS）的特殊损失函数，通过优化在训练数据中不直接可见的区網域，来提高生成 3D 模型的质量和一致性。

同时，SV3D 引入了一个基于球面高斯的照明模型，用于分离光照效果和纹理，在保持纹理清晰度的同时有效减少了内置照明问题。

具体到架构方面，SV3D 包含以下关键组成部分：

UNet：SV3D 是在 SVD 的基础上构建的，包含一个多层 UNet，其中每一层都有一系列残差块（包括 3D 卷积层）和两个分别处理空间和时间信息的 Transformer 模块。

条件输入：输入影像通过 VAE 编码器嵌入到潜在空间中，会和噪声潜在状态合并，一起输入到 UNet 中；输入影像的 CLIP 嵌入矩阵则被用作每个 Transformer 模块交叉注意力层的键值对。

相机轨迹编码：SV3D 设计了静态和动态两种类型的轨道来研究相机姿态条件的影响。静态轨道中，相机以规律间隔的方位角围绕对象；动态轨道则允许不规则间隔的方位角和不同的仰角。

相机的运动轨迹信息和扩散噪声的时间信息会一起输入到残差模块中，转换为正弦位置嵌入，然后这些嵌入信息会被整合并进行线性变换，加入到噪声时间步长嵌入中。

这样的设计旨在通过精细控制相机轨迹和噪声输入，提升模型处理影像的能力。

此外，SV3D 在生成过程中采用 CFG（无分类器引导）来控制生成的清晰度，特别是在生成轨道的最后几帧时，采用三角形 CFG 缩放来避免过度锐化。

研究人员在 Objaverse 数据集上训练 SV3D，影像分辨率为 575 × 576，视场角为 33.8 度。论文透露，所有三种模型（SV3D_u，SV3D_c，SV3D_p）在 4 个节点上训练了 6 天左右，每个节点配备 8 个 80GB 的 A100 GPU。

实验结果

在新视角合成（NVS）和 3D 重建方面，SV3D 超过了现有其他方法，达到 SOTA。

从定性比较的结果来看，SV3D 生成的多视角试图，细节更丰富，更接近与原始输入影像。也就是说，SV3D 在理解和重构物体的 3D 结构方面，能够更准确地捕捉到细节，并保持视角变换时的一致性。

这样的成果，引发了不少网友的感慨：

可以想象，在未来 6-12 个月内，3D 生成技术将会被用到游戏和视频项目中。

评论区也总少不了一些大胆的想法……

并且项目开源嘛，已经有第一波小伙伴玩上了，在 4090 上就能跑起来。

如果你也有第一手实测体会，欢迎在评论区分享 ~

参考链接：

[ 1 ] https://twitter.com/StabilityAI/status/1769817136799855098

[ 2 ] https://stability.ai/news/introducing-stable-video-3d

[ 3 ] https://sv3d.github.io/index.html

熱門排行

王治郅：杨瀚森主要的问题是速度他郟君昊 | 2025-05-05
贸易战烧进电影院：特朗普拟重税打击習又夏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天寸飛蘭 | 2025-05-05
手机电池突破8000mAh？硅碳技术的回衛青柏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天繁綺文 | 2025-05-05
任天堂对Genki提起Switch 2商标侵郜萌運 | 2025-05-05
哪吒汽车APP和官网恢复正常知情人袁曼雁 | 2025-05-05
极越汽车 CEO 夏一平名下青岛/义乌集玲琳 | 2025-05-05
全国经济第一大省明确，推动组建农商佼昌翰 | 2025-05-05
桑保利：亚马尔有配合意识&有点像梅甄正浩 | 2025-05-05
高露现身上海虹桥机场黑色外套点缀亮色爱心装饰俏皮亮眼惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最强芯袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表情庆祝賁芳蕤 | 2023-05-02
曹操墓，里面都有啥？衛青柏 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露面賁芳蕤 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖尿病人集玲琳 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花板”？謝飛揚 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游戏+AI”能否逆风翻盘？衛青柏 | 2023-05-04
信用风险释放趋缓，结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望袁曼雁 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15日寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修正案集玲琳 | 2023-05-02
解除资格！停止一切合作佼昌翰 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
3699起联想小新mini主机上架 13代酷睿标压处理器習又夏 | 2023-05-05
前董事长被免，天山生物全面进入“中植系”时代？股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
事关农村土地承包和农民权益，《农村土地承包合同管理办法》5月1日起施行郟君昊 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线涨幅汇总袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，官方通报袁曼雁 | 2023-05-03
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的生活》证实将停办佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《与凤行》…在路上了惠惠君 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊带裙大秀好身材嬴覓晴 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，不容小觑幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02