大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

看3.2亿帧视频学会3D生成,智源开源See3D:只需单图即可生成3D场景

2024-12-11 简体 HK SG TW

今天小编分享的科学经验:看3.2亿帧视频学会3D生成,智源开源See3D:只需单图即可生成3D场景,欢迎阅读。

近日,著名 AI 学者、斯坦福大学教授李飞飞团队 WorldLabs 推出首个「空间智能」模型,仅输入单张图片,即可生成一个逼真的 3D 世界,这被认为是迈向空间智能的第一步。

几乎同时,国内智源研究院推出了首个利用大规模无标注的互联网视频学习的 3D 生成模型See3D— See Video, Get 3D。

△See3D 支持从文本、单视图和稀疏视图到 3D 的生成,同时还可支持 3D 编辑与高斯渲染

不同于传统依赖相机参数(pose-condition)的 3D 生成模型,See3D 采用全新的视觉条件(visual-condition)技术,仅依赖视频中的视觉线索,生成相机方向可控且几何一致的多视角影像。

这一方法不依赖于昂贵的 3D 或相机标注,能够高效地从多样化、易获取的互联网视频中学习 3D 先验。

See3D 不仅支持零样本和开放世界的 3D 生成,还无需微调即可执行 3D 编辑、表面重建等任务,展现出在多种 3D 创作应用中的广泛适用性。

相关的模型、代码、Demo 均已开源,更多技术细节请参考 See3D 论文。

论文地址 :

https://arxiv.org/abs/2412.06699

项目地址 :

https://vision.baai.ac.cn/see3d

效果展示

1. 解锁 3D 互动世界:输入图片,生成沉浸式可互動 3D 场景,实时探索真实空间结构。

‍

(备注:为了实现实时互動式渲染,当前对 3D 模型和渲染过程进行了简化,离线渲染真实效果更佳。)

‍

‍△实时 3D 互動

‍

2. 基于稀疏图片的 3D 重建:输入稀疏的 ( 3-6 张 ) 图片,模型可生成一个精细化的 3D 场景。

△基于 6 张视图的 3D 重建

△基于 3 张视图的 3D 重建

3.   开放世界 3D 生成:根据文本提示,生成一副艺术化的图片,基于此图片,模型可生成一个虚拟化的 3D 场景。

△开放世界 3D 生成样例

4. 基于单视图的 3D 生成:输入一张真实场景图片,模型可生成一个逼真的 3D 场景。

△基于单张图片的 3D 生成研究动机

3D 数据具有完整的几何结构和相机信息,能够提供丰富的多视角信息,是训练 3D 模型最直接的选择。然而,现有方法通常依赖人工设计(designed artists)、立体匹配(stereo matching)或运动恢复结构(Structure from Motion, SfM)等技术来收集这些数据。

尽管经过多年发展,当前 3D 数据的积累规模依然有限,例如 DLV3D ( 0.01M ) 、RealEstate10K ( 0.08M ) 、MVImgNet ( 0.22M ) 和 Objaverse ( 0.8M ) 。这些数据的采集过程不仅耗时且成本高昂,还可能难以实施,导致其数据规模难以扩展,无法满足大规模应用的需求。

与此不同,人类视觉系统无需依赖特定的 3D 表征,仅通过连续多视角的观察即可建立对 3D 世界的理解。单帧影像难以实现这一点,而视频因其天然包含多视角关联性和相机运动信息,具备揭示 3D 结构的潜力。

更重要的是,视频来源广泛且易于获取,具有高度的可扩展性。基于此,See3D 提出 "SeeVideo,Get3D" 的理念,旨在通过视频中的多视图信息,让模型像人类一样,学习并推理物理世界的三维结构,而非直接建模其几何形态。

方法介绍

为了实现可扩展的 3D 生成,See3D 提供了一套系统化的解决方案,具体包括:

1)数据集:团队提出了一个视频数据筛选流程,自动去除源视频中多视角不一致或观察视角不充分的视频,构建了一个高质量、多样化的大规模多视角影像数据集 WebVi3D。该数据集涵盖来自 1600 万个视频片段的 3.2 亿帧影像,可通过自动化流程随互联网视频量的增长而不断扩充。

△WebVi3D 数据集样本展示

2)模型:标注大规模视频数据的相机信息成本极高,且在缺乏显式 3D 几何或相机标注的情况下,从视频中学习通用 3D 先验是更具挑战的任务。为解决这一问题,See3D 引入了一种新的视觉条件——通过向掩码视频数据添加时间依赖噪声,生成一种纯粹的 2D 归纳视觉信号。这一视觉信号支持可扩展的多视图扩散模型(MVD)训练,避免对相机条件的依赖,实现了 " 仅通过视觉获得 3D" 的目标,绕过了昂贵的 3D 标注。

△See3D 方法展示

3)3D 生成框架:See3D 学到的 3D 先验能够使一系列 3D 创作应用成为可能,包括基于单视图的 3D 生成、稀疏视图重建以及开放世界场景中的 3D 编辑等,支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。

△基于 See3D 的多视图生成

优势

a ) 数据扩展性:模型的训练数据源自海量互联网视频,相较于传统 3D 数据集,构建的多视图数据集 ( 16M ) 在规模上实现了数量级的提升。随着互联网的持续发展,该数据集可持续扩充,进一步增强模型能力的覆盖范围。

b ) 相机可控性:模型可支持在任意复杂的相机轨迹下的场景生成,既可以实现场景级别的漫游,也能聚焦于场景内特定的物体细节,提供灵活多样的视角操控能力。

c ) 几何一致性:模型可支持长序列新视角的生成,保持前后帧视图的几何一致性,并遵循真实三维几何的物理规则。即使视角轨迹发生变化,返回时场景依然保持高逼真和一致性。

总结

通过扩大数据集规模,See3D 为突破 3D 生成的技术瓶颈提供了新的思路,所学习到的 3D 先验为一系列 3D 创作应用提供了支持。希望这项工作能够引发 3D 研究社区对大规模无相机标注数据的关注,避免高昂的 3D 数据采集成本,同时缩小与现有强大闭源 3D 解决方案之间的差距。

* 本文系量子位获授权刊载,观点仅为作者所有。

—  完  —

量子位  QbitAI

վ ' ᴗ ' ի 追踪 AI 技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們