今天小编分享的科学经验:字节视频生成新突破!Phantom搞定多人物/主体一致性,欢迎阅读。
视频生成模型当中已经不缺强者了,但保持多主体一致性依然是一项重大挑战。
字节智能创作团队专门针对这个问题,推出了主体一致性视频生成模型Phantom(" 幻影 ")。
Phantom 在主体一致性保持方面取得了突破性进展,不仅支持多主体,还能同时保持主体的完整性。
无论是人物、物品、服装、动物,还是充满奇幻色彩的虚拟角色,它都能精准抓取其关键特征,并自然地融入生成的视频中。
比如下面这段视频当中," 幻影 " 就结合了场景、服装、配饰等要素,原创出了 " 歌剧魅影 " 的片段:
精准抓取关键特征,视频融合更自然身份保持视频生成
借助面部参考影像,Phantom 生成的视频不仅能严格锁定主体的身份特征,还能依据丰富多样的提示词,演绎出各种精彩内容。
例如,上传一张人物照片,模型会以此为蓝本,生成该人物在不同场景下说话、行动的视频。
人物的面部轮廓、五官细节以及独特的表情神态,都能被高度还原,仿佛照片中的人物 " 活 " 了过来,在螢幕上真实地演绎着各种故事。
单参考主体视频生成
只需一张参考影像,无论是可爱小动物的萌态瞬间,还是时尚服装的独特魅力,亦或是神秘虚拟角色的奇幻冒险,Phantom 都能精准捕捉主体的细节,将其生动地呈现在视频中。
还有下面的小狗照片,Phantom 可以呈现它在温馨的房间里欢快奔跑的可爱模样,柔软的毛发、灵动的眼神和俏皮的神态,都被细腻地刻画出来,让人仿佛能感受到活泼与快乐。
多参考主体视频生成
Phantom 支持同时上传多张参考影像,这一强大功能使得复杂互動场景的视频生成成为可能。
在群体场景创作中,只需上传多个人物的照片,就能让他们在视频中自然地聊天。
在一些产品展示的场景,结合产品图片和相关场景图片,Phantom 能生成非常具有吸引力的产品展示视频,将产品的特点和优势完美呈现,为产品推广注入强大动力。
在虚拟试穿场景,只需上传服装和人物照片,就能看到人物身着该服装的动态效果,这有望为电商行业带来全新的营销模式,让消费者的购物体验更加直观和有趣。
总之,Phantom 在和一众领先的商业化工具对比中,从视频质量,文本响应,主体一致性等多个维度处于优势,尤其在人脸 ID 一致性方面的评估领先。
基于主体的 DiT 视频生成方案
目前,基础视频生成模型主要集中在两个主要任务——文本生成视频(Text-to-Video,T2V)和影像生成视频(Image-to-Video,I2V)。
视频生成 T2V 利用语言模型来理解输入文本指令,并生成描述预期角色、动作和背景的视觉内容。
尽管它允许创造性和富有想象力的内容组合,但由于固有的随机性,往往难以生成一直符合预期的结果。
另一方面,I2V 通常是提供影像的首帧以及可选的文本描述,以将静态影像转化为动态视频。
虽然更具可控性,但内容的丰富度往往受到首帧 " 复制粘贴 " 性质的限制。通过从影像中捕捉主体并根据文本提示灵活生成视频。
Phantom 是一个基于 DiT 的视频生成框架,它的主要意图是实现主体到视频的生成 ( Subject-to-video,S2V ) 。
其本质在于平衡文本和影像这两种模式的提示,要求模型同时对齐文本指令和参考影像内容。
从而既满足 T2V 所发挥创造性的优势,又不像 I2V 生成的视频限制为输入图的延展。
具体来说,数据层面 Phantom 通过构建文本 - 图片 - 视频三元组数据,让模型学习不同模态之间的对齐。
为了缓解类似 I2V 生成视频 " 复制粘贴 " 输入图的问题,通过匹配不同视频中的主体元素,并过滤掉具有高度视觉相似性的对象来构建交叉配对数据。
交叉配对数据可以来自同一长视频的不同片段,也可以来自数据库中检索参考对象。这些主体元素主要包括人、动物、物体、背景等等。
此外,多个元素之间的互動可以进一步对场景进行分类,例如多人互動、人与宠物互動、人与物体互動。
模型层面,Phantom 继承自 MMDiT 的架构。
在输入头部分,视频编码器和文本编码器分别继承自基模权重,将输入视频和文本 prompt 分别编码得到相应的 latent feature。
为了不影响 MMDiT 本身的结构,参考图被特定视觉编码器编码,然后分别与视频特征和文本特征拼接,并分别输入到 MMDiT 的 vision branch 和 text branch 进行计算。
团队简介
智能创作团队是字节跳动 AI& 多媒体技术中台,通过建设领先的计算机视觉、音视频编辑、特效处理等技术,支持抖音、剪映、即梦等公司内众多产品线;
同时通过火山引擎为外部 ToB 合作伙伴提供业界最前沿的智能创作能力与行业解决方案。
文中示例仅为展示模型效果。如有侵权或冒犯,请联系论文作者,将及时删除。
E-mail:[email protected]
论文链接:
https://arxiv.org/abs/2502.11079
项目网站:
https://phantom-video.github.io/Phantom/
代码网址:
https://github.com/Phantom-video/Phantom
— 完 —
学术投稿请于工作日发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
一键关注 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!