大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

可组合扩散模型主打Any-to-Any生成:文本、影像、视频、音频全都行

2023-05-23 简体 HK SG TW

今天小编分享的科技经验:可组合扩散模型主打Any-to-Any生成:文本、影像、视频、音频全都行,欢迎阅读。

机器之心报道

编辑:陈萍、杜伟

一种模型统一多种模态实现了。

给定一句话,然后让你想象这句话在现实场景中的样子,对于人类来说这项任务过于简单,比如「一辆进站的火车」,人类可以进行天马行空的想象火车进站时的样子,但对模型来说,这可不是一件容易的事,涉及模态的转换,模型需要理解这句话的含义,然后根据这句话生成应景的视频、音频,难度还是相当大的。

现在,来自北卡罗来纳大学教堂山分校、微软的研究者提出的可组合扩散(Composable Diffusion,简称 CoDi)模型很好的解决了这个问题。比如,前面提到的「一辆进站的火车」,CoDi 根据这句话生成的效果如下:

与现有的生成式人工智能系统不同,CoDi 可以并行生成多种模态,其输入不限于文本或影像等模态。

众所周知,随着技术的发展,大模型的能力范围已经不仅仅局限于一种模态的生成,而是从一种模态生成另一种模态正在变成现实,如我们常见的文本到文本的生成,文本到影像的生成,以及文本到音频的生成。

然而,单一模态或一对一模态在应用到现实世界中会受到限制,因为现实世界是多模态的,然而将多种模态串联在一起难度较大。人们迫切期待开发出一种全面而具有多功能的模型,这种模型可以从一组输入条件中生成任意组合的模态,无缝地整合来自各种信息源的信息,从而实现强大的人机互動体验(例如,同时生成连贯的视频、音频和文本描述)。

CoDi 就是为了实现这一目标而进行的,可以说这是第一个能够同时处理和生成任意组合模态的模型。

论文主页:https://codi-gen.github.io/

研究者表示 CoDi 不仅可以从单模态到单模态的生成,还可以接收多个条件输入,以及多模态联合生成。举例来说,在给定文本 prompt 的情况下生成同步的视频和音频;或者在给定影像和音频   prompt   的情况下生成视频。

下面我们用具体的示例进行展示。首先考察 CoDi 生成影像的能力。

CoDi 可以将文本 + 音频作为输入,然后生成一张图片:

在这个示例中,文本   prompt   大致为:油画,恐怖画风,craig mullins 风格。

除了文本 + 音频,CoDi 还可以以文本 + 影像作为输入,然后生成一张图片:

在这个示例中,输入   prompt   为:花瓶里的花朵,静物画,Albert Williams 风格,以及一张图片。

除此以外,CoDi 还能以三种模态(文本 + 音频 + 图片)作为输入,生成符合要求的图片。

接下来是展示 CoDi 视频生成能力。给模型一句   prompt(坐在咖啡桌旁吃东西)+ 熊猫图片,之后一只活灵活现的大熊猫就动了起来:

‍

此外,CoDi 还能输入单个或多个   prompt,包括视频,影像,文本或音频,以生成多个对齐输出。

在这个示例中,prompt   包括三部分(文本 + 影像 + 音频):文本   prompt   为滑板上的泰迪熊,4k,高分辨率。影像是一个繁华的街道。语音输入为哗哗的雨声:

生成的视频如下:

不仅如此,CoDi 还能根据一句话生成视频和音频,如:空中绽放的烟花。

视频 + 音频效果如下:

了解更多展示效果,请参考论文主页。

方法概览

潜在扩散模型

扩散模型(DM)是这样一类生成式模型,它们通过模拟信息随时间的扩散来学习数据分布 p ( x ) 。在训练期间,随机噪声被迭代地添加到 x,同时模型学习对示例进行去噪。对于推理,扩散模型对从简单分布(如高斯分布)中采样的数据点进行去噪。潜在扩散(LDM)学习对应于 x 的潜在变量 z 的分布。通过降低数据维数来显著降低计算成本。

可组合多模态调节

为了使自己的模型能够以任何 input/prompt 模态的组合进行调节,研究者对齐文本、影像、视频和音频的 prompt 编码器(分别用 C_t、C_i、C_v 和 C_a 表示),将来自任何模态的输入映射到同一个空间。然后通过对每个模态的表示进行插值来实现多模态调节。通过对齐嵌入的简单加权插值,他们利用单条件(即仅有一个输入)训练的模型来执行零样本多条件(即有多个输入)。整个过程如下图 2 ( a ) ( 2 ) 所示。

不过以组合方式同时对四种 prompt 编码器进行优化具有非常大的计算量,因此需要 O ( n^2 ) 对。此外对于某些双模态,对齐良好的配对数据集有限或不可用,例如影像音频对。

为了解决这些问题,研究者提出了一种简单有效的方法「桥接对齐(Bridging Alignment)」,以高效地对齐编码器。如下图 2 ( a ) ( 1 ) 所示,他们选择文本模态作为「桥接」模态,因为该模态普遍存在于配对数据中,例如文本影像对、文本视频对和文本音频对。研究者从预训练文本影像配对编码器 CLIP 开始,然后使用对比学习在音频文本和视频文本配对数据集上训练音频和视频 prompt 编码器,同时冻结文本和影像编码器权重。

如此一来,所有四种模态在特征空间中对齐。CoDi 可以有效地利用和组合任何模态组合中的互补信息,以生成更准确和全面的输出。生成质量的高低不受 prompt 模态数量的影响。研究者继续使用桥接对齐来对齐具有不同模态的 LDM 的潜在空间,以实现联合多模态生成。

可组合扩散

训练一个端到端的 anything-to-anything 模型需要广泛学习不同的数据资源,并且需要保持所有合成流的生成质量。为了应对这些挑战,CoDi 被设计为可组合和集成的,允许独立构建特定于单一模态的模型,之后实现顺利集成。具体地,研究者首先独立训练影像、视频、音频和文本 LDM,然后这些扩散模型通过一种新机制「潜在对齐」来有效地学习跨模态的联合多模态生成。

先看影像扩散模型。影像 LDM 遵循与 Stable Diffusion 相同的结构,并用相同的权重进行初始化。重用该权重将在大型高质量影像数据集上训练的 Stable Diffusion 的知识和超高生成保真度迁移到 CoDi。

再看视频扩散模型。为了对视频时间属性进行建模的同时保持视频生成质量,研究者通过扩展具有时间模块的影像扩散器来构建视频扩散器。具体地,他们在残差块之前插入伪时间注意力。不过研究者认为伪时间注意力只能将像素(高度和宽度维数)展平为批维数来使视频帧在全局范围内彼此关注,从而导致局部像素之间跨帧互動的缺失。

接着是音频扩散模型。为了在联合生成中实现灵活的跨模态注意力,音频扩散器在设计时具有与视觉扩散器相似的架构,其中梅尔频谱图可以自然地被视为具有 1 个通道的影像。研究者使用 VAE 编码器将音频的梅尔频谱图编码为压缩的潜在空间。在音频合成中,VAW 解码器将潜在变量映射到梅尔频谱图,并且声码器从梅尔频谱图生成音频样本。研究者使用了 [ 33 ] 中的音频 VAE 和 [ 27 ] 的声码器。

最后是文本扩散模型。文本 LDM 中的 VAE 是 OPTIMUS [ 29 ] ,它的编解码器分别是 [ 9 ] 和 GPT-2 [ 39 ] 。对于去噪 UNet,与影像扩散不同的是,残差块中的 2D 卷积被 1D 卷积取代。

基于潜在对齐的联合多模态生成

最后一步是在联合生成中启用扩散流之间的交叉注意力,即同时生成两种或多种模态。这通过向 UNet ϵ _ θ 添加跨模态注意力子层来实现,详见图 2 ( b ) ( 2 ) 。

此外在图 2 ( b ) ( 3 ) 中,研究者在训练联合生成时也遵循了与「桥接对齐」类似的设计,即(1)首先训练影像和文本扩散器中的交叉注意力权重以及它们在文本影像配对数据上的环境编码器 V。(2)冻结文本扩散器的权重,并在文本音频配对数据上训练环境编码器和音频扩散器的交叉注意力权重。(3)冻结音频扩散器及其环境编码器,并在音频视频配对数据上训练视频模态的联合生成。

从结果来看,尽管只接受了三个配对联合生成任务(文本 + 音频、文本 + 影像和视频 + 音频)的训练,但 CoDi 能够同时生成训练中未见过的各种模态组合,例如下图 5 中的联合影像 - 文本 - 音频生成。

实验结果

表 1 提供了数据集、任务、样本数量和领網域的概览信息。

下图 3 展示了各种单模态到单模态的生成示例演示。

CoDi 在音频字幕和音频生成方面实现了新 SOTA,如表 4 和表 6 所示。

在影像和视频生成方面,CoDi 的表现与最先进的技术相媲美,如表 2 和表 3 所示。

如表 8 所示,CoDi 在给定的输入模态分组中实现了高质量影像生成。此外,表 9 表明,CoDi 在给定各种输入模态组的情况下与真值相似。

了解更多内容,请参考原论文。

©  THE END  

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們