大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

无需训练、即插即用,新算法大幅增强视频生成质量

2024-12-26 简体 HK SG TW

今天小编分享的科学经验:无需训练、即插即用,新算法大幅增强视频生成质量,欢迎阅读。

无需额外模型训练、即插即用,全新的视频生成增强算法——Enhance-A-Video来了!

和最近人气超高的混元视频生成模型(HunyuanVideo)对比来看,加入 Enhance-A-Video 的版本在生成画面中表现出了更加丰富的细节和更高的语义契合度,生成内容和用户输入的文本提示更匹配:

研究团队成员来自新加坡国立大学、上海 AI 实验室和德克萨斯大学奥斯汀分校。

简单来说,新算法通过调整时间注意力层输出的一个关键参数,能够在几乎不增加推理负担的情况下,大幅提升生成视频的细节表现和时序连贯性。

Enhance-A-Video 还兼容多种主流视频生成模型,无需修改基础架构即可直接应用。

比如CogVideoX-2B  + Enhance-A-Video:

还有OpenSora-V1.2  + Enhance-A-Video:

实验结果显示,Enhance-A-Video 在提升视频质量方面表现卓越,尤其是在对比度、清晰度以及细节真实性上有显著改进。

新算法一经发布,其强大的泛化能力也是迅速得到了社区的认可。

很多网友已将该算法集成到多个主流推理框架中,包括 ComfyUI-Hunyuan 和 ComfyUI-LTX。

对比一下网友 Kijai 发布的原始混元模型和增强后的效果,可以看到模型生成画面更加自然,动态表现也更加流畅:

△Comfy-UI 测试结果,左边为原始视频,右边为增强视频

LTX-Video 的研究人员 Nir Zabari 还成功将它应用到了LTXV模型中,显著提升了生成视频在动作一致性和细节呈现方面的表现。

这一成果表明,Enhance-A-Video 不仅适用于特定模型,还能广泛适配于不同的视频生成框架。

研究背景:提升视频生成质量需求强烈

近年来,以 Diffusion Transformer(DiT)为代表的视频生成技术 [ 1 ] 迅猛发展,能够根据文本描述生成多样化的视频内容。

然而,现有方法仍面临以下挑战:

时序不连贯:帧与帧之间缺乏一致性;

细节模糊:画面纹理缺乏清晰度;

画面抖动:动态效果不够稳定。

这些问题显著影响了生成视频的实用性和观看体验,如何提升 AI 生成视频的质量成为当前研究的关键问题之一。

为了解决上述问题,Enhance-A-Video 应运而生。其核心原理是通过一个增强系数,优化时间注意力的分布,从而实现以下优势:

高效增强:快速提升视频质量;

无需训练:可直接应用于现有生成模型;

即插即用:灵活适配多种场景和需求。

设计动机:时间注意力的优化潜力

时间注意力(Temporal Attention)在 DiT 模型中负责信息的帧间传递,对生成视频的连贯性和细节保留至关重要。

通过对不同 DiT 层的时间注意力分布进行可视化分析,研究人员发现:

在部分 DiT 层中,时间注意力的分布存在显著差异:跨帧注意力(非对角线部分)的强度明显低于单帧自注意力(对角线部分)。

这一现象可能导致帧间信息传递不足,进而影响视频的一致性和细节表现。

基于这一观察,作者提出了一个关键假设:能否通过利用时间注意力来提高视频质量?

△不同 DiT 层的时间注意力分布图

这一假设的灵感来源于大语言模型(LLM)中的温度系数(τ)调节机制。

在文本生成中,通过调整 Softmax 的温度参数可以平衡一致性与多样性 [ 2 ] :

增大 τ,生成结果更加多样化。

减小 τ,生成结果更连贯一致。

类似地,在视频生成中,时间注意力的温度系数可以直接影响帧间相关性强度,为 Enhance-A-Video 的设计提供了理论基础。

方法概述:无需训练的动态增强方案

基于上述观察与思考,作者首次发现时间注意力的温度系数决定了不同帧之间的相关性强度,相关性强度越高意味着每一帧生成时,在时间上下文维度所考虑的范围越广。

由此想法出发,作者提出了一种调整时间注意力层输出,无需训练的视频增强方法,该方法可以直接应用于现有的 AI 视频生成模型。

△Enhance-A-Video 框架图

Enhance-A-Video 的核心设计是通过动态调节时间注意力层的输出,实现对帧间一致性和细节表现的优化。

具体方法分为以下几步:

1. 并行增强模块

在时间注意力层的基础上增加一个并行分支,计算时间注意力分布图。

输入时间注意力层的隐藏状态也被传入增强模块。

2. 计算跨帧强度(CFI)

从时间注意力分布图中提取非对角线元素的平均值,作为跨帧强度(Cross-Frame Intensity, CFI)。

3. 动态增强控制

引入增强温度参数(Enhance Temperature),将其与 CFI 的乘积作为增强模块的输出系数。

利用该系数动态调整时间注意力层输出的特征增强强度。

通过这一策略,Enhance-A-Video 能够高效地提升视频的帧间一致性和细节表现,而无需对原始模型进行重新训练。

为 AI 视频生成技术提供新思考

这项研究提出了首个无需训练、即插即用的 AI 生成视频质量增强方法—— Enhance-A-Video,针对当前生成视频质量的关键问题,围绕时间注意力机制展开创新设计,主要贡献如下:

创新性方法:通过在时间注意力层计算交叉帧强度,引入增强温度参数,提升帧间一致性与细节表现力。

高效性与通用性:无需训练,直接适配主流视频生成模型。

显著性能提升:在 HunyuanVideo 等模型上解决了细节缺失和时序不一致等问题。

未来他们还会在此基础上进一步开展工作,包括:

自适应增强:研究自动调节增强温度参数机制,优化一致性与多样性平衡。

扩展适用性:优化方法设计以适配大规模模型和多模态场景。

质量评价:构建更完善的视频生成质量评价体系。

作者表示,期待本研究为 AI 视频生成技术的实际应用与质量提升提供新的思路和支持!

开源代码链接:https://github.com/NUS-HPC-AI-Lab/Enhance-A-Video

相关博客链接:https://oahzxl.github.io/Enhance_A_Video/

参考文献:

[ 1 ] Brooks, Tim, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, Joe Taylor, Troy Luhman, Eric Luhman, Clarence Ng, Ricky Wang and Aditya Ramesh. "Video generation models as world simulators." OpenAI Research ( 2024 ) .

[ 2 ] Renze, Matthew and Erhan Guven. "The Effect of Sampling Temperature on Problem Solving in Large Language Models." ArXiv abs/2402.05201 ( 2024 ) .

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們