大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

Meta版Sora无预警来袭!抛弃扩散模型,音视频生成/画面编辑全包,92页论文无保留公开

2024-10-05 简体 HK SG TW

今天小编分享的科学经验:Meta版Sora无预警来袭!抛弃扩散模型,音视频生成/画面编辑全包,92页论文无保留公开,欢迎阅读。

刚刚,Meta 抢在 OpenAI 之前推出自己的 Sora ——Meta Movie Gen

Sora 有的它都有,可创建不同宽高比的高清长视频,支持 1080p、16 秒、每秒 16 帧。

Sora 没有的它还有,能生成配套的背景音乐和音效、根据文本指令编辑视频,以及根据用户上传的影像生成个性化视频。

Meta 表示,这是 " 迄今为止最先进的媒体基础模型(Media Foundation Models)"。

只需一句 " 把灯笼变成飞向空中的泡泡 ",就能替换视频中的物体,同时透明的泡泡正确反射了背景环境。

上传一张自己的照片,就能成为 AI 电影的主角。

生成的视频不再无声,也不只是能安一个背景音乐。

比如看这里!视频会配合滑板轮子转动和落地配上逼真音效。(注意打开声音)

有人表示,随着大量创作者学会使用 AI 视频编辑工具,很难想象几年后长视频和短视频会变成什么样。

这一次,与 Sora 只有演示和官网博客不同,Meta 在92 页的论文中把架构、训练细节都公开了。

不过模型本身还没开源,遭到抱抱脸工程师贴脸开大,直接在评论区扔下 Meta 的开源主页链接:

在这等着您嗷。

Meta 在论文中特别强调,数据规模、模型大小、训练算力的扩展对于训练大规模媒体生成模型至关重要。通过系统地提升这几个维度,才使得如此强大的媒体生成系统成为可能。

其中最另业界关注的一点是,这一次他们完全扔掉了扩散模型和扩散损失函数,使用 Transformer 做骨干网络,流匹配(Flow Matching)做训练目标。

用 Llama3 架构做视频模型

具体来说 Movie Gen 由视频生成和音频生成两个模型组成。

Movie Gen Video:30B 参数 Transformer 模型,可以从单个文本提示生成 16 秒、16 帧每秒的高清视频,相当于 73K 个视频 tokens。

对于精确视频编辑,它可以执行添加、删除或替换元素,或背景替换、样式更改等全局修改。

对于个性化视频,它在保持角色身份一致性和运动自然性方面取得 SOTA 性能。

Movie Gen Audio:13B 参数 Transformer 模型,可以接受视频输入以及可选的文本提示,生成与视频同步的高保真音频。

Movie Gen Video 通过预训练 - 微调范式完成,在骨干网络架构上,它沿用了 Transoformer,特别是 Llama3 的许多设计。

预训练阶段

在海量的视频 - 文本和影像 - 文本数据集上进行联合训练,学习对视觉世界的理解。这个阶段的训练数据规模达到了 O ( 100 ) M 视频和 O ( 1 ) B 影像,用以学习运动、场景、物理、几何、音频等概念。

微调阶段

研究人员精心挑选了一小部分高质量视频进行有监督微调,以进一步提升生成视频的运动流畅度和美学品质。

为了进一步提高效果,模型还引入了流匹配(Flow Matching)作为训练目标,这使得视频生成的效果在精度和细节表现上优于扩散模型。

扩散模型通过从数据分布逐渐加入噪声,然后在推理时通过逆过程去除噪声来生成样本,用大量的迭代步数逐步逼近目标分布。

流匹配则是通过直接学习样本从噪声向目标数据分布转化的速度,模型只需通过估计如何在每个时间步中演化样本,即可生成高质量的结果。

与扩散模型相比,流匹配方法训练更加高效,计算成本更低,并且生成的结果在时间维度上具有更好的连续性和一致性。

在整体架构上,首先通过时空自编码器(Temporal AutoEncoder, TAE)将像素空间的 RGB 影像和视频压缩到一个时空潜空间,学习一种更加紧凑的表征。

接着,输入的文本提示被一系列预训练的文本编码器编码成向量表示,作为模型的条件信息。这里用到了多种互补的文本编码器,包括理解语义的编码器如 UL2、与视觉对齐的编码器如 Long-prompt MetaCLIP,以及理解视觉文本的字元级编码器如 ByT5。

最后,生成模型以 Flow Matching 的目标函数进行训练,从高斯分布采样的噪声向量作为输入,结合文本条件,生成一个输出潜码。这个潜码经过 TAE 解码,就得到最终的影像或视频输出。

此外 Movie Gen Video 在技术上还引入了多项创新:

为了让模型同时适配影像和视频,设计了一套因子化的可学习位置编码(factorized learnable positional embedding)机制。对高度、宽度、时间三个维度分别编码,再相加。这样即适配了不同宽高比,又能支持任意长度的视频。

针对推理效率问题,它采用了线性 - 二次时间步长调度(linear-quadratic t-schedule)策略。仅用 50 步就能逼近 1000 步采样的效果,大幅提升了推理速度。

为了进一步提高生成效率,Movie Gen Video 模型还采用了基于时间平铺(temporal tiling)的推理方法。应对生成高分辨率长视频时,直接对整个视频进行编码和解码可能会遇到的内存限制问题。

在时间平铺推理中,输入视频在时间维度上被分割成多个片段,每个片段独立进行编码和解码,然后在输出时将所有片段重新拼接在一起。这种方法不仅降低了对内存的需求,还提高了推理的效率。

此外,在解码阶段使用了重叠和混合的方式来消除片段边界处的伪影问题,即通过在片段之间引入重叠区網域,并对重叠区網域进行加权平均,确保生成的视频在时间维度上保持平滑和一致。

另外 Meta 还开源了多个基准测试数据集,包括 Movie Gen Video Bench、Movie Gen Edit Bench 和 Movie Gen Audio Bench,为后续研究者提供了权威的评测工具,有利于加速整个领網域的进步。

这篇长达 92 页的论文还介绍了更多在架构、训练方法、数据管理、评估、并行训练和推理优化、以及音频模型的更多信息。

感兴趣的可到文末链接查看。

One More Thing

AI 视频生成这块,这两天热闹不断。

就在 Meta 发布 Movie Gen 之前不久,OpenAI Sora 主创之一Tim Brooks跳槽谷歌 DeepMind,继续视频生成和世界模拟器方面的工作。

这让很多人想到,就像当年谷歌迟迟不推出大模型应用,Transformer 8 个作者纷纷出走。

现在 OpenAI 迟迟发布不了 Sora,主要作者也跑了。

不过另外也有人认为,Tim Brooks 选择现在离开,或许说明他在 OpenAI 的主要工作完成了,也让人开始猜测:

Meta 的发布会迫使 OpenAI 放出 Sora 来回应吗?

(截至目前为止,Sora 的另一位主创 Bill Peebles 还未发声。)

现在 Meta 放出了带有视频编辑功能的模型,再加上 10 月 1 日 Pika 1.5 更新,主打给视频中物体加上融化、膨胀、挤压等物理特效。

不难看出,AI 视频生成下半场,要开始卷向 AI 视频编辑了。

论文地址:

https://ai.meta.com/static-resource/movie-gen-research-paper

参考链接:

[ 1 ] https://ai.meta.com/research/movie-gen/

[ 2 ] https://x.com/AIatMeta/status/1842188252541043075

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們