谷歌VideoPoet大模型上线，生成长达10秒视频，还可自动配音

今天小编分享的互联网经验：谷歌VideoPoet大模型上线，生成长达10秒视频，还可自动配音，欢迎阅读。

文｜王怡宁

编辑｜邓咏仪尚恩

Google 又又又发布了新模型，这次是在文生 / 图生视频赛道又 " 卷 " 了一把对手们。

12 月 19 日，谷歌专门发了一款搞视频生成的模型VideoPoet，不仅能支持根据视频加入音频效果，允许互動编辑，更重要的是，VideoPoet 现在可以生成更长的视频了。简而言之，这次的模型看起来更加全能了。

看过 Demo 后的网友们直接表示：

好牛，所以什么时候能用上？

图源：Twitter

向电影更进一步，加入音效延展时长

近期的 AI 生成视频赛道的新模型层出不穷，网友们被信息轰炸地应接不暇，看到新模型的第一反应大概就是：这次的模型有什么不一样？哪里最有看头？

不得不说，虽然 VideoPoet 已经是 Google 本月发布的第 N 个模型了，但质量和效果依然在线，在功能上也有不少突破。

图源：VideoPoet

当然，VideoPoet 还有不少新的看点。

加入音频效果

以往的文生视频和图生视频几乎都是在 " 卷 " 画面的清晰度，这一次，Google 注意到了被忽视的音效，让 AI 在生成视频的基础上，还能在没有任何文本提示词的情况下，根据视频内容生成相应的音频。

在官方放出的 Demo 里，VideoPoet 就自动为正在吃爆米花的小狗配上了 " 咔擦咔擦 " 的音效，效果逼真。告别 " 默片时代 "，AI 生成视频离电影和动画距离又近一步。

视频时长显著提升

看一圈目前做 AI 视频生成的工具，一个最大痛点就是，时长普遍在 2-4 秒。比如 Stability AI 的 AI 视频生成模型 Stable Video Diffusion，也有这个问题。

究其原因，主要是训练素材受限等方面，这多少也让人觉得有些意犹未尽。

不过，VideoPoet 巧妙地通过重复的方法延长了视频长度，即让 AI 根据前一个视频的最后一秒接着预测下一秒的内容。这种方法不仅大大扩展了视频长度，还能做到对原视频内容的高保真呈现。

Prompt:

An astronaut starts dancing on Mars. Colorful fireworks then explode in the background." 一个宇航员开始在火星上跳舞，五颜六色的烟花在背景中爆炸。

加入互動编辑功能

时长是延长了，万一对生成的视频不满意，怎么办？

没关系，VideoPoet 都能改，而且还给用户提供了更多的选择空间。

以下面这个机器人为例，当用户输入原始视频（即左侧第一段）后，VideoPoet 就能自动生成中间三段不同动作的视频。如果用户想要更丰富的效果，还可以添加新的提示词，如 " 在背景中加入烟雾 "，来生成更丰富的效果。

类似的，用户也可以精准控制从影像生成视频的过程，比如像下面这样让蒙娜丽莎转头和打哈欠。

Prompt：

Left: "A woman turning to look at the camera." Right: "A woman yawning." 用不同的提示动画一幅画。左 : " 一个女人转向镜头。" 右 : " 一个女人打哈欠。"

攝影機动作

除了让图片中的人物动起来，要想让画面更有镜头感，VideoPoet 也能行。支持添加运动类型，为生成的视频提供模拟攝影機运镜的效果，还有缩放、无人机拍摄等多种视角可供选择。

支持视频风格化

此外，VideoPoet 还有多种风格选择。不管是让小鼠一秒穿越到夏威夷，还是让泰迪熊去湖上滑冰，在 VideoPoet 上都可以通过输入提示词轻松实现。

放弃扩散模型，做多功能大模型

除了上面这些有意思的效果，VideoPoet 的特别之处在于——其底层是一个大语言模型。如果用学科简单打比方，好比一个吟诗作对的文人，现在也能扛起攝影機去做影视制作。

从技术角度来看，当前主流的视频生成模型几乎都是基于扩散模型（Diffusion Model）的，但 Google 的开发团队认为，LLM 在语言、代码和音频等各种模式上拥有更卓越的学习能力，因此他们选择将多种不同的视频生成功能（如文生 / 图生视频、视频风格化、视频修补）集成到单一的大语言模型中。

本质上看，这是两种深度学习架构的不同。LLM 的工作原理是通过计算单词或词组之间的概率关系，根据上下文来预测接下来最可能出现的单词或词组。而扩散模型则是通过逐步去除加入到原始数据中的随机噪声，来生成数据。

同时，LLM 的技术已经相对成熟，这也意味着团队在开发过程中可以重复使用被验证过的有效方法和基础设施，让训练更加高效。

VideoPoet 还训练了一个自回归语言模型，让模型能够跨视频、影像、音频和文本模式进行学习。这些设计也确实让 VideoPoet 看起来更加全能了。

从测评效果来看，对比其他的视频生成模型，用户认为 VideoPoet 在文本保真度上的得分显著高于其他模型，即 VideoPoet 能更准确地遵循用户的提示词并生成视频。

One More Thing

虽然已经是 2023 年的年底，多模态赛道的玩家们却都还在抢着发布新模型，为本就热闹的市场又增加了一把热度。

勤奋如 Google，一个月内连发好几款新模型。也有蓄势待发的 Midjourney，时隔 9 个月后终于要发布 V6 版本。据第一批参与标注的网友反馈，V6 在处理图片的层次、光影和皮肤纹理等细节上都有了质的提升，让人不由期待即将发布的正式版本。

网友借 Midjourney V6 生成

国内的大厂们近期也有不少动作，前有腾讯和港科大联合推出的 VideoCrafter1，后有字节的 Magic Animate，更别提两个月内一连发了 Animate Anyone、Animate Anything、DreaMoving 等一系列模型的阿里。

尽管视频生成领網域还有很多技术难点等待攻克，不过 VideoPoet 这样集成多功能的大语言模型，也为图生视频领網域未来的发展提供了更多的想象空间。

扫码加入「智涌 AI 交流群」

欢迎交流