国产Sora来了，4K 60帧15秒视频刷新纪录，500亿美元短剧出海市场被撬动 - 大酷樂

今天小编分享的科技经验：国产Sora来了，4K 60帧15秒视频刷新纪录，500亿美元短剧出海市场被撬动，欢迎阅读。

现有的短视频创作模式，很有可能会被彻底颠覆！

国产 Sora 来了！这家公司的 AI 视频已经实现了 15 秒 4K 60 帧的超逼真效果。而且，它和小米、快手都已展开战略合作，瞄准了 500 亿美元的短剧出海市场。

OpenAI 的 Sora，现在是彻底把 AI 视频的场子给热起来了。

不仅 Stable Video 立马上线了公测，而且 Pika 也随即拿出了给视频对口型的 Lip Sync，以及可以根据内容自动生成声音的音效生成功能。

LTX Studio 则另辟蹊径，上线了电影制作平台，把视频生成、编辑、剪辑、旁白一条龙全包了。

而国内的脚步，也正紧紧跟随。

就在 3 月 5 日的超讯通信 X 七火山大会上，一段高清 4K 文生视频，让在场观众惊呼连连。

而作为背后工具的 Etna，不仅在视频长度上达到了破纪录的 15 秒，并且还实现了 60 FPS 的超高帧率，大大提高了视频的流畅性和观看体验。

相比之下，其他的 AI 视频最高也只有每秒 30 帧。

无论是水母、鲸鱼、章鱼、螃蟹、斑马、火烈鸟，还是冲浪者、划潜艇的人、滑雪的人，都做到了细节高清、动作连贯，甚至达到了 3840x2160 的超高分辨率。

这只美丽优雅的维多利亚冠鸽，头上羽冠的羽毛花边精致可见，眼睛栩栩如生，羽毛的质地和颜色都很细腻地还原出来了

夜色中的女郎，眼神魅惑地看向镜头

Etna 的问世，意味着现有的国产文生视频技术的一次重大突破。现有的短视频创作模式，很有可能会被彻底颠覆！

一大波 4K AI 视频来了！

Etna 的这波演示，让我们可以充分放飞想象力，把腦海里最奇特的想象给还原出来。

维多利亚冠鸽对着镜头展示自己的羽毛，头顶的壮丽彩冠 blingbling 地闪光。

一个酷酷的女生，戴着墨镜站在街头，带着墨镜。

穿着比基尼的金色长发美女，站在海浪中。

黑夜的丛林中，一位女郎穿过，只留下神秘的背影。

两艘海盗船在一杯咖啡中航行时，忽然狭路相逢。

阳光透过热带雨林的斑驳树影洒下来。

一个精灵在魔幻森林中，周边环绕着发光的植物。

两只哈士奇开心地戴上泳镜，潜到海底打卡，它们开心地冲着镜头微笑合影，右边那位眼神还透着一股得意。

而小熊猫们居然出现在了鱼缸上面，整个画面构成一幅令人眼前一亮的的生态奇景。

如何抢先复现 Sora？

从上图可以看出，相较于市场上的现有模型，Etna 在时长、高清晰度、丰富生动细节和强语义理解上，都保持着较大优势。

为什么七火山能成为国内率先复现出 Sora 的公司？

Sora 的关键创新，是一个可以灵活地处理不同维度数据的 Diffusion Transformer：

1. 时空压缩器会把原始视频转映射到潜空间中。

2. 视觉 Transformer（ViT）模型会对已经被分词的潜表征进行处理，并输出去除噪声后的潜表征。

3. 一个与 CLIP 模型类似的系统根据用户的指令（已经通过大语言模型进行了增强）和潜视觉提示，引导扩散模型生成具有特定风格或主题的视频。经过多次去噪处理之后，会得到生成视频的潜表征，然后通过相应的解码器映射回像素空间。

在相关领網域技术积累的基础上，Etna 模型迅速抓住了 Sora 的精髓，另外还引入了几项创新。

技术架构创新

由于视频的时空特性，在这一领網域应用 DiT 所面临的主要挑战是：

（1）如何从空间和时间上将视频压缩到潜空间，以实现高效去噪；

（2）如何将压缩潜空间转换为 patches，并将其输入到 Transformer 中；

（3）如何处理长距离的时空依赖性，并确保内容的一致性。

为此，Etna 模型在主干网络上 Diffusion 架构，同时，在一个更大的数据集上实验和适配与 Sora 相似的 Diffusion+Transform 架构。

因为融合了 Diffusion 模型和 Transformer 模型的优势，通过这种结合，Etna 就形成了一种高效且先进的新型模型架构。

这不仅提升了模型的生成效率，还保证了生成内容的高质量和高一致性。

时空理解能力

其次， Etna 模型在语言模型和影像模型中插入时空卷积和注意力层，能够处理视频数据，即考虑影像序列中的时间连续性。

而这也就意味着，Etna 拥有了一定的时空理解能力，从而能够理解并生成具有时间维度的视频内容。

视频时长与帧率优化

Etna 模型支持生成视频时长达到 8-15 秒，且视频流畅度极高，每秒可达 60 帧。

这一特性使得 Etna 生成的视频不仅内容丰富，而且视觉效果流畅自然，极大提升了用户观看体验。

深度语义理解能力

文本提示对于指导文本到视频模型，制作既具有视觉冲击力，又能精确满足用户创建视频需求至关重要。

以 Sora 为例，提示中，包含了人物的动作、设定、角色出场，甚至是所期望的情绪，以及场景氛围。

而这样一个精心制作的文本提示，也确保了 Sora 生成的视频与预期的视觉效果非常吻合。

无独有偶，Etna 模型背后的技术架构，也特别强调了对输入文本的深度理解。

借鉴了 Sora 模型的成功经验，Etna 能够更准确地捕捉和转化文本信息为视频内容，使得生成的视频不仅忠实于原文意图，还能丰富展现文本的细微情感和场景。

比如，开头那只冠鸽的 prompt 就是：

这张维多利亚冠鸽的特写照片展示了它引人注目的蓝色羽毛和红色胸部。它的羽冠是由精致的花边羽毛制成的，而它的眼睛是醒目的红色。鸟的头微微向一侧倾斜，给人一种帝王的威严的印象。背景是模糊的，吸引人们注意到这只鸟引人注目的外表。

可以看到，Etna 生成的冠鸽不仅非常忠实于 prompt，而且鸟首微颔、帝王般的威严感，也都还原得十分到位，表现出了细腻的控制能力。

高清晰度与丰富细节

与早期的视频生成模型相比，Etna 在视频清晰度和影像细节方面取得了显著进步。

这意味着 Etna 能够产生高质量的视频内容，每个场景的细节都被精细呈现，为观众带来身临其境的视觉享受。

高质量的训练数据

最后，Etna 模型特别注重训练数据的质量，采用视频而非静态图片作为主要训练材料，通过高效的处理方法优化了学习效率。

传统模型主要采用的是静态影像作为训练数据，而 Etna 模型的方法，更符合其生成目标的本质。

通过优化的 patch 处理方法，Etna 模型在训练过程中能更有效地理解和模拟动态场景，从而提升最终视频的自然度和真实感。

具体来说，Etna 模型在一个大型视频数据集上进行了充分训练，过程采用了先进的深度学习技术策略，包括 LDS 大规模训练、复杂 HPO 超参数优化和 DPO 微调，确保了模型的强大性能和生成能力。

改造短视频全产业链

要说 2024 年最火的是什么？短剧无疑是一个高赞答案。

对此，手握多年技术积累的七火山，也有了全链路的布局。

现在大家已经切实地感受到，AI 多模态大有可为，而七火山已成为头部平台的 AI 内容战略合作伙伴。

它的产品形态兼具 toB 和 toC 模式，整合了 AI 系统能力，全面进军 AI 短剧制作领網域。

七火山的 AI 多模态布局，除了有 Etna 之外，还包括 Lava、miniTV 和 Bromo。

其中，Lava 是一个短剧 AI 译制系统，可以完成角色换脸、对白配音、字幕翻译。

miniTV 是一个 AI 短剧出海分发平台。

它聚合了 AI 短剧内容，与平台共同探索内容出海新模式。

Bromo 是一个图片超分工具。它的图生图可达最高 10K 的超高分辨率，满足商业海报的水准。

左右滑动查看

AI 视频，将颠覆整个行业

目前，七火山已经获得了来自上市公司超讯通信的战略投资，后者由此成为持股 30% 的单一大股东。

从去年初开始，超讯通信就开始寻找 AIGC 垂类新锐企业进行布局，在跟一系列 AI 多模态、AI 应用落地公司接触后，确定了投资七火山。因此，七火山在算力上也能得到充分支持。

短剧爆火海内外的这一年，七火山也获得了几家大厂的青睐。

首先，七火山已经与小米就 AI 视频达成合作，发挥自己在短视频创作、短剧出海本地化、剧本创作、视频优化等方面的丰富经验优势。

此外，七火山和快手海外 SnackVideo 也有合作，将通过前沿 AI 技术，实现内容本地化，为海外用户带来各种琳琅满目的短剧。

随着 TikTok、Instagram Reels 和 Snapchat 等平台的兴起，短视频近年来人气迅速飙升，成为当今的数字生态系统中最受欢迎、最重要的内容之一。

无论是在快节奏的现代生活中，轻松吸引人们注意力的优势，还是病毒式传播的可能性，都让它的影响日渐扩大。

许多业内人士公认，短视频就是在线内容的未来。其中短剧这一形态，更是创造了一个又一个爆款奇迹，今年的市场规模将超过 500 亿。

而在去年，中国的出海短剧就已经在海外「杀疯了」，成为掘金蓝海新赛道。根据国海证券的调查，短剧出海的长期空间可达 360 亿美元。

这么看，七火山妥妥是潜力股了，前景无限。