到处都能刷到的 AI 视频，真没你想的那么简单。 - 大酷樂

今天小编分享的科技经验：到处都能刷到的 AI 视频，真没你想的那么简单。，欢迎阅读。

" 疑似使用了AI 生成技术，请谨慎甄别 "

大家有没有发现，这行小字有点像 " 广告仅供参考 , 请以实物为准 " ，已经几乎在生活中越来越常见了。

特别是现在的短视频平台。

刷到个小猫视频，口型是 AI 合成的。

内容来自抖音用户 @墩墩吃不饱

刷个西游记，也能看到 AI 妖精真身。

甚至看一个卡通片，画面还总是 AI 合成的。

AI 视频越来越多了。

虽然掀起 AI 视频浪潮的 Sora 还在难产，但 AI 视频时代或许已经悄然而至。

东吴证券的一份研报里就预测，中国 AI 视频生成的潜在行业空间，可能拥有超过 5800 亿元的市场。

但随着市场不断火热，行业的一些问题也逐渐暴露到公众视野：

视频化和 AI 确实都是未来，但像是成本问题、质量问题、协同问题和性能问题，都萦绕在所有初创企业，大厂们的心头。

就拿成本问题和质量问题为例。

大家都知道，目前的生成式大模型特别是视频，就是一个力大飞砖的过程，需要用海量数据进行训练。

而超大规模视频训练数据，又会对计算和处理数据、以及数据本身有着天量需求，随之而来的成本增加是一个天文数字。

GPT-4o 作为一个老款 AI ，开发成本 " 仅 " 为 1 亿美元，训练成本大概在 7800 万美元左右。

而视频模型的训练成本就更高了，以年初推出的视频模型 Sora 为例，其训练和推理所需的算力需求，分别就达到了GPT-4 的 4.5 倍和近 400 倍。。。

除了天价训练成本外，大模型训练样本质量、处理链路复杂，涉及多个环节，需要多团队协作；自研 / 第三方， GPU 、 CPU 、 ARM 等多种异构算力资源，又需要灵活调度部署。。。

所以，对不少准备拥抱 AI 视频的公司们来说，当务之急就是想尽办法，解决这些问题，才能更快地进化。

要论玩视频的高手，抖音和火山引擎可就有话说了。

上个月底字节推出的爆火的 PixelDance ，效果那是杠杠的。

我们当时还写了篇文章专门给大家唠了遍，就看我们简单试用生成的视频效果，就知道还真有点东西喔。

而在 15 号结束的火山引擎视频云技术大会上，开场用了定制数字人谭待来和大家沟通。

结果效果好到，现场参会者们，不少都以为这是视频抠图。

而这些高质量 AI 产出背后，其实离不开一个叫 BMF 的智能框架。

火山引擎通过和自家大模型团队在内部合作，一起把海量的视频数据进行预处理。

最后基于火山引擎音视频处理平台和 BMF 框架，在短时间内生产了足够多高质量的视频素材，用于模型的训练，才有了 PixelDance 。

功臣之一的 BMF ，为什么能够做到这些呢？

我们用个生活中常见的例子来解释：

一个公司开发大模型就好比你家做年夜饭。

为了吃上一顿丰盛的年夜饭，你爸爸负责买菜、妈妈烧饭、奶奶包饺子、你搬桌椅板凳。。。

所有人都得有分工，从头忙到尾，可能还得时不时打个电话发个微信互帮互助，最后一算，好家伙，原来吃顿年夜饭还得花这么多钱。

而 BMF 就是火山引擎推出的一个 " 年夜饭一键全流程套餐 " ，它提供了一系列的工具和服务，帮你轻松、快捷地准备好年夜饭。

这个套餐重点针对性地解决了我们前面说到的 4 个行业痛点，进行了相应的调整。

比如为了解决视频训练数据质量问题，他们掏出了多种算法对视频进行多维度的分析和筛选，做到了充分精细化的过滤；

应对性能难题，他们又利用 BMF 框架的灵活调度，提前调配好了性能。

这就相当于准备年夜饭一早就做好了攻略，买菜交给了多多买菜送货上门、烧饭找了五星级大厨专门掌勺、桌椅板凳安排了专门的小工打杂。。。

反正就是用了 BMF 这套框架，又便捷又省心又省钱。

搞定了企业这边的需求，火山引擎也没忘了大家伙。

如今，大家设备的算力不断上涨，与之而来的就是对视频画质提升的强烈需求。

火山引擎通过得天独厚的优势，每天在抖音 / 西瓜等 app ，面对上亿用户，处理海量视频图片。

获得了这么丰富的经验之后，火山引擎在 BMF 基础上，沉淀出了一个更适合普通用户体质的 "BMF lite" ，实现了更轻量、更高效、更通用的进化。

比如相较于云端，在用户端侧，对于功耗，内存非常敏感，而场景又涉及 Android 、 ios 、 PC 等多平台。

于是 BMF-Lite 就重点建设基于跨平台，资源复用的算法包的框架设计。

简单说就是统一了各个平台的接口形式，方便集成部署。

再用算法控制器来复用相同的算法实例，在抖音播放场景，点播跟直播播放大部分都是只会生效一个，可以最大程度地复用资源。

而除了 BMF 为代表的智能框架，火山引擎还提出了智能算力和智能编解码。

火山引擎直接在去年掏出了一款自研视频转码芯片，将自研的视频编解码技术融入到了里面。

好处就是，针对视频点播、直播等特定场景，这款转码芯片有着更高的计算密度。

就这么说吧，一套视频编解码芯片伺服器的转码能力，相当于上百台 CPU 伺服器。

今天视频转码芯片上线抖音后，通过实践数据表明，在同等视频压缩效率下，成本能节省 95% 以上。

而针对编解码层，火山引擎推出了基于自研视频转码芯片构建的 "BVE1.2 编码器 " 。

这个编码器大胆融合了深度学习技术，推出了革命性的智能混合编解码解决方案，将传统压缩技术与深度学习压缩技术有机融合成为一个整体，极大地提升了编解码的效率，提升了编码性能。

在前不久结束的的第六届深度学习影像压缩挑战赛（ CLIC 大赛）中， "BVE1.2 编码器 " 拿到两个冠军足以说明实力。

这一套小组合拳下来，感觉有兴趣的厂商们，估计满腦子都是 " 付款码扫哪儿 " ？

你还别说，火山引擎也的确没打算藏着掖着。

像前面说的 BMF 框架，早在去年就已经开源了，更新完的 BMF lite ，也是直接开源。

总的来说，目前，大模型的进化还在持续，视频 AI 公司之间的竞争也只会日益激烈。

但如果大家只是闭门造车，互相拿成果比拼，用产品说话，可能会显得竞争有余、合作不足。

而作为可能是全中国短视频玩得最熟练的字节跳动，他们旗下的火山引擎一次次地将内部技术、框架开源。

特别带来的 BMF 框架以及它和智能算力和智能编解码组成的一整套智能底座，的确能够帮助企业们节约了大量时间和成本，更好地帮助 AI 项目落地发展。

这种竞争和合作共存的态度，才是中国 AI 最乐意见到的场面。

一枝独秀难成林，万紫千红才是春。

撰文：八戒