微软开源视频Tokenizer新SOTA！显著优于Cosmos Tokenizer和Open-Sora

今天小编分享的科学经验：微软开源视频Tokenizer新SOTA！显著优于Cosmos Tokenizer和Open-Sora，欢迎阅读。

Sora、Genie 等模型会都用到的 Tokenizer，微软下手了——

开源了一套全能的 Video Tokenizer，名为VidTok。

Sora 等视频生成模型工作中，都会利用 Tokenizer 将原始的高维视频数据（如影像和视频帧）转换为更为紧凑的视觉 Token，再以视觉 Token 为目标训练生成模型。

而最新的 VidTok，在连续和离散、不同压缩率等多种设定下，各项指标均显著优于 SOTA 模型。

以下是涵盖 PSNR、SSIM、FVD、LPIPS 指标的性能比较雷达图，面积越大表示性能越好。

从图中可以看出对于离散 Tokenizer，VidTok 显著优于英伟达 Cosmos Tokenizer；对于连续 Tokenizer，VidTok 也比 Open-Sora、CogVideoX 有更高的性能。

这项研究由来自微软亚研院、上海交通大学、北京大学的研究人员共同完成。

目前，VidTok 代码不仅开源了，还支持用户在自定义数据集上的微调，为研究者和开发者提供了一个高性能、易用的工具平台。

性能全面领先，适用各种场景

近年来，视频生成以及基于此的世界模型已经成为人工智能领網域的热门研究方向，这两者的核心在于对视频内容的高效建模。

视频中蕴含了丰富的视觉信息，不仅能够提供真实的视觉体验，更能作为具身场景中模型理解世界的中间媒介。

然而，由于视频像素级表示信息高度冗余，如何通过 Tokenizer 对视频数据进行高效压缩和表示成为关键课题。

当下很多工作如 Sora，Genie 等都会通过 Tokenizer 将原始的高维视频数据（如影像和视频帧）转换为更为紧凑的视觉 Token，再以视觉 Token 为目标训练生成模型。

可以说，视觉 Token 的表示能力对于最终的效果至关重要，甚至决定了模型能力的上限。

Tokenizer 的主要作用是将高维的原始数据转换为隐空间中高效的压缩表示，使得信息的生成和处理可以在该隐空间中进行。上图展示了一个视频的 Token 化过程，通过转换为 Token 建模，能够有效降低模型训练和推理时的计算需求。

根据不同的使用需求，视频 Tokenizer 通常有如下分类：

连续型和离散型。根据隐空间的数值分布，Tokenizer 可以分为连续型和离散型，分别适用于从连续分布中采样的模型（如扩散模型等）和从离散分布中采样的模型（如语言模型等）。

因果型和非因果型。因果结构使得模型只依赖历史帧来对当前帧进行 Tokenization，这与真实世界系统的因果性质保持一致。非因果模型则可以同时根据历史帧和未来帧对当前帧进行 Tokenization，通常具有更优的重建质量。

不同的压缩率模型。Sora 等众多工作采用了如 4x8x8 的视频压缩率（时间压缩 4 倍、空间压缩 8 倍），实现更高的视频压缩率而保持高质量的视频重建是目前的研究趋势。

目前业界领先的视频模型多为闭源状态，而开源的视频 Tokenizer 大多受限于单一的模型设定或欠佳的重建质量，导致可用性较差。

由此，来自微软亚研院、上海交通大学和北京大学的研究人员最近正式发布了开源视频 Tokenizer —— VidTok。

在测试中，VidTok 性能全面领先，适用各种场景。

如下表所示，VidTok支持多样化的隐空间且具有灵活的压缩率，同时支持因果和非因果模型，以适应不同的使用需求。

对于连续型 Tokenizer，支持不同的视频压缩率、不同的隐空间通道数，同时支持因果和非因果模型。

对于离散型 Tokenizer，支持不同的视频压缩率、不同的码本大小，同时支持因果和非因果模型。

更多模型在持续更新中。

为了全面评估 VidTok 在各个设定下的重建性能，作者将 VidTok 与最先进的连续和离散视频 Tokenizer 分别进行了对齐设定下的比较。所有模型均为 4x8x8 倍视频压缩率的因果模型，主要包含以下三种设定：

VidTok-FSQ：离散型，码本大小各异。基线方法包括 MAGVIT-v2，OmniTokenizer，Cosmos-DV 等。

VidTok-KL-4chn：连续型，隐空间通道数为 4。基线方法包括 CV-VAE，Open-Sora-v1.2，Open-Sora-Plan-v1.2 等。

VidTok-KL-16chn：连续型，隐空间通道数为 16。基线方法包括 CogVideoX，Cosmos-CV 等。

定量实验结果表明，VidTok 在上述三种设定下均达到了 SOTA 性能，在常见的视频质量评估指标 PSNR、SSIM、FVD、LPIPS 上具有全面的优势。

与现有的离散 Tokenizer 相比，VidTok 即使在使用更小的码本大小时（例如 32,768），也展现出了更优的重建性能。

在连续 Tokenizer 的设定下，无论隐空间通道数是 4 还是 16，VidTok 在所有评估指标上相比基线方法均取得了全面的提升。值得注意的是，这些提升是在没有模型大小优势的情况下达成的。

除此之外，团队还进行了定性分析。

上图中展示了以上三种设定下的与基线方法的对比结果。

从视频帧的重建质量可以看出，与现有的方法相比，VidTok 在各种模型设定下，均展现出了最优的重建细节保真度和主观视觉质量。证明了 VidTok 作为多功能视频 Tokenizer 的有效性。

所以 VidTok 是如何做到的？

VidTok 的技术亮点解析

相对于现有的视频 Tokenizer，VidTok 在模型架构、量化技术、训练策略上分别做了创新。

高效的混合模型架构设计

VidTok 采用经典的 3D 编码器 - 解码器结构，同时创新性地结合了 3D、2D 和 1D 卷积，有效地解耦空间和时间采样。

在现有研究中普遍认为，尽管计算成本较高，完全的 3D 架构提供了更优的重建质量。然而，VidTok 发现将部分 3D 卷积替换为 2D 和 1D 卷积的组合，可以有效地解耦空间和时间采样，在降低计算需求的同时，保持了高水平的重建质量。

详细的网络架构如上图所示。VidTok 分别处理空间采样和时间采样模块，并在时间采样模块中引入了 AlphaBlender 操作符。其余组件，包括输入 / 输出层和瓶颈层，则利用 3D 卷积来促进信息融合。此外，整个架构中引入了层归一化以增强稳定性和性能。实验证明该架构在重建质量和计算量之间取得了平衡。

先进的量化技术

VidTok 引入了有限标量量化（FSQ）技术，无需显式学习码本，显著提高了模型的训练稳定性和重建性能。