视觉Token无缝对齐LLMs词表！V²Flow：基于LLMs实现高保真自回归影像生成

今天小编分享的科学经验：视觉Token无缝对齐LLMs词表！V²Flow：基于LLMs实现高保真自回归影像生成，欢迎阅读。

视觉 Token 可以与 LLMs 词表无缝对齐了！

V ² Flow，基于 LLMs 可以实现高保真自回归影像生成。

随着 ChatGPT 掀起自回归建模革命后，近年来研究者们开始探索自回归建模在视觉生成任务的应用，将视觉和文本数据统一在 "next-token prediction" 框架下。

实现自回归影像生成的关键是设计向量化 ( Vector-Quantization ) 的视觉 Tokenizer，将视觉内容离散化成类似于大语言模型词表的离散 Token。

现有方法虽取得进展，却始终面临两大桎梏：

1、传统视觉 tokenizer 生成的离散表征与 LLM 词表存在显著的分布偏差。

2、维度诅咒：影像的二维结构迫使大语言模型以逐行方式预测视觉 token，与一维文本的连贯语义预测存在本质冲突。

结构性与特征分布性的双重割裂，暴露了当前自回归视觉生成的重大缺陷：缺乏能够既保证高保真影像重建，又能与预训练 LLMs 词汇表在结构上和特征分布上统一的视觉 tokenizer。解决这一问题对于实现有效的多模态自回归建模和增强的指令遵循能力至关重要。

因此，一个核心问题是：

能否设计一种视觉 tokenizer，使生成的离散视觉 token 在保证高质量视觉重建的同时，与预训练 LLMs 词汇表实现无缝融合？

统一视觉 Token 与大语言模型词表

最新开源的 V ² Flow tokenizer，首次实现了将视觉内容直接嵌入现有大语言模型的词汇空间，在保证高质量视觉重建的同时从根本上解决模态对齐问题。总体而言，V ² Flow 主要包括三点核心贡献：

视觉词汇重采样器。

如图 1 ( a ) ，将影像压缩成紧凑的一维离散 token 序列，每个 token 被表示为大语言模型（例如 Qwen、LLaMA 系列）词汇空间上的软类别分布。这一设计使得视觉 tokens 可以无缝地嵌入现有 LLM 的词汇序列中。换言之，影像信息被直接翻译成 LLM" 听得懂 " 的语言，实现了视觉与语言模态的对齐。

在图 1 ( b ) 中，经由重采样器处理后，视觉 tokens 的潜在分布与大型语言模型（LLM）的词汇表高度一致。这种在结构和潜在分布上的高度兼容性，能够降低视觉 tokens 直接融入已有 LLM 的复杂性。

△ 图 1 视觉词汇重采样器的核心设计。

掩码自回归流匹配编码器。

为了实现离散化视觉 token 的高保真视觉重建，V ² Flow 提出了掩码自回归流匹配解码器。该解码器采用掩码 Transformer 编码 - 解码结构，为视觉 tokens 补充丰富的上下文信息。增强后的视觉 tokens 用于条件化一个专门设计的速度场模型，从标准正态先验分布中重建出连续的视觉特征。在流匹配采样阶段，该解码器采用类似 MA 的方式，以 "next-set prediction" 的方式逐步完成视觉重建。

相比于近期提出的仅依赖掩码编码器 - 解码器结构的 TiTok，V2Flow 自回归采样的优势是能够在更少的视觉 token 数量下实现更高的重建质量，有效提高了压缩效率。

△ 图 2 掩码自回归流匹配解码器示意图以及采样阶段算法流程

端到端自回归视觉生成。

图 3 展示了 V ² Flow 协同 LLMs 实现自回归视觉生成的流程。为促进两者无缝融合，在已有 LLM 词汇表基础上扩展了一系列特定视觉 tokens，并直接利用 V ² Flow 中的码本进行初始化。训练阶段构建了包含文本 - 影像对的单轮对话数据，文本提示作为输入指令，而离散的视觉 tokens 则作为预测目标响应。

在推理阶段，经过预训练的 LLM 根据文本指令预测视觉 tokens，直至预测到 token 为止。随后，离散视觉 tokens 被送入 V ² Flow 解码器，通过流匹配采样重建出高质量影像。