1亿图文对！格灵深瞳开源RealSyn数据集，CLIP多任务性能刷新SOTA

今天小编分享的科学经验：1亿图文对！格灵深瞳开源RealSyn数据集，CLIP多任务性能刷新SOTA，欢迎阅读。

新的亿级大规模图文对数据集来了，CLIP 达成新 SOTA！

格灵深瞳最新发布的高质量数据集RealSyn，不仅规模大——包含 1 亿组图文对，而且每张图片都同时关联多个真实和合成文本。

所有的影像和句子都基于冗余进行了严格过滤，在确保数据质量的同时，引入基于簇的语义平衡采样策略，构建了可满足多样工作需求的三种规模大小的数据集：15M、30M、100M。

这下 CLIP 终于可以大展身手了！

RealSyn 所展现的超强扩展性，以及在视觉语言表征学习中极为优越的表现，让模型性能在多任务中达到了新的 SOTA。

目前，该数据集已全面开源，可点击文末链接一键获取～

以下是 RealSyn 的更多相关细节。

相关工作大规模预训练数据集

近年来，多个从互联网收集的大规模影像 - 文本数据集陆续发布。

最近还推出了几个大规模图文交错文档数据集。OBELICS 数据集使用全面的过滤策略，包括 1.41 亿个网页、3.53 亿张相关图片和从 Common Crawl 提取的 1150 亿文本标记。

然而，由于数据格式的限制和训练效率的低下，图文交错文档目前不适用于视觉语言对比表示学习。

视觉语言预训练

作为视觉语言预训练领網域的开创性工作，CLIP 因其强大的零样本识别能力和卓越的迁移学习表现而受到广泛关注。受 CLIP 启发，近年来诞生了大量视觉 - 语言预训练研究。

SLIP 通过结合自监督学习与 CLIP 预训练提高性能。DeCLIP 通过整合跨模态的多视角监督和来自相似对的最近邻监督，提高了预训练效率。为了减轻噪声数据的影响，ALIP 引入了一种动态样本权重分配的门控机制。

尽管这些方法取得了显著的进展，但它们主要依赖于从互联网上爬取的大规模影像 - 文本对。最近的研究表明，随着高质量影像 - 文本数据集的扩展，CLIP 的能力也在增强。因此迫切需要开发新的数据构建范式以进一步扩大高质量影像 - 文本数据的规模。

合成标题

最近的研究表明，从网站获得的影像 - 文本对含有内在噪声，这直接影响视觉 - 语言预训练的有效性。

为提高现有数据集的质量，LaCLIP 利用大型语言模型的上下文学习能力重写与每张图片相关的文本描述。CapsFusion 使用大型语言模型精炼来自网络的影像 - 文本对和合成标题信息，提高多模态预训练数据的质量。类似地，DreamLIP 使用预训练的大型多模态模型为 3000 万张图片生成详细描述。

然而，这些方法主要关注合成数据的增强，忽视了现实世界数据的重要性。此外，这些方法生成的合成标题的多样性和分布本质上受到所用生成模型能力的限制。

RealSyn 数据集真实世界数据抽取

为了将图文交错文档转换为视觉 - 语言表示学习的形式，团队建立了一个真实世界数据提取 Pipeline 以提取高质量的影像和文本。

该流程包括三个步骤：数据提取、影像过滤和句子过滤。

数据提取：

团队使用来自OBELICS 的 1.18 亿个图文交错文档作为主要数据源。所有影像都被提取并存储在专用的影像数据库中，句子则使用自然语言工具包（NLTK）进行分割，并存储在单独的句子数据库中。这个过程共计从多模态文档中抽取了3.36 亿张影像和 21.3 亿个句子。

影像过滤：

在提取了 3.36 亿张影像后，团队设计了一个两阶段的过滤过程，以提升数据质量并降低冗余。

首先，丢弃符合以下任一条件的影像：

影像短边长度少于 100 像素。

宽高比超过 3 或低于 1/3。

这一步去除了 5100 万张低质量影像。

接下来，参考 CLIP-CID，使用 EVA02-CLIP E/14-plus 模型来提取影像嵌入，并应用 Union-Find 算法来消除感知和语义上的冗余影像。这一步去除了额外的 8700 万张影像，最终得到了一组精炼的1.98 亿张高质量影像数据集。

句子过滤：

从图文交错文档中提取了 21.3 亿个句子后，研究人员基于质量、语义和冗余进行严格过滤。

首先，根据以下标准来过滤低质量句子：

包含表情符号或 URL；

句子包含少于 3 个或多于 81 个单词；

根据 CAT，保留至少具有 C1 复杂度并包含动作的样本。

这一阶段将语料库规模从 21.3 亿减少到 18.2 亿。

然后，对剩余的句子进行语义过滤，研究人员通过信息熵来排除掉语义信息较少的句子：

其中，表示句子中的单词数，表示句子中的第个单词，是整个语料库中单词的概率。

基于人类认知原则和经验，过滤掉得分低于 0.3 的句子。为了进一步通过消除困难或模糊的句子来完善语料库，研究人员使用 GTP2-large 来计算每个句子的困惑度分数：

其中，表示句子中 token 数量，表示给定前序 tokens 时第个 token 的似然概率。

研究人员保留困惑度分数在 30 到 200 之间的句子。经过整体语义过滤后，语料库缩减至 11.6 亿个句子。在最后阶段，类似于冗余影像过滤，对句子进行了感知和语义去重。

这一过程最终得到了一个包含大量现实世界知识的精炼语料库，共计8.4 亿个句子。

检索和生成框架

在从文档中提取高质量影像和句子后，团队提出了一个高效且可扩展的框架，用于为每个影像检索多个语义相关文本，并利用大型语言模型将检索的真实文本与细粒度的视觉信息整合，生成合成文本。

框架的架构主要包括三个组件：文本语义聚类、层次化检索和影像语义增强生成。

文本语义聚类：

为了有效地为每个影像检索多个语义相关文本，首先使用EVA02-CLIP E/14-plus 模型对所有句子进行编码。受 Unicom 启发，研究人员利用标准的K-means 算法离线将 8.4 亿个文本通过高效特征量化划分为 200 万个簇。

层次化检索：

考虑到直接从 8.4 亿个句子中检索语义文本的计算开销过高（在 8 个 A100 GPU 上超过 10,000 小时），团队设计了一种层次检索方法来优化计算效率。

首先执行簇间检索，找到每个影像最相关的簇中心。然后，研究人员将共享相同簇中心的影像分组，并执行簇内检索，以获取多个语义相关句子。

这种方法能够在 40 小时内使用 8 个 A100 GPU 完成对 1.98 亿影像和 8.4 亿句子的检索。

影像语义增强生成：

尽管检索到的真实文本表现出满意的性能，但它们在捕捉细粒度视觉语义方面存在限制。为了解决这个问题，团队引入了影像语义增强生成模块。

该模块最初采用 OFA 模型为每张图片生成一个简洁的标题。然后，团队集成了开放集图片标签模型 RAM++，该模型提取对象检测标签。考虑到 RAM++ 仅支持 4000 个标签，研究人员通过加入额外的 4000 个来自真实世界句子的标签，将这个集合扩展到 8000 个标签。

参考 CapsFusion，团队利用 ChatGPT4 Turbo 将检索到的真实文本与简洁标题和图片标签合并，构建一个 10 万条指令的数据集。随后，使用 LLaMA Factory 对 LLaMA3-8B 模型进行微调，并部署 vLLM 进行大规模推理。

最终，将 1.18 亿多模态交错文档转换为 1.98 亿图文对，其中每张图片都与多个检索到的真实文本和合成文本相关联。

语义均衡采样

为了进一步提升数据集的质量和多样性，团队在 1.98 亿图文对中进行语义均衡采样。具体来说，使用 EVA02-CLIP E/14-plus 来编码并计算影像和合成文本之间的余弦相似性。

为了减少在预训练期间因 OCR 相关或不匹配对的影响，研究人员过滤掉余弦相似度高于 0.61 或低于 0.51 的 2970 万对数据。受到 MetaCLIP 的启发，还引入了一种简单但高效的基于簇的语义平衡采样策略，并将剩余的 1.683 亿对中的影像嵌入聚类到 100 万个中心。

为了增强数据集的语义多样性，团队从超过这些阈值的簇中随机选择 20,35 和 180 个样本，同时保留较小簇中的所有样本。这种方法最终构建了 RealSyn15M、RealSyn30M 和 RealSyn100M 数据集。

实验实现细节

团队最初从 OBELICS 收集了 1.18 亿个交错的影像 - 文本文档作为主要数据源。并使用和来生成简洁的标题和语义标签。

为了验证数据集的性能，他们受 LaCLIP 的启发，预训练标准 CLIP，监督文本随机从三个检索到的真实文本和一个合成文本中选择。

在预训练期间，采用AdamW作为优化器，学习率为 1e-3，权重衰减为 0.2。参数和分别设为 0.9 和 0.98。输入影像尺寸为 224 × 224，输入文本序列长度为 77。温度参数初始化为 0.07。研究人员在 8 × A100（80G）GPU 上训练 32 个周期，batch 大小为 4096。

为了验证 RealSyn 数据集的有效性，团队将 RealSyn 与之前的数据集在不同模型和数据规模上进行比较，将 RealSyn15M 与 DeCLIP 过滤的 YFCC15M 进行比较。遵循 ALIP 的方法，还与 LAION15M、LAION30M 和 LAION100M（从 LAION400M 随机选取的子集）进行比较。

主要结果

线性探测：

在下表中，展示了 ViT-B/32 模型在 20 个下游数据集中的线性探测性能。

当在 1500 万规模上预训练时，RealSyn15M 在 20 个数据集中的 16 个中超过了 YFCC15M，平均性能提高了 6.9%。

此外，RealSyn15M 在 20 个数据集中的 18 个中表现优于 LAION15M，平均改进了 1.6%。当数据集扩展到 3000 万和 1 亿时，RealSyn 分别在 LAION 上实现了平均 1.3% 和 1.4% 的性能提升。

这些结果证明了 RealSyn 数据集在视觉 - 语言表示学习中的有效性。

零样本迁移：

团队使用与 SLIP 相同的提示模板，评估了 ViT-B/32 模型在 20 个分类基准测试中的零样本迁移性能。如表所示，RealSyn15M 在 20 个数据集中的 18 个上超过了 YFCC15M，平均性能提高了 14.3%。

与 LAION15M 相比，RealSyn15M 在 20 个数据集中的 18 个上表现优异，平均改进了 5.2%。当数据集规模扩大到 3000 万和 1 亿时，RealSyn 分别比 LAION 实现了平均 3.5% 和 2.3% 的性能提升，凸显了其效率和可扩展性。

零样本图文检索：

在表中，展示了 ViT-B/32 模型在不同规模数据集上预训练后的零样本图文检索性能。

RealSyn 在所有评估指标上均取得了优异的结果。具体而言，RealSyn15M 在 Flickr30K 上将召回率提高了 35.8%&26%，在 MSCOCO 上提高了 22.5%&12.6%。RealSyn30M 在 Flickr30K 上将召回率提高了 16.4%&11.6%，在 MSCOCO 上提高了 12.3%&7.4%。

这种在跨模态检索性能上的显著提升表明，RealSyn 数据集通过利用真实和合成文本有效地改善了视觉 - 语言表示学习，从而实现了健壮的表示和增强的跨模态对齐。

零样本鲁棒性：

在下表中，展示了零样本鲁棒性性能。结果显示，RealSyn 显著提升了视觉 - 语言预训练模型的鲁棒性。

具体而言，与 LAION 相比，RealSyn 分别在 15M、30M 万和 100M 的数据集上平均性能提高了 4.3%、4.2% 和 2.8%。

这一显著的性能提升主要源自于使用检索到的真实文本，这些文本不受生成模型限制，并且与 YFCC 和 LAION 相比具有更优越的概念多样性，从而大幅增强了模型的鲁棒性。

通过 MLLM 进行影像描述：

图中展示了使用不同数据集（LAION 与 RealSyn）训练的LLaVA-1.5在影像描述性能上的表现。

最初，团队首先使用 LLaVA-1.5 的初始 558k 数据集将视觉特征映射到文本特征空间。然后，他们从 LAION 和 RealSyn 开发了一个影像描述数据集进行指令调优。具体来说，从每个数据集随机选择 100 万样本，并进行了两个周期的训练。

由此可见，RealSyn 在 COCO2017 和 Flickr30k 基准测试的所有评估指标上均显著优于 LAION。这一显著的性能提升证实了 RealSyn 数据集的更高质量和更好的影像 - 文本对齐。

分析统计分析

基于主题的评估：

参考 MMC4 的方法，团队在随机抽取的 100 万影像 - 真实文本对上运行了 LDA，涵盖 30 个主题。

下图中展示了六个主题的比例和示例：动物、食物、飞机、花卉、汽车和地标。值得注意的是，数据集中与 " 花卉 " 和 " 汽车 " 主题相关的样本极少，分别仅占总数的 0.4% 和 0.9%。

这种样本的稀缺限制了模型充分学习这些概念的能力，从而在 Flower 和 Car 数据集的线性探针和零样本迁移评估中影响了其性能。

丰富性评估：

图中展示了来自 YFCC15、LAION、RealSyn-R1（检索到的最相关真实文本）和 RealSyn-S1（基于 RealSyn-R1 的语义增强合成文本）的 1500 万样本的图文相似性和文本令牌分布。

与从互联网收集的数据集相比，即使在移除 OCR 数据之后，RealSyn 仍展示出稳健的相似性指标。此外，检索到的真实文本和合成文本都包含更多的词汇量，这可以提供更丰富的文本环境，从而增强视觉 - 语言表示学习。

多样性评估：

RealSyn 是基于现实世界中交错的图文檔案构建的，包含了广泛的多样性信息。遵循之前的研究，团队随机选择了 20 万样本来计算标题中独特实体的数量，以评估不同数据集的数据多样性。

如图所示，检索到的真实文本和影像语义增强的合成文本均展示了更高数量的不同实体。这种多样性丰富了数据集，有助于模型获得全面的知识，并提升了性能和鲁棒性。

数据缩放分析：

团队从 RealSyn 数据集推导出数据缩放定律，证明了其在样本规模上的可扩展性。具体来说，他们使用提议的数据集进行一系列视觉 - 语言预训练，数据集规模从 12M 到 60M 不等，并且将每个性能指标拟合于对数函数的倒数，其中训练样本数为百万。

基于这些初步实验的拟合结果，将每个性能规模定律外推至 100M 样本，并使用 RealSyn100M 数据集验证其预测的规模趋势，如图所示。

值得注意的是，如方程中所示的系数所指示的那样，这些性能规律也可能表明通过团队提出的视觉 - 语言预训练范式以及多模态交错文档，ViT-B/32 可能达到的模型能力的上限：

模型缩放分析：

为了进一步探索模型扩展能力，研究人员在图中展示了三种模型的下游任务性能。值得注意的是，与 LAION 相比，RealSyn 在线性探测、零样本迁移和鲁棒性的性能曲线上显示出更陡峭的斜率，这表明其具有更优越的模型扩展能力。

消融实验

语义平衡采样的消融研究：

为了展示所提出的语义平衡采样方法的有效性，团队将其与随机采样进行比较。如表所示，概念平衡采样在线性探测、零样本迁移和鲁棒性中分别提高了 0.7%、1.1% 和 1.0% 的性能。

此外，团队通过将 1500 万样本聚类到 100 万个中心，使用不同的采样方法可视化数据分布。如图所示，来自语义平衡采样的分布更为平滑，有助于学习长尾概念。

扩展到纯影像：

研究人员发现本文所提出数据构建范式除了应用到图文交错文档以外还可以直接用于纯影像，为此他们在 ImageNet 上进行实验。

首先从本文构建的句子数据库中为每个 ImageNet 影像检索语义相关的真实文本，并生成影像语义增强的合成文本。然后，随机从检索到的真实文本和合成文本中选择一个文本作为监督信号来对 ResNet50 进行预训练。

与 SimCLR 在相同条件下进行比较分析显示，使用团队构建的数据，在 12 个数据集上的线性探测平均性能提高了 2.1%。

真实文本和合成文本消融实验：

团队进行了消融实验来评估真实文本和合成文本数量变化对 CLIP-B/32 模型性能的影响。

如表所示，真实文本量从一增加到三，模型性能得到提升，这归功于集成了广泛的现实世界知识的文本增强。然而，将这一数量从三增加到五时，由于信息饱和和噪声引入，性能略有下降。相反，合成文本的数量从一增加到五，性能逐渐下降，反映了噪声引入的增加。

值得注意的是，仅使用真实文本进行训练可以显著提升性能，与使用 LAION15M 数据集的 69.8% 相比，达到了 71.2% 的准确率，突显了现实世界知识在推进视觉 - 语言表征学习中的重要作用。

论文链接：https://arxiv.org/pdf/2502.12513

代码链接：https://github.com/deepglint/RealSyn

项目链接：https://garygutc.github.io/RealSyn/

数据集链接：https://huggingface.co/datasets/Kaichengalex/RealSyn100M

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

学术投稿请于工作日发邮件到：

[email protected]

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文 / 项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点亮星标

科技前沿进展每日见