大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

打破纪录!谷歌全网扒1000亿影像文本对,ViT大佬坐镇:数据Scaling潜力依旧

2025-02-13 简体 HK SG TW

今天小编分享的科学经验:打破纪录!谷歌全网扒1000亿影像文本对,ViT大佬坐镇:数据Scaling潜力依旧,欢迎阅读。

史上最大规模视觉语言数据集:1000 亿影像 - 文本对!

什么概念?

较此前纪录扩大 10 倍。

这就是由谷歌推出的最新数据集WebLI-100B。

它进一步证明,数据 Scaling Law 还远没有到上限。

在英文世界之外的多元文化、多语言维度,1000 亿规模数据集能更好覆盖长尾场景,由此带来明显性能提升。

这意味着,想要构建更加多元的多模态大模型,千亿级数据规模,将成为一个重要参考。

同时研究还进一步证明,CLIP 等模型的过滤筛选步骤,会对这种多元性提升带来负面影响。

该研究由谷歌 DeepMind 带来,一作为 Xiao Wang、 Ibrahim Alabdulmohsin。

作者之列中还发现了 ViT 核心作者翟晓华。2024 年 12 月,他在推特上官宣,将入职 OpenAI 苏黎世实验室。

数据规模越大对细节理解越好

论文主要工作有三方面。

验证 VLMs 在 1000 亿规模数据集上的效果

证明 1000 亿规模数据集能增强 VLMs 文化多样性、多语言能力以及减少不同子组之间的性能差异。

发现 CLIP 这类模型过滤筛选数据的过程会对无意中降低模型的文化多元性,在 1000 亿规模数据集上亦是如此。

具体来看,研究人员从网络上搜集了 1000 亿影像 - 文本对,初步去除有害内容以及敏感信息。

然后使用 CLIP 模型对数据集进行质量评估,筛选出与影像内容高度对齐的影像 - 文本对。

他们训练了一个分类器模型,对影像 - 文本进行对齐和错位分类,并调整阈值以重新筛选数据集。为了评估多语言能力,还使用网页的语言标签来确定数据集中的语言分布。

为了评估不同数据规模对模型性能的影响,研究人员从 1000 亿数据集中随机抽取了 1% 和 10% 的数据,分别创建了 10 亿和 100 亿规模的数据集。

同时为了提高低资源语言的代表性,研究人员对低资源语言进行了上采样,将它们的占比从 0.5% 提高到 1%。

实验方面,研究人员使用 SigLIP 模型在不同规模的数据集上进行对比视觉语言预训练。

他们训练了不同大小的模型(ViTB/16、ViT-L/16、ViT-H/14),并使用了大规模的批量大小和学习率调度。

从结果来看,1B 数据集训练的模型在注意力图上无法很好捕捉细节。10B 数据集有所改善,100B 数据集能更精准。

同时使用多语言 mt5 分词器对文本进行分词,并训练了多种语言的模型。

在模型评估上,研究人员主要进行以下几个维度分析:

传统基准测试:多个传统基准测试(如 ImageNet、COCO Captions 等)上评估。

文化多样性:使用 Dollar Street、GeoDE 和 Google Landmarks Dataset v2 等数据集评估了模型在文化多样性任务上的性能。

多语言能力:使用 Crossmodal-3600 数据集评估了模型在多语言任务上的性能。

公平性:评估了模型在不同子组(如性别、收入水平、地理区網域)上的性能差异,以评估模型的公平性。

结果显示,从 100 亿到 1000 亿规模数据,在以西方文化为主的传统基准测试上带来的提升比较有限,但在多语言能力和公平性相关任务上显著提高。

数据过滤可以提高模型在传统任务上的性能,但可能会减少某些文化背景的代表性,从而限制数据集的多样性。

此外,通过调整低资源语言的混合比例,可以显著提高模型在低资源语言基准测试上的性能。

主创翟晓华已被 OpenAI 挖走

该研究的一作为 Xiao Wang 和 Ibrahim Alabdulmohsin。

Xiao Wang本科毕业于南京大学,硕士毕业于北京大学。

领英资料显示,他毕业后先后任职于 IBM 中国开发实验室、网易有道。2015 年加入谷歌 DeepMind 至今,职位是高级軟體工程师,主要从事视觉语言研究。

主创中还发现了翟晓华的身影。

他同样本科毕业于南京大学,在北京大学攻读博士学位后,赴苏黎世加入谷歌。

翟晓华和卢卡斯 · 拜尔(Lucas Beyer)、亚历山大 · 科列斯尼科夫(Alexander Kolesnikov)一起在谷歌提出多项重要工作。

2021 年,他们三人作为共同一作的计算机视觉领網域神作 ViT 发布即刷新 ImageNet 最高分。

这项研究证实了 CNN 在 CV 领網域不是必需的,Transformer 从 NLP 跨界,一样可以取得先进效果。开创了 Transformer 在 CV 领網域应用的先河。

目前这篇论文被引用量已超过 5.3 万。

他在谷歌 DeepMind 时领导苏黎世多模态研究小组,重点研究多模态数据(WebLI)、开放权重模型 ( SigLIP、PaliGemma ) 以及文化包容性。

2024 年 12 月,爆料称 OpenAI 挖走 ViT 三大核心作者。随后,该消息被本人证实。

论文地址:

https://arxiv.org/abs/2502.07617

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們