大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练

2023-07-04 简体 HK SG TW

今天小编分享的科学经验:给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练,欢迎阅读。

不靠多模态数据,大语言模型也能看得懂图?!

话不多说,直接看效果。

就拿曾测试过 BLIP-2 的长城照片来说,它不仅可以识别出是长城,还能讲两句历史:

再来一个奇形怪状的房子,它也能准确识别出不正常,并且知道该如何进出:

故意把 "Red" 弄成紫色,"Green" 涂成红色也干扰不了它:

这就是最近研究人员提出的一种新模块化框架——LENS(Language-Enhanced Neural System)的识别效果。

重要的是,不需要额外在多模态数据集上进行预训练,只用现成的大语言模型就能完成目标识别和视觉推理任务。

既省钱又省力!

研究人员表示:

这种方法在零样本的情况下效果可与多模态大模型Kosmos,以及可开箱即用的Flamingo等端到端联合预训练模型相匹敌,性能甚至可能会更好。

网友看到这不淡定了:

激动啊家人们!用来训练大模型的资源现在也可以被用于解决不同领網域的问题了。

还有网友表示:

想看哪个模块最能提高视觉推理能力,这很有趣!

怎么做到的?

现有的 LLM 虽然在自然语言理解和推理方面表现出色,但都不能直接解决从视觉输入进行推理的任务。

这项由 Contextual AI 和斯坦福大学研究人员共同完成的工作,利用 LLM 作为冻结的语言模型(不再进行训练或微调),并为它们提供从" 视觉模块 "获取的文本信息,使其能够执行目标识别和 V&L(视觉和语言)任务。

简单来说,当你问关于一张图片的内容时,该方法会先操作三个独立的 " 视觉模块 ",Tag Module(提取标签信息)、Attribute Module(提取属性信息)、Intensive Captioning Module(生成详细的影像描述),以此提取出关于影像的文本信息。

然后直接将这些信息输入到推理模块(Reasoning Module)中,也就是冻结的 LLM,对问题进行响应回答。

这样一来,通过集成 LENS 可以得到一个跨领網域自动适用的模型,无需额外的预训练。并且能够充分利用计算机视觉和自然语言处理领網域的最新进展,最大限度地发挥这些领網域的优势。

在此前,已经有研究提出了几种利用 LLM 解决视觉任务的方法。

其中一种方法是先训练一个视觉编码器,然后将每个影像表示为连续嵌入序列,让 LLM 能够理解。

另一种方法是使用已经训练对比的冻结视觉编码器,同时引入新的层到冻结的 LLM 中,并从头开始训练这些层。

第三种方法是同时使用冻结的视觉编码器(对比预训练)和冻结的 LLM,通过训练轻量级 transformer 将它们对齐。

视觉编码器是指用于将视觉输入(如影像或视频)转换为表示向量的模型或组件。它能够将高维的视觉数据转换为低维的表示,将视觉信息转化为语言模型可以理解和处理的形式。

显而易见,这三种方法都需要用数据集进行多模态预训练。

△视觉和语言模态对齐方法的比较,(a)代表上面所说的三种方法(b)是 LENS 的方法,代表从头开始训练,❄️代表预训练并冻结

LENS 则是提供了一个统一的框架,使 LLM 的 " 推理模块 " 能够从 " 视觉模块 " 提取的文本数据上进行操作。

在三个 " 视觉模块 " 中,对于标签这一模块,研究人员搜集了一个多样全面的标签词汇表。包括多个影像分类数据集,目标检测和语义分割数据集,以及视觉基因组数据集。为了能够准确识别并为影像分配标签,研究人员还采用了一个 CLIP 视觉编码器。

这一模块的通用提示语是:

"A photo of {classname}"

用于提取属性信息的视觉模块中,则用到了 GPT-3 来生成视觉特征描述,以区分对象词汇表中每个对象的类别。并且采用了一个对比预训练的 CLIP 视觉编码器,来识别并为影像中的对象分配相关属性。

在详细描述信息的视觉模块中,研究人员用 BLIP 的影像字幕模型,并应用随机的 top-k 采样为每个影像生成 N 个描述。这些多样化的描述直接传递给 " 推理模块 ",无需进行任何修改。

而在最后的推理模块,LENS 可以与任何 LLM 集成,将上面的提取的信息按照下面的格式进行整合:

Tags: {Top-k tags}

Attributes: {Top-K attributes}

Captions: {Top-N Captions}.

OCR: this is an image with written "{meme text}" on it.

Question: {task-specific prompt} n Short Answer:

值得一提的是,表情包也被考虑在内了,为此研究人员专门加入了一个OCR提示。

性能比 CLIP 好

为了展示 LENS 的性能,研究人员用了 8 块 NVIDIA A100 ( 40GB ) 显卡进行了实验,并默认冷冻的 LLM 为Flan-T5 模型。

对于视觉任务,研究人员评估了 8 个基准,并在零样本和少样本設定下与目标识别领網域的最新模型进行了比较。

△LENS 在目标识别任务中的零样本结果

经上表可看出,在零样本情况下,由 ViT-H/14 作为视觉主干和 Flan-T5xxl 作为冻结 LLM 组成的 LENS,平均表现比 CLIP 高了 0.7%。LENS 的其它组合在大多数情况下,表现也优于 CLIP。

有趣的是,研究人员在目标识别任务中发现:

冻结的 LLM 的大小与分类性能之间似乎没有直接关系。而标签生成架构(ViT 主干)的大小与性能之间存在对应关系。

△少样本下,LENS 在视觉任务上的平均性能。

如上图所示,研究人员还绘制了除 ImageNet 之外的所有数据集的平均视觉性能图,并观察到:

更多样本有助于提高性能。同时,冻结 LLM 的性能与视觉性能之间没有直接关系,而更好的视觉主干有助于提高平均视觉性能。

对于视觉与语言任务,研究人员评估了四个具有代表性的视觉问答任务,并与需要进行额外预训练来对齐视觉和语言模态的最新模型进行了比较。

在零样本設定上,与 VQAv2、OK-VQA、Rendered-SST 和 Hateful Memes 最先进的方法进行比较,LENS 表现依旧能与依赖大量数据进行对齐预训练的方法相竞争。即使与规模更大、更复杂的系统如 Flamingo、BLIP-2、Kosmos 相比也是如此。

虽然 LENS 在大多数情况下表现良好,但也有一些失败的情况:

研究人员认为:

LENS 的视觉能力严重依赖于其底层的视觉组件。这些模型的性能有进一步提升的空间,需要将它们的优势与 LLM 结合起来。

传送门:

[ 1 ] https://huggingface.co/papers/2306.16410(论文链接)

[ 2 ] https://github.com/ContextualAI/lens(代码已开源)

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們