大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

多模态模型免微调接入互联网,即插即用新框架,效果超闭源商用方案

2024-11-10 简体 HK SG TW

今天小编分享的科学经验:多模态模型免微调接入互联网,即插即用新框架,效果超闭源商用方案,欢迎阅读。

一个 5 月份完成训练的大模型,无法对《黑神话 · 悟空》游戏内容相关问题给出准确回答。

这是大模型的老毛病了。

因为《黑神话》8 月才上市,训练数据里没有它的相关知识。

众所周知,大模型的训练和微调会消耗大量计算资源和时间,这意味着频繁更新大模型的参数是不切实际的。

然而,现实世界中的信息是实时产生的且不断变化的。这使得大模型在完成训练后,对于后续新产生的信息感到陌生,所以无法提供准确可靠的反馈。

为此,上海人工智能实验室、北京理工大学、浙江大学、香港大学联合提出即插即用的SearchLVLMs 框架,可以无缝整合任意的多模态大模型。

该框架在推理阶段对大模型进行互联网检索增强,使得大模型无需微调即可对实时信息进行准确的反馈。

研究团队提出首个辅助多模态大模型对实时信息进行反馈的开源检索增强框架 SearchLVLMs。

该框架主要包括查询生成、搜索引擎调用、分层过滤三个部分。

以视觉问答为例,该框架会基于问题和图片生成查询关键词,并调用搜索引擎查找相关信息,再由粗到细地对检索结果进行过滤,得到对回答该问题有帮助的信息。

这些信息会以 prompt 的形式在推理阶段提供给模型,以辅助回答。

同时,团队提出一个数据生成框架 UDK-VQA,它可以自动生成依赖实时信息进行回答的视觉问答数据。

基于此框架,数据集可以完成动态更新,以保证测试数据的时效性。

目前已有 UDK-VQA-240401-30、UDK-VQA-240816-20 两个版本的数据集,涉及到的时间跨度分别是 2024 年 4 月 1 日 -2024 年 4 月 31 日和 2024 年 8 月 16 日 -2024 年 9 月 5 日。

研究者在超过 15 个开源、闭源模型上进行了实验,包括 GPT-4o、Gemini 1.5 Pro、InternVL-1.5、LLaVA-1.6 等。

在 UDK-VQA 数据集上的回答准确率,则配备了 SearchLVLMs 的 SOTA LVLMs 超过了自带互联网检索增强的 GPT-4o 模型 35%。

开源框架 SearchLVLMs

SearchLVLMs 框架主要由三部分组成:

查询生成

搜索引擎调用

分层过滤

在查询生成阶段,需要对问题和影像进行充分地理解,以转化为适用于搜索引擎的文本查询。

对于问题而言,直接使用手工设计的 prompt 调用 LLM 得到问题查询词。

对于影像而言,调用必应视觉搜索得到包含该影像或与该影像相关的网页,提取这些网页的题目 / 快照的最长公共子串作为影像查询词。

在搜索引擎调用阶段,用户可以根据问题类型自主选择调用的搜索引擎类别。

比如:对于实时性较强的新闻相关问题,可以选择调用必应新闻搜索;对于常识性问题,可以选择调用必应通用搜索。

调用搜索引擎后会得到多个网页的题目、摘要和链接。

在分层过滤阶段,首先调用网页过滤器对得到的网页进行初筛,基于网页的题目和摘要对这些网页进行重排。

对于排序靠前的网页,使用爬虫获取网页的文本内容,每三句切抽成一个片段,使用内容过滤器对这些片段进行重排。

对于排序靠前的片段,基于 CLIP 特征对它们进行聚类,选择离每个聚类中心的最近的片段,以避免内容重复片段对大模型预测带来的误导。

被选择的片段被直接拼接在一起,用于提示大模型。

其中,网页过滤器和内容过滤器是两个独立训练的 LLaVA-1.5 模型,作用是为网页 / 片段进行打分——网页 / 片段对于回答该问题的帮助程度。

为了训练这两个过滤器,也为了测试大模型对实时信息的反馈能力,研究团队进一步提出了一个数据生成框架—— UDK-VQA,如下图所示。

五个步骤完成数据生成

UDK-VQA 数据生成主要遵循五个步骤:

分别是查询搜集、问题生成、影像分配、伪标注生成、人为验证。

第一步,查询搜集。

查询搜集主要包括两方面,一方面是从谷歌每日搜索趋势上爬取热门搜索词,另一方面是人为搜集一些热门搜索词来对前者进行补充。

第二步,问题生成。

研究人员首先根据搜集到的搜索词调用搜索引擎得到相关的新闻,将新闻内容进行切分,得到多个内容片段。

然后要求 GPT 根据内容片段自问自答,得到 < 问题,答案 > 的集合。

在第三步影像分配阶段,团队会提取出问题中的实体,使用图片搜索引擎得到实体的图片,并将问题中的实体单词替换为其上分位词,与图片一起组成视觉问答样本。

第四步,伪标注生成。

为了训练网页过滤器和内容过滤器,需要对网页 / 片段进行打分。

对于一个视觉问答样本和一个网页 / 片段,研究者基于两个原则进行打分:

① 如果该样本是基于该网页 / 片段生成的,分数为 1.0。

② 如果该样本不是基于该网页 / 片段生成的,使用 5 个开源模型在该网页 / 片段下尝试回答该样本,根据模型回答的正确率进行打分。

基于这样的伪标注方法,研究人员构造了 ~80w 样本用于训练。

最后一步,人为验证。

构造测试集时,研究者对第 3 步得到的视觉问答样本进行了人为筛选,确保测试样本的正确性。

为了避免训练数据和测试数据需要参考相似的实时信息,在构造训练集和测试集时,研究过程中使用不同时间区间的谷歌每日搜索趋势来爬取热门搜索词。

下图中 ( a ) 、 ( b ) 、 ( c ) 分别展示了训练样本、测试样本和测试样本的分布。

基于数据生成框架 UDK-VQA,很容易可以构造出需要实时信息进行回答的视觉问答样本。

研究团队声明会不断更新测试集,保证测试样本的时效性。

目前,研究人员已经构造了两个版本的测试集,分别涉及到 2024 年 5 月份和 2024 年 9 月份的信息。

实验结果与结论

SearchLVLMs 框架团队在 UDK-VQA 上测试了 15 个现有的 LVLMs,主要实验结果如下表所示。

其中,Raw 表示模型的原始版本(没有检索增强功能)、Long-Context  (LC)表示将搜索引擎返回的网页爬取内容后,直接拼接起来提示模型,IAG 表示使用了模型内嵌的互联网检索增强能力。

Gen.、Cham. 和 CLIP → FID ( C → F ) 分别表示 [ 1 ] 、 [ 2 ] 和 [ 3 ] 中的方法。

从实验结果中可以有以下发现:

1、接收长上下文输入可以一定程度上避免对搜索引擎的返回内容进行二次筛选。

Gemini Pro 1.5 ( LC)的性能高于内嵌互联网检索增强的 GPT-4V 和 GPT-4o,但是长上下文会引入额外的计算消耗,并引入一些不必要的信息对模型造成误导。

经过 SearchLVLMs 的分层过滤模型进行二次筛选还有,可以进一步提升模型性能。

2、具备检索增强能力的闭源商用模型在性能上显著高于不具备检索增强能力的开源模型。

GPT-4V 和 GPT-4o 由于内嵌互联网检索增强模块,在准确率上大幅领先开源模型,如 LLaVA-1.6 和 InternVL-1.5,差距约为 20%~30%。

3、SearchLVLMs 框架可以整合任意的多模态大模型,并大幅度提高它们对于依赖实时信息的问题的回答能力。

无论是在闭源商用模型 Gemini 1.5 Pro、GPT-4o、GPT-4V,还是开源 SOTA 模型 LLaVA-1.6 和 InternVL-1.5 上,SearchLVLMs 均能带来超过 50% 的性能提升。

4、SearchLVLMs 带来的性能提升,远高于已有方法。

研究对比了检索增强方法 Gen.、C → F 和调用搜索引擎来辅助回答的框架 Cham.,SearchLVLMs 在应对实时信息检索任务时,表现出明显的优越性。

5、使用 SearchLVLMs 整合开源模型,性能可以大幅超过内嵌互联网检索增强能力的闭源商用模型。

InternVL-1.5+SearchLVLMs 的准确率为 92.9%,远高于 GPT-4o(IAG)的 57.8%。

这一发现表明,开源模型具有巨大的潜力,SearchLVLMs 在性能、可定制性和透明度上具有显著的优势。

参考文献

[ 1 ] Yu et al. Generate rather than retrieve: Large language models are strong context generators. arXiv 2023.

[ 2 ] Lu et al. Chameleon: Plug-and-play compositional reasoning with large language models. NeurIPS 2023.

[ 3 ] Chen et al. Can pre-trained vision and language models answer visual information-seeking questions? EMNLP 2023.

文章链接 :   https://arxiv.org/abs/2405.14554

项目主页:https://nevermorelch.github.io/SearchLVLMs.github.io/

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們