大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

显著超越SFT,o1/DeepSeek-R1背后秘诀也能用于多模态大模型了

2025-03-05 简体 HK SG TW

今天小编分享的科学经验:显著超越SFT,o1/DeepSeek-R1背后秘诀也能用于多模态大模型了,欢迎阅读。

o1/DeepSeek-R1 背后秘诀也能扩展到多模态了!

举个例子,提问多模态大模型:" 什么宝可梦可以释放技能十万伏特 "时,模型通过推理过程准确找出皮卡丘对应的坐标框,展示出模型的泛化能力。

这是来自上海交大、上海 AI Lab、港中文大学的研究人员推出的视觉强化微调开源项目——Visual-RFT ( Visual Reinforcement Fine-Tuning ) , 只需 10~1000 条数据,就能通过思考过程和基于规则的监督提升多模态大模型的性能。

具体来说,他们将 DeepSeek-R1 背后的基于规则奖励的强化学习方法和 OpenAI 的强化微调(Reinforcement Fine-Tuning,RFT)范式,成功从纯文本大语言模型拓展到了视觉语言大模型(LVLM)。

通过针对视觉的细分类、目标检测等任务设计对应的规则奖励,Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领網域的认知,为视觉语言模型的训练开辟了全新路径。

下面具体来看。

从 R1 到 Visual-RFT:强化学习的多模态突破

OpenAI o1 主打的强化微调能力(Reinforcement Fine-Tuning)能只用少量样本就将 o1 迁移到新的任务上。

最近 DeepSeek-R1 解释了 o1 模型背后的强推理能力来自基于可验证奖励(Verified Rewards)/ 规则奖励(Rule-based Verifier)的强化学习策略。

不过,目前主流的认知在于这种基于规则奖励的方法只适用于数学推理、代码等少数便于验证的任务。

而在 Visual-RFT 中,研究人员将这一策略迁移到了视觉语言模型。

通过对细分类、目标检测等任务建立对应的可验证规则奖励,研究解决了传统方法在视觉领網域中的局限性,只需少量微调样本就实现了更高效、泛化性更强的视觉理解与推理能力。

传统的视觉指令微调(Visual Instruction Tuning/Supervised Fine-Tuning,SFT)需要海量数据对模型微调,在数据量有限(例如某些难以收集数据的特定学科场景)的情况下带来的提升有限。

与之不同,新研究提出的视觉强化微调(Visual Reinforcement Fine-Tuning)具有少样本学习能力和更强的泛化性,在数据量有限的场景下相比指令微调具有很大的优势。

为验证 Visual-RFT(视觉强化微调)的的泛化能力和普适性,力求对视觉领網域的全面覆盖,研究人员在多个视觉感知任务上对 Visual-RFT 进行验证,包含 Detection,Classification,Grounding 等。

其中,Visual-RFT 在 open vocabulary,few-shot learning 等设定下,仅仅通过非常少量的数据就取得了显著的性能提升,轻松实现能力的迁移,且结果明显优于 SFT 的微调方法。

在 Reasoning Grounding(推理定位)的测试中,Visual-RFT 展现出强大的视觉推理能力。

评测结果如下图所示:

为了在视觉多模态领網域验证可验证奖励的作用,研究人员提出了使用基于 IoU 的 verified reward 奖励应用于 detection 和 grounding 等任务,使用基于分类正确判断的 cls reward 用于 classification 任务。

部分推理定位结果显示,通过引入思考过程和强化学习策略,Visual-RFT(多模态强化微调)显著超越 SFT,更加准确地定位物体。

如询问模型,图中的运动员在水下依然保持清晰的视野需要带什么物体时候,通过传统指令微调的方法模型直接将整个运动员框出。

而 Visual-RFT 通过引入推理过程准确地指出防水眼睛及其所在的位置并准确框出。

部分推理细粒度分类结果也展示了相同结论。

小结一下,相比于传统的视觉指令微调(Visual Instruction/Supervised Fine-Tuning),Visual-RFT(视觉强化微调)通过强化学习方法,对问题进行深入的 think 分析取得更佳推理性能,相较于传统的指令微调(SFT)方法取得显著提升。

Visual-RFT 实验结果

Visual-RFT(视觉强化微调)在各大图文感知任务中均展现出强大的性能。

实验主要基于视觉语言大模型基座 QWen2-VL 2B/7B 模型,和传统的监督微调(Supervised Fine-Tuning)方法进行对比。

在开放目标检测、少样本检测、细粒度分类和推理定位任务上,Visual-RFT 相比 SFT 全面实现了性能提升。

值得一提的是,该研究的测试数据既包含 COCO、LVIS 等通用场景,又包含从互联网中收集的卡通人物等开放场景数据。只需要几十条数据,模型通过 Visual-RFT 可以学会检测某动漫中的史莱姆形象。

实验结果广泛验证了 Visual-RFT 的卓越性能和鲁棒性。

目前,包含训练、评测代码,数据在内,Visual-RFT 项目已全面开源。

项目地址:

https://github.com/Liuziyu77/Visual-RFT

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們