大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术

2025-03-30 简体 HK SG TW

今天小编分享的科学经验:业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术,欢迎阅读。

用上动态强化学习,多模态大模型也能实现泛化推理了?!

来自 OPPO 研究院和港科广的科研人员提出了一项新技术——OThink-MR1,将强化学习扩展到多模态语言模型,帮助其更好地应对各种复杂任务和新场景。

研究人员表示,这一技术使业界突破多模态泛化推理能力。

众所周知,多模态大模型可以处理多种类型输入数据并生成相关输出,但一遇到复杂推理任务,其能力往往表现不佳。

目前大多数多模态模型在训练时,主要采用监督微调(SFT)的方法。

SFT 就像是老师给学生划重点,让学生按照固定的模式学习。虽然这种方法在特定任务上确实能让模型表现得不错,但难以培养关键的通用推理能力。

与此同时,强化学习(RL)作为另一种训练方法,开始进入人们的视野。

RL 就像是让学生在不断尝试中学习,做得好就给奖励,做得不好就 " 挨批评 "。这种方法理论上可以让模型更灵活地应对各种任务,提升其推理能力,但却存在多模态任务通用能力未充分探索、训练约束易导致次优瓶颈等问题。

于是乎,OThink-MR1 技术应运而生。

那么,它是如何让多模态模型突破泛化推理能力的呢?

基于动态强化学习

OThink-MR1 是一个基于动态强化学习的框架和模型,支持微调多模态语言模型。

其核心 " 招式 " 有两个:一个是动态 KL 散度策略(GRPO-D),另一个是精心设计的奖励模型。二者相互配合,让模型的学习效率和推理能力大幅提升。

先说动态 KL 散度策略。

在强化学习里,探索新的策略和利用已有经验是两个很重要的方面,但以前的方法很难平衡这二者的关系,不是在探索阶段浪费太多时间,就是过早地依赖已有经验。

而动态 KL 散度策略就像是给模型装了一个 " 智能导航仪 ",能根据训练进度动态调整探索和利用的平衡。

打个比方,在训练初期,它让模型像个充满好奇心的孩子,大胆地去探索各种可能的策略。而随着训练的进行,它又会引导模型逐渐利用之前积累的经验,沿着更靠谱的路线前进。

这样一来,模型就能更有效地学习,避免陷入局部最优解。

再说奖励模型。在 OThink-MR1 里,奖励模型就像是老师给学生打分的标准。

对于多模态任务,科研人员设计了两种奖励:一种是验证准确性奖励,另一种是格式奖励。

比如在视觉计数任务中,模型要数出图片里物体的数量,如果数对了,就能得到验证准确性奖励;同时,如果模型的回答格式符合要求,像按照规定的格式写下答案,还能获得格式奖励。

这两种奖励加起来,就像老师从多个方面给学生打分,让模型知道自己在哪些地方做得好,哪些地方还需要改进,从而更有针对性地学习。

实验环节

为了验证 OThink-MR1 的实力,科研人员进行了一系列实验。

第一个实验是探究奖励项和 KL 散度项对原始 GRPO(一种基于强化学习的方法)在同任务验证中的影响。

在几何推理任务中,科研人员调整格式奖励的权重,发现当格式奖励的权重不为零时,模型的表现明显更好。这就好比学生写作文,不仅内容要正确,格式规范也能加分,这样能让学生更全面地提升自己的能力。

同时,调整 KL 散度的权重时,他们发现权重适中时模型表现最佳,太大或太小都会让模型成绩下降。

第二个实验是跨任务评估,这可是一场真正的 " 大考 "。

以往的研究大多只在同一个任务的不同数据分布上评估模型的泛化能力,而这次实验直接让模型挑战完全不同类型的任务。

科研人员选择了视觉计数任务和几何推理任务,这两个任务难度不同,对模型的能力要求也不一样。

在跨任务验证中,用监督微调训练的模型表现得很差。就像一个只会做一种题型的学生,换了另一种题型就完全不会了。

而经过 GRPO-D 训练的模型则表现出色,在从推理任务到理解任务的泛化实验中,它的成绩相比没有经过训练的模型提高了很多;在从理解任务到推理任务的泛化实验中,虽然难度更大,但它也取得了不错的进步。

这就好比一个学生不仅擅长数学,还能快速掌握语文知识,展现出了很强的学习能力。

第三个实验是同任务评估。

实验结果显示,在同任务验证中,采用固定 KL 散度的 GRPO 方法不如监督微调,但 OThink-MR1 中的 GRPO-D 却能逆袭。

它在视觉计数和几何推理任务上,成绩都超过了监督微调,这就像一个原本成绩一般的学生,找到了适合自己的学习方法后,成绩突飞猛进,直接超过了那些只会死记硬背的同学。

总体而言,OThink-MR1 的出现,为多模态语言模型的发展开辟了新的道路。

它让我们看到了动态强化学习在提升模型推理能力和泛化能力方面的巨大潜力。在未来,基于 OThink-MR1 这样的技术,多模态语言模型有望在更多领網域发挥重要作用。

论文地址:https://arxiv.org/abs/2503.16081

•   标题:OThink-MR1: Stimulating multimodal generalized reasoning capabilities through dynamic reinforcement learning

•   作者:刘志远 1,   章玉婷 2,   刘丰 1,   张长旺 1,   孙莹 2,   王俊 1

•   部門:1.OPPO 研究院 , 2. 香港科技大学(广州)

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点亮星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們