大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单

2025-03-17 简体 HK SG TW

今天小编分享的科学经验:迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单,欢迎阅读。

7B 小模型 +3.8 万条训练数据,就能让音频理解和推断评测基准 MMAU 榜单王座易主?

受到 DeepSeek-R1 中强化学习算法的启发,小米大模型团队对阿里的 Qwen2-Audio-7B 模型进行了微调。

结果模型在 MMAU 上的准确率从 49.2% 提升到了 64.5%(涨幅 31%),比以前霸榜的 GPT-4o 还高出近 10 个百分点。

MMAU 是一个由一万条涵盖语音、环境声和音乐的音频样本构成的评测基准,难度非常高,人类专家的成绩为 82.2%。

来自阿里的Qwen2-Audio-7B模型在此评测集上的准确率为 49.2%,经小米大模型团队用清华大学发布的 AVQA 数据集,使用 SFT 微调后提升到了 51.8%。

这样的提升并不明显,而当小米团队选择改用 DeepSeek-R1 的 GRPO 算法时,发现获得了巨大的性能提升,一举达到了 MMAU 的新 SOTA。

目前,小米大模型团队已经把训练代码、模型参数开源,并提供了技术报告、在线 Demo。

7B 小模型拿下 MMAU 榜单 SOTA

如前所述,小米大模型团队通过 SFT,使用清华 AVQA 数据集对选择了来自阿里的 Qwen2-Audio-7B 进行了微调,成绩提升了 2.6 个百分点。

直到 DeepSeek-R1 的发布,为小米在该项任务上的研究带来了启发。

DeepSeek-R1 的 Group Relative Policy Optimization(GRPO)方法,让模型仅通过 " 试错 - 奖励 " 机制就能使自主进化,涌现出类似人类的反思、多步验证等推理能力。

在同一时间,卡内基梅隆大学发布的预印本论文(arxiv:2503.01067),通过精巧的实验得出了一个有趣的论断:

当任务存在明显的生成 - 验证差距(Generation-Verification Gap),即任务生成结果的难度远大于验证结果正确性的难度时,强化学习比起有监督微调具有独特优势。

而 AQA 任务,恰好是完美的生成 - 验证差距显著的任务。

离线微调方法,如 SFT,有点像背题库,你只能根据已有的题目和答案训练,但遇到新题可能不会做;

而强化学习方法,如 GRPO,像老师在要求你多想几个答案,然后老师告诉你哪一个答案好,让你主动思考,激发出自身的能力,而不是被 " 填鸭式 " 教学。

当然,如果训练量足够,比如有学生愿意花很多年的时间来死记硬背题库,也许最终也能达到不错的效果,但效率太低,浪费太多时间。

而主动思考,更容易快速地达到举一反三的效果。强化学习的实时反馈可能会帮助模型更快锁定高质量答案的分布区網域,而离线方法需要遍历整个可能性空间,效率要低得多。

基于上述洞察,小米尝试将 DeepSeek-R1 的 GRPO 算法迁移到 Qwen2-Audio-7B 模型上。

令人惊喜的是,在仅使用 AVQA 的 3.8 万条训练样本的情况下,强化学习微调后的模型在 MMAU 评测集上实现了 64.5% 的准确率,这一成绩比目前榜单上第一名的商业闭源模型 GPT-4o 有近 10 个百分点的优势。

有趣的是,如果在训练中强制要求模型输出包含 thinking 标签的推理过程时,准确率反而下降至 61.1%。这说明显式的思维链结果输出可能并不利于模型的训练。

小米大模型团队的实验揭示了几个和传统认知不同的结论:

关于微调方法:强化学习在 3.8 万条数据集上的表现,显著超过监督学习在 57 万条数据集上的结果;

关于参数规模:相比千亿级模型,7B 参数的模型通过强化学习也可展现强推理能力;

关于隐式推理:显式思维链输出反而成为性能瓶颈。

尽管当前准确率已突破 64%,但距离人类专家 82% 的水平仍有差距。

小米大模型团队表示,在当前的实验中,强化学习策略还是比较粗糙,训练过程对思维链的引导并不充分,我们会在后续做进一步探索。

此次实验验证了强化学习在音频理解和判断领網域的独特价值,也为后续研究打开了一扇新的大门。

小米团队期待,当机器不仅能 " 听见 " 声音,还能 " 听懂 " 声音背后的因果逻辑时,真正的智能听觉时代将会来临。

人类专家准确率 82.23%

MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集由美国马里兰大学和 Adobe 的研究人员于去年联合提出,是音频理解和推断能力的量化标尺。

它通过一万条涵盖语音、环境声和音乐的音频样本,结合人类专家标注的问答对,测试模型在 27 种技能,如跨场景推理、专业知识等应用上的表现,期望模型达到接近人类专家的逻辑分析水平。

面对一段汽车行驶中的座舱录音,AI 能否判断出汽车是否存在潜在的故障?

在交响乐演出现场,AI 能否推测出作曲家创造这首音乐时的心情?

在早高峰地铁站混乱的脚步声潮中,AI 能否预判闸机口可能发生的冲撞风险?

在大模型时代,人们已经不满足于机器仅仅识别说话的内容、声音的种类,更期望机器具备复杂的理解和判断能力,MMAU 衡量的就是这种能力。

这是一个很难的评测集,作为基准上限,人类专家在 MMAU 上的准确率为 82.23%。

目前 MMAU 官网榜单上表现最好的模型是 GPT-4o,准确率为 57.3%。紧随其后的是谷歌的 Gemini 2.0 Flash,准确率为 55.6%。

训练代码:

https://github.com/xiaomi-research/r1-aqa

模型参数:

https://huggingface.co/mispeech/r1-aqa

技术报告:

https://arxiv.org/abs/2503.11197

互動 Demo:

http://120.48.108.147:7860/

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們