迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单 - 大酷樂

今天小编分享的科学经验：迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单，欢迎阅读。

7B 小模型 +3.8 万条训练数据，就能让音频理解和推断评测基准 MMAU 榜单王座易主？

受到 DeepSeek-R1 中强化学习算法的启发，小米大模型团队对阿里的 Qwen2-Audio-7B 模型进行了微调。

结果模型在 MMAU 上的准确率从 49.2% 提升到了 64.5%（涨幅 31%），比以前霸榜的 GPT-4o 还高出近 10 个百分点。

MMAU 是一个由一万条涵盖语音、环境声和音乐的音频样本构成的评测基准，难度非常高，人类专家的成绩为 82.2%。

来自阿里的Qwen2-Audio-7B模型在此评测集上的准确率为 49.2%，经小米大模型团队用清华大学发布的 AVQA 数据集，使用 SFT 微调后提升到了 51.8%。

这样的提升并不明显，而当小米团队选择改用 DeepSeek-R1 的 GRPO 算法时，发现获得了巨大的性能提升，一举达到了 MMAU 的新 SOTA。

目前，小米大模型团队已经把训练代码、模型参数开源，并提供了技术报告、在线 Demo。

7B 小模型拿下 MMAU 榜单 SOTA

如前所述，小米大模型团队通过 SFT，使用清华 AVQA 数据集对选择了来自阿里的 Qwen2-Audio-7B 进行了微调，成绩提升了 2.6 个百分点。

直到 DeepSeek-R1 的发布，为小米在该项任务上的研究带来了启发。

DeepSeek-R1 的 Group Relative Policy Optimization（GRPO）方法，让模型仅通过 " 试错 - 奖励 " 机制就能使自主进化，涌现出类似人类的反思、多步验证等推理能力。

在同一时间，卡内基梅隆大学发布的预印本论文（arxiv：2503.01067），通过精巧的实验得出了一个有趣的论断：

当任务存在明显的生成 - 验证差距（Generation-Verification Gap），即任务生成结果的难度远大于验证结果正确性的难度时，强化学习比起有监督微调具有独特优势。

而 AQA 任务，恰好是完美的生成 - 验证差距显著的任务。

离线微调方法，如 SFT，有点像背题库，你只能根据已有的题目和答案训练，但遇到新题可能不会做；

而强化学习方法，如 GRPO，像老师在要求你多想几个答案，然后老师告诉你哪一个答案好，让你主动思考，激发出自身的能力，而不是被 " 填鸭式 " 教学。

当然，如果训练量足够，比如有学生愿意花很多年的时间来死记硬背题库，也许最终也能达到不错的效果，但效率太低，浪费太多时间。

而主动思考，更容易快速地达到举一反三的效果。强化学习的实时反馈可能会帮助模型更快锁定高质量答案的分布区網域，而离线方法需要遍历整个可能性空间，效率要低得多。

基于上述洞察，小米尝试将 DeepSeek-R1 的 GRPO 算法迁移到 Qwen2-Audio-7B 模型上。

令人惊喜的是，在仅使用 AVQA 的 3.8 万条训练样本的情况下，强化学习微调后的模型在 MMAU 评测集上实现了 64.5% 的准确率，这一成绩比目前榜单上第一名的商业闭源模型 GPT-4o 有近 10 个百分点的优势。

有趣的是，如果在训练中强制要求模型输出包含 thinking 标签的推理过程时，准确率反而下降至 61.1%。这说明显式的思维链结果输出可能并不利于模型的训练。

小米大模型团队的实验揭示了几个和传统认知不同的结论：

关于微调方法：强化学习在 3.8 万条数据集上的表现，显著超过监督学习在 57 万条数据集上的结果；

关于参数规模：相比千亿级模型，7B 参数的模型通过强化学习也可展现强推理能力；

关于隐式推理：显式思维链输出反而成为性能瓶颈。

尽管当前准确率已突破 64%，但距离人类专家 82% 的水平仍有差距。

小米大模型团队表示，在当前的实验中，强化学习策略还是比较粗糙，训练过程对思维链的引导并不充分，我们会在后续做进一步探索。

此次实验验证了强化学习在音频理解和判断领網域的独特价值，也为后续研究打开了一扇新的大门。

小米团队期待，当机器不仅能 " 听见 " 声音，还能 " 听懂 " 声音背后的因果逻辑时，真正的智能听觉时代将会来临。

人类专家准确率 82.23%

MMAU（Massive Multi-Task Audio Understanding and Reasoning）评测集由美国马里兰大学和 Adobe 的研究人员于去年联合提出，是音频理解和推断能力的量化标尺。

它通过一万条涵盖语音、环境声和音乐的音频样本，结合人类专家标注的问答对，测试模型在 27 种技能，如跨场景推理、专业知识等应用上的表现，期望模型达到接近人类专家的逻辑分析水平。

面对一段汽车行驶中的座舱录音，AI 能否判断出汽车是否存在潜在的故障？

在交响乐演出现场，AI 能否推测出作曲家创造这首音乐时的心情？

在早高峰地铁站混乱的脚步声潮中，AI 能否预判闸机口可能发生的冲撞风险？

在大模型时代，人们已经不满足于机器仅仅识别说话的内容、声音的种类，更期望机器具备复杂的理解和判断能力，MMAU 衡量的就是这种能力。

这是一个很难的评测集，作为基准上限，人类专家在 MMAU 上的准确率为 82.23%。

目前 MMAU 官网榜单上表现最好的模型是 GPT-4o，准确率为 57.3%。紧随其后的是谷歌的 Gemini 2.0 Flash，准确率为 55.6%。

训练代码：

https://github.com/xiaomi-research/r1-aqa

模型参数：

https://huggingface.co/mispeech/r1-aqa

技术报告：

https://arxiv.org/abs/2503.11197

互動 Demo：

http://120.48.108.147:7860/

— 完 —

学术投稿请于工作日发邮件到：

[email protected]

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文 / 项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

一键关注点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！