20亿参数模型要“干掉”Llama13B，面壁智能：老子打的就是精锐

今天小编分享的互联网经验：20亿参数模型要“干掉”Llama13B，面壁智能：老子打的就是精锐，欢迎阅读。

国内最早一批大模型研究者们建立的 AI 公司面壁智能，2 月 1 日发布了一款 " 实验性 " 十足，但野心巨大的端侧 " 小参数 " 模型—— MiniCPM-2B。

训练一些参数较小（一般指 70 亿参数以下）的大语言模型，让它们可以在端侧本地运行并同样实现强大的功能，是近来大模型领網域的一个重要课题。微软推出了 Phi2，谷歌的 Gemini 系列里专门开发了小尺寸的版本 Nano，而有 " 欧洲 OpenAI" 之称的 Mistral 推出的 Mixtral 7B，更是大受开源社区欢迎。

而现在面壁想用自己的方法，用 MiniCPM 来挑战一下它们的天花板。

高性能，低成本

"Mistral 的 Mixtral 7B 在开源社区受到极大关注并且下载量也很大，它用 70 亿参数的模型战胜了 130 亿参数的模型，我们也想体现我们的效率，而我们要用 20 亿参数的模型干掉 LLaMA130 亿参数的的模型。" 面壁智能 CTO 贾国洋在发布模型时说。

打的就是精锐。

那么这个以小搏大的模型表现如何？话不多说，先来看看它和对手们的对比情况。

根据其 Github 页面总结：

经过 SFT 后，MiniCPM 在公开综合性评测集上，MiniCPM 与 Mistral-7B 相近（中文、数学、代码能力更优），整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。

经过 DPO 后，MiniCPM 在当前最接近用户体感的评测集 MTBench 上，MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。

这是 MiniCPM-2B 与同尺寸模型的性能评分对比图。

而在一系列的评分对比中，在使用 DPO 完成偏好对齐后，MiniCPM-2B 模型在更接近人们日常使用体感的 MT-Bench 上的分数甚至还可以超过包括 Llama2-70B-Chat 在内的大模型。

不过在技术报告中，面壁智能也强调，这部分的评分中因为部分学习数据可能会让模型表现有利于 MTBench 的评测，例如让模型的生成风格更受 GPT-4 Evaluator 的喜欢，因此 " 希望研究者冷静看待榜单上的评测结果。例如，我们认为作为一个 2B 的小模型，可能在很多任务上仍然是弱于 Llama2-70B-Chat 的 "。

评分感受还是比较抽象，我们看一看它的一些具体的能力展示。

代码生成能力：

数学能力：

加入了多语言干扰后的翻译表现：

而且，此次面壁智能还把多模态版本的 MiniCPM-V 部署在手机，首次跑通了多模态大模型在手机上的部署。面壁智能展示了一个端侧模型离线状态下，用户在偏远山上想要识别一个蘑菇是否有毒的场景。

另外，在达到这些效果的同时，它的成本也控制在很低的水平。发布会上，面壁智能 CEO 李大海表示，一张 1080/2080 可高效参数微调，一张 3090/4090 可全参数微调，一台机器可持续训练 MiniCPM，二次开发成本较低。

" 我们看中了端侧模型的另外一点就是成本。成本决定大模型的利润率，2023 年我们做非常多商业化实验的时候，看到很多应用场景下的客户都会非常关注模型的成本，虽然千亿模型效果很好，但是当它真的要大规模部署的时候，其实还是有很多的障碍。而在端上模型当中，从成本角度让推理成本实现断崖式下跌，甚至可以实现 CPU 推理，进而实现成本更低。" 他说。

" 规模飙升的技术竞赛中，成本是大模型隐形竞争力，人们需要省钱大模型。 "

把训练模型变成实验科学

为什么能实现上面提到的这些成绩？面对这个问题，面壁智能的团队非常自信。

在发布会上，硅星人 / 品玩 CEO 骆轶航和面壁智能技术核心团队做了对话

" 我们没有追赶谁，我们一直是领先的。" 面壁智能的联合创始人，清华大学长聘副教授刘知远对我说。

" 尤其在 Scaling 的方面。" 他的研究方向从深度学习、BERT、大模型到 Agent，都在今天大模型的发展方向上。

据他透露，Mistral 也经常联系他们和他们讨论面壁提出的许多研究方法。

在此次模型开发过程中，面壁智能胡声鼎是那个掌勺者。" 开发模型就像做菜，这是我们的三星大厨。" 刘知远介绍。

胡声鼎同时也是清华大学计算机系博士，他在技术博客和当天的分享中简单介绍了模型背后的一些技术亮点。

总体上，它体现出一种把模型训练科学化，变成某种实验科学的思路。

最重要的一个体现是模型沙盒。

简单说，就是在一些更小的参数，比如 0.009B（也就是 900 万参数）的模型上做沙盒实验，并且是大量的实验，然后通过试验结果，研究出在学习率、Batchsize 以及超参数稳定的最佳 " 配方 "，然后预估并使用到真正要训练的更大规模参数的模型上。这理论上避免了诸如每次训练模型都要重新进行超参数调整等在成本和技术上都不太现实的做法。

这个实验的过程事实上也是面壁智能做出技术路线判断的过程。

它首先是一系列具体的判断：

比如模型最关键的超参数——学习率并不会因为规模扩大而大幅度改变，比如在损失函数与 token 数变化的研究上，挑战了 OpenAI 提出的不消耗过多步数的策略，转而追求最少 token 量；比如在学习率调度器上推翻了现在最主流的 Cosine LRS，提出了在学习过程中初期表现略差于 Cosine LRS 但后期会实现 " 反超 " 从而整体更优的 WSD 调度器。

图源：MiniCPM 技术博客

而且，让我觉得最有意思的是，面壁的一系列实验不只是研究某个单点的最优解，它还带来了一个新的可能：用实验的方式来真实解答一个问题——当你对一个固定大小的模型不停的训练下去，是不是其实可以比训练一个更大的模型效果更好？它带来的答案会直接决定你的技术方向。

根据实验，面壁智能团队表示，2B 的 MiniCPM 的持续训练后可以接近甚至超过 9B 的 Chinchilla Optimal 模型。

在这些具体判断之上，则是更 " 终局 " 的判断——大模型最终变成今天这个样子，很大程度就是 OpenAI 当初对 GPT 路线的 " 赌注 " 决定的，面壁的一系列研究和技术布局背后也有这个对 AGI 的它自己的赌注。

" 我从技术角度来看，大模型的技术路线大方向已经确定了。就是一个纯 data driven 的方案，而预训练也好，这些都是它对应的具体方法。而这个和 2023 年之前大家一致认为的方案是非常不一样的。我们在 2022 年底之前一直以为自然语言处理的解决还需要十几年的时间，它需要把更多外部的知识放到模型，才能掌握常识知识。" 刘知远对我说。

" 但 ChatGPT 让我们发现它已经可以非常好地把常识学到，这个对于我来讲是一次非常大的教育。所以ChatGPT 的出现意味着 2023 年整个自然语言处理领網域进入到了打扫战场的状态——核心问题已经解决差不多了，剩下的都是怎么让它变得更高效。"

他认为接下来的六七年时间一个非常重要的竞争优势，就在于一个团队有没有足够强的技术上的原创探索能力。

" 世界上从来没有人探索出来过把 2B 模型达到这么一个水平，今天我们可以达到，大家可以沿着这个方向跑，但我们可以比他们跑得更快，做更多的新的问题。这个至少是我们未来五六年里面我们的护城河，它不是单独的东西，而是我们强大的产研的团队，非常完美的清华大学自然语言处理实验室跟面壁智能联合的机制。"

此次发布的 MiniCPM-2B 也是一个系列模型的主力，面壁智能也对这系列模型做了全面的开源。

基于 MiniCPM-2B 的指令微调与人类偏好对MiniCPM-2B-SFT/DPO。

基于 MiniCPM-2B 的多模态模型MiniCPM-V，能力超越基于 Phi-2 的同参数级别多模态模型。

MiniCPM-2B-SFT/DPO 的 Int4 量化版MiniCPM-2B-SFT/DPO-Int4。

基于 MLC-LLM、LLMFarm 开发的 MiniCPM 手机端程式，文本及多模态模型均可在手机端进行推理。

想要体验这些模型的开发者可以去以下链接下载体验：

https://github.com/OpenBMB/MiniCPM

技术博客的更多细节可以在此找到：

https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a