今天小编分享的互联网经验:面壁智能发布2B模型:适配主流手机,推理成本仅为GPT-4的1/360,欢迎阅读。
文 | 周鑫雨
编辑 | 邓咏仪
当大模型加速应用落地,运行成本就成为各厂商的现实考量。
将模型做小,成为现实市场需求下的趋势。但模型的 Scaling Law(规模定律)已指出,参数规模是决定模型性能的最关键因素。如何用更小的参数规模,达到比肩大模型的性能,是需要解决的难题。
" 以小博大 " 的励志故事,2023 年 9 月发生在法国 AI 独角兽 Mistral 上。其发布的开源模型用 7B 的参数规模,在 MMLU(多任务语言理解)、Knowledge(知识)、Reasoning(推理)、Comprehension(理解)等关键指标上均超越了 Meta Llama 2 的 13B 模型。
这一个故事,在 2024 年 2 月 1 日的发布会上,也被 AI 模型层公司面壁智能的 CEO 李大海不断提起。
对标 Mistral,面壁智能发布了训练数据规模近 1T、参数规模仅 2B 的模型:聚焦于适配端侧硬體的端侧大模型 MiniCPM-2B。
为什么瞄准端侧场景?李大海给出的理由,仍然是旺盛的市场需求,和云端协同的部署趋势。自 2023 年下半年起,三星、华为、小米、特斯拉、理想等国内外手机和智驾厂商都发布了适配于终端硬體的大模型。
在终端硬體厂商加速产品 AI 化的趋势下,面壁智能认为,成本是大模型的隐形竞争力," 比起 size,我们更在意成本 "。
以搭载了骁龙 855 芯片的 OPPO 手机为例,MiniCPM 每秒能处理 7.5 Tokens,运行 5 年后报废,成本为 600 元,由此可得 170 万 Tokens 的推理成本仅 1 元—— MiniCPM 的推理成本仅 Mistral 的 1/100,GPT-4 的 1/360。
据介绍,目前 MiniCPM-2B 在 CPU(比 GPU 计算吞吐量低)上就能跑起来,相较于用 GPU 才能运行的大模型,能够降低推理成本。与此同时,即便将大小压缩 75%,MiniCPM 的性能也能做到基本无损耗。
在性能上,MiniCPM-2B 的中文知识能力、代码能力、数学能力已经超过 Mistral-7B,而英文知识能力、逻辑能力和常识问答能力还存在一定差距。而在测试模型接近人的程度的评测榜单 MT-Bench 上,MiniCPM-2B 的表现超过了 Llama 2-70B-Chat。
MiniCPM-2B 和 Mistral-7B 在主流评测集上的测评结果。图源:面壁智能
MiniCPM-2B 和主流模型在 MT-Bench 上的测评结果。图源:面壁智能
就实际效果而言,MiniCPM-2B 能够理解 " 中夹英 " 的多语言问题,并用法语作答;同时也能实现代码生成。
MiniCPM-2B 的多语言互動。图源:面壁智能
MiniCPM-2B 书写自身代码。图源:面壁智能
为了能够让 MiniCPM 以小博大,面壁智能主要在 Infra、算法和数据三个层面,做了技术优化。
在 Infra 层面,基于集成了训练、推理、压缩、微调的全流程高效 Infra,面壁智能能够将推理加速到 10 倍,将算力成本降低 90%。
在算法层面,通过上千次的模型沙盒实验,面壁智能对模型批次大小、超参数配置等最优训练配置进行了探索。
在数据层面,用于 MiniCPM 的 1T 精选训练数据,来源于经过数据治理、多维评测的数据工厂。
为了将多模态能力搬上了手机,面壁智能还发布了多模态端侧模型 MiniCPM-V。
通过将手机调整为飞行模式来模仿野外无信号的情况,面壁智能演示了野外生存情况下人与 MiniCPM-V 的多模态问答。比如,MiniCPM-V 可以识别毒蘑菇和毒蛇,并给出防护建议。模型响应速度接近 7 Tokens/ 秒,几乎无延迟。
MiniCPM-V 有关毒蘑菇的问答。图源:面壁智能
MiniCPM-V 有关毒蛇的问答。图源:面壁智能
除了 MiniCPM-V 这款端侧多模态模型外,面壁智能对 12B 的多模态模型 OmniLMM 进行了开源(GitHub 地址):https://github.com/OpenBMB/OmniLMM
相较于 MiniCPM-V,OmniLMM 不仅支持多模态对话,还支持多模态的实时互動,比如用户可以实时与模型进行石头剪刀布的游戏,也可以让模型实时识别路况。李大海介绍,未来 OmniLMM 的能力,也将逐步集成到 MiniCPM-V 上。
OmniLMM 有关景点的问答。图源:面壁智能
目前,MiniCPM 已经与国际主流手机机型和 CPU 进行了配置测试。当然,将模型接入终端设备,依然有不少问题亟待解决。
比如接入后,模型是否还能在端侧进行自主学习和迭代?面壁认为,通过高效参数微调技术,目前 MiniCPM 能在手机夜间充电时段,基于用户人机互動产生的数据知识和信息进行自主微调,但效果仍有待提高。
再比如,模型如何与搭载不同芯片的硬體进行一对一的适配?除了不断推动行业标准的建立,面壁认为目前可行的解法是开源,从而让开发者自行做适配的尝试。目前,MiniCPM 也上线 GitHub(内含技术报告):https://github.com/OpenBMB/MiniCPM
无论是端侧模型的自我迭代能力,还是软硬體适配的标准建立,大模型想要进入端侧,仍需要全产业链的推动。
欢迎交流!