2GB 内存就能跑 ChatGPT！这个国产「小钢炮」，要让华为 OV 们的 AI 体验突破瓶颈

今天小编分享的科技经验：2GB 内存就能跑 ChatGPT！这个国产「小钢炮」，要让华为 OV 们的 AI 体验突破瓶颈，欢迎阅读。

在这波 AI 浪潮中，面壁智能是国内少有选择 All In 端侧模型的头部大模型厂商。

自从面壁智能 2 月份发布性能小钢炮 1.0 后，接连几月陆续迭代更新，其中后续推出的开源模型 MiniCPM-Llama3-V 2.5 更是因为强悍的实力遭到了斯坦福 AI 团队的抄袭。

四月份，面壁智能 CTO 曾国洋还曾预言，GPT-3.5 级别的模型将在一两年内就能在移动设备上运行。

好消息是，不用再等一到两年了，因为今天发布的 MiniCPM 3.0 实现了初代小钢炮发布时立下的 Flag：今年内让 GPT-3.5 水平的模型在端侧跑起来。

仅 4B 参数，以小博大，性能超越 GPT-3.5，MiniCPM 3.0 也标志着「端侧 ChatGPT」时刻的到来。

简单来说就是，MiniCPM 3.0 的面世意味着用户未来能体验到快速、安全、且功能丰富的本地 AI 服务，无需依赖云端处理，以及获得更流畅、更私密的智能互動体验。

从官方分享的基准测试来看，MiniCPM 3.0 在 CMMLU、CEVAL 等考究中文能力的基准测试中一骑绝尘，轻松碾压 Phi-3.5、以及 GPT-3.5 等模型。

而即便是对上了 8B、9B 等国内优秀的大模型，MiniCPM 3.0 的表现同样相当出众。

简单总结一下 MiniCPM 3.0 的特点：

无限长文本，榜单性能超越 Kimi

端侧最强 Function call，性能比肩 GPT-4o

超强的 RAG 外挂三件套，中文检索、中英跨语言第一

无限长文本，性能超越 Kimi

小而强、小而全，或许是 MiniCPM 3.0 最贴切的形容词。

上下文长度是衡量大模型基础能力的一项重要特性，更长的上下文长度意味着模型能够存储和回忆更多的信息，从而有助于模型更准确地理解和生成语言。

举例来说，更长的上下文长度能够让一个 AI 写作工具根据用户之前写的内容提供更相关的建议，或者根据更多的背景信息创作出更复杂、更引人入胜的故事。

为此，面壁提出了 LLMxMapReduce 长本文分帧处理技术。

这是一种通过将长上下文切分为多个片段，让模型并行处理，并从不同片段中提取关键信息，汇总最终答案，实现无限长文本。

据悉，这一技术普遍增强了模型处理长文本的能力，且在文本不断加长的情况，仍保持稳定性能、减少长文本随加长掉分情况。

▲ LLMxMapReduce 技术框架图

从 32K 到 512K，MiniCPM 3.0 能够打破大模型记忆的限制，将上下文长度无限稳定拓展，用面壁官方的话来说就是「想多长就多长」。

从大模型长文本的基准测试 InfiniteBench 结果来看，随着文本长度的增加，4B 参数的 MiniCPM 3.0 的性能优势反而愈发明显。

InfiniteBench Zh.QA 评测结果显示，4B 参数的 MiniCPM 3.0 整体性能优于 Kimi，在更长的文本上显示出相对更强的稳定性。

端侧最强 Function call，性能比肩 GPT-4o

在接受 APPSO 等媒体的采访时，曾国洋也表示，MiniCPM 3.0 针对用户关注的一些能力进行了提升，比如加入了完整的 system prompt Function Calling 和 code interpreter 等能力。

其中 Function Calling（函数调用）能够将用户模糊化的输入语义转换为机器可以精确理解执行的结构化指令，并让大模型连接外部工具和系统。

具体来说，通过语音在手机上调用日历、天气、邮件、浏览器等 APP 或相册、檔案等本地数据库，从而打开终端设备 Agent 应用的无限可能，也让人机互動更加自然和方便。

据介绍，MiniCPM 3.0 宣称拥有端侧最强 Function Calling 性能，在 Berkeley Function-Calling Leaderboard 榜单上，其性能接近 GPT-4o，并超越 Llama 3.1-8B、Qwen-2-7B、GLM-4-9B 等众多模型。

曾国洋表示，现有的开源模型在这些能力上的覆盖并不全面，通常只有一些云端的大型模型能够完全覆盖这些能力。现在，MiniCPM 3.0 也实现了一些相应的功能。

以 RAG（检索增强生成）为例，这是一种结合了信息检索（IR）和自然语言生成（NLG）的技术。

它通过从大规模文档库中检索相关信息来指导文本的生成过程，能够提升模型在回答问题、生成文本等任务中的准确性和可靠性，减少大模型的幻觉问题。

对于法律、医疗等依赖专业知识库、对大模型幻觉容忍度极低的垂直行业来说，大模型 +RAG 在行业中尤其实用。

MiniCPM 3.0 一口气上线了 RAG 三件套：检索模型，重排序模型和面向 RAG 场景的 LoRA 插件。

MiniCPM-Embedding（检索模型）中英跨语言检索取得 SOTA 性能，在评估模型文本嵌入能力的 MTEB 的检索榜单上中文第一、英文第十三。

MiniCPM-Reranker（重排序模型）在中文、英文、中英跨语言测试上取得 SOTA 性能。

经过针对 RAG 场景的 LoRA 训练后，MiniCPM 3.0-RAG-LoRA 在开放網域问答（NQ、TQA、MARCO）、多跳问答（HotpotQA）、对话（WoW）、事实核查（FEVER）和信息填充（T-REx）等多项任务上的性能表现，超越 Llama3-8B 和 Baichuan2-13B 等业内优秀模型。

模型应用落地，先跑起来再说

在接受 APPSO 等媒体的采访时，面壁智能 CEO 李大海提到，能跑起来和真正流畅地去做应用是两个不同的概念。

而经过优化后的 MiniCPM 3.0 对端侧设备的资源需求很低，量化后仅需 2.2 G 内存，iPad 端侧推理也能达到 18-20 tokens/s。

对于 iPad 这样的移动设备来说，每秒能够处理 18-20 个 token 的速度已经意味着模型能够实时处理自然语言输入。

比如在语音识别或实时翻译应用中，用户基本不会感受到明显的延迟，享受到相对流畅的互動体验。

另外，相较于云端模型，作为端侧模型的面壁小钢炮 MiniCPM 系列模型还天然具有弱网、断网可用、超低时延、数据隐私安全等本地优势。