2GB 内存就能跑 ChatGPT！這個國產「小鋼炮」，要讓華為 OV 們的 AI 體驗突破瓶頸

今天小編分享的科技經驗：2GB 内存就能跑 ChatGPT！這個國產「小鋼炮」，要讓華為 OV 們的 AI 體驗突破瓶頸，歡迎閱讀。

在這波 AI 浪潮中，面壁智能是國内少有選擇 All In 端側模型的頭部大模型廠商。

自從面壁智能 2 月份發布性能小鋼炮 1.0 後，接連幾月陸續迭代更新，其中後續推出的開源模型 MiniCPM-Llama3-V 2.5 更是因為強悍的實力遭到了斯坦福 AI 團隊的抄襲。

四月份，面壁智能 CTO 曾國洋還曾預言，GPT-3.5 級别的模型将在一兩年内就能在移動設備上運行。

好消息是，不用再等一到兩年了，因為今天發布的 MiniCPM 3.0 實現了初代小鋼炮發布時立下的 Flag：今年内讓 GPT-3.5 水平的模型在端側跑起來。

僅 4B 參數，以小博大，性能超越 GPT-3.5，MiniCPM 3.0 也标志着「端側 ChatGPT」時刻的到來。

簡單來說就是，MiniCPM 3.0 的面世意味着用戶未來能體驗到快速、安全、且功能豐富的本地 AI 服務，無需依賴雲端處理，以及獲得更流暢、更私密的智能互動體驗。

從官方分享的基準測試來看，MiniCPM 3.0 在 CMMLU、CEVAL 等考究中文能力的基準測試中一騎絕塵，輕松碾壓 Phi-3.5、以及 GPT-3.5 等模型。

而即便是對上了 8B、9B 等國内優秀的大模型，MiniCPM 3.0 的表現同樣相當出眾。

簡單總結一下 MiniCPM 3.0 的特點：

無限長文本，榜單性能超越 Kimi

端側最強 Function call，性能比肩 GPT-4o

超強的 RAG 外挂三件套，中文檢索、中英跨語言第一

無限長文本，性能超越 Kimi

小而強、小而全，或許是 MiniCPM 3.0 最貼切的形容詞。

上下文長度是衡量大模型基礎能力的一項重要特性，更長的上下文長度意味着模型能夠存儲和回憶更多的信息，從而有助于模型更準确地理解和生成語言。

舉例來說，更長的上下文長度能夠讓一個 AI 寫作工具根據用戶之前寫的内容提供更相關的建議，或者根據更多的背景信息創作出更復雜、更引人入勝的故事。

為此，面壁提出了 LLMxMapReduce 長本文分幀處理技術。

這是一種通過将長上下文切分為多個片段，讓模型并行處理，并從不同片段中提取關鍵信息，匯總最終答案，實現無限長文本。

據悉，這一技術普遍增強了模型處理長文本的能力，且在文本不斷加長的情況，仍保持穩定性能、減少長文本随加長掉分情況。

▲ LLMxMapReduce 技術框架圖

從 32K 到 512K，MiniCPM 3.0 能夠打破大模型記憶的限制，将上下文長度無限穩定拓展，用面壁官方的話來說就是「想多長就多長」。

從大模型長文本的基準測試 InfiniteBench 結果來看，随着文本長度的增加，4B 參數的 MiniCPM 3.0 的性能優勢反而愈發明顯。

InfiniteBench Zh.QA 評測結果顯示，4B 參數的 MiniCPM 3.0 整體性能優于 Kimi，在更長的文本上顯示出相對更強的穩定性。

端側最強 Function call，性能比肩 GPT-4o

在接受 APPSO 等媒體的采訪時，曾國洋也表示，MiniCPM 3.0 針對用戶關注的一些能力進行了提升，比如加入了完整的 system prompt Function Calling 和 code interpreter 等能力。

其中 Function Calling（函數調用）能夠将用戶模糊化的輸入語義轉換為機器可以精确理解執行的結構化指令，并讓大模型連接外部工具和系統。

具體來說，通過語音在手機上調用日歷、天氣、郵件、浏覽器等 APP 或相冊、檔案等本地數據庫，從而打開終端設備 Agent 應用的無限可能，也讓人機互動更加自然和方便。

據介紹，MiniCPM 3.0 宣稱擁有端側最強 Function Calling 性能，在 Berkeley Function-Calling Leaderboard 榜單上，其性能接近 GPT-4o，并超越 Llama 3.1-8B、Qwen-2-7B、GLM-4-9B 等眾多模型。

曾國洋表示，現有的開源模型在這些能力上的覆蓋并不全面，通常只有一些雲端的大型模型能夠完全覆蓋這些能力。現在，MiniCPM 3.0 也實現了一些相應的功能。

以 RAG（檢索增強生成）為例，這是一種結合了信息檢索（IR）和自然語言生成（NLG）的技術。

它通過從大規模文檔庫中檢索相關信息來指導文本的生成過程，能夠提升模型在回答問題、生成文本等任務中的準确性和可靠性，減少大模型的幻覺問題。

對于法律、醫療等依賴專業知識庫、對大模型幻覺容忍度極低的垂直行業來說，大模型 +RAG 在行業中尤其實用。

MiniCPM 3.0 一口氣上線了 RAG 三件套：檢索模型，重排序模型和面向 RAG 場景的 LoRA 插件。

MiniCPM-Embedding（檢索模型）中英跨語言檢索取得 SOTA 性能，在評估模型文本嵌入能力的 MTEB 的檢索榜單上中文第一、英文第十三。

MiniCPM-Reranker（重排序模型）在中文、英文、中英跨語言測試上取得 SOTA 性能。

經過針對 RAG 場景的 LoRA 訓練後，MiniCPM 3.0-RAG-LoRA 在開放網域問答（NQ、TQA、MARCO）、多跳問答（HotpotQA）、對話（WoW）、事實核查（FEVER）和信息填充（T-REx）等多項任務上的性能表現，超越 Llama3-8B 和 Baichuan2-13B 等業内優秀模型。

模型應用落地，先跑起來再說

在接受 APPSO 等媒體的采訪時，面壁智能 CEO 李大海提到，能跑起來和真正流暢地去做應用是兩個不同的概念。

而經過優化後的 MiniCPM 3.0 對端側設備的資源需求很低，量化後僅需 2.2 G 内存，iPad 端側推理也能達到 18-20 tokens/s。

對于 iPad 這樣的移動設備來說，每秒能夠處理 18-20 個 token 的速度已經意味着模型能夠實時處理自然語言輸入。

比如在語音識别或實時翻譯應用中，用戶基本不會感受到明顯的延遲，享受到相對流暢的互動體驗。

另外，相較于雲端模型，作為端側模型的面壁小鋼炮 MiniCPM 系列模型還天然具有弱網、斷網可用、超低時延、數據隐私安全等本地優勢。

在貢嘎雪山附近遊玩時，想知道欣賞「日照金山」的最佳姿勢，網絡不佳的你可以向 MiniCPM 3.0 發出提問。

又或者，如果你是「趕海」的新人，站在波濤洶湧的海岸邊，卻想要滿載而歸，那不妨可以遵循 MiniCPM 3.0 給出的建議。當你抬頭仰望夜空時，萌生了捕捉星軌的念頭，MiniCPM 3.0 也能給你将拍攝的細節娓娓道來。

MiniCPM 小鋼炮系列飛速進步的背後是一以貫之的高效大模型第一性原理。

面壁智能首席科學家劉知遠曾提出一個大模型時代的「摩爾定律」，即大模型的知識密度平均每 8 個月将提升一倍。

知識密度 = 模型能力 / 參與計算的模型參數

具體來說，随着模型知識密度的持續增強，2020 年 GPT-3 175B 能力到 2024 年 MiniCPM 2.4B 模型即可達到，2022 年底 ChatGPT 首次亮相内置的 GPT-3.5 到 2024 年 MiniCPM 3.0 模型即可達到。

基于此，如果說 MiniCPM 追求的是極致端側性能表現，那麼 MiniCPM-V 追求的是極致多模态創新表現，面壁小鋼炮的進步不是單方面的進步，而是端側雙旗艦的齊頭并進。

經過一兩年的技術摸索，AI 大模型正逐步進入落地應用的深水區。

李大海認為，大模型具有兩個大方向的價值，一個方向的價值叫做更新舊世界，第二個方向的價值則是發現新大陸。

比如蘋果整合 ChatGPT 服務到 Apple Intelligence 中便是一個典型的例證。

端側模型也是如此，通過在手機、汽車還有 PC 這樣的場景裡面，更适合做的事情是去服務好終端的廠商，然後讓終端廠商因為有了端側模型，整個系統層級的體驗也變得更好。

只不過，在技術到產品的驚險一躍中，廠商也需要投入大量時間來融合用戶需求與技術。

正如李大海所言，盡管移動互聯網自 iPhone 問世以來就已經存在，但真正大規模增長和被驗證的應用确實是數年後才開始湧現。

實際上，面壁智能也一直在探索落地應用的場景。

此前，面壁小鋼炮 MiniCPM 端側模型已經在 PC、平板、手機等領網域上實際運行。

前不久，面壁智能也在 WAIC 上聯手加速進化機器人，打造出完整「具身智能」的先驅方案，這也是業界首個高效端側模型運行在人形機器人的演示，理解、推理、并與物理世界互動的智能系統。

李大海也向 APPSO 等媒體劇透，預計在年底前将會有配備面壁智能端側模型的產品上市。

簡言之，面壁智能不斷将高效高性能大模型放到離用戶最近的地方，讓大模型的能力像電力一樣被随意調用、無處不在、普适且安全。

在這個過程，更多的人也能盡快地享受到大模型的價值和作用。

MiniCPM 3.0 開源地址：

GitHub:

https://github.com/OpenBMB/MiniCPM

HuggingFace: