面壁智能發布20億開源端側模型，稱部分超越美國Llama 2能力

今天小編分享的互聯網經驗：面壁智能發布20億開源端側模型，稱部分超越美國Llama 2能力，歡迎閱讀。

國内 AI 大模型技術正加速演進。

钛媒體 App 獲悉，今年 2 月 1 日，清華系 AI 公司 " 面壁智能 " 在北京發布會上推出 20 億參數的開源端側模型 MiniCPM。

面壁智能表示，在多個主流評測榜單中，該模型中英文均分超過目前較為領先的歐洲 Mistral-7B 開源模型，而且在同等規模模型中，相比 Llama 2-13B、甚至一些 400 億參數級量級模型，面壁 MiniCPM 在代碼、數學能力等方面也 " 毫不遜色 "。該公司稱，該模型支持消費級顯卡如英偉達 1080Ti 參數微調，以及主流手機處理器端側推理。

面壁智能聯合創始人、CEO 李大海表示，MiniCPM 是迄今最強的旗艦端側模型。而此次是面壁 " 大模型 +Agent " 雙引擎戰略的關鍵一步。公司堅定認為智能體化是未來邁向通用智能的必由之路，而智能體必然要在端側服務用戶，面壁接下來會進一步探索 Agent + 雲端協同的工作機制，實現智能賦能萬物。

李大海向钛媒體 App 強調，公司正在和手機廠商商談合作，在手機智能語音中内置 MiniCPM 是一個實用場景。

" 目前面壁的整體商業收入來源主要是 To B（企業）端，包括招商銀行，西門子，易車網等标杆客戶，場景集中在金融、營銷等領網域。" 李大海對钛媒體 App 表示。

面壁智能 CEO 李大海

據悉，面壁智能成立于 2022 年 8 月，總部位于北京，公司深耕通用 AI 領網域，專注大模型技術創新與應用轉化。面壁已面向公眾發布千億多模态大模型對話助手 " 面壁露卡 Luca"。截至目前，公司正規劃構建 Al Agent 智能體協作平台。

面壁智能創始團隊主要來自于清華大學自然語言處理實驗室（THUNLP），公司 CEO 李大海還是知乎 CTO（首席技術官）；另一位公司聯合創始人劉知遠，則是清華大學計算機系副教授、博士生導師，研究方向為計算機自然語言處理；公司董事、CTO 曾國洋為智源悟道 · 文源中文預訓練模型團隊骨幹成員。

人才方面，據李大海介紹，截至目前，面壁智能科研團隊有 100 多人，含清華、北大畢業的員工數量占比高達 80%，平均年齡僅為 28 歲，而且工程團隊還有來自阿裡、字節、百度等國内外知名公司的 AI 人才。

李大海透露，他和劉知遠教授的分工主要是，李大海全面負責公司戰略層面的制定以及日常管理，劉知遠更關注面壁智能的技術戰略的中長期演進，以及模型訓練、技術層面積累等方面。

融資方面，去年 4 月，面壁智能公開了一輪天使輪融資，由知乎領投，智譜 AI 為跟投方。

技術產品方面，To C 消費端，面壁智能的基座模型產品 " 面壁露卡 Luca" 已獲審批并對外開放，以及最新的一款 AI 移動應用 " 心間 "。李大海表示，面壁 MiniCPM、多模态開源模型 OmniLMM 等面壁 B 端技術產品，都是基于公司千億級模型研發路線延伸，将淬煉化的大模型訓練方法下放至小模型訓練中，實現高效低成本模型訓練與應用，面壁 Agent 產品也将會于今年陸續對外公布。

面壁團隊認為，MiniCPM 的市場競争優勢主要有三點：一、算法優化，自創 " 模型沙盒 " 實驗，高效訓模；二、成本優化，支持在 CPU 上跑推理、在消費級顯卡上做高效訓練與微調；三、數據治理，已經形成從數據治理到多維評測的閉環，牽引模型快速迭代。

對于 MiniCPM 的算力成本優化，李大海表示，MiniCPM 背後主要是技術層面實現了全流程高效 AI infra（推理框架）10 倍推理加速，成本降低 90%。

他在現場以演示的 OPPO Find N3 折疊屏手機為例，MiniCPM 利用高通骁龍 855 芯片，成本約為 600 元，按運行 5 年計算，每秒 7.5 tokens，那麼 170 萬 tokens 的推理成本僅需人民币 1 元，是歐洲開源模型 Mistral-Medium 的百分之一。另外，面壁正在就最近一兩年上市的智能手機做測試，從而更廣泛應用于移動設備中。

去年 3 月，歐洲開源模型 Mistral-7B 橫空出世，以 70 億參數打敗了百億參數的開源模型霸主 Meta Llama 2，成為大模型領網域 " 以小搏大 " 的典型案例。而面壁智能方面表示，新的 MiniCPM 模型僅用 20 億參數規模、1T Tokens 精選數據，中英文平均成績均超越 70 億參數的 Mistral-7B，中文和通用能力超過微軟明星模型 Phi-2（蒸餾 GPT-4）。

" 端側模型有全天候低成本的特點，雲端協同更難更復雜。目前這一端側模型能用同樣數據達到遠超同等雲端模型效果，而且有更強的商業意義。" 李大海解釋面壁智能為何要做端側模型。

清華大學計算機系長聘副教授、面壁智能聯合創始人劉知遠表示，他希望這個端側模型能讓更多人意識到，即便是 20 億參數尺寸的模型，能達到的能力上限仍遠超想象。就像造船舶和飛機有流體力學的支持，其團隊致力于将大模型研究科學化，這是真正讓它實現商業化與可持續發展的重要動力。

圖左是李大海，圖右是清華大學副教授、面壁智能聯合創始人劉知遠

除了 MiniCPM 模型之外，面壁智能還在現場公布了 120 億參數的多模态大模型面壁 OmniLMM，目前是開源社區最強多模态模型之一，所有發布模型均已開源。

2 月 2 日的群訪交流中，李大海表示，目前面壁規劃的 MiniCPM 商業化主要是一方面通過開源為行業做貢獻、建立影響力。另一方面，MiniCPM 也會在商業層面進行合作授權，由于單個模型成本、研發成本都比較低，可以用作更多行業模型的訓練以及推理。

李大海透露，2024 年，面壁将持續提升端側大模型能力，同時依然會訓練基座模型能力，去挑戰 GPT-4，" 這是非常明确的 "。另外，面壁還将用 Agent 來解決大模型落地的最後一公裡，極大提升模型落地效率。

所謂 Agent，就是在大語言模型（LLM）技術下，Agent 可以理解為某種能自主理解、規劃決策、執行復雜任務的智能體。用感知（Perception）、規劃（Planning）和行動（Action）實現人的智能互動。OpenAI 聯合創始人 Andrej Karpathy 曾表示，"AI Agent 代表着一個瘋狂的未來。" 目前，國内字節、面壁、智譜 AI 等企業都在投入 AI Agent 技術產品研發當中。

" 我對于我們的模型能力提升蠻有信心的，未來我将會更加關注模型的落地應用問題。" 李大海表示，今年全行業将更重視應用落地，這是一個大的趨勢。而面壁堅信，通用人工智能（AGI）是需要長期努力的目标，如同 " 馬拉松比賽 " 一樣，需要不斷實現技術積累，以及更多更強的模型產品等。

談及國内大模型行業 " 百模大戰 " 之後的發展趨勢，李大海表示，盡管很難預測未來行業發展，但他認為，随着時間推移，公司會有 " 分層 "，大模型應用可能會 " 百花齊放 "，然而通用基座（千億）大模型不會太多，可能只有極少數的幾家公司最終能 " 突出重圍 "。

" 回到行業格局上來看，我們去回顧歷史上每一次技術浪潮，和每一次行業機會，其實都會誕生出這個技術浪潮對應的原生公司，并且成為偉大的公司。AI 大模型本身既是產品，又是技術。而作為一個技術，現在但凡和大模型沾邊的公司都聲稱在做大模型，但我認為，這并不應該把它分類到大模型公司，更多還是某個場景的應用落地。我相信，逐步有些公司會更多往‘應用層’去發展，然而，我們相信，基座類型的大模型公司不會太多，雖然不會只有一家，但具體是幾家我們也不清楚，這個是很難預測的一件事情。" 李大海對钛媒體 App 表示。

李大海在演講中強調，面壁智能在大模型能力上有很深厚的技術積累。未來，面壁希望發揮一定優勢，推動行業邁向 AGI 的速度快一些，使得 AGI 技術讓人們生活變得更好。

（本文首發钛媒體 App，作者｜林志佳）