今天小編分享的互聯網經驗:面壁智能發布20億開源端側模型,稱部分超越美國Llama 2能力,歡迎閱讀。
國内 AI 大模型技術正加速演進。
钛媒體 App 獲悉,今年 2 月 1 日,清華系 AI 公司 " 面壁智能 " 在北京發布會上推出 20 億參數的開源端側模型 MiniCPM。
面壁智能表示,在多個主流評測榜單中,該模型中英文均分超過目前較為領先的歐洲 Mistral-7B 開源模型,而且在同等規模模型中,相比 Llama 2-13B、甚至一些 400 億參數級量級模型,面壁 MiniCPM 在代碼、數學能力等方面也 " 毫不遜色 "。該公司稱,該模型支持消費級顯卡如英偉達 1080Ti 參數微調,以及主流手機處理器端側推理。
面壁智能聯合創始人、CEO 李大海表示,MiniCPM 是迄今最強的旗艦端側模型。而此次是面壁 " 大模型 +Agent " 雙引擎戰略的關鍵一步。公司堅定認為智能體化是未來邁向通用智能的必由之路,而智能體必然要在端側服務用戶,面壁接下來會進一步探索 Agent + 雲端協同的工作機制,實現智能賦能萬物。
李大海向钛媒體 App 強調,公司正在和手機廠商商談合作,在手機智能語音中内置 MiniCPM 是一個實用場景。
" 目前面壁的整體商業收入來源主要是 To B(企業)端,包括招商銀行,西門子,易車網等标杆客戶,場景集中在金融、營銷等領網域。" 李大海對钛媒體 App 表示。
面壁智能 CEO 李大海
據悉,面壁智能成立于 2022 年 8 月,總部位于北京,公司深耕通用 AI 領網域,專注大模型技術創新與應用轉化。面壁已面向公眾發布千億多模态大模型對話助手 " 面壁露卡 Luca"。截至目前,公司正規劃構建 Al Agent 智能體協作平台。
面壁智能創始團隊主要來自于清華大學自然語言處理實驗室(THUNLP),公司 CEO 李大海還是知乎 CTO(首席技術官);另一位公司聯合創始人劉知遠,則是清華大學計算機系副教授、博士生導師,研究方向為計算機自然語言處理;公司董事、CTO 曾國洋為智源悟道 · 文源中文預訓練模型團隊骨幹成員。
人才方面,據李大海介紹,截至目前,面壁智能科研團隊有 100 多人,含清華、北大畢業的員工數量占比高達 80%,平均年齡僅為 28 歲,而且工程團隊還有來自阿裡、字節、百度等國内外知名公司的 AI 人才。
李大海透露,他和劉知遠教授的分工主要是,李大海全面負責公司戰略層面的制定以及日常管理,劉知遠更關注面壁智能的技術戰略的中長期演進,以及模型訓練、技術層面積累等方面。
融資方面,去年 4 月,面壁智能公開了一輪天使輪融資,由知乎領投,智譜 AI 為跟投方。
技術產品方面,To C 消費端,面壁智能的基座模型產品 " 面壁露卡 Luca" 已獲審批并對外開放,以及最新的一款 AI 移動應用 " 心間 "。李大海表示,面壁 MiniCPM、多模态開源模型 OmniLMM 等面壁 B 端技術產品,都是基于公司千億級模型研發路線延伸,将淬煉化的大模型訓練方法下放至小模型訓練中,實現高效低成本模型訓練與應用,面壁 Agent 產品也将會于今年陸續對外公布。
面壁團隊認為,MiniCPM 的市場競争優勢主要有三點:一、算法優化,自創 " 模型沙盒 " 實驗,高效訓模;二、成本優化,支持在 CPU 上跑推理、在消費級顯卡上做高效訓練與微調;三、數據治理,已經形成從數據治理到多維評測的閉環,牽引模型快速迭代。
對于 MiniCPM 的算力成本優化,李大海表示,MiniCPM 背後主要是技術層面實現了全流程高效 AI infra(推理框架)10 倍推理加速,成本降低 90%。
他在現場以演示的 OPPO Find N3 折疊屏手機為例,MiniCPM 利用高通骁龍 855 芯片,成本約為 600 元,按運行 5 年計算,每秒 7.5 tokens,那麼 170 萬 tokens 的推理成本僅需人民币 1 元,是歐洲開源模型 Mistral-Medium 的百分之一。另外,面壁正在就最近一兩年上市的智能手機做測試,從而更廣泛應用于移動設備中。
去年 3 月,歐洲開源模型 Mistral-7B 橫空出世,以 70 億參數打敗了百億參數的開源模型霸主 Meta Llama 2,成為大模型領網域 " 以小搏大 " 的典型案例。而面壁智能方面表示,新的 MiniCPM 模型僅用 20 億參數規模、1T Tokens 精選數據,中英文平均成績均超越 70 億參數的 Mistral-7B,中文和通用能力超過微軟明星模型 Phi-2(蒸餾 GPT-4)。
" 端側模型有全天候低成本的特點,雲端協同更難更復雜。目前這一端側模型能用同樣數據達到遠超同等雲端模型效果,而且有更強的商業意義。" 李大海解釋面壁智能為何要做端側模型。
清華大學計算機系長聘副教授、面壁智能聯合創始人劉知遠表示,他希望這個端側模型能讓更多人意識到,即便是 20 億參數尺寸的模型,能達到的能力上限仍遠超想象。就像造船舶和飛機有流體力學的支持,其團隊致力于将大模型研究科學化,這是真正讓它實現商業化與可持續發展的重要動力。
圖左是李大海,圖右是清華大學副教授、面壁智能聯合創始人劉知遠
除了 MiniCPM 模型之外,面壁智能還在現場公布了 120 億參數的多模态大模型面壁 OmniLMM,目前是開源社區最強多模态模型之一,所有發布模型均已開源。
2 月 2 日的群訪交流中,李大海表示,目前面壁規劃的 MiniCPM 商業化主要是一方面通過開源為行業做貢獻、建立影響力。另一方面,MiniCPM 也會在商業層面進行合作授權,由于單個模型成本、研發成本都比較低,可以用作更多行業模型的訓練以及推理。
李大海透露,2024 年,面壁将持續提升端側大模型能力,同時依然會訓練基座模型能力,去挑戰 GPT-4," 這是非常明确的 "。另外,面壁還将用 Agent 來解決大模型落地的最後一公裡,極大提升模型落地效率。
所謂 Agent,就是在大語言模型(LLM)技術下,Agent 可以理解為某種能自主理解、規劃決策、執行復雜任務的智能體。用感知(Perception)、規劃(Planning)和行動(Action)實現人的智能互動。OpenAI 聯合創始人 Andrej Karpathy 曾表示,"AI Agent 代表着一個瘋狂的未來。" 目前,國内字節、面壁、智譜 AI 等企業都在投入 AI Agent 技術產品研發當中。
" 我對于我們的模型能力提升蠻有信心的,未來我将會更加關注模型的落地應用問題。" 李大海表示,今年全行業将更重視應用落地,這是一個大的趨勢。而面壁堅信,通用人工智能(AGI)是需要長期努力的目标,如同 " 馬拉松比賽 " 一樣,需要不斷實現技術積累,以及更多更強的模型產品等。
談及國内大模型行業 " 百模大戰 " 之後的發展趨勢,李大海表示,盡管很難預測未來行業發展,但他認為,随着時間推移,公司會有 " 分層 ",大模型應用可能會 " 百花齊放 ",然而通用基座(千億)大模型不會太多,可能只有極少數的幾家公司最終能 " 突出重圍 "。
" 回到行業格局上來看,我們去回顧歷史上每一次技術浪潮,和每一次行業機會,其實都會誕生出這個技術浪潮對應的原生公司,并且成為偉大的公司。AI 大模型本身既是產品,又是技術。而作為一個技術,現在但凡和大模型沾邊的公司都聲稱在做大模型,但我認為,這并不應該把它分類到大模型公司,更多還是某個場景的應用落地。我相信,逐步有些公司會更多往‘應用層’去發展,然而,我們相信,基座類型的大模型公司不會太多,雖然不會只有一家,但具體是幾家我們也不清楚,這個是很難預測的一件事情。" 李大海對钛媒體 App 表示。
李大海在演講中強調,面壁智能在大模型能力上有很深厚的技術積累。未來,面壁希望發揮一定優勢,推動行業邁向 AGI 的速度快一些,使得 AGI 技術讓人們生活變得更好。
(本文首發钛媒體 App,作者|林志佳)