今天小編分享的科技經驗:面壁智能完成新一輪數億元融資,發布性能小鋼炮 MiniCPM 第二彈,歡迎閱讀。
以小博大的勵志故事不只發生在創業歷史上,也發生在端側大模型上。
今年 2 月份,面壁智能正式發布了 2B 旗艦端側大模型面壁 MiniCPM,不僅超越了來自「歐洲版 OpenAI」的性能标杆之作,同時整體領先于 Google Gemma 2B 量級,還越級比肩 7B、13B 量級模型,如 Llama2-13B 等。
近日,面壁智能也完成新一輪數億元融資,由春花創投、華為哈勃領投,北京市人工智能產業投資基金等跟投,知乎作為戰略股東持續跟投支持,致力于加快推動大模型高效訓練、快步應用落地。
今天端側大模型面壁 MiniCPM 小鋼炮乘勝追擊,迎來了第二彈的四連發,主打的就是「小而強,小而全」。
其中,MiniCPM-V2.0 多模态模型顯著增強了 OCR 能力,刷新開源模型最佳 OCR 表現,通用場景文字比肩 Gemini-Pro、超越全系 13B 量級模型。
在評估大模型幻覺的 Object HalBench 榜單中,MiniCPM-V2.0 與 GPT-4V 的表現幾乎持平。
在綜合 11 個主流評測基準的 OpenCompass 榜單中,MiniCPM-V2.0 多模态模型通用能力以 55.0 的得分越級超越 Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-VL-34B 等量級更大的模型。
在官方給出的演示案例中,當被要求詳細描述同一張圖片的場景時,GPT-4V 給出的回復出現了 6 處幻覺,而 MiniCPM-V2.0 僅存在 3 處。
此外,MiniCPM-V2.0 還與清華大學展開深度合作,共同探索清華大學博物館鎮館之寶——清華簡。
得益于強悍的多模态識别與推理能力,無論是簡單字「可」的識别還是復雜字「我」的識别,MiniCPM-V2.0 都能輕松應對。
在與同類中文标杆多模态大模型的較量中,MiniCPM-V2.0 的識别準确率更是遙遙領先。
精準細節的識别對圖片的清晰度提出更高要求,而傳統大模型通常只能處理 448x448 像素小圖,信息一旦被壓縮,模型便難以讀取。
但這可難不倒 MiniCPM-V2.0,在官方的演示案例中,面對尋常的一張城市街道場景圖片,MiniCPM-V2.0 一眼就能捕捉關鍵信息,甚至連肉眼都未能察覺的「Family Mart」也能被輕易捕捉。
長圖包含了豐富的文本信息,多模态模型識别長圖時往往力不從心 ,但 MiniCPM-V 2.0 卻能穩抓長圖重點信息。
從 448x448 像素,到 180 萬高清大圖,甚至 1:9 極限寬高比(448 * 4032),MiniCPM-V 2.0 都能做到無損識别。
據了解,MiniCPM-V 2.0 高清影像高效編碼的背後其實是用到了獨家技術 LLaVA-UHD。
模塊化視覺編碼:原始分辨率影像劃分為可變大小切片,無需像素填充或影像變形實現對原始分辨率的完全适應性。
視覺壓縮模塊:使用共享感知器重采樣層壓縮影像切片的視覺 tokens,不管分辨率多少 token 數量都可負擔,計算量更低
空間修飾方法:使用自然語言符号的簡單模式,有效告知影像切片的相對位置。
在中⽂ OCR 能⼒上,MiniCPM-V 2.0 同樣顯著超越 GPT-4V。對比 GPT-4V 的「愛莫能助」,精準識别圖片的它更顯難能可貴。
而這一能力的背後得益于跨模态跨語言泛化技術的加持,其能夠解決中文領網域缺乏高質量、大規模多模态數據的挑戰。
長文本處理的能力一直是衡量模型的重要标準。
雖然 128K 長文本能力已經不是什麼新鮮事,但對于只有 2B 的 MiniCPM-2B-128K,這絕對是一件值得誇獎的事情。
最小的 128K 長文本、MiniCPM-2B-128K 長文本模型,将原有的 4K 上下文視窗擴展到了 128K,在 InfiniteBench 榜單超越 Yarn-Mistral-7B-128K 等一眾 7B 量級模型。
通過引入 MoE 架構,新發布的 MiniCPM-MoE-8x2B MoE 性能平均提⾼ 4.5%,超越了全系 7B 量級模型,及 LlaMA234B 等更大模型,而推理成本僅為 Gemma-7B 的 69.7%。
MiniCPM-1.2B 則證明了「小」和「強」并非魚和熊掌不可兼得。
雖然直接參數減少一半,但 MiniCPM-1.2B 仍保持上一代 2.4B 模型 87% 的綜合性能,在多個公開權威測試榜單上,1.2B 模型非常能打,取得了綜合性能超過 Qwen 1.8B、Llama 2-7B 甚至 Llama 2-13B 的優異成績。
在 iPhone 15 手機上對 MiniCPM-1.2B 模型的錄屏演示,推理速度提升 38%。達到了每秒 25 token/s,是人說話速度的 15~25 倍,同時内存減少 51.9%,成本下降 60%,實現模型更小,但使用場景卻大大增多了。
在一眾追求大參數模型的征途中,面壁智能選擇了一條與眾不同的技術路徑——盡可能研發體積更小、性能更強的模型。
而面壁 MiniCPM 小鋼炮的出色表現,充分證明了「小」與「強」、「小」與「全」并不是互斥的屬性,而是可以和諧共存的。我們也期待,未來能有更多這樣的模型出現。