今天小編分享的科技經驗:面壁智能推出小鋼炮開源 MiniCPM3-4B AI 模型,歡迎閲讀。
IT 之家 9 月 6 日消息,面壁智能官方公眾号昨日(9 月 5 日)發布博文,宣布推出開源 MiniCPM3-4B AI 模型,聲稱 " 端側 ChatGPT 時刻到來 "。
IT 之家附上 MiniCPM 3.0 開源地址:
MiniCPM3-4B 是 MiniCPM 系列的第三代產品,整體性能超過了 Phi-3.5-mini-Instruct 和 GPT-3.5-Turbo-0125,媲美多款 70 億 ~90 億參數的 AI 模型。
相比 MiniCPM1.0 / MiniCPM2.0,MiniCPM3-4B 擁有更強大、更多用途的技能集,可用于更廣泛的用途。MiniCPM3-4B 支持函數調用和代碼解釋器。
下面是 3 個版本的模型結構(1->2->3)的區别:
詞表大小:123K->73K->73K
模型層數:40->52->62
隐藏層節點:2304->1536->2560
最大長度:4k->4K->32k
系統提示詞:不支持 -> 不支持 -> 支持
工具調用和代碼解釋器:不支持 -> 不支持 -> 支持
MiniCPM3-4B 有一個 32k 上下文視窗。MiniCPM3-4B 借助 LLMxMapReduce,不需要占用太高的内存,可以處理理論上的無限上下文。
面壁智能還發布了 RAG 套件 MiniCPM-Embedding 模型和 MiniCPM-Reranker 模型,針對 RAG 場景還發布了微調版 MiniCPM3-RAG-LoRA 模型。