大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

面壁不只要做中国Mistral,还要超过它

2024-04-13 简体 HK SG TW

今天小编分享的互联网经验:面壁不只要做中国Mistral,还要超过它,欢迎阅读。

时隔七十多天,面壁在发布了 MiniCPM-2B 后又带来四个特性鲜明的模型,同时它还官宣了数亿元的新融资。

此次融资由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。这是其成立后最大的一笔融资。这家常被拿来对标 Mistral 的公司,并不满足于只做一个 " 中国 Mistral",弹药充足后,它要把 " 打精锐 " 这件事进行到底了。

小而强,小而全:小钢炮四连发

今年二月初,面壁智能发布了 2B 参数的开源端侧模型 MiniCPM-2B,并称之为 " 小钢炮 ",在更小参数的基础上实现了 Mistral-7B、Llama2-13B 的性能。自发布以来,MiniCPM-2B 多次登顶 GitHub Trending,还收获了 HuggingFace 联合创始人 Thomas Wolf 的称赞。

时隔七十多天,面壁智能一次性发布了四个模型,我们来看看它们的表现。

多模态模型 MiniCPM-V 2.0

MiniCPM-V 2.0 是可部署在手机端的多模态大模型,规模只有 2.8B 左右,但在主流的评测中取得了很好的分数。OpenCompass 榜单,综合 11 个主流评测基准,通用能力超过 Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-LV-34B。

面壁智能特别强调了 MiniCPM-V 2.0 的幻觉概率很低,与持平 GPT-4V,在评估大模型幻觉的 Object HalBench 榜单上,MiniCPM-V 2.0 是 14.5%,GPT-4V 是 13.6%。

MiniCPM-V2.0 在 OCR 能力方面,场景图片文字识别榜单 TextVQA 超越了全系 13B 量级模型,比肩 Gemini Pro。MiniCPM-V2.0 还加强了对于长图的识别和理解,以及对各种尺寸图片的兼容进行了优化,支持从 448x448 像素,到 180 万像素的高清大图,也支持 1:9 的极限宽高比。

长文本模型 MiniCPM-2B-128K

长文本已然成为大模型的一种 " 标配 ",而 MiniCPM-2B-128K 用 2B 的规模实现了 128K 长文本能力,在 InfiniteBench 榜单的平均成绩超过 Yarn-Mistral-7B-128K、Yi-6B-200K、ChatGLM3-6B-128K、LWM-Text-128K,在 7B 以下的模型中做到了最好的表现。

" 长文本这件事情才刚刚开始,虽然是 2B 的模型,还是需要非常大的内存才能让模型跑起来,下一步会进一步做更加极致的技术探索,让长文本模型在端侧跑起来。"

MOE 版本 MiniCPM-MoE-8x2B MoE

MiniCPM-MoE-8x2B MoE,引入了 MoE 架构,性能增强,能让模型在原有基础上平均水平有 4.5% 的提高。相比完全从头开始训练,节省训练成本。通过 MOE 的方式,平均激活参数只有 4B,但是比 LiaMA2-34B、Gemma-7B 等模型效果都要好,推理成本仅为 Gemma-7B 的 69.7%。

" 更 Mini" 的 MiniCPM-1.2B

MiniCPM-1.2B 参数减少了一半,而能够保持仍保持上一代 2.4B 模型 87% 的综合性能,这其中涉及许多优化,例如把词表中不高频的词替换。在多个榜单测试中,MiniCPM-1.2B 综合性能超过 Qwen1.8B、llama2-7B,甚至超过 llama2-13B。

通过让 1.2B 的模型效果超过了 1.8B 的模型,实现了手机端 25tokens/s。随着模型的变小,成本、和内存占用也随之降低,相比于 MiniCPM-2.4B,MiniCPM-1.2B 内存减少 51.9%,成本下降 60%。

" 模型小了,使用场景大了 "。MiniCPM-1.2B 除了能够支持配置更低的手机,在诸如情感陪护、实时翻译等应用场景都有着广泛的应用。" 他们对于更小更强的模型都是非常期待的 "。

不止于 " 中国版 Mistral"

面壁智能 CEO 李大海将此次发布的系列模型总结为 " 小而强,小而全 ",并再次强调了面壁智能的底层逻辑:一家追求高效大模型的公司。这很容易让人联想到同样是追求高效,同样做小参数高性能模型,同样受到开源社区追捧的 " 欧洲 Open AI"Mistral。

不过面壁智能显然不想只是做第二家 Mistral,这家聚集了中国最早一批研究大模型的技术人员的公司有着自己鲜明的技术判断和产品路线。

面壁智能高效训练的方法论体现在模型训练实验科学化的思路上,在基础设施上,面壁智能很早就自研了 BMTrain 等框架来支撑大模型的训练,从而降低训练成本。

在算法层面上,面壁智能通过进行大量的 " 沙盒实验 ",对模型批次大小、超参数配置等最优训练配置进行了探索,从理论上寻找最优解,用更小的成本和代价去搞清楚规律。比如在较小参数的模型上做大量沙盒实验,通过科学化实验化的 " 炼丹 ",用小模型预估更大规模参数模型的性能、参数方案,最终实现以小博大。

" 持续研究更好的 ScalingLaw,用更大的模型压缩效果,用更少的数据训练出更好的模型、更小的模型。"

此外,在基础模型之外,面壁的另一个重点方向在 AI Agent,这也与 Mistral 很不同。

面壁智能是最早进行 Agent 研究的团队之一,ChatDev 是面壁智能联合 OpenBMB 及清华大学 NLP 实验室开源的大模型 +Agent 项目,ChatDev 就像是多个 Agent 协作运营的軟體开发公司,用户指定需求后,不同角色的 Agent 进行互動式协同,产出包括源代码、环境依赖说明书、用户手册在内的完整軟體。通过多智能体协作,可以在现有模型中产生更好的效果。这也就是吴恩达近期在红杉 AI 峰会上所说的 GPT3.5 + Agentic Workflow >GPT4,实际上,吴恩达在演讲中直接使用了 ChatDev 作为案例。

Agent 是面壁智能商业化的重要突破口,ChatDev 也从论文研究、开源产品,开始走向了商业化,面壁智能推出了 AI Agent 的 SaaS 化产品 ChatDev,尝试帮助軟體开发者和创业者以更低成本和门槛完成軟體开发工作。与此同时,面壁智能也在探索大模型 +Agent 在金融、教育、政务、智能终端等场景的商业应用落地。

OpenAI 用大力出奇迹提供了一条通往 AGI 的路径,但抵达彼岸的方法并非只有一条。在疯狂烧钱拼算力的大模型行业,仅靠单一维度的提升会出现瓶颈,而且这种提升可能会受到边际效益递减的影响。面壁智能用实验科学的方式做基础模型研究,强调高效,某种程度上追求的是一种 " 性价比 "。在相同资源的情况下,面壁可以利用 " 高效 " 的杠杆获得更高的收益。MiniCPM 系列模型已经证明了在相同的资源内把模型做得更好是可行的,接下来可以期待面壁延续这个思路,拿出 GPT-4 级别的模型产品。

相较之下,Mistral 虽然在推出了号称挑战 GPT-4 的大模型产品,但不仅在商业模式上越来越却像 OpenAI,Mistral Large 也不再开源,这让人开始质疑,拿了微软投资之后的 Mistral,是否走上了 OpenAI 的老路,最终成为微软的又一个 " 附庸 "。

如果说追求高效是面壁智能和 Mistral 相同之处,而对于 Agent 的研究投入和积累,又让面壁这家公司拥有了不同的商业化道路。从网站到 App,我们见证了互联网原生应用主要载体的变迁,在 AI 时代,Agent 具备了新的潜力,小钢炮们又成为挖掘这种潜力的最佳载体。

从对标 Mistral 、再到超越 Mistral,面壁智能或许选择了一条少有人走的路,但它已经有了足够的底气继续走下去。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們