今天小编分享的互联网经验:面壁智能发布20亿开源端侧模型,称部分超越美国Llama 2能力,欢迎阅读。
国内 AI 大模型技术正加速演进。
钛媒体 App 获悉,今年 2 月 1 日,清华系 AI 公司 " 面壁智能 " 在北京发布会上推出 20 亿参数的开源端侧模型 MiniCPM。
面壁智能表示,在多个主流评测榜单中,该模型中英文均分超过目前较为领先的欧洲 Mistral-7B 开源模型,而且在同等规模模型中,相比 Llama 2-13B、甚至一些 400 亿参数级量级模型,面壁 MiniCPM 在代码、数学能力等方面也 " 毫不逊色 "。该公司称,该模型支持消费级显卡如英伟达 1080Ti 参数微调,以及主流手机处理器端侧推理。
面壁智能联合创始人、CEO 李大海表示,MiniCPM 是迄今最强的旗舰端侧模型。而此次是面壁 " 大模型 +Agent " 双引擎战略的关键一步。公司坚定认为智能体化是未来迈向通用智能的必由之路,而智能体必然要在端侧服务用户,面壁接下来会进一步探索 Agent + 云端协同的工作机制,实现智能赋能万物。
李大海向钛媒体 App 强调,公司正在和手机厂商商谈合作,在手机智能语音中内置 MiniCPM 是一个实用场景。
" 目前面壁的整体商业收入来源主要是 To B(企业)端,包括招商银行,西门子,易车网等标杆客户,场景集中在金融、营销等领網域。" 李大海对钛媒体 App 表示。
面壁智能 CEO 李大海
据悉,面壁智能成立于 2022 年 8 月,总部位于北京,公司深耕通用 AI 领網域,专注大模型技术创新与应用转化。面壁已面向公众发布千亿多模态大模型对话助手 " 面壁露卡 Luca"。截至目前,公司正规划构建 Al Agent 智能体协作平台。
面壁智能创始团队主要来自于清华大学自然语言处理实验室(THUNLP),公司 CEO 李大海还是知乎 CTO(首席技术官);另一位公司联合创始人刘知远,则是清华大学计算机系副教授、博士生导师,研究方向为计算机自然语言处理;公司董事、CTO 曾国洋为智源悟道 · 文源中文预训练模型团队骨干成员。
人才方面,据李大海介绍,截至目前,面壁智能科研团队有 100 多人,含清华、北大毕业的员工数量占比高达 80%,平均年龄仅为 28 岁,而且工程团队还有来自阿里、字节、百度等国内外知名公司的 AI 人才。
李大海透露,他和刘知远教授的分工主要是,李大海全面负责公司战略层面的制定以及日常管理,刘知远更关注面壁智能的技术战略的中长期演进,以及模型训练、技术层面积累等方面。
融资方面,去年 4 月,面壁智能公开了一轮天使轮融资,由知乎领投,智谱 AI 为跟投方。
技术产品方面,To C 消费端,面壁智能的基座模型产品 " 面壁露卡 Luca" 已获审批并对外开放,以及最新的一款 AI 移动应用 " 心间 "。李大海表示,面壁 MiniCPM、多模态开源模型 OmniLMM 等面壁 B 端技术产品,都是基于公司千亿级模型研发路线延伸,将淬炼化的大模型训练方法下放至小模型训练中,实现高效低成本模型训练与应用,面壁 Agent 产品也将会于今年陆续对外公布。
面壁团队认为,MiniCPM 的市场竞争优势主要有三点:一、算法优化,自创 " 模型沙盒 " 实验,高效训模;二、成本优化,支持在 CPU 上跑推理、在消费级显卡上做高效训练与微调;三、数据治理,已经形成从数据治理到多维评测的闭环,牵引模型快速迭代。
对于 MiniCPM 的算力成本优化,李大海表示,MiniCPM 背后主要是技术层面实现了全流程高效 AI infra(推理框架)10 倍推理加速,成本降低 90%。
他在现场以演示的 OPPO Find N3 折叠屏手机为例,MiniCPM 利用高通骁龙 855 芯片,成本约为 600 元,按运行 5 年计算,每秒 7.5 tokens,那么 170 万 tokens 的推理成本仅需人民币 1 元,是欧洲开源模型 Mistral-Medium 的百分之一。另外,面壁正在就最近一两年上市的智能手机做测试,从而更广泛应用于移动设备中。
去年 3 月,欧洲开源模型 Mistral-7B 横空出世,以 70 亿参数打败了百亿参数的开源模型霸主 Meta Llama 2,成为大模型领網域 " 以小搏大 " 的典型案例。而面壁智能方面表示,新的 MiniCPM 模型仅用 20 亿参数规模、1T Tokens 精选数据,中英文平均成绩均超越 70 亿参数的 Mistral-7B,中文和通用能力超过微软明星模型 Phi-2(蒸馏 GPT-4)。
" 端侧模型有全天候低成本的特点,云端协同更难更复杂。目前这一端侧模型能用同样数据达到远超同等云端模型效果,而且有更强的商业意义。" 李大海解释面壁智能为何要做端侧模型。
清华大学计算机系长聘副教授、面壁智能联合创始人刘知远表示,他希望这个端侧模型能让更多人意识到,即便是 20 亿参数尺寸的模型,能达到的能力上限仍远超想象。就像造船舶和飞机有流体力学的支持,其团队致力于将大模型研究科学化,这是真正让它实现商业化与可持续发展的重要动力。
图左是李大海,图右是清华大学副教授、面壁智能联合创始人刘知远
除了 MiniCPM 模型之外,面壁智能还在现场公布了 120 亿参数的多模态大模型面壁 OmniLMM,目前是开源社区最强多模态模型之一,所有发布模型均已开源。
2 月 2 日的群访交流中,李大海表示,目前面壁规划的 MiniCPM 商业化主要是一方面通过开源为行业做贡献、建立影响力。另一方面,MiniCPM 也会在商业层面进行合作授权,由于单个模型成本、研发成本都比较低,可以用作更多行业模型的训练以及推理。
李大海透露,2024 年,面壁将持续提升端侧大模型能力,同时依然会训练基座模型能力,去挑战 GPT-4," 这是非常明确的 "。另外,面壁还将用 Agent 来解决大模型落地的最后一公里,极大提升模型落地效率。
所谓 Agent,就是在大语言模型(LLM)技术下,Agent 可以理解为某种能自主理解、规划决策、执行复杂任务的智能体。用感知(Perception)、规划(Planning)和行动(Action)实现人的智能互動。OpenAI 联合创始人 Andrej Karpathy 曾表示,"AI Agent 代表着一个疯狂的未来。" 目前,国内字节、面壁、智谱 AI 等企业都在投入 AI Agent 技术产品研发当中。
" 我对于我们的模型能力提升蛮有信心的,未来我将会更加关注模型的落地应用问题。" 李大海表示,今年全行业将更重视应用落地,这是一个大的趋势。而面壁坚信,通用人工智能(AGI)是需要长期努力的目标,如同 " 马拉松比赛 " 一样,需要不断实现技术积累,以及更多更强的模型产品等。
谈及国内大模型行业 " 百模大战 " 之后的发展趋势,李大海表示,尽管很难预测未来行业发展,但他认为,随着时间推移,公司会有 " 分层 ",大模型应用可能会 " 百花齐放 ",然而通用基座(千亿)大模型不会太多,可能只有极少数的几家公司最终能 " 突出重围 "。
" 回到行业格局上来看,我们去回顾历史上每一次技术浪潮,和每一次行业机会,其实都会诞生出这个技术浪潮对应的原生公司,并且成为伟大的公司。AI 大模型本身既是产品,又是技术。而作为一个技术,现在但凡和大模型沾边的公司都声称在做大模型,但我认为,这并不应该把它分类到大模型公司,更多还是某个场景的应用落地。我相信,逐步有些公司会更多往‘应用层’去发展,然而,我们相信,基座类型的大模型公司不会太多,虽然不会只有一家,但具体是几家我们也不清楚,这个是很难预测的一件事情。" 李大海对钛媒体 App 表示。
李大海在演讲中强调,面壁智能在大模型能力上有很深厚的技术积累。未来,面壁希望发挥一定优势,推动行业迈向 AGI 的速度快一些,使得 AGI 技术让人们生活变得更好。
(本文首发钛媒体 App,作者|林志佳)