梭哈大模型的公司，给自己找了条退路

今天小编分享的财经经验：梭哈大模型的公司，给自己找了条退路，欢迎阅读。

出品｜虎嗅科技组

作者｜齐健

编辑｜王一鹏

头图｜DALL-E 3

2 月 1 日，面壁智能发布了最新的旗舰端侧 AI 大模型 MiniCPM-2B，参数规模为 20 亿，使用了 1TB 精选数据进行训练。

面壁智能 CEO 李大海在发布会上称，MiniCPM-2B 在多项主流评测榜单、中英文平均成绩均超越了开源的 Mistral-7B，英文榜单的平均分甚至超越了 Falcon-40B、MPT-30B 等百亿参数模型。

虽然面壁智能仍将 MiniCPM-2B 定义为 " 大模型 "，但在动辄千亿、万亿参数规模的大语言模型（LLM）背景下，很多人认为只有几十亿参数的模型应该叫做 " 小模型 "。

在 2024 年 1 月的达沃斯世界经济论坛期间，微软首席执行官 Satya Nadella 接受 Bloomberg 采访时曾夸赞微软的 Phi 是 " 最好的 SLM（小语言模型）"。Nadella 表示，在 AI 方面微软牢牢 " 掌握着自己的命运 "，不会只依赖 OpenAI 的大语言模型。

Phi 是微软在 2023 年 6 月公布的一款拥有 13 亿参数的语言模型，9 月公布的 Phi-2 参数规模扩大到了 27 亿，在一些常识推理、语言理解、数学和编码任务上，Phi-2 甚至超越了 70 亿和 130 亿参数的 Llama 2。

据外媒 The Information 报道，微软已经组建了一个新团队开发对话式 AI。与 OpenAI 的模型相比，该团队的研究方向更偏向于小规模，低算力需求的模型。知情人士透露，微软已将几位顶尖 AI 开发人员从其它研究小组调至这个新团队。

在 AI 大模型之外另辟蹊径，或许是微软在 AI 时代掌握自己命运的最佳选择。而对于那些没有条件 " 依赖 "OpenAI，也很难追赶 OpenAI 的公司来说，微软的做法似乎成为了一种启示——在业界普遍关注超大规模参数量的时候，反其道而行之的 " 小模型 "，似乎正在成为 All in AI 大模型的一条 " 退路 "。

" 小模型 " 的优势是什么？

事实上，AI 业界对小模型的定义并不统一。面壁智能首席研究员韩旭表示，" 不是 20 亿参数的模型小，而是 1 万亿参数的模型太大了，应该称 GPT-4 这类的模型为超大模型。" 中工互联创始人智振则认为，10-30 亿参数的模型，比较适合称为轻量化大模型，或是嵌入式大模型。"

在 2023 年中发布的大语言模型（LLM）并不都具备超大规模参数。除了几个业内顶尖的大模型之外，主流的开源模型多数为 70 亿、130 亿参数量。Meta 发布的 LLaMA 2 系列模型，最大参数量也只有 700 亿。

对于一些 AI 公司来说，训练和推理成本是限制模型参数规模的主要原因之一，业内普遍认为，GPT-4 训练一次的成本约为 6300 万美元。

LLaMA 2 的论文中提到了训练模型过程中使用 NVIDIA A100 80GB 版本的用量，训练 70 亿参数模型约需要 18 万 GPU hours，训练 700 亿参数模型所需的算力资源则相应地翻了 10 倍，达到 172 万 GPU hours。

LLaMA 2 论文

按照阿里云目前的报价，8 张 40G 的 A100 GPU 伺服器，每小时租赁成本是 252.66 元人民币。即便把 40G 的 A100 当成 80G 的来用，在阿里云上要完成一次 LLaMA 2 的 700 亿参数模型训练，也需要 5433 万元。如果把参数量压缩到 20 亿，训练一次的成本可能只要不到 200 万元。

GPT-4 这样的超大模型在推理成本方面，也比参数量较小的模型高出很多。

1 月 25 日，OpenAI 宣布了 2024 年第一次 API 价格调整，GPT-3.5-Turbo 的最新的输入价格将降低 50%，至 0.0005 美元 /1000 tokens，输出价格则降低 25%，至 0.0015 美元 /1000 tokens。

目前 OpenAI 最贵的 API 是 GPT-4-32k，输入价格为：0.06 美元 / 1000 tokens，输出价格为：0.12 美元 / 1000 tokens。相比于参数量较小的 GPT-3.5-Turbo，GPT-4-32k 的定价分别贵了 120 倍和 80 倍。

GPT-4 和 GPT-3.5-Turbo 之间的参数量还不是很大。如果把模型压缩到十亿级别，那么运行模型的推理成本则可以降低到约等于购买运行模型的端侧设备成本。

目前，很多模型已经可以绕开云服务，直接在本地的 PC 端进行训练和推理。在高端的 PC 设备方面，已经有开发者尝试用苹果的统一内存架构芯片研究 LLM，在配备了 M2 芯片和 192GB 内存的 Mac Studio 上，甚至可以跑 700 亿参数的 LLaMA 2 模型。

面壁智能最新发布的 MiniCPM-2B 把 " 小模型 " 的运行环境又调低了一个层级，在 MiniCPM-2B 的发布会上，李大海现场演示了该模型在 OPPO Find N3 上完成的离线推理。文本处理速度也很快，几乎达到了 7 tokens/s。

" 以配备骁龙 855 芯片的 OPPO 手机为例，一台手机的成本约为 600 元人民币，使用 5 年。按每秒吞吐 7.5 tokens 算，输出 170 万 tokens 的推理成本仅为 1 元。" 李大海介绍说，目前 GPT-4 的推理成本约为 1 人民币 4700 tokens。当前手机端还没有针对 AI 推理进行大规模优化，随着端侧模型的普及，未来手机的推理成本还会进一步下降。

除了本身算力需求低、不挑卡以外，参数规模较小的模型还更 " 喜欢 " 中低端 GPU。

2023 年 11 月，麻省理工学院（MIT）的一篇论文中介绍了其在 Supercloud 高性能计算系统上使用不同规模的 LLaMA 模型（7B，13B 和 65B）进行的推理实验，实验显示模型的参数量越小，同等硬體环境下的功耗越低。

有趣的是，虽然三种尺寸的 LLaMA 模型在使用显存、功耗较低的 V100 GPU 时，每秒能量消耗均比 A100 有显著下降，但其中参数量最小的 7B 模型能耗下降更为明显。

来源：From Words to Watts: Benchmarking the Energy Costs of Large Language Model Inference

相对于超大参数规模的 LLM，" 小 " 模型最大的优势就是更 " 省 "，不仅省电、省钱，还省时间。而这个 " 省 " 的特性，也注定了小尺寸模型更容易落地，更容易赚钱。

"大型公共模型本身几乎没有为企业提供任何价值。" 戴尔人工智能战略高级副总裁 Matt Baker 在谈到与 Meta 合作的 LLaMA 2 落地业务时曾表示，客户不应该为那些对他们业务知之甚少的超大 AI 模型付费。

Matt 指出了一个关键问题——虽然参数规模较小的 LLM 在模型能力等方面与超大模型存在一定差距。但今天的很多垂直场景，对于 AI 大模型的通用性、泛化性要求并没有那么高，有些行业用户甚至希望 AI 不要太 " 发散 "。

" 小模型 " 需求无处不在

虽然面壁智能在发布 MiniCPM 的时候，并没有明确提出应用场景，而只是给出了一个半玩笑式的应用场合——野外生存锦囊。但当 AI 大模型能够在手机、电腦端流畅运行，则给应用落地提供了巨大的想象空间。

事实上，超大 AI 模型在用户需求层面存在着一定程度的背离，在工业、金融、汽车三个急需 AI 落地的领網域里，尤为明显。

" 工业领網域的知识有其普遍性，因此工业 AI 并不一定非得要巨大的参数量。" 智振认为，在不同工厂和行业中，很多数据和标准高度相似，例如配电和工厂的建筑标准。对于数据和标准差别较大的行业，则可以有针对性地开发专门的模型。AI 大模型在工业场景中的作用，更多是理解非结构化的问题，然后帮助人类找到标准答案。目前中工互联已经开源了一款 16 亿参数的轻量化大模型——智工（Zhigong-1.6B）。

工业场景虽多，但工业企业普遍不富，因此落地速度也相对较慢。目前，AI 业界普遍认为大模型落地最快的领網域是金融。

" 银行的数据基础好，出手也相对慷慨 "，智谱 AI 首席执行官张鹏告诉虎嗅，很多国内 AI 公司的早期客户都来自金融行业，智谱 AI 也为金融行业客户专门定制了行业技术模型 FinGLM。

在很多金融场景中，基金经理或是股票交易员，每天需要处理海量新闻信息，作为 AI Copilots 的用户，他们不仅需要技术的泛化能力，更需要能够与特定应用场景紧密结合的解决方案，AI 技术的应用可以显著提高他们的工作效率。

据 The Information 报道，微软的 " 小模型 " 已经开始在一些金融和银行客户中进行测试，其中高盛就一直在测试微软的 Phi 模型。

金融行业对轻量化大模型的态度明显更加友好。首先，出于安全考虑，金融行业无法接受基于公有云运行的 AI 大模型，有些场景可能会用到私有云，有些地方则需要离线的端侧设备上运行 AI。受基础设施的限制，需要大算力的超大参数模型很难落地。

此外，金融行业对于 AI 的实时响应效率要求很高。参数过大的模型在响应速度方面，不仅受制于运算推理速度，还会被网络速度影响。在一些需要实时交易或者研判的金融场景中，零点几秒的延迟，都有可能错过巨大的利益。因此，能否本地化部署成了一些客户选择 AI 模型的一个参考条件。

微软透露的消息称，面向银行和对冲基金等主要客户的 AI Copilot 项目，目前能够实现自动编程、撰写报告、数据汇总与分析等很多功能，预计将带来 100 亿美元的收入。

过去一年，包括 Jane Street 和 Intuit 在内的金融公司，通过微软购买 OpenAI 技术，摩根大通也增加了其在微软云上的 OpenAI 模型采购，用于开发客户服务聊天机器人和自动生成企业收益报告工具。

花旗银行、摩根大通和高盛等金融巨头，在 2023 年下半年均加大了对微软人工智能产品的投入。这些产品不仅有办公軟體中的 Copilots，还包括了一些定制的人工智能模型开发服务。

除了工业和银行外，AI 大模型另一个主要落地场景是汽车。

2024 年初的 CES 上，奔驰、宝马、大众等纷纷展示了融合最新 AI 大模型技术的车机系统。国内的比亚迪，也在近期推出了全新的整车智能化架构 " 璇玑 " 及其 AI 大模型 " 璇玑 AI 大模型 "。

汽车无疑是电腦、手机之外的最重要的终端设备，新能源车的快速发展，使车机系统有机会变得像手机一样无所不能。这也使得众多手机厂商纷纷转型造车，以期通过手机端的产品思维，跨界抢占新的终端市场。

在 AI 大模型的爆发之年，" 軟體定义汽车 " 的概念迅速崛起，驾驶环境的特殊性，可以说给 AI 大模型在车上提供了天然的落地环境。

然而，基于云服务的主流大模型要上车，难免会受到网络环境的限制。尽管在过去几年中，汽车行业在车联网的发展中投入巨大，但汽车的使用场景过于复杂，很难实现驾驶过程的全程联网。因此，离线运行能力在很多 AI 大模型 " 上车 " 的场景中尤为重要。

这也给轻量化模型在车机系统方面提供了很多机会。

业界巨头，早已 " 暗暗 " 布局

在市场对 AI 需求持续上涨中，供应端在 2024 年对生成式 AI 的关注点正在快速发生转移。

面壁智能本次发布的 MiniCPM-2B 并非孤例，轻量化模型、端侧 AI 已经隐隐成为 AI 大战新的主战场。

在 AI 大模型的研发侧，国内外最先关注 " 小模型 " 的公司，却是在刻板印象里，那些只应钟爱超大模型的头部云厂商。

阿里云在 2023 年 12 月推出了 18 亿参数的通义千问 -1.8B（Qwen-1.8B），以及利用对齐机制打造的 AI 助手 Qwen-1.8B-Chat。这款模型使用超过 2.2 万亿 tokens 的数据进行预训练，包含高质量中、英、多语言、代码、数学等数据，涵盖通用及专业领網域的训练语料。

阿里云 CTO 周靖人表示：我们希望有了这款模型之后，大家有更多的开放式探索，像机器人、IoT，可以把这些 " 小模型 " 集成到端上，这是一个趋势。

除了推出小参数量的 LLM，通义千问在模型的量化压缩过程中也表现良好。开源的 70 亿参数 Qwen-7B，在模型的量化和压缩性能方面得到了一些行业的认可。联想正在研发的 AI PC 功能中，就基于 Qwen-7B 模型做了一些量化和压缩工作。

" 原来一个参数用两个字节来存储，经过压缩，一个参数只有半个字节就可以存储，且还能保持原有的模型性能。" 联想研究院研究员谢栋表示，压缩后的 AI 大模型 + 电腦本身的缓存，大概只要 5-6G 内存就能运行起来。" 在参数量不变的情况下，我们可以把原始大小为 14.4GB 的 Qwen-7B 压缩到 4GB。"

MiniCPM-2B 也对模型进行了 INT4 量化，模型的总存储量仅有 2GB。

模型参数量的大幅下降，使 AI 不再局限于云，AI 大模型的战火也开始从模型烧到终端。

在 PC 端，微软再度成为风暴中心。

过去十几年中，虽然微软不断加大云计算的投入，但核心业务始终围绕传统軟體和 PC。如果 AI 一直依云而生，虽然对 Azure 业务促进很大，但在 PC 业务方面，微软可能需要花更大的精力去 " 重做 "Windows 和 Windows PC。

在 2024 年 CES 前夕，微软就宣布了在新款 Windows 11 电腦上配备了 Copilot 按钮，可以一键调用 AI 聊天机器人，Windows PC 键盘布局上次重大变革还是在 30 年前。除了增加按钮，微软也正在尝试使用简化的语言模型（SLM）来处理 Bing AI 聊天机器人和 Windows Copilot 用户的基本查询。

除了微软和联想等 PC 厂商，手机厂商也正在积极研发新产品，加速轻量化的 AI 大模型落地。

1 月 18 日，三星推出了首款 AI 手机 Galaxy S24 系列手机，具备通话实时翻译、AI 影像编辑等多种 AI 功能。国内手机厂商 VIVO 也推出了蓝心系列大模型系列，其中包含了参数量较小的十亿级别模型，主要面向端侧场景打造专业文本大模型，具备本地化的文本总结、摘要等能力。

在谷歌最新发布的 Gemini 大模型中，参数规模最小的 Gemini-nano 也已经预定到了谷歌的 Pixel 8 Pro 智能手机中。

目前，MiniCPM-2B 已在多款主流手机中都跑出了较好的成绩。

MiniCPM-2B 在主流手机上的输出速度

结语

受主流大厂、场景化需求的驱动，市占额达 90% 的英伟达，也正面临着云端协同的新变局，终端 AI 的快速发展，或将推动端侧硬體抢走云端独占的 AI 算力需求。

高通在 2023 年 10 月推出的最新移动端芯片骁龙 X Elite Oryon CPU，集成了转为 AI 打造的高通 Oryon CPU，支持在终端侧运行超过 130 亿参数的 AI 大模型，运行 70 亿参数的大模型时每秒可生成 30 tokens。

2024 年 1 月刚过，轻量化 AI 模型和 AI 硬體的市场上，已经推出了多款新品。AI 在端侧的落地还在持续加速，轻量化模型，以及针对这些模型开发的硬體产品，正在开启 AI 硬體的混战之年，或也将给 2024 打上 "AI 硬體元年 " 的标签。

在谈到缩小参数规模，是否会限制 AGI 的未来发展时，清华大学长聘副教授刘知远表示，"在我来看大模型不是产品，而是一项技术。" 他认为，如果只是看模型参数规模，今天的 MiniCPM 可能跟 5 年前的 BERT 规模差不多。但大模型的技术体系已经发生了翻天覆地的变化。"技术是一脉相承的，如果我可以让一个 20 亿参数模型，实现 40 亿模型的效果，那我也可以用这样的技术做 800 亿的模型，甚至 8000 亿的模型。"