今天小编分享的科技经验:把大模型装进手机,分几步?,欢迎阅读。
图片来源 @视觉中国
文 | 光锥智能,作者|姚悦,编辑|王一粟
大模型 " 跑 " 进手机,AI 的战火已经从 " 云端 " 烧至 " 移动终端 "。
" 进入 AI 时代,华为盘古大模型将会来助力鸿蒙生态。"8 月 4 日,华为常务董事、终端 BG CEO、智能汽车解决方案 BU CEO 余承东介绍,通过盘古大模型的底层技术,Harmony OS 带来了下一代智能终端作業系統。
在手机上使用大模型早已不是新鲜事,此前 ChatGPT、文心一言、妙鸭等 APP、小程式都是通过调用云端算力,满足手机终端 AI 应用的需求。
下一步,则是让大模型直接运行在手机上。
从今年四、五月开始,美国科技三巨头——高通、微软、英伟达,最受瞩目的 AI 新星 OpenAI,以及国内 AI" 头部战队 " 的腾讯、百度等,都已经纷纷加速推进在移动终端的轻量化部署 AI 大模型。高通甚至宣布,正在逐渐转型成一家智能边缘计算(在移动终端等数据源头提供计算服务)的公司。
巨头的群力强推下,大模型从云到端迈进的产业趋势已经十分明确。
大模型为什么要 " 跑 " 在手机上?
大模型的最大特点就是 " 大 ",动辄百亿千亿甚至万亿参数,且为了更好运行大模型,算力集群都已经更新到 " 万卡 " 级别。如今,为什么又非要把大模型 " 塞 " 进巴掌大的小手机?
大模型确实会给手机用户带来一些体验上的提升。例如,华为终端智能助手小艺不仅可以根据语音提示推荐餐厅,还可以进行摘要总结、信息检索、多语种翻译等信息处理,数千字的英文长文,具备大模型能力的手机智能助手就可以生成摘要,还可以翻译成中文。尤其后一点,在信息爆炸时代,对于提高学习工作效率还是很有价值的。
华为终端 BG AI 与智能全场景业务部总裁贾永利解释,一方面,大语言模型具备泛化能力,能够帮助手机智能助手提升理解能力。另一方面,大模型 Plug-in 的插件能力,可以在手机内部打通各应用之间的壁垒,借助工具拓展能力。
此外,ChatGPT 等 AIGC 应用一直以来都伴随着强烈的隐私安全争议,但如果完全在端侧运行,就能够完全避免这一问题。因为大模型在端侧运行,数据也不会离开端侧。而且,这样响应的速度还会更快。
另一边,大模型对于到手机等移动终端的需求也已经非常迫切。
大模型的汹涌之势让云端越来越无法独自承载算力的需求。高通高级副总裁 Alex Katouzian 近期就直言," 随着连接设备和数据流量加速增长,叠加数据中心成本攀升,(我们)不可能将所有内容都发送到云端。"
不算数据传输要消耗网络带宽、存储,以及硬體等大量资源,光是云端算力现在已经让相关厂商有些吃不消。ChatGPT 仅在推理阶段,保守估计每个月算力成本在 1000 万美元左右。
最大的问题还不是 " 贵 ",而是 " 缺 "。
此前,就连 OpenAI 创始人 Sam Altaman 都自曝 GPU 很缺,甚至直言不希望太多人用 ChatGPT。近期,也有业内人士推测,小型和大型云提供商的大规模 H100 集群容量即将耗尽,H100 的需求趋势至少会持续到 2024 年底。当前英伟达 H100 的产能还严重受制于供应链。
所以,云端和终端形成配合,手机等终端闲置算力资源被利用起来,解决 " 集中式 " 算力与 " 分布式 " 需求的错配,已经成为大模型发展 " 降本增效 " 的确定趋势。更重要的是,相比数量有限的中心节点,众多的移动终端堪称触及万千场景的 " 毛细血管 ",也就决定了这一入口会是大模型加速应用渗透的关键。
如何把大模型 " 装进口袋 "?
" 相比传统的 PC 或者伺服器,移动终端最大的挑战就是如何平衡好体验和能耗,这是鸿蒙内核设计最重要的核心点之一。" 华为终端业务軟體部总裁龚体强调。
大模型需要大量的计算资源和存储资源,尤其是基于现有的手机硬體配置,这就需要軟體系统做好协调,提升效率降低能耗。
现在手机为了提高性能,至少是 8 个芯片内核,就需要手机系统做协同,这个过程就会消耗大量算力。如果采用异构资源调度,就可以高效协调 CPU、GPU、NPU。龚体表示,这样调度效率可以提升 60% 以上。
手机系统能够进行运算,调度的最小部門叫做线程,传统的作業系統中往往上万线程同时运行,其中就会存在大量无效线程。针对这点,就可以通过更轻量的并发模型来处理并发操作,降低无效线程切换对算力的消耗。据龚体说,并发模型可以让任务切换开销节省 50%。
另外,在作業系統的任务调度方面,这也是影响流畅体验的最基本要素,相比公平调度,动态优先级调度会很大程度降低能耗。动态优先级调度就类似于一个智能交通系统,可以根据道路状况和交通流量,动态调整交通信号灯亮起状态,如当某个方向的车流增加时,该方向的信号灯就提前变绿,就会减少拥堵和延迟。
不过,要想让大模型部署到手机上,还能运转起来,光是手机作業系統更新改进还远远不够。
随着大模型预测越来越准确,网络越来越深,神经网络消耗的内存容量已成为核心问题。同时,还涉及内存带宽的问题,网路运行时,内存、CPU 和电池都会飞速消耗,这绝对是现在的手机难以承受之重。
因此,在部署到手机之前,就必须对大模型进行压缩,以降低对推理算力的需求。但是,一定要确保原有性能和精度基本不变。
量化就是一种常见且重要的压缩操作,可以减少模型占用的内存空间,提高推理性能。本质上就是将浮点运算模型转化为整数运算模型,因为整数运算比浮点运算精度更高,运算速度也更快。
当前,量化技术也已经在加速突破。伺服器上训练的模型一般采用 32 位浮点运算(FP32),在手机端,高通已经将 FP32 模型量化压缩到 INT4 模型,实现 64 内存和计算能效提升。高通的实现数据表明,在借助高通的量化感知训练后,不少 AIGC 模型可以量化至 INT4 模型,与 INT8 相比,性能提升约 90%,能效提升大约 60%。
大模型压缩技术,无疑是 AI 巨头制胜移动终端战场的关键因素。这也在一定程度上,解释了英伟达在今年 2 月为什么 " 悄悄 " 收购了掌握压缩大模型技术的人工智能初创公司 OmniML。
大模型倒逼终端硬體更新
" 本年度我们将能够支持参数达 100 亿的生成式 AI 模型在手机上运行。" 高通产品管理高级副总裁兼 AI 负责人 Ziad Asghar 近期则对外表示,100 亿 -150 亿参数的模型可以覆盖绝大多数 AIGC 用例。如果终端已经可以支持这一参数级别,运算可全部在终端上进行,手机会成为真正的个人助理。
但是,当前新一代旗舰版手机芯片也就可以承载运行 10 亿参数级大模型,高通在今年 6 月计算机视觉学术顶会 CVPR 上,成功演示的跑在安卓系统上的大模型,也不过 15 亿参数。
参数跃升几乎十倍,奔赴移动终端的大模型已踩下 " 油门 ",那手机也就不得不加速更新才能应对。
手机硬體亟需在 AI 加速器和内存进行革新。
首先,更大参数的大模型,需要更大的内存和存储空间来存储模型参数和中间结果。这就要求移动终端内存芯片容量,以及内存接口带宽都进行更新。
其次,更大的参数势必需要更强大的计算和推理能力,处理输入数据和输出结果。
虽然,目前手机芯片上的 AI 加速器(例如各种 NPU IP)几乎已经是标配,但设计基本上是针对上一代卷积神经网络设计,并不完全针对大模型。
为了适配大模型,AI 加速器必须能有更大的内存访问带宽,并减少内存访问延迟。这就需要 AI 加速器的接口上做出一些改变(例如分配更多的 pin 给内存接口),同时也需要片上数据互联做出相应的改变,来满足 AI 加速器访存的需求。
高通能喊出 " 年内 100 亿参数跑手机 " 的重要原因之一,就是其手握搭载了高通史上最快速、最先进的 AI 引擎的第二代骁龙 8 处理器,相比第一代骁龙 8 处理器,AI 性能提升了 4.35 倍,能效提升 60%。
当然,超大规模参数大模型的训练和推理,即便在云端也亟待突破五堵墙:内存墙 + 算力墙 + 通信墙 + 调优墙 + 部署墙,手机更得一层一层去突破。
不过,从 " 智能 " 到 " 人工智能 ",对于手机来说,机遇大于挑战。
" 创新周期对电子消费品的影响更为重要,甚至可以带领一个产业走出经济周期的影响。" 荣耀终端 CEO 赵明判断,当前智能手机行业就处在一个 AI、5G+ 开启的新一轮创新周期中。