今天小编分享的科技经验:不用加大内存,iPhone也能运行端侧大模型了,欢迎阅读。
2023 年科技圈最热的概念无疑非 AI 大模型莫属,不仅是国内的阿里、百度、腾讯,海外的微软、Meta、谷歌、亚马逊都参与其中,就连做硬體的手机厂商如今似乎也在试图讲述一个 AI 赋能的故事。此前,vivo 的蓝心大模型已经在 S18、X100 系列上运行、三星的 Gauss 大模型也即将出现在 Galaxy S24 系列上,OPPO 拿出了 AndesGPT、荣耀方面有荣耀魔術方塊大模型,谷歌的 Gemini 同样也有端侧运行的 Gemini Nano。
就在 Android 阵营的友商纷纷开始搞起端侧大模型的时候,苹果方面自然也不甘落后。日前,苹果公司的人工智能相关研究人员就表示,在将大模型部署到 iPhone 和其他内存有限的苹果设备上取得了关键性突破,他们们发明了一种创新的闪存利用技术,可用于存储大模型的数据,以应对内存限制的问题。
苹果方面在一篇题为《LLM in a flash: Efficient Large Language Model Inference with Limited Memory》的论文中,就介绍了一种可以在超出可用 DRAM 容量的设备上运行大模型的方法。其构建了一个以闪存为基础的推理成本模型,并使用視窗化(Windowing)以及行列捆绑(Row-Column Bundling)两项关键技术,来最小化数据传输和最大化闪存吞吐量。
其中,視窗化让苹果的大模型不会每次都加载新的数据,而是重复使用部分已处理的数据。行列捆绑技术则是通过更有效地分组数据,让大模型从闪存中更快的读取数据。其实这项新技术在某种意义上来说,更像是他们刚刚发布的 MLX 框架的延伸。而 MLX 则是一个全新的机器学习框架,目的是可以在苹果的芯片上更高效的运行各种机器学习模型,与其他框架的一个显著区别就是统一内存模型。
换而言之,在过去一年里,苹果方面并没有对这股 AI 大模型的热潮无动于衷,而是在默默根据自身产品的特质来打造适合的大模型。在更小内存规模的基础上运行端侧大模型、而非扩大未来设备的内存规格,这就是苹果方面给出的答案。
至此,几乎所有主流手机厂商也都加入了将端侧大模型部署到手机上的行列。
为什么这些手机厂商会对端侧大模型感兴趣呢?用小米集团 AI 实验室主任、自然语言处理(NLP)首席科学家王斌此前在接受媒体采访时曾表示," 等到春节左右,有人觉得至少要动手去做了,这个风暴来了,我们做技术的肯定不能置身事外,如果不入局就会在竞争当中处于不利的位置 "。
毫无疑问,手机行业的现状大家都很清楚,衰退已经持续了很长一段时间,因此各大厂商也都在期待如全面屏一般引爆这个市场的新概念。
此外,端侧大模型也很好的承载了手机厂商对于新技术点燃消费者换机热情的期望,并且他们相信人工智能会使得手机能够帮助用户实现更多的功能。但相比于运行在云端的大模型,端侧大模型的隐私泄露和数据安全风险则大幅降低,此外端侧大模型还有个性化、定制化的潜力,能够用于解决特定场景的问题。
更妙的是,端侧大模型也意味着手机会对用户需求的理解更上一层楼,远非目前名为智能助手、实则 " 人工智障 " 的功能可比肩。再加上,如果端侧大模型可以控制和调用别的应用,就好像谷歌的 AI Core 一般,那么未来手机厂商和第三方应用之间的格局可能就会迎来天翻地覆的改变,手机厂商或将拥有实质上影响第三方应用的能力,这背后的利益可就无法估量了。
只不过相比于其他手机厂商,苹果想要在 iPhone 上部署端侧大模型的难度其实更高。目前,手机上已经有了不少端侧大模型可供用户体验,但在实际使用过程中,抛开 Android 系统本身的占用,8GB 内存的机型一旦运行端侧大模型几乎就什么都干不了。事实上,内存对于大模型的性能有着至关重要的作用,比如 AMD 刚刚发布的 AI 芯片 MI300 系列,就正是主打大内存高带宽。
此前已经有人使用搭载苹果 M 系列芯片的机型运行大模型,测试的结果是统一内存可以让芯片运行更大规模的大模型,可缺点就是由于内存带宽低,使得推理速度不那么理想。即便苹果没有拿出新的相关技术,实际上 iPhone 也能运行端侧大模型,但结果是推理速度可能用户会无法忍受。而最小化数据传输、并最大化闪存吞吐量,就刚好能够解决这个问题。
目前,iPhone 15 和 iPhone 15 Plus 均配备的是 6GB 内存 ,iPhone 15 Pro 和 iPhone 15 Pro Max 则提升至 8GB 内存。现阶段外界推测,为了在 iPhone 上运行端侧大模型,苹果方面很可能会给 iPhone 16 系列新机加大内存配置。但苹果设备的内存价格是众所周知的,继续给 iPhone 加内存的结果可能就会使得其售价进一步上涨。
要知道,上一次 iPhone 大规模涨价的结果还是将市场份额拱手让人,所以在如今 Android 旗舰的产品力不断追赶的情况下,苹果方面不太可能实施涨价。与此同时,大模型的底层技术 Transformers 架构其实就是基于分层推理的,而分层加载调度又是当下优化内存的主要方式,因此两者结合就是苹果所给出的解决方案。
这样看来,苹果方面为了不加内存而爆发的潜能,着实是让人惊叹。
【本文图片来自网络】