今天小编分享的科技经验:苹果AI“图穷匕见”:将大模型塞进iPhone里,欢迎阅读。
图片来源 @视觉中国
文|适道
《教父》电影中有句话:" 千万不要让外人知道你想干什么 ",这句话似乎也可以用在苹果 2023 年前 11 个月的 AI 表现上。
今年 5 月,外媒报道苹果担心 ChatGPT、Copilot 等 AI 工具收集机密数据,禁止员工在工作中使用。
今年 6 月,在苹果全球开发者大会上,库克甚至都没提 AI,而是同义替换为 ML。
但如果说苹果不在意 AI,显然不可能。毕竟追溯到 2010 年,苹果就以 2 亿美元的价格收购了 Siri 团队,虽然这么多年过去了,它还是那么 " 弱智 "。
今年 7 月,彭 / 博社报道称,苹果内部研发了自己的 AI 框架 Ajax 和聊天机器人 AppleGPT。其中 Ajax 基于 Google Jax 搭建,而 AppleGPT 则类似于 ChatGPT。不过,二者看起来没有什么创新之处。
今年 10 月,苹果又掏出了开源多模态大模型 Ferret,拥有 70 亿和 130 亿两个参数版本。但因为目前只对研究机构开放,也没激起什么浪花。
同样是 10 月,彭 / 博社报道称,苹果非常 " 焦虑 ",并已启动一项庞大的追赶计划。该计划由机器学习和人工智能主管 John Giannandrea 和 Craig Federighi 领导,服务部门高级副总裁 Eddy Cue 也参与其中,预算为每年 10 亿美元。
有点讽刺的是,早在 2020 年,John Giannandrea 就在访谈中肯定了苹果的 AI 战略,并表示苹果不会向外说太多自己的 AI 能力。
到底是不能说太多,还是其实没有太多。总之,太多传言吊足了大家的胃口。
虽然你可以说,作为一家主打硬體的公司,苹果今年至少发布了 Vision Pro,其中数字分身、场景与动作识别等功能都和 AI 技术有关。
但骄傲止步于 11 月份 AI Pin 的刷屏。半个烟盒大小的 " 领夹 " 只通过 " 听 " 和 " 看 " 就能理解用户需求,并用 AI 軟體执行任务,被一些人视为 " 天生的 iPhone 杀手 "。更重要的是,AI Pin 背后的金主爸爸包括微软、OpenAI 等一系列让苹果 " 焦虑 " 的对象。
眼看狼群要全方位包抄了,苹果终于在 2023 年即将结束之时,放出了两篇论文。
其中一篇题为《LLM in a flash:Efficient Large Language Model Inference with Limited Memory》的论文提出:苹果通过一种创新的闪存利用技术,成功地在内存有限的 iPhone 和其他苹果设备上部署了 LLM,这一成果有望让更强大的 Siri、实时语言翻译以及融入摄影和 AR 的尖端 AI 功能登陆未来 iPhone。
在 2024 年,这条 " 大模型 + 硬體 " 路线或许会直接改变竞争格局。
01 打破内存墙,将大模型放在闪存里
先放数据结论。论文显示,在 Flash-LLM 技术的加持之下,两个关键领網域得到优化:1、减少闪存传输的数据量;2、读取更大、更连续的数据块。
优化之后,设备能够支持运行的模型大小达到了自身 DRAM 的 2 倍;LLM 的推理速度在 Apple M1 Max CPU 上提高了 4-5 倍,在 GPU 上提高了 20-25 倍。
Flash-LLM 是如何做到的呢?采用了两种主要技术:
第一、 視窗化技术(windowing),通过重复使用先前激活的神经元来战略性地减少数据传输。大大减少了从存储器(闪存)到处理器(DRAM)的数据传输量。
第二、行列捆绑技术 ( row-column bundling ) ,根据闪存的时序数据的访问强度量身定制,增加从闪存读取的数据块的大小,改变了数据的存储方式。
举个我们曾在《亏了几个亿, AI 项目到底怎么投?看欧洲老牌风投 Index 如何押宝》中举过的 " 图书馆 " 例子。
假设,你拿着列有 20 本书的书单去图书馆找书,但这家图书馆就像英剧《Black Books》一样,书本摆放得杂乱无章。你几乎要从头走到尾,才能全部定位出你要找的所有书。
想象一下,你找书时,需要 " 眼睛 " 和 " 腦子 " 对账。按照常理,你不会每看到一本书,就从书单里找对应。因为你的大腦已经 " 闪存 " 了 " 重点书名 "。
你要做的,只是从当下视线扫过的范围内找出书单上的书。
視窗化技术(windowing)就是这样,相当于先用一个算法稀疏化 LLM 的权重矩阵,只保留一部分重要的元素,从而减少计算量,提高计算效率。
同时,因为你一共要找 20 本书,总不能像狗熊掰玉米拿一本扔一本,因此你需要一个小推车。行列捆绑技术 ( row-column bundling ) 就是这个小推车,帮助每次从闪存中读取的数据块更大,也提高了数据读取效率。
速度和大小的双重突破,或许很快可以让大模型在 iPhone、iPad 和其他移动设备上流畅运行。
尽管这种方法也存在一些局限性,包括主要针对文本生成任务,对其他类型任务的适用性还需进一步验证,以及处理超大规模模型的能力有限等等。
02 迎接 Vision Pro 上市,30 分钟生成 " 数字人分身
第二篇论文《HUGS: Human Gaussian Splats》虽然不比上一篇惊艳,但也足够让人眼前一亮。
这篇论文详细介绍了一项名为 HUGS(Human Gaussian Splats)的生成式 AI 技术,苹果研究员兼 HUGS 论文作者之一的 Anurag Ranjan 介绍:HUGS 仅仅需要一个约 50-100 帧的原始视频,相当于 2 到 4 秒 24fps 的视频,就能在 30 分钟内生成一个 " 数字人分身 "。
据悉,这比包含 NeuMan、Vid2Avatar 在内的其他方式要快约 100 倍。
根据 Ranjan 在 X 上发布的视频,画面右方的三个数字人分身正在草坪上快乐跳舞,颇为魔性。
苹果表示,虽然当前的神经渲染技术比早期有了显著的进步,但依然最适合用在静态场景中,而不是在动态场景中自由移动的人类。
HUGS 则是建立在 3DGS(3D Gaussian Splatting)和 SMPL 身体模型技术的基础上,创建数字人分身。当然,目前 HUGS 技术无法捕捉每个细节,但对于未能捕捉并建模的细节元素,HUGS 会自动填充。
而 3D 虚拟数字人是 VR 头显进一步发展的必然要求。
例如,在去年 Meta 发布了 Codec Avatar 2.0 版本,比 1.0 进一步完成了逼真的数字人效果。
今年,苹果发布 Vision Pro,可以通过前置摄像头扫描用户面部信息,基于机器学习和编码神经网络,为用户生成一个数字分身。当用户使用 FaceTime 通话时,数字分身就可以动态模仿用户的面部及手部动作,并保留数字人分身的体积感和深度。
根据彭 / 博报道,苹果正在为 Vision Pro 上市做最后的准备,发售有望提前至 2024 年 1 月下旬。
据苹果资深分析师 Mark Gurman 爆料,2024 年苹果的精力会重点放在可穿戴产品上(Vision Pro、AirPods、Apple Watch),一向占据大头的 iPhone 或将让位。
这篇论文或许就是迎接 Vision Pro 上市的准备动作。
03 结语
根据集邦咨询,从 2018 年开始,苹果就悄悄收购了 20 多家 AI 公司,只有少数公开了交易价格。
也就是说,当你以为苹果终于慢半拍时,大佬正在观察、努力,悄悄布局生态,然后像以前无数次那样,突然一鸣惊人,惊艳所有人。
更可怕的是,此前苹果所表现的 " 落后一步 " 似乎是 " 以退为进 ",有两个信息值得注意。
1、外媒报道,最近苹果正讨论 " 价值至少 5000 万美元的多年期合作協定 ",并与康泰纳仕、NBC 新闻和 IAC 等媒体接洽,以获取他们过往新闻文章的使用授权。
跟别的科技公司拿了数据直接训练不同,苹果是先取得授权,才会拿数据来进行训练。
这让人不由联想到,最近纽约 / 时报指控 OpenAI 和微软,未经授权就使用纽约 / 时报内容训练人工智能模型。而此案可能是人工智能使用知识版权纠纷的分水岭。
同样的还有近期 Midjourney V6 的版权麻烦——利用人类创作者的作品进行 AI 训练是否合法?司法如何保护创作者的权益主张?
2、在 " 谈 AI 安全色变 " 的气候下,今年 10 月,苹果供应链的香港海通国际证券分析师 Jeff Pu 发布报告显示:苹果可能在 2023 年已经建造了几百台 AI 伺服器,而 2024 年将会显著增加。
他认为,苹果在推出生成式 AI 时前在谨慎考虑如何使用和处理个人数据,以符合其对客户隐私的承诺。
也就是说,此前苹果的 " 慢半拍 " 似乎是思考如何在尊重客户隐私的前提下,使用和处理个人数据。在没有完美的解决方案之前,苹果则始终保持谨慎。
此外,Jeff Pu 在报告中指出:苹果计划最早在 2024 年末开始在 iPhone 和 iPad 上实施生成式 AI 技术。如果计划得以实现,2024 年末的时间表将意味着苹果可能会从 iOS 18 和 iPadOS 18 开始推出生成式 AI 功能。
至此,这两篇论文的发布似乎启动了苹果王者归来的时钟,2024 年,群雄逐鹿的人工智能赛道将会更加精彩。