蘋果AI“圖窮匕見”：将大模型塞進iPhone裡

今天小編分享的科技經驗：蘋果AI“圖窮匕見”：将大模型塞進iPhone裡，歡迎閱讀。

圖片來源 @視覺中國

文｜适道

《教父》電影中有句話：" 千萬不要讓外人知道你想幹什麼 "，這句話似乎也可以用在蘋果 2023 年前 11 個月的 AI 表現上。

今年 5 月，外媒報道蘋果擔心 ChatGPT、Copilot 等 AI 工具收集機密數據，禁止員工在工作中使用。

今年 6 月，在蘋果全球開發者大會上，庫克甚至都沒提 AI，而是同義替換為 ML。

但如果說蘋果不在意 AI，顯然不可能。畢竟追溯到 2010 年，蘋果就以 2 億美元的價格收購了 Siri 團隊，雖然這麼多年過去了，它還是那麼 " 弱智 "。

今年 7 月，彭 / 博社報道稱，蘋果内部研發了自己的 AI 框架 Ajax 和聊天機器人 AppleGPT。其中 Ajax 基于 Google Jax 搭建，而 AppleGPT 則類似于 ChatGPT。不過，二者看起來沒有什麼創新之處。

今年 10 月，蘋果又掏出了開源多模态大模型 Ferret，擁有 70 億和 130 億兩個參數版本。但因為目前只對研究機構開放，也沒激起什麼浪花。

同樣是 10 月，彭 / 博社報道稱，蘋果非常 " 焦慮 "，并已啟動一項龐大的追趕計劃。該計劃由機器學習和人工智能主管 John Giannandrea 和 Craig Federighi 領導，服務部門高級副總裁 Eddy Cue 也參與其中，預算為每年 10 億美元。

有點諷刺的是，早在 2020 年，John Giannandrea 就在訪談中肯定了蘋果的 AI 戰略，并表示蘋果不會向外說太多自己的 AI 能力。

到底是不能說太多，還是其實沒有太多。總之，太多傳言吊足了大家的胃口。

雖然你可以說，作為一家主打硬體的公司，蘋果今年至少發布了 Vision Pro，其中數字分身、場景與動作識别等功能都和 AI 技術有關。

但驕傲止步于 11 月份 AI Pin 的刷屏。半個煙盒大小的 " 領夾 " 只通過 " 聽 " 和 " 看 " 就能理解用戶需求，并用 AI 軟體執行任務，被一些人視為 " 天生的 iPhone 殺手 "。更重要的是，AI Pin 背後的金主爸爸包括微軟、OpenAI 等一系列讓蘋果 " 焦慮 " 的對象。

眼看狼群要全方位包抄了，蘋果終于在 2023 年即将結束之時，放出了兩篇論文。

其中一篇題為《LLM in a flash:Efficient Large Language Model Inference with Limited Memory》的論文提出：蘋果通過一種創新的閃存利用技術，成功地在内存有限的 iPhone 和其他蘋果設備上部署了 LLM，這一成果有望讓更強大的 Siri、實時語言翻譯以及融入攝影和 AR 的尖端 AI 功能登陸未來 iPhone。

在 2024 年，這條 " 大模型 + 硬體 " 路線或許會直接改變競争格局。

01 打破内存牆，将大模型放在閃存裡

先放數據結論。論文顯示，在 Flash-LLM 技術的加持之下，兩個關鍵領網域得到優化：1、減少閃存傳輸的數據量；2、讀取更大、更連續的數據塊。

優化之後，設備能夠支持運行的模型大小達到了自身 DRAM 的 2 倍；LLM 的推理速度在 Apple M1 Max CPU 上提高了 4-5 倍，在 GPU 上提高了 20-25 倍。

Flash-LLM 是如何做到的呢？采用了兩種主要技術：

第一、視窗化技術（windowing），通過重復使用先前激活的神經元來戰略性地減少數據傳輸。大大減少了從存儲器（閃存）到處理器（DRAM）的數據傳輸量。

第二、行列捆綁技術 ( row-column bundling ) ，根據閃存的時序數據的訪問強度量身定制，增加從閃存讀取的數據塊的大小，改變了數據的存儲方式。

舉個我們曾在《虧了幾個億， AI 項目到底怎麼投？看歐洲老牌風投 Index 如何押寶》中舉過的 " 圖書館 " 例子。

假設，你拿着列有 20 本書的書單去圖書館找書，但這家圖書館就像英劇《Black Books》一樣，書本擺放得雜亂無章。你幾乎要從頭走到尾，才能全部定位出你要找的所有書。

想象一下，你找書時，需要 " 眼睛 " 和 " 腦子 " 對賬。按照常理，你不會每看到一本書，就從書單裡找對應。因為你的大腦已經 " 閃存 " 了 " 重點書名 "。

你要做的，只是從當下視線掃過的範圍内找出書單上的書。

視窗化技術（windowing）就是這樣，相當于先用一個算法稀疏化 LLM 的權重矩陣，只保留一部分重要的元素，從而減少計算量，提高計算效率。

同時，因為你一共要找 20 本書，總不能像狗熊掰玉米拿一本扔一本，因此你需要一個小推車。行列捆綁技術 ( row-column bundling ) 就是這個小推車，幫助每次從閃存中讀取的數據塊更大，也提高了數據讀取效率。

速度和大小的雙重突破，或許很快可以讓大模型在 iPhone、iPad 和其他移動設備上流暢運行。

盡管這種方法也存在一些局限性，包括主要針對文本生成任務，對其他類型任務的适用性還需進一步驗證，以及處理超大規模模型的能力有限等等。

02 迎接 Vision Pro 上市，30 分鍾生成 " 數字人分身

第二篇論文《HUGS: Human Gaussian Splats》雖然不比上一篇驚豔，但也足夠讓人眼前一亮。

這篇論文詳細介紹了一項名為 HUGS（Human Gaussian Splats）的生成式 AI 技術，蘋果研究員兼 HUGS 論文作者之一的 Anurag Ranjan 介紹：HUGS 僅僅需要一個約 50-100 幀的原始視頻，相當于 2 到 4 秒 24fps 的視頻，就能在 30 分鍾内生成一個 " 數字人分身 "。

據悉，這比包含 NeuMan、Vid2Avatar 在内的其他方式要快約 100 倍。

根據 Ranjan 在 X 上發布的視頻，畫面右方的三個數字人分身正在草坪上快樂跳舞，頗為魔性。

蘋果表示，雖然當前的神經渲染技術比早期有了顯著的進步，但依然最适合用在靜态場景中，而不是在動态場景中自由移動的人類。

HUGS 則是建立在 3DGS（3D Gaussian Splatting）和 SMPL 身體模型技術的基礎上，創建數字人分身。當然，目前 HUGS 技術無法捕捉每個細節，但對于未能捕捉并建模的細節元素，HUGS 會自動填充。

而 3D 虛拟數字人是 VR 頭顯進一步發展的必然要求。

例如，在去年 Meta 發布了 Codec Avatar 2.0 版本，比 1.0 進一步完成了逼真的數字人效果。

今年，蘋果發布 Vision Pro，可以通過前置攝像頭掃描用戶面部信息，基于機器學習和編碼神經網絡，為用戶生成一個數字分身。當用戶使用 FaceTime 通話時，數字分身就可以動态模仿用戶的面部及手部動作，并保留數字人分身的體積感和深度。

根據彭 / 博報道，蘋果正在為 Vision Pro 上市做最後的準備，發售有望提前至 2024 年 1 月下旬。

據蘋果資深分析師 Mark Gurman 爆料，2024 年蘋果的精力會重點放在可穿戴產品上（Vision Pro、AirPods、Apple Watch），一向占據大頭的 iPhone 或将讓位。

這篇論文或許就是迎接 Vision Pro 上市的準備動作。

03 結語

根據集邦咨詢，從 2018 年開始，蘋果就悄悄收購了 20 多家 AI 公司，只有少數公開了交易價格。

也就是說，當你以為蘋果終于慢半拍時，大佬正在觀察、努力，悄悄布局生态，然後像以前無數次那樣，突然一鳴驚人，驚豔所有人。

更可怕的是，此前蘋果所表現的 " 落後一步 " 似乎是 " 以退為進 "，有兩個信息值得注意。

1、外媒報道，最近蘋果正讨論 " 價值至少 5000 萬美元的多年期合作協定 "，并與康泰納仕、NBC 新聞和 IAC 等媒體接洽，以獲取他們過往新聞文章的使用授權。

跟别的科技公司拿了數據直接訓練不同，蘋果是先取得授權，才會拿數據來進行訓練。

這讓人不由聯想到，最近紐約 / 時報指控 OpenAI 和微軟，未經授權就使用紐約 / 時報内容訓練人工智能模型。而此案可能是人工智能使用知識版權糾紛的分水嶺。

同樣的還有近期 Midjourney V6 的版權麻煩——利用人類創作者的作品進行 AI 訓練是否合法？司法如何保護創作者的權益主張？

2、在 " 談 AI 安全色變 " 的氣候下，今年 10 月，蘋果供應鏈的香港海通國際證券分析師 Jeff Pu 發布報告顯示：蘋果可能在 2023 年已經建造了幾百台 AI 伺服器，而 2024 年将會顯著增加。

他認為，蘋果在推出生成式 AI 時前在謹慎考慮如何使用和處理個人數據，以符合其對客戶隐私的承諾。

也就是說，此前蘋果的 " 慢半拍 " 似乎是思考如何在尊重客戶隐私的前提下，使用和處理個人數據。在沒有完美的解決方案之前，蘋果則始終保持謹慎。

此外，Jeff Pu 在報告中指出：蘋果計劃最早在 2024 年末開始在 iPhone 和 iPad 上實施生成式 AI 技術。如果計劃得以實現，2024 年末的時間表将意味着蘋果可能會從 iOS 18 和 iPadOS 18 開始推出生成式 AI 功能。

至此，這兩篇論文的發布似乎啟動了蘋果王者歸來的時鍾，2024 年，群雄逐鹿的人工智能賽道将會更加精彩。