今天小編分享的科技經驗:蘋果大模型,不藏了,歡迎閲讀。
iPhone 迎來 AI 時刻?
歲末年初,蘋果加快了在大模型領網域的步伐。
上個月,蘋果先是推出了名為 Ferret 的多模态大語言模型,影像處理技術堪稱驚豔;而後又發布了一篇題為《閃存中的大型語言模型:在有限内存下高效的大型語言模型推理》的論文,直指大模型落地 iPhone 等 " 内存有限 " 設備的方法。
進入新年,Siri 助手将搭載生成式模型 Ajax 的消息,再次不胫而走。
去年六月和九月的兩次重要發布會,蘋果分别掏出了早有傳聞的 XR 項目和 iPhone 系列的慣例年更,前者市場反響平平,後者擠牙膏被批像是被 " 卡脖子 " 了,硅谷 All in 大模型之時,蘋果官方對人工智能這一年度熱詞始終閉口不談。
公司 CEO 庫克曾解釋道,蘋果有計劃在更多產品中加入 AI,但要 " 深思熟慮 "。
現如今,也許是想好了,也許是技術突破了,留了一手的蘋果,終于不藏了。
iPhone 的 AI 時刻,來了?
Siri 助手 AI 化其實早有預兆:去年七月份,美國媒體發文稱蘋果内部正在暗中測試一款對标 OpenAI 和谷歌的生成式 AI 工具,暫定名 "Apple GPT"。
因使用 Google JAX 框架進行構建,Apple GPT 的開發框架被命名為 Ajax。
當時的消息稱,蘋果 LLM 技術的最大用武之地,便是整合在 Siri 内部,讓語音助手以更為智能的方式協助用户。
現在,更多細節被透露——蘋果發布的論文稱,這項将大語言模型放在閃存中優化運行的技術,較傳統運行方法提高了 4-5 倍(CPU)和 20-25 倍(GPU)的推理速度。
把大象(大模型)裝進冰箱(手機)裏的方法,來了:先減少閃存傳輸的數據量,再提高每次傳輸的吞吐量。
先看框架:以手機為例,平時購機時的【12+256G】、【16+512G】,12/16 為運行内存,256/512 為儲存空間。
以此類推絕大部分移動設備存儲結構,運存空間小,但讀取速率高(DRAM 10GB/s);儲存空間大,但讀取速率相對較低(Flash Memory 1GB/s)
一般來説,大模型的推理階段,模型加載、分析數據需要直接占用運存,而目前主流手機市場最大的 16GB 運存,也并不能完全滿足大模型所需的空間:模型大小>手機内存。
蘋果給出的解決方案是 " 先減少閃存傳輸的數據量 " ——把大模型完全體放在空間更大的儲存中,運行時只調用必要數據進入運存。
這并非一個簡單的搬箱子過程,如何正确篩選出所有必要數據,以及如何把數據快速由閃存傳輸到運存,是兩個需要解決的問題。
方法之一被命名為 sliding window(滑窗):
假設大模型正在處理 Once upon a time there was a kid who had a dream 這句話,在處理 "Once upon a time there" 這段字元的時候,圖中上半部分的青色格子(神經元)處于激活狀态;而當處理資料欄變到 "upon a time there was"(往後推進了一個字元),圖中下半部新啓用了藍色格子,并删除了了此前青色部分的幾個格子(以粉色标注),其餘青色保持不變。
這就是 sliding Window 的核心思想:查缺補漏,多退少補。在大模型運行過程中,只保留一開始就激活的神經元,後續的每次運算,都基于前一次參數進行删除和添加,省去了一部分重復工作。
當然,這種預設也并非沒有問題,知乎博主 @Civ 發文稱,sliding window 可用的核心假設是大模型在處理相鄰數據時前後具有相似性,但這個相似性蘋果沒有展開論證。
再者是傳輸:将多次傳輸的數據拼接後一次性讀取,保持連續完整的 " 數據 ",避免多次復制拖慢時間;另外,提前預留出一個較大的空間(較大,但仍遠遠小于模型整體占用),避免在數據傳輸過程中,因多次增加空間而加大設備的計算量。
此前,藍媒匯在《AI PC 發布,聯想真的想通 AI 了嗎?》中提及,限制大模型進入移動端的瓶頸就是模型占地太大,影響設備本身正常運轉,或者塞不進去導致無法運行。
蘋果這項新研究的諸多技術細節,都在指向空間的壓縮,包括數據體量,也包括運算所占用的算力。
發力多模态
之前有個段子(也可能是真事兒),説是大模型搞不定人機驗證,是因為 AI 被設定不能説謊,所以無法選擇 " 我不是機器人 "。
去年十月份,蘋果還是以論文的形式公布了一項研究成果:Ferret 大模型,自己搞定谷歌人機驗證了。
遙遙領先于 GPT4。
不久之前,蘋果公布了更多 Ferret 模型的細節、功能。
圖 / 蘋果 Github Ferret 模型介紹
和 GPT4 相比,Ferret 的領先之處在于,它不僅能準确識别并處理影像内容,還能用算法區分圖片中各種元素(人、物體等等),并根據用户指令找出對應元素。
這種多模态理解能力,使得 Ferret 能夠同時處理用户輸入的影像和自然語言,并且由于其算法能夠将影像中的元素準确拆分、定位,Ferret 可以準确理解如 " 圖片右上角 "、" 靠近沙發 " 這類指令。
相比于卷瘋了的自然語言處理,這種基于影像的互動使得信息更加直觀。
最近一次更新,蘋果提供了 Ferret 的 7B 和 13B 兩個版本,并創建了包含了 1.1M 個樣本的 GRIT 的數據集以豐富空間知識,進一步增強功能。
考慮到蘋果相當成熟的產品生态以及巨量用户規模,AI 落地帶來的換機潮等收益,或将極為可觀。
2023 年被稱為是 AI 的 iPhone 時刻,現在,蘋果的 AI 時刻大約也快到了。