AI Phone：先是芯片，再是模型，最後才是手機廠商

今天小編分享的科技經驗：AI Phone：先是芯片，再是模型，最後才是手機廠商，歡迎閲讀。

文 | aiAR 研究媛

賣鏟子相比蜂擁去淘金，永遠是更好的選擇。

在大模型風靡全球、藴含極大商業價值的今天，「先進鏟子」之間的競賽，正趨向白熱化。

大模型時代的掘金鏟子：AI 計算加速芯片

如今的 AI 計算加速芯片眼花缭亂。GPU、NPU、TPU、VPU，新概念層出不窮，手機 SoC、PC 處理器、車端智駕和座艙芯片、高性能 AI 計算大規模伺服器集群，AI 計算加速幾乎無處不在。

然而萬變不離其宗，按計算的通用性，AI 計算大概可以分為 CPU、GPU、FPGA、和 ASIC（NPU/TPU），按使用場景，可以分為訓練芯片、雲端推理芯片和邊緣側的推理芯片。我們知道 CPU 遵循傳統的存儲 - 控制 - 運算的馮 · 諾依曼架構，核心是存儲程式 / 數據，串行順序執行。

CPU 的架構需要大量的空間去放置高速緩存單元和控制單元，現代 CPU 在分支預測和亂序執行上的要求更高，不斷新增的長指令集更進一步強化了復雜的邏輯控制單元，相比之下 CPU 計算單元只占據了很小的一部分。大規模并行計算方面，CPU 天然的效率很低，更适合處理復雜的邏輯控制和通用計算。

與 CPU 相比，GPU 80% 以上的晶體管面積都是計算核心，即 GPU 擁有非常多的用于數據并行處理的計算單元，可以高效運行物理計算、比特币挖礦算法等。GPU 還可以為兩種，一種是主要搞圖形渲染的，我們熟悉的 GPU（遊戲）顯卡；另一種是主要搞計算的，叫做 GPGPU，也叫通用計算圖形處理器（科學計算），A100、H100 就是代表。GPGPU 芯片去掉了針對圖形渲染的專用加速硬體單元，但保留了 SIMT（單指令多線程）架構和通用計算單元，計算的通用性更強，可以适用于多種算法，在很多前沿科學計算領網域，GPGPU 是最佳選擇。

FPGA 是一種半定制芯片，作為靈活可編程的硬體平台，同時具有較高的計算性能和可定制性，芯片硬體模塊、電路設計更為靈活，但缺點是專用 AI 計算的效能比 ASIC 差一些。

ASIC 是一種為專門目的而設計的芯片（全定制），根據特定算法定制的芯片架構，算力強大，但專業性強縮減了其通用性，算法一旦改變，計算能力會大幅下降，需要重新定制。我們知道的 NPU、TPU 就是這種架構，都屬于 ASIC 定制芯片。

CPU、GPU、NPU 架構區别如下圖，CPU 最為均衡，可以處理多種類型的任務，各種組件比例适中；GPU 則減少了控制邏輯的存在但大量增加了 ALU 計算單元，提供給我們以高計算并行度；而 NPU 則是擁有大量 AI Core，這可以讓我們高效完成針對性的 AI 計算任務。

GPU 相比 CPU 有更多的并行計算核心

NPU 相比 CPU 和 GPU，有大量專門進行大矩陣乘法和卷積運算的 AI Core

ASIC 思想下的 AI 芯片作為一種專用處理器，通過在硬體層面優化深度學習算法所需的大矩陣乘法、張量運算、卷積運算等關鍵運算，可以顯著加速 AI 應用的執行速度，降低功耗。與在通用 CPU 上用軟體模拟這些運算相比，AI 芯片能帶來數量級的性能提升。因此，AI 芯片已成為如今大模型訓練和推理的關鍵載體。

AI 專用處理器的發展最早可以追溯到 2015 年。2015 年 6 月，谷歌 I/O 開發者大會上推出第一代神經網絡計算專用芯片 TPU，專門用于加速 TensorFlow 框架下的機器學習任務。區别于 GPU，谷歌 TPU 是一種 ASIC 芯片方案，一般來説 ASIC 芯片開發時間長、研發成本高，服務于專用計算，實現的下遊任務較為固定和狹窄。此後，谷歌又陸續推出了多個 TPU 系列產品，不斷優化其架構和性能。

終端推理側的 AI 芯片：AI Phone 的關鍵能力

盡管 AI 芯片的種類、實現的任務和部署形态多樣且復雜，但其功能最終可以歸結為兩種：訓練和推理。

在訓練階段，AI 芯片需要支持大規模的數據處理和復雜的模型訓練。這需要芯片具有強大的并行計算能力、高帶寬的存儲器訪問以及靈活的數據傳輸能力。NVIDIA 最新的 H100 GPU、華為昇騰 Ascend NPU、谷歌 TPU 等專門為 AI 訓練設計的芯片，擁有超強的計算能力、超大顯存和極高的帶寬，能夠處理海量數據，特别适合訓練類似 GPT 等大語言模型。

在推理階段，AI 芯片需要在功耗、成本和實時性等方面進行優化，以滿足不同應用場景的需求。雲端推理通常對性能和吞吐量要求較高，因此需要使用高性能的 AI 芯片，邊緣和端側推理對功耗和成本更加敏感，因此需要使用低功耗、低成本的 AI 芯片，如專門為桌面、移動和嵌入式設備設計的 NPU 等。

英特爾最新的酷睿 Ultra 旗艦處理器，基于 x86 平台的異構 AI 計算，集成的 GPU 和 NPU 性能越來越高。高通和 MediaTek 最新的高端移動處理器，針對不同任務的 AI 計算加速，整個 SoC 微架構上，NPU 的重要性也越來越突出。

相較于訓練芯片在雲端成為某種 " 基礎設施 "，端側的推理芯片則站在了 AI 應用的前沿。将訓練好的模型為現實世界提供智能服務，特别是目前已經成為 " 個人信息 Hub" 的手機終端，某種意義上已經成為了普通人新生長出來的器官，當大模型與手機融合，不依賴網絡和雲端算力就能讓手機具備大模型能力，AI Phone 的商業想象力巨大。

高通 VS MediaTek ，最新的移動旗艦芯片

大模型推理正在向手機、PC、智能汽車等終端滲透。但是，在終端部署 AI 大模型時，仍面臨着多模态模型壓縮、存儲與計算瓶頸、數據傳輸帶寬限制、模型 always-on 設備功耗和發熱、軟硬體聯合調優等多重挑戰。特别是在手機端，芯片必須在保證高性能的同時，盡量降低功耗，這要求芯片設計在硬體架構和算法加速技術上進行優化，以提高計算效率并減少能源消耗。

以高通最新的骁龍旗艦芯片為例，" 為了實現更快的 AI 推理性能，高通提升了所有（AI 計算）加速器内核的吞吐量，還為标量和向量加速器增加了更多内核，滿足增長的生成式 AI 運算需求，尤其是面向大語言模型 ( LLM ) 和大視覺模型 ( LVM ) 用例，以在處理過程中支持更長的上下文。至于大眾關心的能耗，高通這次将每瓦特性能提高 45%。終端更加高效，不需要大量消耗電池續航。"

根據高通的官方描述：高通最新的旗艦移動芯片，骁龍 8 至尊版首次采用了一系列領先技術，包括第二代定制的高通 Oryon CPU、全新切片架構的高通 Adreno GPU 和增強的高通 Hexagon NPU，能夠為用户帶來終端體驗的全面革新。作為高通迄今為止最快的 CPU，Oryon CPU 擁有 2 個主頻高達 4.32GHz 的超級内核和 6 個主頻 3.53GHz 的性能内核。其單核性能和多核性能相比前代均提升了 45%，浏覽器性能提升了 62%，可為大量的多任務處理、飛速網頁浏覽和疾速遊戲響應體驗提供強大的性能和能效支持。同時，骁龍 8 至尊版還支持高達 10.7Gbps 速率的 LPDDR5X 内存，為用户帶來更為豐富的終端側 AI 使用體驗。

基于全新的高通 Hexagon NPU，骁龍 8 至尊版首次支持終端側個性化多模态 AI 助手，能夠賦能規模更大且更加復雜的多模态生成式 AI 用例在終端側高效運行。在處理器上，高通 Hexagon NPU 增加了額外内核，擁有 6 核向量處理器和 8 核标量處理器，能夠進一步滿足生成式 AI 運算不斷增長的需求。

得益于在軟體上的不斷優化、Hexagon NPU 新增的處理器核心以及多模态模型，骁龍 8 至尊版能實現更快的 AI 處理速度。其 AI 性能提升了 45%，每瓦特性能提升 45%，并支持 70+ tokens/sec 的輸入，用户可以上傳更大的文檔、音頻和影像，讓手機在處理復雜任務時能夠更加遊刃有餘。

有了全新 Hexagon NPU 的支持，無論是在拍照時的智能識别與優化，還是遊戲中的實時渲染與計算，骁龍 8 至尊版都能為用户提供強大的 AI 引擎支持，幫助用户能夠随時随地開啓靈感世界，創造無限可能。在影像處理能力上，通過 AI-ISP 和 Hexagon NPU 的深度融合，骁龍 8 至尊版可帶來突破性的拍攝體驗，讓用户在拍照時得到更多的 AI 加持，其支持 4.3GP/s 像素處理能力，數據吞吐量相比上代提升了 33%，能夠支持三個 4800 萬像素影像傳感器同時進行 30fps 視頻拍攝。

骁龍 8 至尊版支持無限語義分割功能，可以對影像進行超過 250 層語義識别和分割，針對性優化影像中的每個細節。在無限語義分割基礎上，骁龍 8 至尊版的實時皮膚和天空算法可以利用 Hexagon NPU 來識别光線條件并進行修圖，即使在光線條件不足的情況下，也能拍出具有自然效果的皮膚和天空色調。

基于 Hexagon NPU，骁龍 8 至尊版還支持實時 AI 補光技術，讓用户即使在近乎黑暗的環境下，也能生動記錄 4K 60fps 的視頻。在視頻通話或者直播時遇到背光情況，實時 AI 補光技術仿佛增加了一個虛拟的可移動光源，讓用户時刻都能展現自己美好的一面。在強大算力的支持下，骁龍 8 至尊版還支持視頻魔法擦除功能，用户可以直接在視頻中選擇需要擦除的對象将其消除，而無需将視頻上傳到雲端。

此外，骁龍 8 至尊版還擁有 AI 寵物拍攝套件，能夠清晰記錄萌寵們 " 放飛自我 " 的調皮時刻，無論是快速奔跑還是嬉戲打鬧，都能被精準捕捉。

在高通發布骁龍 8 之前，多年蟬聯手機移動芯片市場份額第一的 MediaTek，也在最新的天玑 9400 旗艦芯集成 MediaTek 第八代 AI 處理器 NPU 890，在其支持下，天玑 9400 支持時網域張量（Temporal Tensor）硬體加速技術、端側高畫質視頻生成技術，賦能端側運行 Stable Diffusion 的性能提升了 2 倍，不僅能夠實現高分辨率生圖，更支持端側動圖和視頻生成，實現更多新玩法。

根據 MediaTek 官方描述：天玑 9400 擁有強悍的端側多模态 AI 運算性能，處理能力高達 50 tokens/ 秒；運行各種主流大模型，平均功耗可節省 35%，為手機終端用户帶來更智慧、更省電的 AI 智能體互動。随着大語言模型能力的提升，智能體多輪對話與復雜場景的判斷需求越來越重要。天玑 9400 已能支持到至高 32K tokens 的文本長度，是上一代的 8 倍 !

為了強化端側模型的數據安全和個人隐私作用，MediaTek 天玑 9400 支持端側 LoRA 訓練，不用傳資料上雲，每位用户在端側就可以安心享受實時的個性化訓練與生成，還可用個人照片創建各種畫風的數字形象，并更換各種姿勢和背景，讓隐私更安全。

AI Phone 算力芯片的關鍵指标：Prefill 階段首 Token 延遲，以及 Decoding 階段 Token 生成速率

無論雲端模型還是端側大模型，本質是 " 一堆參數 "。手機終端執行大模型推理的過程：用户輸入文本（提示詞，也即常説的 Prompt ) 編碼轉化為向量，内存加載參數，激活參數執行 AI 計算，輸出向量解碼。

大模型推理的基本流程，用户提供一個 prompt（提示詞），手機運行的推理框架根據輸入的提示詞生成回答。推理過程通常分為兩個階段：prefill 階段和 decoding 階段。在 Prefill 階段，内存加載模型參數，推理框架接收用户的提示詞輸入，然後執行模型參數計算，直到輸出第一個 token。這個階段只運行一次，耗時較長。

接下來是 Decoding 階段，這個階段是一個自回歸的過程，每次生成一個 token。具體來説，它會将上一時刻的輸出 token 作為當前時刻的輸入，然後計算下一時刻的 token。如果用户的輸出數據很長，這個階段就會運行很多次。Decoding 階段的 Token 吞吐率，即常説的推理速度 XXToken/sec。

如何評價不同品牌的 AI Phone 的大模型運行性能的優劣？運行同樣參數尺寸（比如 3B ) 的端側模型，模型的 " 知識密度 " 相同的情況下，Prefill 階段的首 Token 延遲，以及 Decoding 階段 Token 生成速率是兩個最直觀的指标，它直接反饋一款 AI Phone 運行大模型是否流暢，用户體驗感知最明顯。當然 AI Phone 運行模型時的内存占用壓縮，量化精度損失，AI Phone 運行的多模态模型和文本基座模型本身的性能和功能，模型層的優劣影響也是決定性的。一個高效壓縮、功能全面、性能強悍、跨算力平台兼容性好的端側模型，還沒有公認的最強者。

目前，AI Phone 算力芯片支持的推理框架，适配優化支持的模型種類和數量，正在肉眼可見的增長和繁榮。端側模型運行在不同終端，針對不同 ASIC 芯片 NPU 的兼容，進行 AI 計算硬體加速和調度優化的空間還非常大，這是一個涉及終端廠商、芯片廠商、模型廠商三方的生态構建。誰能提前布局，不辭辛勞更多做幕後看不到的 " 有用功 "，大模型時代它一定獲得市場的 " 加速 "。