今天小編分享的科技經驗:性能8.6倍于競品!高通AI大揭秘:NPU引領四兄弟無敵,歡迎閱讀。
生成式 AI 的變革,對于基礎硬體設計、軟體生态開發都提出了新的、更高的要求,尤其是底層硬體和算力必須跟上新的形勢,并面向未來發展做好準備。
近日,高通特别發布了《通過 NPU 和異構計算開啟終端側生成式 AI》白皮書,對于終端側生成式 AI 的發展趨勢,以及高通骁龍處理器的多模塊異構計算引擎,尤其是 NPU 的設計及優勢,都進行了詳細解讀。
生成式 AI 雖然這兩年才火熱起來,但是 AI 的發展歷史悠久,高通也早在 2007 年就打造了 Hexagon DSP,其控制和标量架構正是後續 NPU 的基礎。
2015 年發布的骁龍 820 處理器集成了首個高通 AI 引擎,支持成像、音頻和傳感器運算。
之後,2018 年的骁龍 855 又增加了 Hexagon 張量加速器。
2020 年骁龍 888 裡的全新架構 Hexagon NPU 堪稱裡程碑轉折,并在之後的三代骁龍 8 中持續迭代演進,AI 性能、效能和範圍不斷拓展。
比如第三代骁龍 8 的張量運算核心的峰值性能就大幅提升了 98%,同時依然保持高超的能效。
高通在 AI 方面采用的是異構計算引擎思路,由 Kryo CPU、Adreno GPU、Hexagon NPU、傳感器中樞四大核心模塊共同組成,彼此協作。
根據終端類型、終端層級、關鍵性能指标、時延等因素的不同,這種架構可以使用不同的組件進行 AI 處理,以達到最佳效率。
比如說,CPU 計算量一般,但擅長順序控制和即時性,非常合對延遲要求非常高的場景,比如時序敏感性小模型,比如卷積神經網絡模型 ( CNN ) 或者特定大語言模型 ( LLM ) 。
GPU 擅長高精度格式的并行處理,比如對畫質要求非常高的影像、視頻處理,同時算力非常強,可運行大規模的模型。
NPU 擅長标量、向量和張量數學運算,而且能效非常高,能夠以極低功耗實現持續穩定的高峰值性能,在基于 LLM 和 LVM ( 大視覺模型 ) 的不同用例中,比如說 Stable Diffusion 或其他擴散模型,每瓦特性能十分出色。
高通傳感器中樞則能以極低功耗運行始終開啟的用例,可獲取大量端側情境信息,讓生成式 AI 體驗更加個性化,這也是終端側 AI 的獨特優勢之一,并且信息保留在終端上,不會聯網上傳到雲端,隐私更安全。
如此設計的異構計算,能夠實現最佳的應用性能、能效和電池續航,以最大化提升生成式 AI 終端的用戶體驗。
這裡重點說說 NPU。
NPU 全程為神經網絡處理器,是專為低功耗加速 AI 推理而打造的硬體模塊,架構上随着新 AI 算法、模型和用例的發展而不斷演進。
Al 工作負載主要包括由标量、向量和張量數學組成的神經網絡層計算以及非線性激活函數。
優秀的 NPU 設計,能正确選擇如何處理 AI 工作負載,同時與 CPU、GPU 等其他模塊協同執行,并與 AI 行業發展方向保持高度一致。
高通 Hexagon NPU 就是為了以低功耗實現持續穩定的高性能 AI 推理而設計,其差異化優勢在于系統級解決方案、定制設計和快速創新。
通過定制設計 NPU 并控制指令集架構 ( ISA ) ,高通可以讓 NPU 快速演進和擴展,以解決遇到的任何瓶頸問題,并優化性能。
高通透露,最初開始研究 NPU 的時候,關注的是一些簡單用例,比如用于音頻和語音處理的卷積神經網絡模型 ( CNN ) 和長短期記憶網絡模型 ( LSTM ) ,2015 年第一代高通 AI 引擎的 Hexagon NPU 就集成了标量和向量運算擴展。
2016-2022 年間,高通将研究方向拓展至 AI 影像和視頻處理,比如暗光拍照、降噪、多幀處理等,同時引入了 Transforme 層處理,因此增加了張量運算核心 ( Tensor Core ) 。
2023 年,Hexagon NPU 開始支持 LLM 和 LVM,并支持 Transformer,可以更好地處理基于 Transformer 的模型。
如今第三代骁龍 8 集成的 Hexagon NPU 已經能夠在終端側運行高達 100 億參數的模型,無論是首個 token 的生成速度,還是每秒生成 token 的速率,都處在業界領先水平。
值得一提的是,Hexagon NPU 還引入了用于影像處理的微切片推理技術,增加了能夠支持所有引擎組件的大共享内存,最高支持到 4.8GHz 頻率的 LPDDR5X,LLM 處理能力更上一層樓,可快速處理百川、Llama2 等等。
說了半天原理,看看實際性能表現,首先是第三代骁龍 8 和三款安卓、iOS 平台競品的對比。
魯大師 AIMark V4.3 測試中,第三代骁龍 8 的總分達到了競品 B 的 5.7 倍、競品 C 的 7.9 倍。
安兔兔測試中,第三代骁龍 8 的總分是競品 B 的 6.3 倍。
MLCommon MLPerf 推理的不同子項中,比如影像分類、語言理解、超級分辨率等,第三代骁龍 8 也都保持領先。
PC 端對比骁龍 X Elite 和其他 x86 架構競品。
Windows 系統下的 UL Procyon AI 推理測試中,骁龍 X Elite 在 ResNet-50、DeeplabV3 等測試項目中都大幅領先,總分是競品 A 的 3.4 倍、競品 B 的 8.6 倍。
近日在巴塞羅那舉辦的 MWC 2024 大會上,高通還展示了在終端上運行的多模态生成式 AI 模型。
在第三代骁龍 8 上運行的首個大語言和視覺助理大模型 ( LLaVA ) ,能基于影像輸入,回答用戶提出的問題。
比如為視障人士在城市内進行導航,就可以将影像信息轉換成語音,幫助他們了解周圍的事物。
順帶一提,高通還展示了基于骁龍 X Elite 筆記本,首個在終端側運行的超過 70 億參數的大型多模态語言模型 ( LMM ) ,可接受文本和音頻輸入 ( 如音樂、交通環境音頻等 ) ,再生成多輪對話。
硬體 AI 能力之上,高通還打造了 AI 軟體棧 ( AI Stack ) 。
它可以支持目前所有的主流 AI 框架,包括 TensorFlow、PyTorch、ONNX、Keras;支持所有主流的 AI 運行時,包括 DirectML、TFLite、ONNX Runtime、ExecuTorch;還支持不同的編譯器、數學庫等 AI 工具。
此外,高通還有 AI Studio,可為開發者提供開發過程中需要用到的各種相關工具,包括支持模型量化和壓縮的高通 AI 模型增效工具包 ( AIMET ) ,能夠大幅提高模型運行的效率。
高通認為,AI 終端市場的發展還在初期階段,但已經為高通的不同產品和解決方案帶來了顯著的改進,對消費者的重要性也在不斷增加,無論教育、醫學還是養老等各個領網域,AI 的作用将愈發凸顯。
互聯網出現的時候,只有少數人能夠利用 PC 上網,而智能手機的出現讓數十億人都能夠連接網絡。
相信終端側生成式 AI 的發展也是如此,它将讓所有人都能充分利用生成式 AI,改變工作、娛樂和生活中的切身體驗,變革各行各業。