高通萬衛星：終端側生成式AI時代已經來臨

今天小編分享的科學經驗：高通萬衛星：終端側生成式AI時代已經來臨，歡迎閱讀。

AI 手機、AI PC 硬體新物種正嶄露頭角。

高通作為技術及芯片廠商，所提供的產品和解決方案正在推動 AIGC 相關產業的規模化擴展。

在本次 AIGC 產業峰會上，高通公司 Al 產品技術中國區負責人萬衛星分享了這樣的觀點：

2024 年，高通會重點支持多模态模型以及更高參數量的大語言模型在端側的部署。而高通頂尖的異構計算設計使 AI 能力貫穿整個 SoC，将 CPU、GPU 和 NPU 的能力都充分釋放給開發者。

同時，借助高通 AI Hub，開發者可以輕松地開發自己的創新 AI 應用，就像" 把大象塞入冰箱 "一樣簡單。

為了完整體現萬衛星的思考，在不改變原意的基礎上，量子位對演講内容進行了編輯整理，希望能給你帶來更多啟發。

中國 AIGC 產業峰會是由量子位主辦的行業峰會，20 位產業代表與會讨論。線下參會觀眾近千人，線上直播觀眾 300 萬，獲得了主流媒體的廣泛關注與報道。

話題要點

基于影像語義理解的多模态大模型發展是當下的重要趨勢。

芯片廠商如何滿足生成式 AI 多樣化的要求。

虛拟化身 AI 助手，充分利用高通異構計算能力的端到端用例解析。

利用高通 AI Hub 進行應用開發的過程就像 " 把大象塞進冰箱 " 一樣簡單。

以下為萬衛星演講全文：

終端側生成式 AI 時代已經來臨

我們相信，終端側生成式 AI 時代已經來臨。

高通在 2023 年 10 月發布的第三代骁龍 8 和骁龍 X Elite 兩款產品上，已經實現了大語言模型完整地在端側運行，并且已經或即将為眾多 AI 手機和 AI PC 提供支持。

在手機方面，去年年底和今年年初，包括三星、小米、榮耀、OPPO 和 vivo 等眾多 OEM 廠商發布的 Android 旗艦產品，都已經具備了在端側運行生成式 AI 的能力。

基于影像語義理解的多模态大模型發展是當下的重要趨勢。

在今年 2 月的 MWC 巴塞羅那期間，高通也展示了全球首個在 Android 手機上運行的多模态大模型（LMM）。

具體來說，我們在搭載第三代骁龍 8 的參考設計上運行了基于影像和文本輸入、超過 70 億參數的大語言和視覺助理大模型（LLaVa），可基于影像輸入生成多輪對話。

具有語言理解和視覺理解能力的多模态大模型能夠賦能諸多用例，例如識别和讨論復雜的視覺圖案、物體和場景。

設想一下，有視覺障礙的用戶就可以在終端側利用這一技術，實現在城市内的導航。同時，高通在骁龍 X Elite 上也演示了全球首個在 Windows PC 上運行的音頻推理多模态大模型。

接下來看看高通作為技術及芯片廠商，如何滿足生成式 AI 多樣化的要求。

不同領網域的生成式 AI 用例具有多樣化的要求，包括按需型、持續型和泛在型用例，其背後所需的 AI 模型也是千差萬别，很難有一種處理器可以完美适用所有生成式 AI 用例或非生成式 AI 用例。

比如，有些用例需要進行順序控制，對時延比較敏感；有些用例是持續型的，對算力和功耗比較敏感；有些用例需要始終在線，對功耗尤其敏感。

高通公司推出的高通 AI 引擎就是領先的異構計算系統，它包含多個處理器組件，包括通用硬體加速單元 CPU 和 GPU、專門面向高算力需求的 NPU，以及高通傳感器中樞，它們在 AI 推理過程中扮演不同角色。

前面提到的順序執行的按需型任務，可以運行在 CPU 或 GPU 上；對 AI 算力要求比較高的持續型任務，例如影像處理、生成式 AI 等，都可以運行在 NPU 上；對于需要始終在線、對功耗尤其敏感的任務，可以運行在高通傳感器中樞上。

簡單介紹一下高通 NPU 的演進路線，這是非常典型的由上層用例驅動底層硬體設計的案例。

2015 年及更早之前，AI 主要用于一些比較簡單的影像識别、影像分類用例，所以我們給 NPU 配置了标量和向量加速器。

2016 — 2022 年間，計算攝影概念開始流行，我們把研究方向從影像分類轉移到了 AI 計算攝影及視頻等等，包括對自然語言理解和處理的支持，以及對 Transformer 模型的支持，我們給 NPU 硬體在标量和向量加速器的基礎之上，增加了張量加速器。

2023 年，大模型熱度很高，我們在業内率先完成了端側的大模型支持，給 NPU 配置了專門的 Transformer 加速模塊。

2024 年，我們會重點支持多模态模型，以及更高參數量的大語言模型在端側的部署。

接下來為大家更深入的介紹高通 Hexagon NPU。

第三代骁龍 8 上的 Hexagon NPU 不僅進行了微架構更新，還專門配置了獨立的供電軌道，以實現最佳的能效。

我們還通過微切片推理技術支持網絡深度融合，獲取更極致的性能。

此外 Hexagon NPU 還集成了專門為生成式 AI 打造的 Transformer 加速模塊，更高的 DDR 傳輸帶寬，更高的主頻等先進技術。

所有這些技術相結合，使得 Hexagon NPU 成為面向終端側生成式 AI 的行業領先 NPU。

接下來看一個具體案例，虛拟化身 AI 助手——這是非常典型的充分利用高通異構計算能力的端到端用例。

它包括眾多復雜 AI 工作負載，首先需要自動語音識别（ASR）模型負責将語音信号轉成文本，這部分工作負載可以運行在高通傳感器中樞上；接下來會由大語言模型負責處理文本輸入，生成回復和對話，這部分工作負載可以運行在 NPU 上；再通過文本生成語音（TTS）模型把文本輸出轉變成語音信号，這部分負載可以運行在 CPU；最後由 GPU 模塊負責基于語音輸出同步完成虛拟化身渲染，這樣就能得到一個端到端的用語音來互動的虛拟化身助手用例。

前面介紹了硬體技術，接下來分享一下高通平台的 AI 性能。

在智能手機領網域，第三代骁龍 8 不管是在魯大師 AIMark V4.3、安兔兔 AITuTu 這些 AI 基準測試的總分方面，還是在 MLCommon MLPerf 推理：

Mobile V3.1 的具體模型推理性能測試方面，表現都遠超于競品。在 PC 方面，骁龍 X Elite 在面向 Windows 的 UL Procyon AI 推理基準測試中，表現也超過了基于 X86 架構的競品。

高通除了提供領先的硬體平台設計之外，也推出了一個跨平台、跨終端、跨作業系統的統一軟體棧，叫做高通 AI 軟體棧（Qualcomm AI Stack）。

高通 AI 軟體棧支持所有目前主流的訓練框架和執行環境，我們還為開發者提供不同級别、不同層次的優化接口，以及完整的編譯工具鏈，讓開發者可以在骁龍平台上更加高效的完成模型的開發、優化和部署。

值得強調的是，高通 AI 軟體棧是一個跨平台、跨終端的統一解決方案，所以開發者只要在高通和骁龍的一個平台上完成模型的優化部署工作，便可以非常方便的将這部分工作遷移到高通和骁龍的其他所有產品上。

今年 MWC 巴塞羅那期間，高通發布了非常重量級的產品，高通 AI Hub（Qualcomm AI Hub）。該產品面向第三方開發者和合作夥伴，可以幫助開發者更加充分的利用高通和骁龍底層芯片的硬體算力，開發出自己的創新 AI 應用。

利用高通 AI Hub 進行應用開發的過程就像 " 把大象塞進冰箱 " 一樣簡單。

第一步，根據用例選擇所需模型。

第二步，選擇需要部署的高通或骁龍平台。

第三步，只需要寫幾行腳本代碼，就可以完成整個模型部署，在終端側看到應用或算法的運行效果。

目前，高通 AI Hub 已經支持約 100 個模型，其中有大家比較關心的生成式 AI 模型，包括語言、文本和影像生成，也包括傳統 AI 模型，例如影像識别、影像分割，自然語言理解、自然語言處理等等。具體的模型信息，歡迎大家訪問高通 AI Hub 網站進行查詢。

最後總結一下高通的 AI 領先優勢。

第一，高通支持實現無與倫比的終端側 AI 性能。

第二，高通具備頂尖的異構計算能力，使 AI 能力能夠貫穿整個 SoC，将 CPU、GPU、NPU 和高通傳感器中樞的能力都充分釋放給應用開發者。

第三，高通提供可擴展的 AI 軟體工具，即前面提到的高通 AI 軟體棧等。

最後，高通可以支持廣泛的生态系統和 AI 模型。

高通 AI Hub

AIHUB.QUALCOMM.COM

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~