今天小编分享的科技经验:性能8.6倍于竞品!高通AI大揭秘:NPU引领四兄弟无敌,欢迎阅读。
生成式 AI 的变革,对于基础硬體设计、軟體生态开发都提出了新的、更高的要求,尤其是底层硬體和算力必须跟上新的形势,并面向未来发展做好准备。
近日,高通特别发布了《通过 NPU 和异构计算开启终端侧生成式 AI》白皮书,对于终端侧生成式 AI 的发展趋势,以及高通骁龙处理器的多模块异构计算引擎,尤其是 NPU 的设计及优势,都进行了详细解读。
生成式 AI 虽然这两年才火热起来,但是 AI 的发展历史悠久,高通也早在 2007 年就打造了 Hexagon DSP,其控制和标量架构正是后续 NPU 的基础。
2015 年发布的骁龙 820 处理器集成了首个高通 AI 引擎,支持成像、音频和传感器运算。
之后,2018 年的骁龙 855 又增加了 Hexagon 张量加速器。
2020 年骁龙 888 里的全新架构 Hexagon NPU 堪称里程碑转折,并在之后的三代骁龙 8 中持续迭代演进,AI 性能、效能和范围不断拓展。
比如第三代骁龙 8 的张量运算核心的峰值性能就大幅提升了 98%,同时依然保持高超的能效。
高通在 AI 方面采用的是异构计算引擎思路,由 Kryo CPU、Adreno GPU、Hexagon NPU、传感器中枢四大核心模块共同组成,彼此协作。
根据终端类型、终端层级、关键性能指标、时延等因素的不同,这种架构可以使用不同的组件进行 AI 处理,以达到最佳效率。
比如说,CPU 计算量一般,但擅长顺序控制和即时性,非常合对延迟要求非常高的场景,比如时序敏感性小模型,比如卷积神经网络模型 ( CNN ) 或者特定大语言模型 ( LLM ) 。
GPU 擅长高精度格式的并行处理,比如对画质要求非常高的影像、视频处理,同时算力非常强,可运行大规模的模型。
NPU 擅长标量、向量和张量数学运算,而且能效非常高,能够以极低功耗实现持续稳定的高峰值性能,在基于 LLM 和 LVM ( 大视觉模型 ) 的不同用例中,比如说 Stable Diffusion 或其他扩散模型,每瓦特性能十分出色。
高通传感器中枢则能以极低功耗运行始终开启的用例,可获取大量端侧情境信息,让生成式 AI 体验更加个性化,这也是终端侧 AI 的独特优势之一,并且信息保留在终端上,不会联网上传到云端,隐私更安全。
如此设计的异构计算,能够实现最佳的应用性能、能效和电池续航,以最大化提升生成式 AI 终端的用户体验。
这里重点说说 NPU。
NPU 全程为神经网络处理器,是专为低功耗加速 AI 推理而打造的硬體模块,架构上随着新 AI 算法、模型和用例的发展而不断演进。
Al 工作负载主要包括由标量、向量和张量数学组成的神经网络层计算以及非线性激活函数。
优秀的 NPU 设计,能正确选择如何处理 AI 工作负载,同时与 CPU、GPU 等其他模块协同执行,并与 AI 行业发展方向保持高度一致。
高通 Hexagon NPU 就是为了以低功耗实现持续稳定的高性能 AI 推理而设计,其差异化优势在于系统级解决方案、定制设计和快速创新。
通过定制设计 NPU 并控制指令集架构 ( ISA ) ,高通可以让 NPU 快速演进和扩展,以解决遇到的任何瓶颈问题,并优化性能。
高通透露,最初开始研究 NPU 的时候,关注的是一些简单用例,比如用于音频和语音处理的卷积神经网络模型 ( CNN ) 和长短期记忆网络模型 ( LSTM ) ,2015 年第一代高通 AI 引擎的 Hexagon NPU 就集成了标量和向量运算扩展。
2016-2022 年间,高通将研究方向拓展至 AI 影像和视频处理,比如暗光拍照、降噪、多帧处理等,同时引入了 Transforme 层处理,因此增加了张量运算核心 ( Tensor Core ) 。
2023 年,Hexagon NPU 开始支持 LLM 和 LVM,并支持 Transformer,可以更好地处理基于 Transformer 的模型。
如今第三代骁龙 8 集成的 Hexagon NPU 已经能够在终端侧运行高达 100 亿参数的模型,无论是首个 token 的生成速度,还是每秒生成 token 的速率,都处在业界领先水平。
值得一提的是,Hexagon NPU 还引入了用于影像处理的微切片推理技术,增加了能够支持所有引擎组件的大共享内存,最高支持到 4.8GHz 频率的 LPDDR5X,LLM 处理能力更上一层楼,可快速处理百川、Llama2 等等。
说了半天原理,看看实际性能表现,首先是第三代骁龙 8 和三款安卓、iOS 平台竞品的对比。
鲁大师 AIMark V4.3 测试中,第三代骁龙 8 的总分达到了竞品 B 的 5.7 倍、竞品 C 的 7.9 倍。
安兔兔测试中,第三代骁龙 8 的总分是竞品 B 的 6.3 倍。
MLCommon MLPerf 推理的不同子项中,比如影像分类、语言理解、超级分辨率等,第三代骁龙 8 也都保持领先。
PC 端对比骁龙 X Elite 和其他 x86 架构竞品。
Windows 系统下的 UL Procyon AI 推理测试中,骁龙 X Elite 在 ResNet-50、DeeplabV3 等测试项目中都大幅领先,总分是竞品 A 的 3.4 倍、竞品 B 的 8.6 倍。
近日在巴塞罗那举办的 MWC 2024 大会上,高通还展示了在终端上运行的多模态生成式 AI 模型。
在第三代骁龙 8 上运行的首个大语言和视觉助理大模型 ( LLaVA ) ,能基于影像输入,回答用户提出的问题。
比如为视障人士在城市内进行导航,就可以将影像信息转换成语音,帮助他们了解周围的事物。
顺带一提,高通还展示了基于骁龙 X Elite 笔记本,首个在终端侧运行的超过 70 亿参数的大型多模态语言模型 ( LMM ) ,可接受文本和音频输入 ( 如音乐、交通环境音频等 ) ,再生成多轮对话。
硬體 AI 能力之上,高通还打造了 AI 軟體栈 ( AI Stack ) 。
它可以支持目前所有的主流 AI 框架,包括 TensorFlow、PyTorch、ONNX、Keras;支持所有主流的 AI 运行时,包括 DirectML、TFLite、ONNX Runtime、ExecuTorch;还支持不同的编译器、数学库等 AI 工具。
此外,高通还有 AI Studio,可为开发者提供开发过程中需要用到的各种相关工具,包括支持模型量化和压缩的高通 AI 模型增效工具包 ( AIMET ) ,能够大幅提高模型运行的效率。
高通认为,AI 终端市场的发展还在初期阶段,但已经为高通的不同产品和解决方案带来了显著的改进,对消费者的重要性也在不断增加,无论教育、医学还是养老等各个领網域,AI 的作用将愈发凸显。
互联网出现的时候,只有少数人能够利用 PC 上网,而智能手机的出现让数十亿人都能够连接网络。
相信终端侧生成式 AI 的发展也是如此,它将让所有人都能充分利用生成式 AI,改变工作、娱乐和生活中的切身体验,变革各行各业。