今天小编分享的科技经验:高通高级副总裁:AI将成万物入口,掌握设备就是王者,欢迎阅读。
文 / 腾讯科技 郝博阳
2023 年是大模型狂飙的一年,各种研究日新月异,但它和大多数普通人的关联还远未建立。一方面是由于缺乏有效和多样的用例,大模型在一般人的手中能发挥出的作用很难超越搜索引擎。另一方面是体验上的限制。
当下主流的大模型应用,如 ChatGPT, Charater.AI 等,都是以 App 形式承载的云端应用,用户量一度达到数亿。但高通高级副总裁 Ziad Asghar 认为,只有当智能设备有更好的 AI 体验的时候,AI 应用才能真正做到普及。因为设备端的能力能给用户带来更快的响应,更好的个性化配置和更便宜的价格。这三个因素对于消费者最终接受新兴产品来讲至关重要。
这种认知也来自于科技产业的历史经验。Ziad 认为新科技的扩散路径就是从云到端,过往的互联网等技术变革都是在伺服器中,通过 PC 或移动端覆盖到更大的用户技术的。因此 AI 也会溯源这一路径,以设备为节点链接终端用户。
除了 AI 硬體能力的提升之外,高通对 AI 时代的应用和设备发展方向也有自己的预判。Ziad Asghar 表示,AI 在未来可能会成为一切应用的入口。这意味着过往要开启数个 App 才能完成的流程,在未来只需向 AI 助手提起单个需求即可完成。在这一应用程式范式转变的过程中,除了智能手机,AR、VR 产品也有可能会成为 AI 应用的优质载体。
以下为腾讯科技对高通高级副总裁 Ziad Asghar 访谈全文:
高通现在是一家 AI 公司
腾讯科技:高通在 2023 骁龙峰会上着重强调了 AI 能力,在高通的定位中 AI 是一个怎样的 game changer?
Ziad Asghar:高通实际上已经在人工智能上投入了超过 15 年。2022 年底 ChatGPT 出现之后,人们开始每天利用它工作,并寻找在日常中如何更好使用它们的方法。风潮过后,我们思考的是从产品方面,如何让 AI 能够为消费者做更多的事情。
在过去,电腦只是一台电腦,但现在它可以利用 AI 为你做很多事情。它能让你以更高效的方式工作,包括内容创作,为你写邮件,完成比以前更多的任务。
而且在过去,人工智能是在背后默默工作的。它在幕后帮助你改进照片、音频、语音或视频质量。但随着生成式人工智能的出现,出现了基础模型和用例,它创造出了新的机会。我们每天都可以看到行业中出现新的模型,这些模型具有更多的功能,能够为我们带来新用途。
因此,从智能手机到 PC、从 AR/VR 到汽车和 IoT,我们的产品都在充分利用我们对人工智能的长期投入。这就是我们认为 AI 是行业真正轉捩點的原因。它或许会开启一个新的周期,人们要买新手机,会想要一部 AI 智能手机;他们想买的下一台 PC,会是一台 AIPC。我认为这就是我们能够为消费者带来更多价值的地方。
腾讯科技:你提到了高通已经投入人工智能领網域超过 15 年,所以它能算一家 AI 公司了吗?
Ziad Asghar:我们绝对是一家人工智能公司,如今大家更能明显的感知到我们的这一身份。
腾讯科技:高通作为一家硬體公司是如何认知自己的 AI 价值的呢?
Ziad Asghar:所有的技术创新都会从云端开始,然后随着时间的推移,逐渐过渡到边缘设备上。这正是我们在人工智能领網域所看到的:生成式 AI 模型非常庞大,如果你考虑模型和推理所需的工作量,就会发现端侧计算的重要性。现在,我们可以在智能手机、PC 和 XR 产品上以非常快的速度运行 70 亿、100 亿和 130 亿参数的像百川或 Llama 这样的大语言模型。在智能手机上,我们可以以每秒生成 20 个 token 的速度运行 70 亿参数的大语言模型,在电腦上这个速度达到了每秒 30 个 token。因此,我们在终端侧已经拥有了强大的 AI 计算能力。
人工智能的应用主要有两个部分:训练和推理。模型训练主要发生在云端,只要给模型提供大量信息,模型只需要训练一次。但训练好的模型需要进行推理时,计算会多次重复发生,这很可能要发生在终端侧。这其实显而易见:在 2005 年,大约有 10 亿人口能够使用互联网;但如今,全球有 50 亿人能够使用互联网。这一增长中的很大部分要归功于智能手机对网络的接入。
你完全可以想象人工智能的应用发展也会是同样的情况。如今,生成式人工智能基本上是在云端进行的,但随着技术进一步发展,它会更多地出现在终端侧。当然,终端侧可以与云端协同工作。这将大大推动 AI 体验的普及。
腾讯科技:在今年,我们看到所有的芯片公司都在强调人工智能。他们都在打造 AI 芯片以增强人工智能体验。那么,高通对 AI 芯片的定位和相对优势是什么?
Ziad Asghar:谁能更好地在终端侧运行生成式 AI,谁就将成为人工智能的领导者。这就是为什么我们大力投入于进行模型优化,以及打造硬體解决方案,让终端侧能够在既定功耗下实现更多的 AI 能力,我们的硬體 AI 引擎在既定功耗下有着领先的 AI 推理性能,这使得我们能够以尽可能低的功耗,在终端上支持更高参数规模的模型,进行更多的推理操作。这一点至关重要。
从硬體角度,我们已经开发了模型量化、压缩和提炼技术。很多公司在云端训练模型时,是以浮点运算方式进行训练的。而高通能够支持整数运算,使得模型规模更小,功耗也更低。大语言模型的终端侧运行带来了许多挑战。要运行一个非常大的模型,需要将其存储在终端,在处理时需要占用 DRAM 内存,通过芯片进行推理。如果使用 16 位浮点运算推理像百川这样参数达到 70 亿的大模型,模型会占用终端大量的 DRAM 内存,许多手机甚至没有那么大的内存容量。但是如果使用 4 位整数运算,内存的问题就解决了。我们在这方面有着丰富的经验。同时,我们一直在打造軟體工具,结合我们领先的硬體平台,我们能够非常高效地进行模型处理。因此,我觉得我们非常有优势,可以在 AI 边缘侧真正取得领导地位。
得益于我们长期的 AI 投入,我们打造了业界领先的硬體 AI 能力。以 PC 为例,我们刚刚发布了骁龙 X Elite,它的高通 AI 引擎拥有 45TOPS 的 AI 性能,而整个芯片的 AI 性能达到了 75TOPS。在 PC 领網域,我们的 AI 引擎,包括 CPU、GPU 和 NPU 的性能非常领先。
因此我们可以支持在终端侧运行 Microsoft Copilot,以低成本打造丰富体验,不需要接入云端。这为我们带来了巨大的优势,我们能够赋能 PC 厂商打造出领先的 AIPC 产品。当然,在智能手机、汽车、XR 等领網域也是如此。
腾讯科技:您刚才提到了軟體。目前英伟达在 AI 伺服器中的垄断地位,在很大程度上是由 CUDA toolkit 的便利性带来的。高通在配套开发軟體这方面有什么举措吗?
Ziad Asghar:2022 年,我们推出了高通 AI 軟體栈(Qualcomm AI Stack)这一 AI 軟體产品组合,它支持所有的 AI 开发框架,包括 TensorFlow Lite,PyTorch,百度飞桨等等,以及所有 AI 库、编译器等开发工具,让开发者能够基于任何引擎(包括 CPU、GPU、NPU)进行应用开发。同时,我们还推出了高通 AI 引擎 Direct 的框架,它能允许开发者在非常接近硬體的位置进行编码,这使得他们能够充分发挥高通 AI 引擎的性能。
此外,你将看到我们将通过在世界移动通信大会等活动上推出更多新工具,在开发者支持方面做出更多努力。
(Qualcomm AI Stack 架构)
从历史上看,新技术的扩散都是从云到端
腾讯科技:为什么高通选择了端云混合 AI 作为你们的主要发展方向?
Ziad Asghar:这是我们研究了众多不同的生成式人工智能模态得出的结论。首先,对于不论是大语言模型、视觉模型(如 Stable Diffusion)、还是多模态模型,大部分模型的运算规模都不超过 150 到 200 亿参数。另一个趋势是模型参数规模在不断缩小,同时功能越来越强大。像 Llama 2 或者是百川这种规模的模型,他们相比于 ChatGPT 这样规模更大、需要在云端运行的模型来说,能力也非常强大。所以,当你把这两个趋势结合起来思考时,就能明白终端也能够做更多事情。而且在未来,我们的 AI 能力会持续提升。
但仍然会有非常庞大的模型,比如推荐模型无法被压缩。因此,我们认为它们可以继续在云端运行,在混合 AI 模式下,模型可以在端侧处理一部分内容,这可以保证消费者的数据隐私,这对他们来说这非常重要。系统会将其他推理任务传递到云端进行处理。通过混合 AI,模型能够同时利用终端和云端优势,给消费者提供最佳体验。
假设,你正在利用 AI 对电腦上的檔案进行摘要,如果这个檔案有一定版权性质,你肯定希望处理工作能在本地进行,那么系统就会在端侧将这个任务完成。但假设你需要一个必须在云端处理的推荐模型,我们也可以利用在终端和云端进行分布式处理的技术。AI 处理可以拥有一个云端和终端之间的协调层,实现非常出色,统一的跨终端体验。
腾讯科技:除了隐私保护外,终端侧 AI 还会带来什么云端无法带来的用户体验?
Ziad Asghar:首先,假设你在飞机上无法连接网络,这时候你就无法使用任何云端大语言模型或其他类似的功能。而如果你在终端侧运行 AI,虽然断了网,但你仍然可以获得完全相同的体验。在汽车数字座舱中也是如此,当用户驾驶到没有网络覆盖的地方,也可以利用终端侧 AI。
第二点,端侧模型可以实现非常快速的响应。消费者的耐心有限,如果不能够迅速地回答他们的问题,他们就会去其他地方寻找答案。因此,我认为即时性是非常重要的。
第三点是成本。成本是非常重要的因素。如果你不是在终端侧,而是在云端运行生成式 AI,那就会用到高算力的 GPU,耗费大量的电力。这些 GPU 会消耗数百瓦的电力,而你的设备只需要几毫瓦。因此,当有更多的生成式人工智能用例出现,有更多的人使用生成式 AI 时,云端计算规模也会对应增长,成本就会增加。而在终端侧运行则基本解决了这个问题:基本可以说是免费的。
最后的一个非常重要的优势是,智能手机会知道现在的时间,你在美国还是在中国;智能手机知道你是在行走,还是在交谈,还是在开车。如果我在云端大语言模型上提问寻求帮助,它给我的答案和它给我 11 岁的女儿的答案不会有任何差别。但如果我们能够利用终端侧可用的信息,使得查询更加精准,AI 就可以给我一个更优化的答案,比如一个根据我所处位置不同的答案。所以,终端侧 AI 对实现个性化体验非常重要。甚至可以想象,随着时间的推移,手机或电腦上的模型会基于用户特征进行持续的个性化优化,这是云端模型难以做到的。
腾讯科技:前几年流行的 " 全部上云 " 风潮,包括苹果的云游戏策略等,都是通过云技术的发展,延迟的降低,在很大程度上也降低了游戏机等设备的端侧能力需求。这一发展潮流是否会在 AI 模型方面出现?所以端云混合是否只是一个阶段性的解决方法?
Ziad Asghar:云游戏是很多公司尝试过的东西。但如果你仔细观察,会注意到能够在云上运行的游戏类型很有限,只有那些对时延不敏感的游戏才行,比如策略游戏。但如果是像多人联网动作游戏这种对时延要求很高的游戏类型,就不适用于在云端进行。在 AI 用例方面,比如车机系统中的 ADAS 应用(高级辅助驾驶),它必须支持在终端侧进行操作,因为它对即时性的要求会非常严格。所以云系统在很多方面是非常受限的。
另外,这些服务许多都是需要付费的。我认为这也是云端和终端的区别所在。我们在终端侧所做的,你可以随时进行,而且不会产生费用。放在云端的所有东西,都会持续收取费用。
AI 未来就是一切应用的入口
腾讯科技:在目前,AI 大模型还主要是以 App 的形式出现在智能设备之中的。您觉得后续随着 AI 能力的加强,应用程式生态会发生怎样的变化?
Ziad Asghar:实际上,这正是我们目前所设想的情况。假设你要预订一张去中国的机票,现在你要做的第一件事是打开一个应用,然后找到里面价格最便宜的班機,把它添加到另一个日历应用里,然后再查看你的日历确认你什么时候出发。这是现在你定班機的流程。
那如果你的虚拟 AI 助手就是你所使用的终端上的唯一互動对象,你就只需要和它互動,而它再在幕后启动三、四个应用,为你直接返回结果,找到最优的班機,提供你可以选择的时间。现在即使在家里使用一些智能家居应用,我也必须打开三四个不同的应用才能弄清楚该怎么操作。但有了 AI 你就不再需要这样做。
这同样也适用于汽车。今天它的互動非常机械化,但在未来你可以跟它说," 我还有大概三个小时就要去机场,你能给我找家好吃的日料店吗?" 汽车就能够在不耽误班機的情况下满足你的需求。这是一种全新的体验,就像《霹雳游侠(Knight Rider)》里那样,我就是看着《霹雳游侠》长大的。所以我们现在有了这样的技术,可以改变过往的用户互動界面。
(美剧《霹雳游侠》,1982 年开播,其中的智慧汽车 K.I.T.T. 由 AI 驱动,可以对话和自动驾驶)
腾讯科技:所以在你看来,AI 会成为一个万能应用吗?
Ziad Asghar:我认为这正是未来的发展方向:你不用再打开 4-5 个应用去完成一件事,而只需要和 AI 虚拟助手互動即可。它会搜集需要的信息并直接给你答案。这就是人工智能帮助我们节省时间的方式。我们不需要再进行这些繁琐的工作了,生活也会更加轻松。
腾讯科技:那在这样一种万能应用的背景下,电子设备本身会发生什么改变呢?新型的 AI 设备会是什么样的?
Ziad Asghar:智能手机当然会从中受益,因为这是人们最常用的终端。但是我们做了更多准备,我们有 AR/VR 产品,未来可能会有虚拟助手出现在你的 AR 眼镜上,它也可以出现在 AI Pin 上。高通致力于赋能广泛的边缘侧智能网联终端,我们认为其他终端类型也将不断发展,AI 设备的形态创新还有很大空间,我认为这就是初创公司能尽力进行创新的地方。
腾讯科技:你提到了 VR、AR。这些 XR 设备之所以不流行很大程度上是因为没有合适的互動方式。AI 的出现会改变这种情况吗?
Ziad Asghar:绝对会。比如 AR 眼镜,你不能像智能手机那样在上面输入文字,所以最好通过语音进行互動,或者你要指着某样东西,那这个设备需要有出色的手部追踪技术。它需要不同种类的互动方式,而人工智能非常适合将这些互動形式变为现实。