今天小编分享的汽车经验:大模型会让汽车成为比手机更有想象力的智能终端?,欢迎阅读。
文|三少爷
生成式 AI 和 GPT 技术在过去的一年中高歌猛进,大有掀起第四次工业革命的势头。各种应用场景都在被生成式 AI 大语言模型重新赋能,工作流被重塑,产品形态被变革。
借助大语言模型(以下以大模型指代),一直呈现挤牙膏式创新的 PC 化身新物种 AI PC,焕发了生命的第二春;智能手机开始向 AI 手机转型,为确保转型顺利,苹果甚至放弃了耕耘 10 年、投入百亿美金的智能电动汽车业务。在这场波澜壮阔的智能大模型席卷一切的浪潮中,自然少不了智能电动汽车的身影。
从时间顺序来看,吉利旗下的极越 01 是国内首款搭载大模型技术的汽车之一,据悉,极越语音助手 SIMO 接入了百度的文心一言。
死磕智能化技术的小鹏汽车也是率先落地大模型的车企之一,去年 10 月 24 日的小鹏科技日上,小鹏推出新一代 XOS 系统,将语音助手小 P 接入自研的灵犀大模型 XGPT。
12 月份,理想汽车发布 OTA 5.0,Mind GPT 正式上车,难能可贵的是,理想汽车还系统性地总结并展示了车载大模型的四大应用场景 - 知识百科、用车助手、出行助手、娱乐助手。
12 月份的问界 M9 发布会上,车载智慧助手小艺全面接入盘古大模型,华为研发多年的盘古大模型自此搬上鸿蒙车机。
今年 2 月份,蔚来汽车 2024 款车型上市,同时宣布了自研大模型 NOMI GPT 即将上线的消息。
大模型的风口不容错过,所以,我们可以保持一个合理的期待,在接下来的一段时间里,各家车企还会陆陆续续传来大模型上车的消息。
不一样的自研方案
从极越语音助手 SIMO、小鹏汽车语音助手小 P、华为语音助手小艺、理想汽车 Mind GPT 四大助手的名称可以看出,小鹏汽车的 XGPT、理想汽车的 Mind GPT 和蔚来汽车的 NOMI GPT、百度的文心一言、华为的盘古大模型都可以归类成 GPT 助手。
在微软 2023 年的 Build 大会上,专家介绍过 GPT 助手的训练工作流:先用数千张 GPU 对 TB 级别的海量互联网数据进行无监督训练,训练出能够理解和生成自然语言且具备强大基础能力的基座大模型,再用数百张或者数十张 GPU 对 GB 级别的各种高质量数据进行微调式训练,训练出面向特定任务进行调整和优化的微调大模型。
图片来源:微软 Build 大会
从 GPT 助手的训练工作流可以看出,虽然均标榜自研,但蔚小理 GPT 的自研分量和华为 / 百度存在一定的差距。因为,蔚小理的基座大模型大概率来自业界开源,而华为和百度的基座大模型出自这两家自力更生的全栈自研。
其实,自去年下半年 Meta(扎克伯格的 Facebook)开源了性能表现优异的 Llama 模型之后,采取开源基座大模型进行微调训练,开发出面向垂直领網域和行业专属的大模型,已经成为了业界的主流开发方式。
原因无他,基座大模型的开发已经成为了只有具备大量人才储备和训练算力的科技巨头才能参与的游戏。Meta 开源的 Llama 70B(700 亿个参数)采用了 6000 个 GPU 进行训练,在一次访谈中,马斯克表示 xAI(新推特)自研的大模型 Grok 采用了 8000 张英伟达 A100 进行训练。且不说人才储备,单单对算力进行统计,一颗英伟达 A100 的算力为 312TFLOPS,8000 张 A100 对应的训练算力就在 2.5E 左右。
有关数据显示,蔚小理三家的训练算力规模分别为 1.4E、600P(数据来自 2022 年的新闻公告)和 1.2E,有限的算力还要用来支撑高阶智能驾驶算法开发,应该不会拿来进行对基座大模型的训练。
图片来源:Andrej Karpathy
相比之下,在国内的科技巨头里,百度是最早喊出 All in AI 的公司之一,在以大模型赋能千行百业的科技公司里,华为同样是国内最早的践行者之一,所以,早在几年前,两家就训练出了千亿参数规模的大模型,在 OpenAI 验证了 Scaling Law 之后,两家摸着 OpenAI 过河,迅速将文心一言和盘古大模型的参数规模推高到了万亿级别。
截止到 2024 年 3 月,业界性能最强的几个开源大模型有谷歌的 Gemma 7B、Meta 的 Llama 7B、Llama 13B、Mistral 的 Mistral 7B,参数量都在几百亿到上千亿之间,从参数规模的角度,蔚小理三家的 GPT 和华为与百度还存在一定的差距。
不过,决定大模型性能的不只是参数规模,模型的实际性能表现在很大程度上依赖于数据,加大训练数据量和训练时间,参数规模较小的大模型未必逊色于参数规模较大的大模型。
理想汽车应该是早早就洞悉了这个规律的车企之一,在去年的家庭科技日上,理想高管宣布 Mind GPT 大模型的训练语料为 1.3 万亿个 Token,到了今年 3 月份的发布会上,李想宣布的 Mind GPT 训练数据规模就已经提高到了 3 万亿个 Token。
图片来源:理想汽车
下一个战场—
多模态感知端侧大模型
由于参数规模和功耗的原因,所有重量级的大模型必然部署在云端,但是,在本地部署参数较小的轻量级大模型的需求同样相当迫切。因为,在智能电动汽车这么一个移动智能空间里,多模态互動的需求正在日益上升,而基于小模型开发的人车互動方式在理解和感知能力上存在明显的不足。
在 2023 年的华为开发者大会上, 华为的技术专家介绍了大模型带来的两个关键能力的根本性提升 - 超强的理解能力和超强的生成能力。
人车互動体验的关键恰恰取决于理解和生成能力,依靠多模态的理解和生成,可以处理和生成多种类型数据的大模型,可以提供更丰富、更真实的体验和应用,实现更接近于人类的自然感知和互動方式。
OpenAI 首席运营官 Brad Lightcap 也曾经表达过类似的观点:" 为了更好地模仿人类的感知和互動方式,AI 模型需要能够处理和生成多种类型的数据。整合多种模态的大模型可以提供更丰富和更真实的体验和应用,以及更接近于人类的自然感知和互動方式。"
图片来源:华为
大模型时代来了,有必要通过大模型技术重新部署多模态互動。不过,出于实时性的要求以及对用户隐私数据的保护,用于多模态感知的大模型必须部署在端侧,换言之,端侧部署的多模态感知大模型将成为已经内卷到冒火星子的智能电动车企下一阶段的重量级战场。
但是,由于多模态感知的复杂性以及功耗、推理速度、内存资源、芯片算力的限制,在端侧部署大模型绝非易事。
第一步,需要面向车端多模态互動的场景和需求,在具备多模态感知能力的云端大模型的基础上进行微调训练,比如开源方案中的 Llama 便具备多模态能力,作为模型家族的盘古大模型或文心一言,也可以通过训练不同模态的数据微调出满足人车互動应用场景的多模态感知大模型。
第二步,需要根据车端的算力,通过量化、剪枝和蒸馏的方式,将参数量在几百亿级别云端大模型压缩成参数量在几十亿级别的轻量级大模型。
真正的挑战在第二步。决定芯片能否运行大模型的因素有很多,包括模型的大小、终端的运算能力、内存大小和内存带宽等,但主要因素是计算芯片的 NPU 算力。
目前算力最强的座舱芯片是高通骁龙 8295,旗舰版 NPU 算力为 30TOPS,运行几十亿参数的轻量级大模型会很吃力,高性能版采用双 NPU,算力可达 60TOPS,初步具备运行几十亿参数级别的轻量级大模型的能力。
不过,在车端运行大模型进行多模态感知,还有一个非常重要的指标:实时性或反应速度,这会进一步提高对芯片算力的需求。这种硬性限制,使得目前国内部署端侧多模态感知大模型的车企寥寥无几,透露过相关消息的只有蔚来汽车。
在发布 2024 款车型时,蔚来汽车宣布,基于中央计算平台的超强算力和跨網域共享能力,即将上线的 NOMI GPT 将部署 " 全球首个汽车端侧多模态感知大模型 "。
下一个部署端侧多模态感知大模型的可能是华为系车企和理想汽车,在 2023 年的华为开发者大会上,华为的技术专家就展示过在眼手互動、手势互動上的造诣和实力。
经常被调侃以 " 冰箱、彩色電視機、大沙发 " 打天下的理想汽车是首批提出 " 智能空间 " 概念的车企之一,它在视觉感知,语音感知、和多模态上也有很深的造诣。理想 MEGA 和 2024 款 L 系车型 Ultra 版本采用算力高达 60TOPS 的高性能版高通骁龙 8295,并搭载两组 IR 传感器和六组双麦阵列式麦克风,也透露了理想汽车将在多模态感知上发力的蛛丝马迹。
写在最后
由于可解释性差、容易出现幻觉、可靠性差、实时性差等原因,大模型技术一时半会儿还很难用到自动驾驶上面,但是,容错能力强的智能座舱正在被大模型重塑和改变。
借助云端大模型,语音助手的体验将发生质的改变,随着原生支持 Transformer 架构硬體的出现,以及芯片算力的继续提高,端侧多模态感知也将逐步落地,进一步改善人车互動体验。
由于散热能力更强,可以部署更加强大的硬體,感知传感器和互動接口更丰富,能够解锁更多场景体验,智能汽车没准会成为比智能手机更早完成大模型改造且具备丰富想象力的智能终端!
>