今天小编分享的财经经验:吴新宙到英伟达后的首秀,说了些什么?,欢迎阅读。
文 | 赛博汽车
半年时间,英伟达汽车业务无论是商业化进程,还是技术成熟度,都有了不小进步,这是如何实现的?
近日,GTC 2024 大会上,英伟达汽车事业部副总裁吴新宙发表了《加速向 AI 定义的汽车的转变》主题演讲,用时 52 分钟,从技术角度给予了解答。
这也是吴新宙入职英伟达后的首次正式对外演讲。
作为自动驾驶领網域大拿,吴新宙曾在高通工作 10 余年,主导自动驾驶解决方案。2019 年,在何小鹏的盛情邀请下,吴新宙加盟小鹏汽车,全面主导小鹏汽车的 ADAS 业务,主导实现了 NGP、XNGP 等项目落地。
同时拥有竞争对手高通,以及自身工程化最好样本小鹏汽车的高管背景,吴新宙可以说是最适合英伟达的人。
确实,正如黄仁勋所期待的,在吴新宙加盟后,英伟达汽车业务肉眼可见的更有起色。一方面,团队规模不断扩大,特别是自动驾驶中国团队不断扩充;另一方面,技术不断取得突破,截止目前,其已经帮助英伟达搭建了自动驾驶全栈自研部门,并且团队实现将 AV1.0(AI Vehicle)更新至 AV2.0。
此次大会上,吴新宙对外分享了入职英伟达 220 多天以来的故事,讲述了英伟达如何以更少的代码、更大规模的模型、更高的算力和更多的数据,实现以 AI 为中心的自动驾驶汽车 2.0 时代到来。
以下是吴新宙演讲的主要内容。
01 AV2.0 的核心技术优势,在于 " 雷神 "
吴新宙表示,首先,自动驾驶仍然是有商业前景的。
在新能源渗透率稳步提升的大前提下,根据其预测,2030 财年 L3 级别自动驾驶市场仍将呈现显著上升趋势。
同时,随着生成式 AI 的发展,车载 AI 也有了长足的发展,经历了从规则、算法驱动型軟體栈,到 AI 增强型軟體栈再到端到端 AI 軟體栈的过程。
而英伟达 AV2.0 的核心技术优势,在于拥有 Drive Thor(雷神)芯片。在智能驾驶方面,Thor 发挥的长处是 " 低精度运算 ",这意味着可以输入模糊的、多模态的、不确定的数据,通过 AI 自动生成能力还原出有逻辑的远算方式。
相比于前代的 Orin 平台,Thor 在 LLAMA-7B 的测试环境中能够实现高达 9 倍的性能提升。
另外,除了黄仁勋高调官宣的 Blackwell GPU 提供卓越性能以外,处理器中的 ARM Neoverse V3AE CPU 也提供了强大的单线程性能,这对复杂场景进行快速决策尤为关键。在 SPECrate ® 2017_int_base 的基准测试中,Thor 比 Orin 预计有 2.3 倍的性能提升。
相较于上一代 Xaiver,Orin 实现了七倍的算力提升,达到 245TFLOPS ,而 Thor 则达到了惊人的 2000 TSFLOPS 浮点算力。
或许,Orin 没有能够真正实现 L5 级别的 Robotaxi,Thor 能够完成。
硬體的提升必然需要軟體配套设施一同进步。目前,吴新宙团队研发的 AV2.0 还可以解决上一代搭载 Orin 芯片的 AV1.0 存在的痛点。
原有的 AV1.0 需要大量数据训练,新一代车载軟體利用仿真技术模拟各种驾驶场景,降低对真实数据的依赖。
根据吴新宙介绍,传统的自动驾驶系统只具备几秒钟的短期系统记忆,这让 AV1.0 的决策可能是缺乏连贯性的。AV2.0 利用大语言模型(LLM)逻辑推理的能力,增强了系统决策的连贯性和上下文感知能力。
" 英伟达自动驾驶团队目前还在致力于让 AV 系统更具‘可解释性’,那就是让自动驾驶不再‘黑箱’,开发出一套降低信息差,方便对外解释的算法。" 在吴新宙看来,这对于消除大众对自动驾驶的疑虑至关重要。
02 AV2.0 技术的底层技术创新
活动上,吴新宙还展示了 AV2.0 技术的底层技术创新:基于 VLM 的基础模型(VLM Based Foundation Model,视觉语言模型),由此形成的 PARA-Driving,搭建实时自动驾驶的并行化架构。
目前,端到端自动驾驶有两种技术路线。
一种是 UniAD(Unified Autonomous Driving,自动驾驶通用算法框架),这个方案强调同时操控多个模态,使传感器搜集到的数据在训练过程中朝着 " 整体最优 " 的方向进行。
另一种则是更直接的 VLM,实现过程和人类驾驶行为相似:以眼睛作为视觉输入信号,直接作用在方向盘和刹车油门踏板上。这种直接端到端变相地扩大了模型的搜索空间,需要用更多的数据、更大的模型、更强的算力才能防止在特定场景的过拟合,在驾驶体验中,多半是 " 莫名其妙的刹车 "。
为了降低干扰,吴新宙团队对第二种方案进行了优化,将 Transformer 融合进自动驾驶的基础模型,形成 PARA-Driving 的终极答案。下图是此模型的功能布局。
吴新宙表示,PARA-drive 将信息变成 Tokens,再放进 Transformer 模型里分析,化整为零,处理起来更轻松。
据演示,相比于 UniAD6 FPS 的夜间运行速度,PARA-drive 在夜间驾驶的实际应用场景中达到了 26 FPS 的高帧率,也就是说,夜视效果能达到 UniAD 的四倍。
当然,这并不意味着要全盘替换原有的系统軟體栈。吴新宙指出,现在的技术还不足以让 VLM 为主的基础模型全量进入使用,初始阶段将处于 " 影子模式 "(shadow mode),团队会通过与人类驾驶行为进行不断比较而微调。
随着时间的推移,现有的技术栈将逐渐被淘汰,但出于安全考虑,两种栈可能需要共存一段时间。
信息搜集处理步骤告一段落,接下来吴新宙开始介绍 AV 方案中能提供物理模拟引擎的部分。当然,这也是英伟达以游戏显卡起家的老本行了。
仿真模拟(Simulation)的关键作用毋庸置疑,这是取代实车测试所需的巨大成本的关键一步。
良好模拟的关键属性包括像素保真度(适用于相机、雷达、超声波、激光雷达等),场景保真度和可扩展性,以及行为保真度。无传感器操作允许在计算上更具可扩展性。英伟达的 AV 仿真模拟可以在有或没有传感器信息的情况下操作,极大地降低了成本。AV 模型模拟的工作流,让端到端模型与场景库和功能模块环环相扣。
总体而言,吴新宙团队开发的基础模型的功能如下。
通过云端和车端统一的基础模型,有三个实现场景,首先最直观的是车内助手(In-cabin Assistant),使用基础模型来提供车内助手服务,可能包括语音识别、自然语言处理和用户互動等功能。
自动标注(Auto-labeling),利用基础模型来自动标记训练数据,对于大量的自动驾驶数据来说,可以极大程度地降低成本、提高效率。
最后是安全评估(Safety Evaluation),确保自动驾驶系统的性能和决策符合安全标准。在自动驾驶的安全问题需要得到确认的共识下,吴新宙阐述了 NVIDIA DRIVE 安全平台在保障自动驾驶汽车的安全方面的全面举措。
03 全球首个端到端 AI 安全平台
安全性,几乎是全球自动驾驶从业者的共识。英伟达自动驾驶 DRIVE 平台是全球汽车生产领網域首个也是唯一一个端到端的智能安全平台。
目前,英伟达 Drive 平台有四大支柱,分别是开发过程、硬體、軟體建设和底层架构。
英伟达在人力部署层面足见对安全的重视。据吴新宙介绍,有 15000 名工程师投入到安全部门的研发工作。
硬體安全机制经过 21 亿个晶体管的安全评估,吴新宙也提到了硬體退化效应的检测和 ASIL D(Automotive Safety Integrity Level)系统性。
軟體与架构是一个全栈功能安全的体系结构,共计 500 万行代码经过安全评估,还有德国技术监督协会认证的 DRIVE OS 和安全传感器以及端到端的认证。
底层架构层面,Drive 平台提供安全保障的云服务和工具每日会进行 200 万次端到端集成测试,确保了安全的开发和测试以及大规模的项目周期管理。
04 授人以鱼,不如授人以渔
另外,英伟达还专门召开了中文的专家技术解读论坛,解释了吴新宙发言的核心技术亮点、应用场景,以及自动驾驶方案的商业落地。
汽车数据中心业务总监陈晔还做了 Q&A,针对的问题是英伟达对国内厂商的服务方式。
陈晔提到,基于中美自动驾驶应用场景的差异化,在美国本土英伟达往往给车企做的是 NDAS 封装一站式服务,意味着直接给到完整的自动驾驶解决方案;服务国内的新能源厂商的时候,英伟达更倾向于提供一套更适配的算法,或者干脆成为算法开发过程中的指导者。
还有人对算力所需的硬體配置较为好奇。随着对算力要求的提升,相应的 " 卡 " 的数量也会有一定提升。陈晔表示,在 AV1.0 时代,领先的客户需求大概是 2000 台,在 AV2.0 时代,就产生了一万台 GPU 的需求,这种量级的变化对有些车企来说是难以承受的。当然,这是以 H100 作为算力计算部門,当 Blackwell 成为主流 GPU 的时候,企业所需的硬體成本会有所下降。
以及,陈晔表示,GPU 不仅可以用来自动驾驶研发,还可以有其他的应用场景,例如大语言模型、智能座舱等等,未来对 " 卡 " 的依赖,只增不减。
陈晔表示,英伟达会帮客户去做很多加速工作,从数据处理到训练模型优化到推理计算、以及到仿真,基于神经网络重建,由英伟达自动驾驶最核心的技术团队来操盘。
这种个性化定制服务,即英伟达企业 NVRE 服务,服务方式是 AI enterprise。这种个性化设计是基于车企信任英伟达的前提,即愿意分享数据的基础之上的。
车企给英伟达场景数据,训练更好的大模型,英伟达再用优化过的模型给车企自动驾驶方案赋能,收集更多维度的数据,这正是所有人工智能相关的产品的终极目标,打造数据飞轮,靠自身商业化落地即可精进。
目前看来,吴新宙来到英伟达 " 深造 ",实际上是更靠近了技术研发所需的算力 " 水源 ",加上从 0 到 1 的小鹏智驾经验,无论对于英伟达,还是对整个行业来说,都有 1+1 大于 2 的效果。