今天小编分享的科技经验:智驾芯片隐形之王(上),欢迎阅读。
" 他们要在 AM62A 上做纯视觉和规控,如果做出来,那就是一个词:离谱。"
一家中国智驾创业公司,要带着这套基础方案大战 CES(拉斯维加斯消费科技展),卷出中国、卷向国际。
AM62A,是德州仪器( 简称 TI )在 2023 年推出的 Arm 架构的芯片。
在主机厂采购眼里,它最大的优点可能是 " 不足 10 美刀 ";而在智驾工程师眼里,它绝对是个麻烦:尽管其架构设计继承了 TI 做处理器 " 多一分则肥,少一份则瘦 " 的好品质,但它的深度学习算力,却不到 2 Tops。
真真是 " 屎上雕花 "。
可以说," 低阶 " 卷土重来的 2023 年,一下子将自动驾驶之战拉回了 10 年前,明明那时主机厂的最爱便是 TI 的 TDA2。而 AM62A 这个处理器,却是 TI 的应季新品。
但它其实既不新也不快。
某种程度上,AM62x 是 TI 芯片定义者们按照它上一代,甚至上上一代同胞兄弟们微调出的低阶变种。
而它的异卵兄弟之一,便是大名鼎鼎的 TDA 系列。
后者使用了比 AM62 更高一级的 Arm 架构,几乎可以被视为汽车产业智驾芯片的 " 入门级通行证 "。
" 面对主机厂采购们,你说这好那好都没用。但你说比 TDA 既便宜性能又好,他们眉头就会舒展开,因为他们认识 TDA。"
一位产品经理说,TI 的智驾芯片 TDAx,约等于一枚同类型产品的 " 通用货币 "。
但显然," 价格战 " 让主机厂与智驾方案商都开始疯魔化:有时候,几十美刀的 TDA 也不能弥补他们对销量陷入迟滞的畏惧。
" 没关系,从 3 美刀到 100 美刀,每隔两三刀,我都有一枚趁手的芯片。"
TI 的销售露出狡黠之笑时,像一个卖烟的老烟枪。而这样密集的产品定位与定价,与其说是 TI 的传统,不如说是传统芯片巨头们的惯常策略—— 15% 高端市场与高单价带来的丰厚利润,都给英伟达;而剩下 85% 的薄利多销,我们参战。
这家 72 岁的芯片老骨头历来低调又狡猾。
与直击大部分游戏青年灵魂的英伟达相比,吃尽模拟芯片红利的 TI ,恪守着 " 闷声发大财 " 的半导体老一辈行事准则——没人关心 TI 现任老大。报道大多只有寥寥数语的财报数字与产品参数,还不如官网详细。
此外,在各种奇奇怪怪工程师喜欢扎堆的 Reddit 论坛,每天都飘着 " 英伟达赢麻了,但我绝逼不用 " " 英特尔要嗝屁了吗 " 的胡言乱语。甚至还有人 po 出 "8 块英伟达 A100" 的照片公然炫富 ……
但搜索 TI 的相关关键词,讨论度,为 0。
然而,从 " 智驾 " 这个概念开始,如果沿着汽车供应链往上摸,即便是数字芯片,网关、座舱、ADAS,还有毫米波与激光雷达 …...
一切竟然都绕不过 TI 。
甚至于,汽车人会觉得关于 TI 的一切属于老生常谈:" 丰田那糟糕的 ADAS,还在用 TDA2 呢。"
但 2022 年的确格外特殊。
虽然大疆车载绝不是第一个用 TDAx 的企业,但他们智驾方案 " 性价比 " 的出圈,却让 TDA 真正触达到了 " 英伟达 er 认知层 "。
当然,还有一点也可以实打实佐证 TDA4 有出圈的态势。
下半年,在 TI 自己建立的工程师论坛里,关于 TDA 与 AM62 系列芯片的讨论度骤然上升。
各项数据显示,它们成了 TI 数字处理器里讨论度最高的产品线。
事情变得越来越有趣。市场推动下,高算力往低走,低算力往高迭代。高与低总会在一个恰当的算力点相撞。
而不少智驾工程师,大多是从骄傲的英伟达时代 " 下放 " 至车载。围绕 TI 的争议,也随即放大。
屎上雕花
即便是面对 TDA4VH 这种 32Tops 的中算力芯片,年轻算法工程师的态度也是略带蔑视的。这跟年轻人对丰田燃油车的态度非常像:" 不就是入门款嘛。要用也不会用这种入门级。均衡却不出彩,没毛病却很无聊。"
" 均衡 ",便是产业对 TI 定义 ADAS 芯片的一致评价。
表面上它是说,当架构师把 A 核(这里通常指代 Arm 的 A 系列)、MCU、DSP 以及深度学习芯片(MMA)等大小器件捏合在一起时,不会任由一家独大,每一块大小都恰到好处。
但本质则是,每个型号的功耗与性能,都被巧妙控制在 " 成本 " 的边界上。
这种设计上的均衡美学,曾让一位产业人士感叹:当你掌握了 TDAx 的架构,那么你几乎可以掌握全世界的 SoC 芯片架构。
TDA4VM 的深度学习为 8Tops,该图为配置。
譬如,无论是 CNN 还是 Transformer,本质都是 " 矩阵运算 "。它基本可以涵盖深度学习里 90% 以上的运算形式。
而看透 AI 计算本质后,讲究均衡的 TI,便不会为了某一个特定神经网络去自己耗费资源猛下功夫:
" 这世界上有 1000 种网络,TI 只要做到 cover 900 种,就很顾全大局了 "。
或者说," 均衡 " 的另一个含义,是 " 兼顾大多数 "。
TI 对 TDA4VM 深度学习加速的设定,是 " 一个时钟周期内做 4096 次乘累加(MAC,1 MAC=2ops)运算 "。
而周期次数如果为 1Ghz,那么便是要做 4096 *2 *1 次 Gflops 运算,也就是 8 Tops。
这便是 TDA4VM 真实的深度学习算力。
当然,为什么矩阵运算不能是 4096 的两倍,或者频率凭什么是 1Ghz?
" 如果要变大,GPU 和 A 核便会被挤兑。也确实可以改动晶圆尺寸,那么成本就得增加。"
无怪乎 TDAx 的技术支持工程师说,PPA(功耗、性能与面积)才是设计者的终极 KPI。
" 所以,市面上的芯片,各种吹高算力和大算力,你其实都可以算出来。而这些门道,做芯片编译器和神经网络的人心里都非常清楚。"
因此,受算力胁迫,算法工程师们要在一个有限的框里,塞入一堆矩阵远比 4096 大的模型,难度不比英伟达低。
毕竟,满分命题作文也不比发散性创作好写。
譬如,在英伟达上,数据可以放进 DDR 内存里一层一层读取。但在 TI 的芯片上,则不得不把数据塞进片内的缓存里,不然就会变慢。
但是一个大到几十兆的 256*256 卷积特征图,几乎不可能塞入一个只有 8K 的空间里。
" 那就只有切成小条了。"
据一位工程师描述,就像切方块一样,切完再一点一点送进去,算完再导出来。来来回回不胜其烦。
但事情远没有这么简单。
譬如,把卷积切开时,交接处的 " 缝 " 怎么办?这又会涉及到一堆复杂计算。此外,在 DMA 负责搬运数据的过程里,A 核与 DSP 也不能闲置。
" 每个模块在多条时间线上各司其职,就要思考如何切,切多大,切多少次,一切都是有讲究的。切得越多越细,bug 也就越多。"
这就能解释,为何很多在 TDAx 上做智驾方案的工程师,都会吐槽抱怨 "TDA 真太 tnd 难用了 "" 不是人能吃得了苦 "" 编译器稀烂 "。
而真正在 TDAx 上智驾效果做得好的企业,不多。
这也能解释,大疆突出重围,不是智驾技术做得顶级优秀,而是在 TI 的便宜芯片上,做得比别人好一些。
所以,如果说英伟达是以钱为代价的话;那么 TI,还是得讲究一点儿智慧。
抠的精髓
与英伟达和高通动辄几千万美金的芯片开发费相比,TI 的确做到了 " 一个臭卖芯片的 " 本分。
它用一套 SDK 去覆盖所有 SoC,也不用服务和人海战术去加持,至于 " 智驾做不做得出来 " 或 " 做得好不好 ",TI 也不是很 care。
TI 只在乎这颗芯片的出货量到底能有多少。
曾有产业专家信誓旦旦指出,不同产业的处理器很难做到复用,即便强大如英伟达与高通,也都不是按照汽车产业来定义的。
这话听起来略显好笑。
因为孵化 TI ADAS 芯片那颗最原始的蛋,就是手机。
诺基亚手机使用的 Arm 芯片,便是 TI 的 OMAP 系列,在 21 世纪第一个十年的最高全球市占率曾高达 85%。只不过,在诺基亚被时代抛弃后,TI 也在 2012 年丝毫没有犹豫斩断了这条胳膊。
然而,即便业务部门人走茶凉,研发工程师、产业锦囊和各种 IP 却被保留下来了。
事实上,对于一家能活 70 年,市值多年保持在 1500 亿美元以上的企业,最好的商业品质,便是把一项巨额投入换来的技术 " 复用 " 到极致。
因此,OMAP 的 IP 研发费用,不可能只摊销于手机产业。
于是接下来,TI 芯片定义者们瞄准了安防产业的需求,手伸进盛满自研 IP 的大缸里,搅一搅选出合适的部分,又凭借自己的认知捏成了一枚安防芯片。
很难想象,TDA1 一开始的最大客户,其实是海康与大华,出货量曾按照 " 亿 " 来计算。
而正是同一款芯片,过了车规后,用在全景泊车上,则叫做 Jacinto 5。这还是一家国际 Tier1 跟 TI 提出的诉求,后者顺手给他们写了套軟體。
有趣的是,这家 Tier1 的全景泊车,名字叫做 BEV(历史总是惊人地相似)。
很快,这颗全景泊车芯片不仅推广至全国主机厂,还同时进了座舱和网关。
当年,比亚迪还仅有一辆电动车型 F3 的时候,便是用了 Jacinto5 做了全景泊车和前视摄像头。这么来看,它现在选择大疆给自己新车型基于 TDA4 做智驾,历史的 Knowhow 或许还在。
而新势力代表小鹏,早在 2018 年,还在管智驾这摊子事儿的谷俊丽团队,便是用 TDA2 做了低阶行泊一体。
"TI 做东西,从来都是一颗芯片给到很多市场,不然根本没法摊平研发(成本)。因此,它绝不专为监控、工业还是汽车做设计,而是采用了市面上不先进但必须最主流的 IP。" 一位 TI 技术支持工程师说,TDA4 仅仅是一颗很好的 SoC,而不是一枚智驾芯片。
"SOC 需要啥,Arm、DSP、DDR 以及 Capture 和 Display 等等,业内很都清楚。或者说,我们做了一枚不错的视频处理器,哪个市场需要,就往哪儿推。"
只不过,TI 在里面发挥的作用,都是隐性的。
譬如,关键部分 DSP(数字信号处理器)本就是 TI 的最大发明之一;
而负责搬运数据的 DMA,其触角覆盖芯片各个角落。仅这项技术,便则耗费了 TI 大量研发资源。
此外,芯片公司喜欢炫耀的安全认证体系其实也没什么大不了。
实际上,在一枚严格的车规芯片上,哪怕总线上的一个端口,都必须有配合的诊断单元与自检单元。各种 " 小零件 " 隐藏在巨量细节里,大部分不会被看到。
"TI 真正值钱的东西,是这几十年存放各种 IP 和架构的大缸。而这口大缸的持有者,是研发和架构师。"
2016 年,阿里说自己首次提出 " 中台 " 一词。然而在半导体面前,互联网玩的都是被历史遗忘的文字游戏。
某种程度上,TI 的研发与芯片架构师,便以一种 " 技术中台 " 的形式而存在——无论 TI 每个业务单元有什么动荡,岿然不动的是这些研发工程师;与之相比,销售与 FAE 则像是撒向全球上空的一把盐。
或者说,前者是 TI 金字塔顶上的人物。就像等级森严的蔡司,数学家属于高阶层级,只需要沉浸在光学矩阵的研究里,俯视下方。
在 TI,很多工程师一毕业就进入 TI 位于达拉斯总部的办公室,一坐就是二三十年。每个人半辈子几乎只看一条线——摄像头就做摄像头,PCIE 就做 PCIE。
因此,他们对 TI 的忠诚强烈且彻底。而 TI 也几乎不会解雇研发,愿意给予他们极大的自主性。
这种自主性,对应在组织架构上,便显得格外奇特——尽管规模庞大,但 TI 的指挥系统却相当短。明明看起来像头大象一样笨重,但组织架构,却扁平得像一条鳐鱼。
譬如,TI 在国内没有研发,几乎由销售与技术支持工程师(FAE)组成。
而从最底层的普通销售,再到中国区总裁姜寒,一共就只有四级。
这便能解释,中国市场如走马灯一样的需求,为什么能迅速反馈给达拉斯研发本部。
不过,尽管 TI 对分布在各个国家的庞大业务线给予自主权,但绝对不会花太多时间宠爱失败者。毕竟它完全可以依赖模拟芯片而活。
2012 年见势不好,TI 彻底退出全球手机市场;
后来,安防市场卷入价格战,TI 在利润骤降后再次当机立断选择退出;
座舱市场在高通强势进入后,TI 吃完 Jacinto 红利也选择退避三舍。
当然,如果再回溯历史,你会发现一切皆有源头。
TI 在 1975 年做出第一枚电腦微处理器,借此强势进入家用电腦市场,却在 1982 年被迫卷入价格战。就在财务出现第一次季度亏损的 1983 年,TI 仅用三个月便砍掉了整个家庭电腦业务。
"TI 并非不打价格战。毕竟它最大的财产还囊括十几座工厂。从制造到设计,它完全可以用价格压死人。TI 只是不想做利润趋于 0 的买卖。"
这就导致 TI 的决断力是敏锐且超前的。就像 10 年前它就在搞并购,10 年后别人搞并购它却在收购工厂一样。
又年长又灵活,同时却杀伐果决。以良性的方式遵守财报约定。
当然,这种 " 抠搜 " 的复用精神,以及植根于美式工程师体系的动手文化,让 TI 与 Mobileye 一样,被国内诟病缺乏基本的服务精神。
" 论坛网址一扔,叫你自己去看,基本就是这样。" 一位 Tier1 吐槽说他们都是爱理不理的。
但同样,軟體与算法工程师真正的技术体面,在 TDAx 上,或许还能续上一段。