今天小编分享的科学经验:自主造芯新突破:256TOPS算力刷新国产性能榜,功耗低至35W,首个存算一体智驾芯片两年交卷,欢迎阅读。
中国芯片,再添一股新势力——
国内首款存算一体智驾芯片,正式发布!
这款 12nm 芯片名叫鸿途™ H30,从性能表现上来看,在功耗仅为 35W 的情况下,最高物理算力可达 256TOPS。
概括来说,就是芯片性能提升了 2 倍以上,但功耗却减少了超 50%。
这一点,以 Resnet50 性能功耗为例,与国际芯片巨头英伟达主流产品做对比即可一目了然。
不过有一说一,除了 " 国内首款存算一体智驾芯片 " 之外,围绕鸿途™ H30 所体现的 " 业界第一 " 还不仅于此。
它的问世也成为了存算一体大算力芯片在国内的首次工程化落地。
而打造鸿途™ H30 背后的公司后摩智能(下文简称后摩),其自身也拥有着一个 " 业界第一 " 的标签——
国内首家存算一体大算力 AI 芯片公司。
更重要的是,以上种种的成绩,后摩是从自 2020 年底成立至今,仅仅花费 2 年多的时间 " 解锁 "。
如此速度和效能之下,也令活动现场掌声不断。
不只是一颗芯片这么简单
我们进一步再来深入了解一下这款存算一体架构芯片。
许多了解芯片的小伙伴在看到 "256TOPS" 时,就会产生疑问:市面上不是已经有很多能够达到这个算力值的芯片了吗?
我们需要注意的是,鸿途™ H30 亮出来的是物理算力,并非是市面上常说的稀疏虚拟算力。
这也就意味着它一举成为了国产智驾芯片里物理算力最大的那一个。
更难能可贵的是,在拿下最大算力的同时,功耗正如我们刚才提到的,仅为 35W。
如此看下来,芯片的能效比便是几倍于同类的产品了。
除此之外,在活动现场,后摩对鸿途™ H30 更多的细节参数做了展示:
12nm 工艺
支持外扩 Memory,宽带达 128GB/s
支持 16 路 FHD Encoder/Decoder
支持 PCIe 4.0,x8,x4,x2,RC&EP mode
……
性能指标方面,鸿途™ H30 与英伟达产品相比,在 Resnet50 Batch=1 和 Batch=8 上,分别达到了 5.7 倍和 2.3 倍。
计算效率方面,鸿途™ H30 更是拿下了 11.3 倍和 4.6 倍的成绩!
那么具备如此高性能存算 IP,如何能将其利用到位,便涉及到 AI 处理器架构和设计的问题了。
而在活动现场,后摩也是将其背后的架构设计毫无保留地展示了出来——IPU(Intelligence Processing Unit)。
从整体来看,后摩在架构设计上的规划采用了 " 三步走 " 的策略。
首先便是第一代 IPU 天枢架构,这是专门为自动驾驶所打造的 IPU,而刚才我们提到的鸿途™ H30 正是基于此。
谈到这个架构是如何设计出来的,就不得不先提一下以往芯片的设计架构。
例如特斯拉 FSD 的集中式计算,就是非常典型的通过堆积大量计算资源来提高性能。
它就像是一个四合院,院子里啥都有,主人们在院子里可以尽情沟通交流,但问题也非常明显,就是四合院的面积就只有那么大,居住者数量就是有限的。
后来也有人提出了分布式计算的方法,把算力很大的核拆抽成若干个小核;这些小核可以独立完成小任务,也可以共同完成大任务。
这种方式像是现代高层公寓,每层楼都有独立的基础生活功能,也可以方便复制和扩展;但问题是每层楼之间的沟通比较困难。
因此,后摩智能的天枢架构所采用的便是二合一的思路——结合古典中式建筑和现代高层建筑。
简单来说,每个芯片都包含 4 个 IPU 核;每个 IPU 核又有 4 个 Tile;而每个 Tile 内部还有 CPU、张量引擎、特殊功能单元、矢量处理器和多通道 DMA 等。
这样的架构使得 AI 计算不但不用在多个处理器(例如 CPU,GPU,DSP)之间分配任务,甚至不用出 AI 核,就可以高效的完成全部端到端的计算。
这种架构还可以说是像一个综合办事大楼,走进去,一站式完成各种业务,大幅提高了效率。
总结来说,天枢架构的特点之一就是多核 / 多硬體线程实现计算效率与算力灵活扩展的平衡。
除此之外,它还可以摆脱系统总线的桎梏,其双环拓扑专用总线可以实现灵活的数据直传。
就像在多层空中四合院之间,建了个直接入户的电梯,可以快速做到传输。
至于后摩在未来要进一步研发的天璇架构和天玑架构,则将聚焦在扩大模型应用边界和通用人工智能。
在现场,后摩也展示了搭载鸿途™ H30 后无人小车上路的实测。
但如果你觉得后摩仅仅是拿出来了一块芯片,那就有点 too simple 了些。
在如此短促的研发时间里,它还一口气发布了力驭 ® 網域控制器和后摩大道™軟體平台。
力驭是后摩面向智能驾驶市场的大算力網域控制器产品,据悉,只需要搭载单颗鸿途™ H30,便可以满足智能驾驶多种传感器、从 L2 到 L4 所有 AI 计算的需求。
最后,还有一个后摩大道™軟體平台,是为鸿途™ H30 芯片产品开发的 AI 軟體开发平台。
它的作用便是可以让客户在使用后摩存算一体架构产品时,能够将开发、调试和部署应用的效率大幅提高。
△注:后摩智能 BEV 模型实测
以上便是后摩第一次正式亮相所给出的主要 " 作业 " 了。
通过各种数据和效果的对比展示,其在大算力国产智驾芯片的实力可见一斑。
但更令人惊叹的,还应当属 " 后摩速度 " ——一切都在 2 年多时间完成。
如何在 2 年时间 " 炼 " 成的?
不同于美国创业公司从车库、大学宿舍开始的那般浪漫与理想,后摩的创业起点非常出乎人们的意料——沙县小吃。
没错,正是在这种享受馄饨与热汤之际,几个人一拍即合,决定创业搞 AI 芯片。
不过赛道锁定在芯片,除了大环境的因素之外,也与小伙伴们每个人都向往 " 万物智能 " 的生活相关。
例如有人家住得特别远,若是自动驾驶成熟了,便可以边通勤边办公;还有人非常顾家,希望有个机器人把家务全包了……
那么问题来了,到底什么样的芯片才能做到无处不在、让万物实现智能?
极致的效率,毋庸置疑是非常关键的因素之一。
然而当时后摩的初创团队从科技发展历史看清的一个事实是,每 1000 倍的效率提升将造就一个计算时代。
若是想要达到他们理想的万物智能世界,那么算力起码也得是现今芯片计算效能的 1000 倍。
加之摩尔定律的逐步失效,他们便将目光聚焦到了另一种打法——换架构,搞存算一体。
团队坚定认为,这就是后摩尔时代下的破局之道:
算力得大,功耗要低,面积要小,成本还得廉。
以至于 CEO 吴强在现场这般回忆道:
我们太喜欢这个方向了,连公司名字都是从这而来——后摩智能。
(虽然也有人会打电话问是不是做摩托车的……)
不过讲真,存算一体这个技术在两三年前并没有像现在这般火爆。
可以说后摩成为了最早一批尝到红利的公司,也顺理成章地使其成了国内第一个搞存算一体大算力 AI 芯片的公司。
而之所以会将第一个落地场景放到自动驾驶,用吴强的话来说就是," 自动驾驶是万物智能美好生活的重要组成部分,人们几乎在花 1/8 清醒时间在开车 "。
并且自动驾驶作为 " 集 AI 技术大成者 " 的领網域,能啃下这块硬骨头,那么再拓展到其它领網域也就会轻松很多。
赛道、方向、技术,在创业初期三大最重要的关键因素定下来之后,接下来就是进入更煎熬的研发阶段了。
虽说是煎熬阶段,但有一说一,对于后摩团队来说,或许都已经是驾轻就熟的事情,因为公司聚集了一帮芯片 " 老手 "。
例如创始人吴强,博士毕业于普林斯顿大学计算机博士学位,研究方向正是高能效比计算芯片及编译器。
毕业之后,他还先后工作于 Intel、AMD、Facebook 等国外知名企业;值得一提的是,在 AMD 期间曾担任 GPGPU/OpenCL 创始团队核心成员。
吴强不仅拥有国外的工作经验,在 2017 年回国之后,也是在国内 AI 知名独角兽企业担任技术副总裁和 CTO 等职务。
在学术方面,吴强曾获第 38 届计算机体系架构顶会 MICRO-38 唯一的一个最佳论文奖;科研成果被美国业内杂志 IEEE Micro 评选为年度最有影响的 12 个科技成果之一。
△后摩智能创始人兼 CEO,吴强
再如后摩智能联合创始人、芯片研发副总裁陈亮,本硕博毕业于清华大学,曾任海思 CPU 芯片资深架构师、地平线 AI 芯片首席架构师。
在做产品上,后摩联合创始人、产品副总裁信晓旭,具有 15 年以上计算芯片产品、市场和销售经验,曾任海思计算芯片产品总监。
△左:陈亮;右:信晓旭
而从后摩整体研发团队构成来看,硕、博士占比 70% 以上;核心成员均主导过多颗世界级芯片的设计量产,类别涵盖 GPU、CPU、高性能车规级 AI 芯片等。
更重要的是,用吴强自己的话来说,后摩的研发团队人员都是非常纯粹的人,肯吃苦、够努力。
如此来看,也就不难理解为什么能够在 2 年多的时间里,将存算一体芯片从 0 到 1 开花结果了。
芯片的 " 后摩时刻 " 已至
虽然芯片产品已经发布、量产,但最后我们还需要对一个问题做深入的探讨——存算一体,是否真的是正确的方向。
要回答这个问题,我们还需先得知道芯片算力的发展出了什么问题。
无论是计算机、手机,还是智能手环等产品,它们内部程式运行机制都绕不开一个著名的计算体系,冯 · 诺依曼体系结构。
它的一个特点,就是计算和存储是分离的。
若是通俗一点理解,我们可以将这个过程视为在厨房炒菜:
存储器:相当于厨房里的冰箱;
数据:相当于冰箱里的菜;
计算器:相当于洗菜、切菜和炒菜。
那么要完成一道菜,就需要先从冰箱里把菜取出来,再去厨房里洗、切、炒。
那么问题来了,这些菜需要在存储器和计算器之间疯狂地做搬运工作,这就无形之间产生了巨大的时间开销,
若是对于较低的计算量来说,冯 · 诺依曼体系结构尚且还可处理,但谁能想到,在信息数据量爆炸的当下,人们对算力的需求会变得如此之大。
举个例子,若是用全卷积网络处理一张分辨率为 224x224 大约 5 万像素的图片,需要的计算量为 5x109 次的计算。
这个任务若是放在一个 CPU 核心上处理,需要足足 3 秒钟的时间,慢,着实太慢!
单单是这么简单的任务尚是如此,近年来随着 AIGC 热潮的到来,大模型成为了产学界的香饽饽,而动辄需要对上千亿参数做训练推理,需要的算力之大可见一斑。
即便现代很多芯片开始设计更复杂的多级存储结构,例如把 SRAM(静态随机存储器)作为距离计算单元最近的缓存,保证最高的读写速度,但容量还是非常的有限。
例如在下图英伟达 GA102 GPU 中,蓝色方块区網域便是缓存区網域,即便看上去占了不少空间,但其实容量也就 6MB 而已。
这在当今主流 AI 任务面前,简直是大巫见小巫了。
这,就是当下算力发展所遇到的致命瓶颈。
而且就过去二十年的发展来看,处理器性能以每年大约 55% 的速度提升,但内存性能的提升速度每年只有 10% 左右。
存储速度长期滞后于计算速度,因此就导致了芯片性能难以满足 AI 需求的情况。
不仅如此,近年来 " 摩尔定律即将失效 " 的声音也是此起彼伏,很多人认为传统的芯片无法再胜任新的大算力任务了。
虽然业界在后来提出了 GPU、多核 CPU 等解决方案,但依旧是无法绕开冯 · 诺依曼体系结构最为致命的瓶颈问题。
在如此情况之下,业界便提出了更为大胆的想法——干脆把冰箱和厨房搞到一起,让取菜、洗菜、切菜和炒菜都在一个空间里完成——即,存算一体。
对应到芯片设计,就意味着把分开的计算单元和 SRAM 单元重新设计,把乘加单元打散并插入到 SRAM 阵列当中,以此形成新的存算单元。
如此一来,每个存算单元既保留了 SRAM 本身的规则性,便于高速读写;又扩充了并行计算功能,实现高能效计算。
以后摩发布的鸿途™ H30 为例,在存算一体架构之下,便可以在每秒计算超过 4x1012 次。
和其它 AI 芯片相比,后摩存算一体的宏单元在同样能耗下提供的算力,可以直接飙升 10 倍!
但其实存算一体技术早在 2011 年就引起学术界关注,而后在 2016-2017 年成为学术界热议的话题。
到 2019 年逐渐开始受到工业界和资本的关注,彼时大家的讨论主要集中在这项技术的可靠性上。
从 2020 年开始,越来越多的玩家进入这个市场,并且大公司都开始在存内计算上发力,此时的存内计算已成为产业界 " 不得不跟进 " 的技术之一,大家的讨论聚焦在存内计算未来的市场空间上。
再从市场规模角度来看,量子位在《存算一体芯片深度产业报告》中曾经预测:
2030 年,基于存算一体技术的大算力芯片市场规模约为 67 亿人民币。
由此可见,不论是从技术亦或是市场的发展和预测来看,存算一体确实是解决算力瓶颈的一大利器。
而作为率先入局的后摩智能,也给出了自己的观点:
存算一体的价值在于,它是一种比传统架构更接近人腦的计算方式,能达到远超传统方式的高计算效率,和智能驾驶终局的需求天然吻合。
2023 年,会是存算一体商业落地的元年。
至此,对于芯片算力的瓶颈,后摩智能已经给出了自己的一套打法,并且已经交出了一份高分作业。
站在现今后摩尔时代的当下,或许芯片的 " 后摩时刻 " 已经到来。
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>