今天小編分享的科學經驗:自主造芯新突破:256TOPS算力刷新國產性能榜,功耗低至35W,首個存算一體智駕芯片兩年交卷,歡迎閱讀。
中國芯片,再添一股新勢力——
國内首款存算一體智駕芯片,正式發布!
這款 12nm 芯片名叫鴻途™ H30,從性能表現上來看,在功耗僅為 35W 的情況下,最高物理算力可達 256TOPS。
概括來說,就是芯片性能提升了 2 倍以上,但功耗卻減少了超 50%。
這一點,以 Resnet50 性能功耗為例,與國際芯片巨頭英偉達主流產品做對比即可一目了然。
不過有一說一,除了 " 國内首款存算一體智駕芯片 " 之外,圍繞鴻途™ H30 所體現的 " 業界第一 " 還不僅于此。
它的問世也成為了存算一體大算力芯片在國内的首次工程化落地。
而打造鴻途™ H30 背後的公司後摩智能(下文簡稱後摩),其自身也擁有着一個 " 業界第一 " 的标籤——
國内首家存算一體大算力 AI 芯片公司。
更重要的是,以上種種的成績,後摩是從自 2020 年底成立至今,僅僅花費 2 年多的時間 " 解鎖 "。
如此速度和效能之下,也令活動現場掌聲不斷。
不只是一顆芯片這麼簡單
我們進一步再來深入了解一下這款存算一體架構芯片。
許多了解芯片的小夥伴在看到 "256TOPS" 時,就會產生疑問:市面上不是已經有很多能夠達到這個算力值的芯片了嗎?
我們需要注意的是,鴻途™ H30 亮出來的是物理算力,并非是市面上常說的稀疏虛拟算力。
這也就意味着它一舉成為了國產智駕芯片裡物理算力最大的那一個。
更難能可貴的是,在拿下最大算力的同時,功耗正如我們剛才提到的,僅為 35W。
如此看下來,芯片的能效比便是幾倍于同類的產品了。
除此之外,在活動現場,後摩對鴻途™ H30 更多的細節參數做了展示:
12nm 工藝
支持外擴 Memory,寬帶達 128GB/s
支持 16 路 FHD Encoder/Decoder
支持 PCIe 4.0,x8,x4,x2,RC&EP mode
……
性能指标方面,鴻途™ H30 與英偉達產品相比,在 Resnet50 Batch=1 和 Batch=8 上,分别達到了 5.7 倍和 2.3 倍。
計算效率方面,鴻途™ H30 更是拿下了 11.3 倍和 4.6 倍的成績!
那麼具備如此高性能存算 IP,如何能将其利用到位,便涉及到 AI 處理器架構和設計的問題了。
而在活動現場,後摩也是将其背後的架構設計毫無保留地展示了出來——IPU(Intelligence Processing Unit)。
從整體來看,後摩在架構設計上的規劃采用了 " 三步走 " 的策略。
首先便是第一代 IPU 天樞架構,這是專門為自動駕駛所打造的 IPU,而剛才我們提到的鴻途™ H30 正是基于此。
談到這個架構是如何設計出來的,就不得不先提一下以往芯片的設計架構。
例如特斯拉 FSD 的集中式計算,就是非常典型的通過堆積大量計算資源來提高性能。
它就像是一個四合院,院子裡啥都有,主人們在院子裡可以盡情溝通交流,但問題也非常明顯,就是四合院的面積就只有那麼大,居住者數量就是有限的。
後來也有人提出了分布式計算的方法,把算力很大的核拆抽成若幹個小核;這些小核可以獨立完成小任務,也可以共同完成大任務。
這種方式像是現代高層公寓,每層樓都有獨立的基礎生活功能,也可以方便復制和擴展;但問題是每層樓之間的溝通比較困難。
因此,後摩智能的天樞架構所采用的便是二合一的思路——結合古典中式建築和現代高層建築。
簡單來說,每個芯片都包含 4 個 IPU 核;每個 IPU 核又有 4 個 Tile;而每個 Tile 内部還有 CPU、張量引擎、特殊功能單元、矢量處理器和多通道 DMA 等。
這樣的架構使得 AI 計算不但不用在多個處理器(例如 CPU,GPU,DSP)之間分配任務,甚至不用出 AI 核,就可以高效的完成全部端到端的計算。
這種架構還可以說是像一個綜合辦事大樓,走進去,一站式完成各種業務,大幅提高了效率。
總結來說,天樞架構的特點之一就是多核 / 多硬體線程實現計算效率與算力靈活擴展的平衡。
除此之外,它還可以擺脫系統總線的桎梏,其雙環拓撲專用總線可以實現靈活的數據直傳。
就像在多層空中四合院之間,建了個直接入戶的電梯,可以快速做到傳輸。
至于後摩在未來要進一步研發的天璇架構和天玑架構,則将聚焦在擴大模型應用邊界和通用人工智能。
在現場,後摩也展示了搭載鴻途™ H30 後無人小車上路的實測。
但如果你覺得後摩僅僅是拿出來了一塊芯片,那就有點 too simple 了些。
在如此短促的研發時間裡,它還一口氣發布了力馭 ® 網域控制器和後摩大道™軟體平台。
力馭是後摩面向智能駕駛市場的大算力網域控制器產品,據悉,只需要搭載單顆鴻途™ H30,便可以滿足智能駕駛多種傳感器、從 L2 到 L4 所有 AI 計算的需求。
最後,還有一個後摩大道™軟體平台,是為鴻途™ H30 芯片產品開發的 AI 軟體開發平台。
它的作用便是可以讓客戶在使用後摩存算一體架構產品時,能夠将開發、調試和部署應用的效率大幅提高。
△注:後摩智能 BEV 模型實測
以上便是後摩第一次正式亮相所給出的主要 " 作業 " 了。
通過各種數據和效果的對比展示,其在大算力國產智駕芯片的實力可見一斑。
但更令人驚嘆的,還應當屬 " 後摩速度 " ——一切都在 2 年多時間完成。
如何在 2 年時間 " 煉 " 成的?
不同于美國創業公司從車庫、大學宿舍開始的那般浪漫與理想,後摩的創業起點非常出乎人們的意料——沙縣小吃。
沒錯,正是在這種享受馄饨與熱湯之際,幾個人一拍即合,決定創業搞 AI 芯片。
不過賽道鎖定在芯片,除了大環境的因素之外,也與小夥伴們每個人都向往 " 萬物智能 " 的生活相關。
例如有人家住得特别遠,若是自動駕駛成熟了,便可以邊通勤邊辦公;還有人非常顧家,希望有個機器人把家務全包了……
那麼問題來了,到底什麼樣的芯片才能做到無處不在、讓萬物實現智能?
極致的效率,毋庸置疑是非常關鍵的因素之一。
然而當時後摩的初創團隊從科技發展歷史看清的一個事實是,每 1000 倍的效率提升将造就一個計算時代。
若是想要達到他們理想的萬物智能世界,那麼算力起碼也得是現今芯片計算效能的 1000 倍。
加之摩爾定律的逐步失效,他們便将目光聚焦到了另一種打法——換架構,搞存算一體。
團隊堅定認為,這就是後摩爾時代下的破局之道:
算力得大,功耗要低,面積要小,成本還得廉。
以至于 CEO 吳強在現場這般回憶道:
我們太喜歡這個方向了,連公司名字都是從這而來——後摩智能。
(雖然也有人會打電話問是不是做摩托車的……)
不過講真,存算一體這個技術在兩三年前并沒有像現在這般火爆。
可以說後摩成為了最早一批嘗到紅利的公司,也順理成章地使其成了國内第一個搞存算一體大算力 AI 芯片的公司。
而之所以會将第一個落地場景放到自動駕駛,用吳強的話來說就是," 自動駕駛是萬物智能美好生活的重要組成部分,人們幾乎在花 1/8 清醒時間在開車 "。
并且自動駕駛作為 " 集 AI 技術大成者 " 的領網域,能啃下這塊硬骨頭,那麼再拓展到其它領網域也就會輕松很多。
賽道、方向、技術,在創業初期三大最重要的關鍵因素定下來之後,接下來就是進入更煎熬的研發階段了。
雖說是煎熬階段,但有一說一,對于後摩團隊來說,或許都已經是駕輕就熟的事情,因為公司聚集了一幫芯片 " 老手 "。
例如創始人吳強,博士畢業于普林斯頓大學計算機博士學位,研究方向正是高能效比計算芯片及編譯器。
畢業之後,他還先後工作于 Intel、AMD、Facebook 等國外知名企業;值得一提的是,在 AMD 期間曾擔任 GPGPU/OpenCL 創始團隊核心成員。
吳強不僅擁有國外的工作經驗,在 2017 年回國之後,也是在國内 AI 知名獨角獸企業擔任技術副總裁和 CTO 等職務。
在學術方面,吳強曾獲第 38 屆計算機體系架構頂會 MICRO-38 唯一的一個最佳論文獎;科研成果被美國業内雜志 IEEE Micro 評選為年度最有影響的 12 個科技成果之一。
△後摩智能創始人兼 CEO,吳強
再如後摩智能聯合創始人、芯片研發副總裁陳亮,本碩博畢業于清華大學,曾任海思 CPU 芯片資深架構師、地平線 AI 芯片首席架構師。
在做產品上,後摩聯合創始人、產品副總裁信曉旭,具有 15 年以上計算芯片產品、市場和銷售經驗,曾任海思計算芯片產品總監。
△左:陳亮;右:信曉旭
而從後摩整體研發團隊構成來看,碩、博士占比 70% 以上;核心成員均主導過多顆世界級芯片的設計量產,類别涵蓋 GPU、CPU、高性能車規級 AI 芯片等。
更重要的是,用吳強自己的話來說,後摩的研發團隊人員都是非常純粹的人,肯吃苦、夠努力。
如此來看,也就不難理解為什麼能夠在 2 年多的時間裡,将存算一體芯片從 0 到 1 開花結果了。
芯片的 " 後摩時刻 " 已至
雖然芯片產品已經發布、量產,但最後我們還需要對一個問題做深入的探讨——存算一體,是否真的是正确的方向。
要回答這個問題,我們還需先得知道芯片算力的發展出了什麼問題。
無論是計算機、手機,還是智能手環等產品,它們内部程式運行機制都繞不開一個著名的計算體系,馮 · 諾依曼體系結構。
它的一個特點,就是計算和存儲是分離的。
若是通俗一點理解,我們可以将這個過程視為在廚房炒菜:
存儲器:相當于廚房裡的冰箱;
數據:相當于冰箱裡的菜;
計算器:相當于洗菜、切菜和炒菜。
那麼要完成一道菜,就需要先從冰箱裡把菜取出來,再去廚房裡洗、切、炒。
那麼問題來了,這些菜需要在存儲器和計算器之間瘋狂地做搬運工作,這就無形之間產生了巨大的時間開銷,
若是對于較低的計算量來說,馮 · 諾依曼體系結構尚且還可處理,但誰能想到,在信息數據量爆炸的當下,人們對算力的需求會變得如此之大。
舉個例子,若是用全卷積網絡處理一張分辨率為 224x224 大約 5 萬像素的圖片,需要的計算量為 5x109 次的計算。
這個任務若是放在一個 CPU 核心上處理,需要足足 3 秒鍾的時間,慢,着實太慢!
單單是這麼簡單的任務尚是如此,近年來随着 AIGC 熱潮的到來,大模型成為了產學界的香饽饽,而動辄需要對上千億參數做訓練推理,需要的算力之大可見一斑。
即便現代很多芯片開始設計更復雜的多級存儲結構,例如把 SRAM(靜态随機存儲器)作為距離計算單元最近的緩存,保證最高的讀寫速度,但容量還是非常的有限。
例如在下圖英偉達 GA102 GPU 中,藍色方塊區網域便是緩存區網域,即便看上去占了不少空間,但其實容量也就 6MB 而已。
這在當今主流 AI 任務面前,簡直是大巫見小巫了。
這,就是當下算力發展所遇到的致命瓶頸。
而且就過去二十年的發展來看,處理器性能以每年大約 55% 的速度提升,但内存性能的提升速度每年只有 10% 左右。
存儲速度長期滞後于計算速度,因此就導致了芯片性能難以滿足 AI 需求的情況。
不僅如此,近年來 " 摩爾定律即将失效 " 的聲音也是此起彼伏,很多人認為傳統的芯片無法再勝任新的大算力任務了。
雖然業界在後來提出了 GPU、多核 CPU 等解決方案,但依舊是無法繞開馮 · 諾依曼體系結構最為致命的瓶頸問題。
在如此情況之下,業界便提出了更為大膽的想法——幹脆把冰箱和廚房搞到一起,讓取菜、洗菜、切菜和炒菜都在一個空間裡完成——即,存算一體。
對應到芯片設計,就意味着把分開的計算單元和 SRAM 單元重新設計,把乘加單元打散并插入到 SRAM 陣列當中,以此形成新的存算單元。
如此一來,每個存算單元既保留了 SRAM 本身的規則性,便于高速讀寫;又擴充了并行計算功能,實現高能效計算。
以後摩發布的鴻途™ H30 為例,在存算一體架構之下,便可以在每秒計算超過 4x1012 次。
和其它 AI 芯片相比,後摩存算一體的宏單元在同樣能耗下提供的算力,可以直接飙升 10 倍!
但其實存算一體技術早在 2011 年就引起學術界關注,而後在 2016-2017 年成為學術界熱議的話題。
到 2019 年逐漸開始受到工業界和資本的關注,彼時大家的讨論主要集中在這項技術的可靠性上。
從 2020 年開始,越來越多的玩家進入這個市場,并且大公司都開始在存内計算上發力,此時的存内計算已成為產業界 " 不得不跟進 " 的技術之一,大家的讨論聚焦在存内計算未來的市場空間上。
再從市場規模角度來看,量子位在《存算一體芯片深度產業報告》中曾經預測:
2030 年,基于存算一體技術的大算力芯片市場規模約為 67 億人民币。
由此可見,不論是從技術亦或是市場的發展和預測來看,存算一體确實是解決算力瓶頸的一大利器。
而作為率先入局的後摩智能,也給出了自己的觀點:
存算一體的價值在于,它是一種比傳統架構更接近人腦的計算方式,能達到遠超傳統方式的高計算效率,和智能駕駛終局的需求天然吻合。
2023 年,會是存算一體商業落地的元年。
至此,對于芯片算力的瓶頸,後摩智能已經給出了自己的一套打法,并且已經交出了一份高分作業。
站在現今後摩爾時代的當下,或許芯片的 " 後摩時刻 " 已經到來。
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>