今天小編分享的科技經驗:造出比盤子還大的AI芯片,這家估值300億元的硅谷公司要挑戰英偉達,歡迎閲讀。
作者丨王沁
編輯丨邱曉芬
據 The Information 消息,硅谷芯片公司 Cerebras Systems 正于近期遞交上市申請。這家公司成立于 2015 年,累積融資 7.2 億美元,估值飙升到 42 億到 50 億美元。
值得注意的是,這家公司背後,與 OpenAI 的造芯布局和中東公司的 AI 野心都有關聯—— Cerebras 最大的投資人之一是 OpenAI 的首席執行官 Sam Altman。而 Sam Altman 此前曾多次前往中東募資造芯,曾有傳聞稱其募資額 7 萬億美金。
巧合的是,Sam Altman 當時洽談的阿聯酋科技公司 G42,目前也正與 Cerebras 進行資本合作和技術合作。
這家公司最獨特的地方在于,他們的芯片和主流的英偉達 GPU 大相徑庭。過去,芯片在摩爾定律的牽引下,越做越小,以英偉達 H100 為例,814 平方毫米的核心面積上有 800 億晶體管。
而 Cerebras 的 AI 芯片,則選擇将一整張芯片越做越大,号稱 " 造出了世界上最大面積芯片 "。據介紹,Cerebras 開發的 WSE 3 芯片由整張晶圓切割,比盤子還大,需要人用雙手捧起來。一張 WSE 3 芯片,在 46000 多平方毫米的核心面積上,有 40000 億晶體管(是 H100 的 50 倍)。
比盤子大的芯片,需要用雙手捧起來。圖源 Ars Technica
為什麼要做得這麼大?
或許是為了滿足訓練 AI 大模型所需的巨大算力。Cerebras 宣稱,他們的芯片可以訓練的 AI 大模型規模,比目前業界頂尖大模型(如 OpenAI 的 GPT-4 或者 Google 的 Gemini)還要大 10 倍。
當下,AI 大模型參數和性能的迅猛膨脹,訓練 AI 的芯片算力卻快跟不上了。随着摩爾定律放緩,英偉達 GPU 采用多卡互聯的方式,堆疊顯卡,來提升算力。即使英偉達 GPU 針對 AI 訓練做了優化,但 GPU 畢竟是通用芯片,而非 AI 專用芯片。
英偉達 GPU 了占據 AI 芯片的大半市場份額,但舉目望去,專用 AI 芯片已經發展了至少十幾條技術路徑,英偉達有不少年輕對手。其中 Cerebras 的超大面積芯片,試圖在技術上,大力出奇迹。
如何把芯片做得比盤子還大?
眾所周知,英偉達 GPU 原本是圖形處理器,擅長并行處理多個簡單計算,因為訓練 AI 也需要同時對所有數據樣本執行相同的操作,GPU 後來也用于訓練 AI。
不過,GPU 畢竟不是專為 AI 設計的芯片—— GPU 需要用 PCIe 的方式連接電子組件,在組件之間傳輸數據,這限制了芯片的大小、連接類型,甚至通信标準。此外,伺服器機箱的标準又限制了冷卻功率,冷卻功率限制了芯片的功耗,功耗又限制了訓練 AI 模型的速度。
在層層的限制之下,若要将訓練速度提高上百倍,需要從根本上重新思考處理器之外的更多方面,包括系統架構、核心設計、内存架構、通信結構、芯片 I/O、電源和冷卻基礎設施、系統 I/O、編譯器、軟體工具鏈等等。
這也是為什麼 Cerebras 公司的全稱是 Cerebras Systems ——該公司考慮的是直接颠覆掉英偉達過往的既定思路,重新設計一整個 AI 芯片系統。從產品上看,Cerebras 的 AI 芯片最大的特點是,不僅芯片大,配套的散熱系統也是前所未有地大。
不過,一味把芯片做得比盤子還大,這是噱頭還是實力?Cerebras 的技術路徑有什麼優缺點?
目前,世界上絕大部分芯片是将晶圓切割成多塊,再封裝成小塊的芯片。以英偉達的搶手貨 H100 為例,一張 12 英寸的晶圓,光刻機可以刻出 86 塊左右的核心邏輯芯片。
而Cerebras 是将一整塊晶圓做成芯片,直接把光刻機刻出的 80 多塊晶片拼在一起,去掉邊角料,晶片之間連接成一塊大芯片。因此,Cererbras 的芯片也稱為 " 晶圓級引擎 "。
Cerebras 選擇将晶片直接原地放在晶圓之内連起來,能讓晶片之間直接連接通信,而非 GPU 那樣要在不同塊 GPU 之間通過數據導線來通信,加快了芯片核心之間的通信速度。
如此一來,便達到強大的計算性能。據 Cerebras 官網信息,WSE-3 芯片的單個處理器上就有 90 萬個 AI 核心,是英偉達 H100 的 52 倍;片上内存達到 44GB,是 H100 的 880 倍。
Cerebras 将一整塊晶圓上的晶片連接一起。圖源:HPC Wire
在 GPU 這類傳統構架中,存儲是共享的,每一個計算核心沒有專門的存儲空間,存儲空間的數據吞吐能力容易跟不上計算單元的需求量。
打個比方:當水池子大,但是水管小時,水管吞吐容易出現不及時的問題,導致池子裏的水(算力)就會被閒置,來回搬運數據也會耗時、耗功率。
Cerebras 的技術優勢在于,通過重新設計計算核心的結構,給每個計算核心配備了帶寬足夠大甚至有冗餘的存儲單元,如此實現了分布式的存儲和計算(不同于 GPU 中計算單元共享存儲單元)。相當于,每個核心都是一個單獨工作的工人。
據 Cerebras 官網信息,在 WSE-3 芯片上,片上存儲的總帶寬達到 21PB/s,互聯網絡總帶寬達到 214PB/s,這樣就沒有數據搬運時帶寬不足的問題。
Cerebras 的芯片被美國能源部下屬的阿貢國家實驗室采用,自 2020 年以來一直用于 COVID-19 研究和癌症腫瘤研究。 據 HPC Wire 報道,在用 Cerebras 芯片訓練模型來預測癌症藥物反應中,與 GPU 基線相比,在 Cerebras 芯片上實現了數百倍的加速。
不過,這樣力大磚飛的芯片設計,看起來很美好,但也有自己的弱點。
第一是良率低。以英偉達 H100 芯片為例,即使是台積電這樣的業内翹楚,4nm 制程芯片達到 80% 良率已經是頂尖。考慮到 80% 的良率以及切割損耗,一張 12 寸晶圓上刻出的 86 塊左右的晶片,最後達到良率的晶片是 65 塊左右。
顯然,Cerebras 想讓一整塊晶圓上切割出的 80 多塊晶片都能用,但難度也會高很多。對于主流芯片來説,一整張晶圓上的一小塊晶片做失敗了,其他晶片還能用。但對 Cererbras 這樣的芯片來説,難道一張晶圓上任何一個晶片有缺陷,一整張晶圓都要放棄嗎?
Cerebras 的解決方式是,當一個晶片出現有缺陷的計算核心時,會讓 AI 軟體在運行時繞過有缺陷的計算核心,而是用冗餘的計算核心。
Cerebras 宣稱,通過這種利用冗餘來繞過缺陷的設計,其 WSE 2 芯片實現了 100% 的良率。這也是為什麼 Cerebras 的高管強調," 冗餘是你的朋友(Redundancy is Your Friend)。"
Cerebras 高管在公開演講中強調 " 冗餘是你的朋友 "。圖源:Cerebras Systems Youtube 頻道
第二個弱點是,需要龐大的散熱系統。當芯片的面積增加,有更多的電流流過晶體管,半導體電阻自然會產生更多的熱量。如果熱量過高,還會分解芯片及其表面的小部件。英偉達的 Blackwell GPU 數據中心中,都需要巨型的冷卻系統。而 Cerebras 的巨無霸芯片,更是需要重新設計一套龐大的的散熱系統。
Cerebras 伺服器的散熱系統像一個龐大的怪物:幾根碩大的黃銅管都是用來連接水泵來散熱的。管道、泵、風扇和熱交換器等要占用大量空間。
盡管芯片本身只有 21.6 平方厘米,且非常薄,但外殼散熱系統需要占據标準機架約三分之一的體積。專門的散熱系統也意味着,部署芯片需要額外的配套成本。
因此,Cerebras 雖然把芯片做得比盤子還大,确實在技術上力大磚飛,但是部署所需的整體成本不一定具有性價比,這種創新的路徑還需後續經過市場驗證。
隐藏着 Sam Altman 的造芯野心
英偉達芯片帝國之外,AI 芯片的技術路徑眾多,Cererbras 力大出奇迹的路線還是看點,市場上也已經用錢給他們投票。
目前,這家公司已融資 7.2 億美元,估值約為 42 億到 50 億美元,其中,最大的個人投資者之一是 OpenAI 的首席執行官 Sam Altman。據報道,Sam Altman 參與了 Cerebras 的 8000 萬美元 D 輪融資。
畢竟,Sam Altman 曾宣稱要花 7 萬億美元造 AI 芯片(雖然後來他澄清這不僅僅是造芯片的費用,而是圍繞芯片的房產、數據中心電力、芯片制造等的總體費用)。Sam Altman 多次前往中東,與包括阿聯酋政府在内的投資者進行談判,尋求募資,計劃提高世界芯片制造能力。
在 Sam Altman 和他所投資的 Cerebras 芯片公司之間,還與一個中東公司 G42 關系密切。G42 是位于阿聯酋首都阿布扎比的科技巨頭,開發人工智能技術,同時對外投資。Sam Altman 的中東之旅常常會拜訪 G42,OpenAI 也在 2023 年 10 月與 G42 籤訂了合作協定。
G42 與 Cerebras 一直合作密切。G42 是 Cerebras 的客户、投資者、技術合作者:2023 年 7 月,G42 籤約向 Cerebras 投資 9 億美元,Cerebras 為這家阿聯酋公司 G42 在美國建造九台人工智能超級計算機;2023 年 8 月,Cerebras 和 G42 的子公司共同推出了大型語言模型 Jais。
G42 與中國也有淵源。其創始人肖鵬在中國出生,曾在美國接受教育,後來放棄美國國籍,成為阿聯酋公民。 G42 的基金在過去兩三年投資了很多中國科技公司,包括字節跳動。但今年 2 月,受美國政府施壓,G42 撤出此前在華的所有投資。
不過,Sam Altman 的造芯布局遠不止于 Cerebras,而是更加宏大。
第一是與芯片大廠合作,特别是英偉達 GPU 之外的大廠——不把雞蛋放在一個籃子裏。去年 12 月,AMD 推出 AI 芯片 MI300X,OpenAI 就下了訂單。此外,OpenAI 表示在其一款名為 Triton 的軟體產品中支持 AMD GPU。
對外投資也是重頭戲。早在 2018 年,Altman 就個人投資了一家名為 Rain AI 的 AI 芯片初創公司,自掏腰包 100 萬美元。Rain AI 采取的 AI 芯片路徑是 NPU(神經處理單元或類腦芯片)。 2019 年,OpenAI 籤署了一份意向書,斥資 5100 萬美元購買 Rain 的芯片。
除了對外投資,Sam Altman 對于 OpenAI 的自研芯片也一手抓。6 月 9 日,消息稱,OpenAI 大力從谷歌 TPU 團隊挖角人才,來發展自研芯片。OpenAI 計劃将目前僅有數人的芯片團隊擴展至數十人,且幾乎所有新招募的研究人員均為谷歌 TPU 團隊的現任或前任成員。
Altman 的造芯野心不僅于此,他甚至想創建一個新的芯片項目「Tigris」——橫跨幾大洲,聯合阿聯酋的 G42 和日本軟銀等公司,拉攏台積電、三星和英特爾等頂級芯片制造商,建成覆蓋全球的制造工廠網絡。
據報道,早在 Sam Altman 去年 11 月戲劇性地被 OpenAI 解雇之前幾周,他就前往中東募資,已與軟銀集團公司、沙特阿拉伯公共投資基金(PIF)、穆巴達拉投資公司等公司就這些合資企業進行了談判,尋求數百億美元的資金。
Cerebras 這家略顯小眾的技術路線的公司上市,既是對英偉達 GPU 護城河的一個挑戰,也是 Sam Altman 在英偉達 GPU 壟斷之外建立新的 AI 芯片格局的一步。