今天小編分享的科技經驗:21歲華裔小哥開發AI加速芯片“Sohu”,2人公司估值3400萬美元,歡迎閲讀。
像 Pika 一樣的神級創業故事又要再次上演了?
兩位哈佛退學的年輕人,想要制造一款專用于大語言模型加速的 AI 加速器芯片,将于 2024 年第三季度交付,推理性能達 H100 的 10 倍。
在今年 6 月份,兩位創始人 Gavin Uberti 和 Chris Zhu 創立了 Etched.ai,獲得了包括 Ebay 前 CEO Devin Wenig 在内一眾風投機構的 536 萬美元的種子輪投資。
公司估值更是高達 3400 萬美元!
根據公司官網上放出的數據,這款芯片将在硬體層面上集成 Transformer 構架,将推理速度相比于英偉達 H100 提升了 8-10 倍!
他們将第一款 LLM 加速芯片命名為「Sohu」,号稱可以在毫秒級别的時間裏處理數千個單詞。
芯片還支持通過樹搜索更好地編碼,能夠并行比較數百個響應。
還支持多重推測解碼(Multicast speculative decoding),可以實時生成新的内容。
根據官方公布的具體細節,這款芯片只有一個核心,但是配備了 144GB 的 HBM3e 顯存:
1
完全開源的軟體棧,可擴展至 100T 參數型号
2
支持波束搜索(Beam search)和 MCTS 解碼
3
支持 MoE 和 Transformer 的各種變體
兩個哈佛辍學大學生挑戰芯片行業最頂尖業務
兩人原本計劃從哈佛休學一年,在一家芯片公司找到了一份負責 ApacheTVM 開源編譯器和微内核的工作。
但在工作中,他們發現 Arm 的指令集中的一些低效設計使得他們的工作效率很差。
當他們思考如何系統性地解決這個問題時,發現可以利用這個思路來設計一款針對當下爆火的 AI 加速芯片。
在創始人之一的 Uberti 看來,通用設計無法獲得他們正在研發的專有加速芯片所能帶來的那種性能提升:
「必須在單一架構上下大力氣,讓芯片處理 AI 任務,目标太大了,必須要針對更具體的任務來設計芯片 ...... 我們認為英偉達最終會這麼做。」
在他們兩人看來,這個市場機會太大了,一定不能錯過。
「如果你回顧四年前的 GPT-2,與 Meta 最近的 Llama 模型相比,只有兩個區别——大小和激活函數。訓練方式存在差異,但這對于推理來説并不重要。」
Transformer 的基本組件是固定的,雖然存在細微差别,但他們并不擔心短期之内就會出現新的構架代替 Transformer。
所以他們決定做一個 Transformer 構架的專用集成電路(ASIC),在未來和英偉達等一系列芯片巨頭在大模型推理市場中競争。
他們認為,Etched.ai 推出的第一款芯片,相比于 H100,部門價格内将獲得 140 倍的吞吐量性能!
二到底是什麼樣的背景,能讓兩個本科還沒有畢業的學生,敢于挑戰芯片業目前最炙手可熱的賽道呢?
創始人兼公司 CEO Gavin Uberti 自從 2020 進入哈佛之後,就一直在校外兼職,在 2022 年底,成立了 Etched.ai。
在進入大學之前,他參與了美國最著名的青少年科技創新大賽 FIRST Tech Challenge,團隊獲得了 Top 10 獎項。團隊開發的自動駕駛軟體排在 600 個參賽團隊第二名。
另一位創始人 Chris Zhu,也是在哈佛就讀時就在校外瘋狂實習,甚至還沒有從哈佛畢業,就已經成為兼職教員。
AMD MI300X 決戰 NVIDIA H100
而英偉達和 AMD 這邊,最近打得更是熱火朝天,甚至連官方都直接下場寫博客硬剛。
就在前段時間,AMD 高調發布了自家最強的 AI 芯片 MI300X。
PPT 顯示,由 8 塊 MI300X 組成的伺服器在大模型推理方面的表現,要比同樣規模的 H100 速度最高提升 1.6 倍之多。
對于 AMD 來説,這種直接對标,實屬罕見。
對此,英偉達很快就發表了一篇博客文章,駁斥 AMD 的評測不客觀。
英偉達表示,如果 H100 GPU 使用了優化過的軟體進行正确的基準測試,它的性能将大大超過 MI300X。
作為回應,英偉達展示了采用 TensorRT-LLM 優化設定後,兩款 GPU 在 Llama 2 70B 上的比較結果。
文章地址:https://developer.nvidia.com/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/
可以看到,當批處理大小設定為 1 時,H100 的性能達到了 MI300X 的 2 倍。
甚至,當采用與 AMD 相同的 2.5 秒延遲時,H100 的性能可以達到 MI300X 的 14 倍之多。
英偉達表示,AMD 采用的替代軟體不支持 Hopper 的 Transformer Engine,并且忽略了 TensorRT-LLM 中的關鍵優化功能。而這些都可以在 GitHub 上免費獲取。
AMD 毫不示弱
見狀,AMD 也發文表示,既然要用優化,那就大家都用。
而即便是在這種情況下,MI300X 的性能依然比 H100 強了 30%。
文章地址:https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304
具體來説:
1. 在同樣采用 vLLM FP16 的設定時,相比于發布會上展示的 1.4 倍性能,AMD 最新的優化已經讓這一優勢擴大到了 2.1 倍。
2. 與使用 TensorRT-LLM 優化的 H100 相比,使用 vLLM 的 MI300X 實現了 1.3 倍的延遲改善。
3. 相比于采用低精度 FP8 和 TensorRT-LLM 的 H100,使用 vLLM 和高精度 FP16 的 MI300X 在絕對延遲方面,表現更好。
AMD 指出,英偉達在 H100 上進行基準測試時使用的是自家專有的技術 TensorRT-LLM,而非更廣泛使用的 vLLM。
此外,在延遲方面,英偉達只關注吞吐量的性能,卻忽視了實際工作中的延遲問題。
最後,AMD 表示,之所以選擇使用 FP16,是因為它非常流行,而且目前 vLLM 還不支持 FP8。
GPU 大戰進入白熱化
在人工智能加速器領網域,一些公司擁有針對特定工作負載的專門架構。
數據中心的專用架構主要集中在 DLRM(深度學習推薦模型),因為 GPU 很難加速這類任務。
Meta 最近宣布已經構建了自己的 DLRM 推理芯片,并且已經得到廣泛部署。
而對于 Transformer 構架的加速,英偉達是通過在 H100 GPU 中部署 Transformer Engine 的軟體功能來實現的。
Transformer Engine 使得 LLM 推理無需進一步量化即可進行,大大加速了 GPU 推理 LLM 的效果。
而 Etched.ai 要做的就是更近一步,在硬體層面完成這個設計,從而使得 LLM 的推理速度和能效都更上一層樓。
而投資人之所以願意給兩位本科辍學生投入如此之大的一筆錢,更重要的是迄今為止,所有人都認為現在 LLM 推理的成本過高,其中一定有創新的空間。
除了這樣的明星初創公司以外,傳統巨頭對于大模型推理市場同樣抱有很高的期待。
蘇媽在各種場合不斷表示,未來大模型推理市場的規模将遠遠大于模型訓練市場。所以 AMD 也一直在強調自己的產品已經對這個市場做好了充分地準備。
從英偉達和 AMD 首次公開對比自家產品的性能這件事來看,GPU 領網域的競争顯然正在加劇。
目前,英偉達除了要面對 AMD 的挑戰之外,還需要考慮英特爾和 Cerebras 取得的快速進展。
就在 12 月 14 日,首席執行官 Pat Gelsinger 展示了英特爾最新的 AI 芯片——采用 5nm 工藝制程,性能提升了 1.5 倍的 Gaudi 3。
相比于上一代 Gaudi 2,Gaudi 3 的 BFloat16 性能提升了 4 倍,計算能力提升 2 倍,顯存容量提升 50% 達到 144GB,并且采用的是 HBM3 或 HBM3e。
同樣,英偉達也計劃在明年初推出 GH200 超級芯片。
鑑于競争如此激烈,AMD 可能會被諸如微軟、Meta 和甲骨文這些已經宣布将其技術集成到數據中心的公司,視為備選方案。
Gelsinger 預測,到 2027 年,GPU 市場規模将達到驚人的 4000 億美元,這無疑為激烈的競争提供了廣闊的舞台。
Cerebras Systems 的 CEO Andrew Feldman 更是毫不遮掩自己的野心:「我們正在努力超越英偉達,到明年,我們将構建高達 36 exaflops 的 AI 算力。」