「清程極智」翟季冬：中國AI算力行業，不能只“照抄”英偉達

今天小編分享的互聯網經驗：「清程極智」翟季冬：中國AI算力行業，不能只“照抄”英偉達，歡迎閱讀。

歡迎關注

湧現（Emergence），是生成式 AI 浪潮的一個關鍵現象：當模型規模擴大至臨界點，AI 會展現出人類一般的智慧，能理解、學習甚至創造。

「湧現」也發生在現實世界——矽基文明一觸即發，AI 領網域的創業者、創造者，正在用他們的智慧與頭腦，點亮實現 AGI 的漫漫征途。

在新舊生產力交替之際，《智能湧現》推出新欄目「湧現 36 人」，我們将通過與業界關鍵人物的對話，記錄這一階段的新思考。

作者丨邱曉芬

編輯丨蘇建勳

一場超算比賽的激烈程度，或許不亞于一場 F1 賽車比賽。

所有的隊伍，要經過三輪厮殺，從美國厮殺到歐洲、再到亞洲。來自全球頂尖學校的學生隊伍，各自帶着他們最先進的算力前往賽場。

當每一個隊伍被分派五道應用題時，他們要調教好伺服器裡面的七八個裸金屬硬疙瘩，讓它計算超越人腦所能回答的復雜題目。

作為清華大學計算機系的教授，翟季冬在過去多次帶領學生參與，還曾經拿過十幾次冠軍。不過他發現，超算比賽幾乎等同于一次英偉達先進 GPU 的集體展示——幾乎所有隊伍，清一色标配英偉達的機器。

情況能否有一些改變？

這個問題一直萦繞在翟季冬心頭，這也是「清程極智」誕生的原因之—，想要讓國產的算力也能逐漸站到台前。有所不同的是，不與過去大多數國產芯片創業者一般，他并不打算從重資產的硬體方向切入算力賽道。

在過去，中國的芯片創業基本集中在 wifi 芯片、MCU 等更普适的領網域，嘗試自下而上突圍。直到 2020 年前後，随着國際博弈趨勢加劇，國内才漸漸掀起了以 GPU 為代表的 AI 芯片創業熱潮，直接切入半導體、AI 的要塞。

但這個賽道過去幾乎是充滿艱辛，頂着壓力前進。國產 AI 芯片的對手只有一個，牌桌對面是幾乎壟斷着全球半導體行業所有優勢資源的英偉達。

從另一個角度看，這正是中國 AI 芯片的機會。

只是，新的變化是，經過幾年的沉澱，大家逐漸正視原來的雄心，新的反思出現。一些現實擺在眼前：盡管中國大部分 AI 芯片喊出了 " 對标英偉達 " 的口号，但被大模型廠商實際使用時，軟硬體的短板難免暴露。

" 想用三四年超越英偉達，是一個不可能的任務，中國的芯片廠商只在硬體層硬拼英偉達的打法是不是行得通？" 在先進制程落後，積貧積弱的情況下，嘗試從軟體層面切入創新，是盤活國產芯片 " 螞蟻雄兵 " 的重要一環。

而這正是翟季冬和「清程極智」團隊想做的事情。

顯然，在過去，軟體幾乎是 AI 芯片經常被忽視的環節。如果以英偉達為參考，可以發現，英偉達并非一家簡單的硬體公司，相反，他們反而更願意以軟體公司自诩——英偉達負責軟體的人員，幾乎是硬體團隊的數倍。

而在軟體上持續下功夫，也讓英偉達在過去受益匪淺。一個有意思的現象是，當人工智能的發展迅猛，從 2013 年的卷積結構，迭代到如今的 Transformer，芯片的熱潮跌宕起伏，但英偉達的硬體始終萬變不離其宗 "。翟季冬表示，這正是由于英偉達的計算芯片上層有靈活的軟體作為支撐。

翟季冬向《智能湧現》介紹，目前，「清程極智」的團隊推出了「清程 Pro」、「清程 Pro Max」的軟體平台，從軟體的方式切入，優化國產算力，讓國產算力也能有不輸英偉達產品的效果。

比如，經過實測，「清程 Pro」與某國產芯片合作後，将芯片推理的吞吐量提升了 1.7 倍，遠超于英偉達同類產品；「清程 Pro Max」則從芯片之間的連接入手，能夠在兩三台伺服器互連的情況下，把大模型推理吞吐量提高大約五六倍。

據翟季冬介紹，在某國產卡四卡平台上，清程極智的推理系統 FastDecode 對某 130B 大模型可達到相比于 vLLM 多達 7 倍的生成吞吐量。

" 軟體可以幫你做好多事情，一定程度上可以彌補硬體本身的缺陷 "，目前，「清程極智」已經與不少國產芯片廠商、國產大模型廠商達成了深度合作。

在此前，翟季冬的團隊還曾經研發出能夠在超級計算機上訓練百萬億參數模型的「八卦爐」系統。令人難以置信的是，這台有足球場大小的超算系統，背後的芯片全部都是國產芯片。

翟季冬介紹，在超算上驗證過的「八卦爐」系統是清程極智的核心技術之一，提供針對芯片體系架構的算子編譯優化，以及面向超大規模集群的并行計算解決方案，包括網絡通信優化，容錯系統，負載均衡等，未來将支持更多的國產算力，進行高達十萬卡的超大規模訓練。

翟季冬判斷，未來中國的 AI 芯片行業，在訓練側或許只有少數幾家能夠勝出，但中國在端側應用的想象力會比美國更強，推理芯片必将百花齊放，明年下半年或許會有更多新公司的湧現。

而在這種趨勢下，分散的中國 AI 芯片市場，給軟體創新的湧現，提供了一塊溼潤的土壤。

以下《智能湧現》與翟季冬的交流實錄（略經摘編）

用軟體"盤活 " 國產算力

智能湧現：您之前的經歷如何？為什麼是選擇和算力優化有關的領網域進行創業？

翟季冬：我在清華的時候，2014 年就開始帶着大學生去參加全球超算比賽，每年是有三場比賽，美國一場，歐洲一場，亞洲一場。我們會帶一個小規模集群，包括幾台伺服器，每台伺服器有多個加速卡。

主辦方會提供五道左右應用程式，每個隊伍在各自攜帶的集群上優化應用程式，最終看哪個隊伍整體性能最高。有點像 F1 賽車，我們既要帶不錯的硬體，同時也要把這些程式在機器上的性能發揮到極致。

我們總共在國際超算比賽中拿到十幾次冠軍，但是我們之前用的都是英偉達最好的 GPU 去參賽，比如 H100、A100。

我們團隊在智能算力優化方向積累了很多年，這次想要通過產學研的機制去更好地推動這個方向，同時也助力國產芯片的發展。

智能湧現：你們最近對接了不少國產芯片，目前這些產品用起來的體驗如何？

翟季冬：國產芯片目前的算力性能雖然相比英偉達還存在一定差距，但是整體性能還不錯。國產芯片目前主要的問題是軟體生态。國内目前做 AI 芯片會有十幾家，但是我們發現依然有許多用戶對國產芯片的接受程度不高。

比如大家要做很多一些酷炫的 AI 應用，上層模型在标準的開源版本上有所改動，這時在國產芯片上運行就可能遇到一些問題，而使用英偉達的芯片遇到的問題就少得多。

我們思考的問題是，怎麼能把國產算力市場盤活，讓上層的大模型應用感受不到國產芯片在使用過程中一些不順暢的地方，或者說盡可能獲得和英偉達一樣的使用體驗。

其實在十年前，大家也覺得，相對于成熟的 CPU 體系，英偉達的 GPU 不好用。英偉達也是經歷了好多年才構建出成熟的軟體生态的，國產 AI 芯片公司都是 2016 年之後成立，有的是 2020 年左右，如果說想用三年的時間超過英偉達，這是一個比較大的挑戰。

我們也在想，中國芯片如果完全復刻英偉達的路線，是一個最簡單可行的思路，但是這條思路是不是最好？可能還需要進一步思考。

我認為，國產芯片如果能把軟體做好，硬體也能發揮到極致。

智能湧現：你們現在的商業模式是什麼？

翟季冬：我們的核心技術集中在智能算力系統軟體。從商業模式來說，我們會将這一系列的軟體與算力結合起來，使算力變得更好用，以不同形式直接交付給終端用戶。

我們今年上半年的計劃是，和底層芯片廠商緊密合作，同時在上層幫助大模型廠商無感遷移模型到國產芯片上。有幾家知名國產大模型公司都是清華計算機系孵化的，我們跟這些機構有很多深度的合作。

智能湧現：你們怎麼用軟體的方式，去解決國產芯片硬體層面不好用的問題？

翟季冬：我們曾經在某國產芯片上加上我們的軟體，形成軟硬一體化解決方案「清程 Pro」，把大模型推理吞吐提高了 1.7 倍。後來我們在此基礎上做了一些硬體改進，形成了「清程 Pro Max」上，可以把吞吐提高大約五六倍。

軟體可以幫你做好多事情，一定程度上可以彌補硬體本身的缺陷。

智能湧現：優化是一錘子買賣嗎？如何提升算力優化的效率？

翟季冬：從我們系統軟體的設計角度看，給任何一種芯片做的優化，再用到其它芯片架構上是不需要全部重新實現的。因為我們的軟體在設計上有大量是共性的，我們在最底層的編譯器，會有一層統一中間表示，會跟各種芯片架構去對齊，這樣不同廠商可以買不同的 AI 加速芯片，用我們的一套軟體，也能支持多種芯片。換句話說，上層模型一直在迭代，而清程的技術能力可以持續高效地支持新興模型的底層算子優化，未來跟各芯片廠商和模型廠商會是持續合作的狀态，不會只是一錘子買賣。

智能湧現：咱們的技術壁壘是什麼？

翟季冬：第一個是 AI 編譯器，它的核心作用是把上層模型算子高效地轉換成底層 AI 芯片可以執行的代碼，把底層不同 AI 芯片的計算能力釋放出來。我們清華大學計算機系高性能所的實驗室在這塊有非常好的技術積累。

第二個是并行系統。當前的計算系統是一個高度并發的系統，無論是大模型訓練、微調或推理，都需要把模型映射到多塊 AI 芯片、以及 AI 芯片内部的多個功能單元。

模型如何拆分，通信如何高效完成，這些都是并行系統需要去考慮的事情。我們在大規模并行系統方面，做過很多相關的工作。

中國芯片創業，需要新創新思路

智能湧現：但是行業裡面，是不是還沒有這種圍繞創新方式的反思？

翟季冬：不能說完全沒有反思，但還需要有更多思考，核心痛點在哪？原創力在哪？

我認為現在中國芯片所面臨的核心痛點，是如何要讓這些芯片變得更好用，真正把底層的算力給發揮出來。

智能湧現：你覺得怎麼看中國芯片公司過去幾年的打法？

翟季冬：英偉達花了 20 年，把硬體、軟體積累起來，已經有很多創新内化在產品中。國產芯片不是通過學習它的公開這些材料簡單的模仿就能超過他。

如果中國公司想要在訓練側超越英偉達，除非你有本質的創新，中國發展其實不要簡單的 copy，模仿人家永遠只能是跟在人家後面，我覺得核心的要有自己的科技創新。

一個更有價值的思考是：中國的芯片公司在國際供應鏈上明确受限這種情況下，我們怎麼能通過軟體和硬體協同創新來突破重圍？

這是中國芯片一個更好的出路。我們其實可以通過軟體的方法，有效地把這些芯片給整合起來。

像英偉達這麼多年，它的架構本身沒變。從 2013 年的卷積，到現在的 Transformer，英偉達的底層架構不變，它通過軟體來想辦法幫用戶去适配，我覺得這就是軟體的意義，因為軟體相對比較靈活。

智能湧現：為什麼是選擇在中國，做這種算力軟體優化方向的創業？

翟季冬：在國外，做算力相關的軟體只要把英偉達、 AMD 兩家服務好，基本上也就解決問題了。美國現在英偉達是一家獨大，去整合其他芯片的意義有限，但是在中國，這反而有機會。

如果英偉達所有的算力對中國都開放，那麼中國芯片成長的機會也會少很多。

對于國產芯片來說，英偉達的弱點才是他們的機會點，如果你盯着他的強項去做的話，很難超越他。中國的芯片市場越分散，端側芯片的場景越分散，反而越能給軟體創業帶來更多機會。

智能湧現：有沒有感覺現在國内的芯片廠商比較各自為政，缺乏合力？

翟季冬：英偉達是一家很有野心的公司。他們做了一系列 GPU 加速卡，然後又收購了網絡芯片公司邁絡思、又做了自己的 ARM CPU，他想做一體機，甚至想收購 ARM。但是國内的大部分芯片廠商其實都沒有野心和能力去整合，大部分國產廠商都很分散，有的更偏向于推理，有的更偏向于訓練，所以我感覺現在國產的算力很難形成合力。

但是從另一個角度來看，這反而對算力軟體的創業有機會，我認為這個現狀，在未來 5-10 年還是會存在。

美國訓練更強，中國端側想象力更豐富

智能湧現：國内堅持做萬卡訓練的芯片公司，是因為 buy in 了 scaling law？您怎麼看，它會持續嗎？

翟季冬：所謂的大模型可以理解為将海量的數據壓縮起來，放到一個千億或者萬億的數據庫裡，是一個數據壓縮的過程。

如果編碼和壓縮算法更高效，那可能原來用萬億參數才能壓縮，現在用 5000 億的模型就可以完成壓縮了。

如果能夠在部門的參數量内集成更多的知識，那就不需要一味的追求這個大參數量。大模型參數變大，我認為是無奈之舉，未來在算法層面肯定還是需要去不斷創新。

智能湧現：矽谷有很多新架構的芯片出現，您覺得中國未來也會出現這種現象嗎？

翟季冬：與美國相比，中國的應用場景更多，端側如何把性能、成本、功耗能做到極致，是非常關鍵的。

在未來，端側相比伺服器側會更百花齊放，所以端側軟體在這裡面起的作用也會更大。

智能湧現：不過國產芯片有的從訓練做起，有的從推理切入，其實從商業的角度來看，從訓練還是推理哪一側做起更好？

翟季冬：從中國發展角度來說，我認為訓練和推理都很重要，如果連算力集群都要靠特殊途徑獲取，從國家和產業發展的角度都是不可持續的。萬卡國產訓練平台的要求很高，可能只有幾家企業最後能勝出。

對于一些公司來說，可能短期内在訓練側卷不過某些公司，或者市場上有一些公司可以買到可用的芯片，那他的策略可能就會往端側偏移。

今年是大模型應用的元年，目前還在探索應用的階段，如果應用近兩年爆發的話，端側推理的需求也會随之爆發。端側對成本更敏感，場景也會更多。

美國大模型訓練雖然要比中國做的更好一點，但是中國端側應用的想象力還是要比美國更強一些，端側其實也在各種嘗試探索，有可能明年或者今年下半年，可能慢慢的就會有一些現象級應用冒出來。

智能湧現：但是你們不做硬體，後續怎麼去很好發揮軟體的能力？

翟季冬：雖然我們目前不做芯片，但是我們已經跟芯片廠商有很多深度合作。芯片廠商給我們開放了底層的接口，我們能夠從非常貼近芯片的層面去進行軟體開發。

end