今天小編分享的互聯網經驗:無問芯穹夏立雪:破解算力焦慮,我做了大模型算力領網域的“淘寶”,歡迎閱讀。
作者丨邱曉芬
編輯丨蘇建勳
國内大模型行業轟轟烈烈,算力卻始終是卡脖子的難題。
數據顯示,截至 2023 年,中國算力總規模位居全球第二,算力規模近 5 年更是年均增速近 30%。盡管如此,AI 行業至今的第一感受依舊是——算力不夠用。
近期,有一家清華系創業公司瞄準了這一痛點。
這家公司叫「無問芯穹」,項目發起人則是清華大學電子工程系主任汪玉,創始人是他的學生夏立雪。因此,這家公司連名字都有着濃濃的清華印記—— 1924 年清華大學國學部教授汪鸾翔寫就的清華校歌,當中便有這麼一句," 立德立言,無問西東 "。
「無問芯穹」自從去年 5 月份成立之後,在五個月内就得到了互聯網公司、AI 公司、知名投資機構的支持。智能湧現發現,他們的股東名單包括百度、騰訊、智譜 AI、紅杉中國、金沙江資本等等。
「無問芯穹」創始人兼 CEO 夏立雪告訴《智能湧現》,目前大模型落地的阻礙之一,是算力領網域呈現巨大的需求和供給錯配。
一方面,目前全球 GPU 芯片缺口巨大,英偉達一家又無法滿足所有的全球 AI 大模型訓練、推理的需求;另一方面,英偉達以外的多元異構 GPU 也在快速發展中,AI 算力生态分散,難以被整合起來,供應給亟需算力的大模型公司。
夏立雪觀察到,現下的算力焦慮,有幾種常見的具象化表現:
有公司無法找到符合業務需求的算力;而有的公司找到了算力,但面對這些裸金屬疙瘩,又不會用;還有的公司,縱使幸運找到了算力、也知道怎麼用,但又因為匹配的工具鏈不好用,導致產品落地投產比嚴重不合理。
AI 行業困于在算力不足的當下,整體已經出現了分化趨勢。
目前,有 AI 公司 " 已經在猶豫幹不幹 ",還有的公司更直截了當—— " 沒必要再卷 GPT-5,不如先去探索 GPT-4 能做在哪些場景落地 "。
不過,夏立雪不想讓行業因為算力而坐以待斃。為了彌合需求和供給的裂縫,同時讓算力更好用,「無問芯穹」也應運而生。而這家公司也是這次清華系 AI 創業公司中,罕見切入算力方向的一家。
不過,「無問芯穹」不是想要做英偉達,而是從更輕巧的角度切入。
據其介紹,「無問芯穹」相當于在大模型和芯片之間,打造了一個更靈活适配的中間層,讓百花齊放的大模型層和多元異構硬體層,實現統一部署。
也可以這麼理解,「無問芯穹」相當于做了一個大模型算力領網域的 " 淘寶 ",下遊的大模型廠商和應用方,一鍵可以買到好用、高效的算力。而這些算力則是來自于多元的芯片。
目前,「無問芯穹」的「無穹 Infini-AI」平台,已經能夠支持了 Llama2、Baichuan2 在内的 20 多個模型,以及 AMD、壁仞、寒武紀、燧原、天數智芯、沐曦、摩爾線程、英偉達等 10 餘種計算卡。
無問芯穹的大模型服務平台
而實現算力普惠,效果也是顯著的。夏立雪表示,合作夥伴「同道獵聘」曾在部分城市發布了數字人面試官等由 AI 驅動的新功能,應用了「無問芯穹」所提供的算力方案," 第一階段落地 ROI(投入產出比)高出原先方案很多 "。
相關的合作還在緊鑼密鼓推進。
3 月 31 日,「無問芯穹」還宣布了一系列的產業合作信息——包括與智譜 AI 發布大模型萬卡訓推計劃,共建大模型訓推萬卡集群;與紫光展銳合作,探索大模型在端側硬體上的部署與性能提升等等。
" 我們定位在中間層,配合就很顯得很重要,我們希望能夠去連通產業的上下遊資源,把大家團結起來,把國内的 AGI 落地到千家萬戶 ",夏立雪認為。
不過,要做好一個中間層產品,尤其是復雜的算力領網域,對于團隊的要求并不低。為此,「無問芯穹」也聚起了一支有着超大規模算力集群系統管理經驗的團隊。
在團隊方面,「無問芯穹」創始人兼 CEO 夏立雪曾任阿裡雲用戶增長產品技術負責人,曾經負責過阿裡雲大語言模型的壓縮加速、生成式 AI 模型芯片的等戰略項目;
無問芯穹 CEO 夏立雪
聯合創始人兼 CTO 顏深根曾是商湯科技數據與計算平台部執行總監,曾幫助商湯搭建過 2 萬片 GPU 的大規模 AI 計算平台;另一位聯合創始人兼首席科學家戴國浩,現任上海交通大學長聘教軌副教授,清源研究院人工智能設計自動化創新實驗室負責人。
夏立雪表示," 只有真正在萬卡集群上摸爬滾打過的這些人才能夠知道裡面有什麼樣的坑,如何做出一個好的平台產品。"
以下是《智能湧現》與夏立雪的交流(略經摘編)
算力行業的博弈
智能湧現:大模型公司在過去的一年怎麼解決算力短缺問題?現在大家還會有這種算力的焦慮嗎?
夏立雪:大模型公司目前資金還是比較雄厚的,他們的主要焦慮是找不到符合他們規模的算力量,而且很多雲廠商自己也在做大模型,進一步導致了雲上可用到的算力很少,這也迫使不少大模型公司直接去買機器。
美國這一次的限制打得大家都有點措手不及,模型規模又還在增長,算力焦慮是會持續的。做一個 GPT-4 以上程度的模型,至少需要萬卡規模的集群,沒有這麼多卡的人怎麼辦?
各大廠商、大模型創業公司基本上都想搭建自己的超大算力,但國内單集群規模能到 5 千卡以上的,也不是所有大廠都有。另一方面,推理的機器也在逐漸增長。
智能湧現:因為算力太貴,現在是否導致一些分化的趨勢了?
夏立雪:有的。
最早英偉達 H 系列芯片 5、6 萬的時候,大家都願意租來用。漲到 8、9 萬的時候,很多人就要考慮考慮自己要不要這麼大投入了。
現在價格雖然整體是沒有繼續上漲了,但還是處于試探大家幹不幹的那個邊界線上。很多企業可能覺得我沒必要去卷 GPT-5 了,我先去探索 GPT-4 甚至 3.5 能在哪些場景落地,大家的路徑就逐漸開始分化。
智能湧現:能否幫我們系統梳理下現在 AI 算力的價值鏈?
夏立雪:如果從完整的供應鏈來說,最上遊是造算力的人,但其實這個行業本來利潤沒有那麼高,奈何英偉達一家獨大,相當于形成壟斷。在這一層的玩家還有 AMD。
再往下是 IDC,就是把英偉達芯片那些硬體組合成一個集群的廠商,當于提供了數字時代水電煤這部分的價值。再往下,就是大模型公司,以及更下遊的行業公司了。
但是還有另一種梳理方式,因為大模型本身是個技術突破帶來的產業,所以大模型公司算是這個產業的基石,他們產出新的技術對下遊應用產生影響,又產生新的算力需求對上遊供應產生影響,可以看出這個產業的迭代是由大模型公司來驅動的,畢竟大家說起大模型時代,肯定都會說是 openai 帶來的,而不是英偉達帶來的。
總結來看,算力是最重要的供應源頭,模型是最先進的技術源頭,這兩者的連接效率就非常重要了。
智能湧現:目前的行業現狀是什麼樣的?
夏立雪:現在這個行業看起來好像既供不應求,又供過于求。
供不應求是整體市場上有一堆比大模型公司再往下遊的、想要去用模型的公司,或者是基于自己的業務模型做行業落地的公司。這些公司他想要用算力,但又拿不到,拿到了他也沒有辦法把這些百卡、千卡裸金屬很好運用起來的能力。
供過于求是許多算力擁有方也缺少這一層能力。
我們了解到各個地方的智算集群中存在着大量的算力,包括一些異構卡,但他們通常高只會去修改物理裸機配置來服務客戶——比如,要麼把一組 100 台的機器賣給同一個客戶,要麼就空着等下一個大客戶,不會把 100 台機器拆抽成 10 組機器再分給 10 個客戶,因為動态調整問題對于基建層的玩家來說太費勁了。
除了技術外,還要配置對應的銷售運營團隊。偶爾他們需要把一批機器分給兩個客戶,他們就得單獨為這些機器組一個網絡,把它變成獨立的、物理管理的空間,這個成本是很高的。
智能湧現:不過國内的這麼多的雲廠商,他們沒有去做這個事?
夏立雪:雲廠商本身業務重心是聚焦自身的。他有過去積累的渠道,更傾向于去自建非異構的算力集群,也就是市面上大家正在搶的這一批。
再加上雲廠商們之前建設了非常多且復雜的業務場景要支持,還背着很多客戶需求與盈利目标,如果要疊加上 M × N(多種模型與多種芯片)這種底層的多維度适配業務,對雲廠商來說會是一個 " 災難性投入 "。
智能湧現:要做這種智算中心的算力運營,難的點在哪?
夏立雪:第一,中間這一層雲平台需要同時兼顧靈活性和效率,這不是實驗室體系能夠研發出來的,因為它需要納管萬卡規模的集群,是巨大的系統工程。所以在這種情況下,只有真正在萬卡集群上摸爬滾打過的這些人才能夠知道裡面有什麼樣的坑,如何做出一個好的平台產品。
國内能把這樣規模的卡管理起來的,主要都在大廠。我們團隊包括從阿裡、商湯出來的一撥人,在超大規模的系統搭建和管理上,有復合型經驗。我們團結了很多算力行業的人,以輕資產的方式,為整個大模型行業提供計算基礎設施。
如何用技術,緩解算力焦慮?
智能湧現:你們現在的客戶類型是什麼?
夏立雪:我們目前重點服務的客戶有三類:大模型廠商,用大模型去更新自身業務的軟體廠商,以及基于模型去做 AI 原生應用的小企業。
智能湧現:你們的上下遊分别是什麼廠商?
夏立雪:我們上遊的話其實就是這些智算中心,下遊是做大模型的一方和使用大模型的一方,比如說法律、金融這些行業的客戶。
智能湧現:你們提供的是什麼服務?
夏立雪:我們提供的是一個工具鏈,這個工具鏈包含了對他所用的這個模型和他所用的硬體進行一個最極致的适配,這個工具鏈可以使他已經訓練好的模型跑到對應的硬體上,而且整體性能和性價比能提升。
我們有點像是大模型算力的一個淘寶套餐組合,讓你去部署 AI 應用的時候,就像在淘寶上購物時選擇不同的尺寸、不同的顏色一樣,把模型和芯片組合起來,我們就像是把模型和芯片組合成了一個套餐,直接就給客戶就可以用了。客戶可以自由地去組合,去選擇最适合自己的套餐,相當于是我們是連接了算力層和模型層,讓更多的人能夠用得上大模型,也用得起大模型。
智能湧現:你們是如何解決你前面說的,算力焦慮和產業鏈上的利益博弈?
夏立雪:從算法到芯片,從芯片到集群,從模型到應用,是我們在技術能力上的三個層次。
我們首先是能夠把單任務效率做到極致優化,包括訓練和推理,其中推理的效率提升會更明顯。其次,我們把多個任務在多台機器之間調度,把整個集群的效率提升得更高,讓每一個任務能夠最快速跑完,并且讓整個集群一直跑。把這兩個方面疊加起來,我們就能夠為客戶提供最極致性價比的雲服務。我們把大家已經接受、能用的芯片,把它的效率發揮到極致,能夠用同樣的成本幹更多的事。
我們有一個用做這個文生圖的客戶,用到了我們的優化能力之後,生成圖片的調用量能夠達到 8 倍以上的,同時延遲也縮到了 1/ 10。
智能湧現:你們現在的商業模式?
夏立雪:我們想做的是,讓商業化智算中心的算力,通過我的這套工具,被更多的場景客戶用起來,另一方面能讓客戶算力使用的性價比得到極致提升。我們按照 token 的方式算價格。
智能湧現:相當于你們也有 CUDA 的接口,也有 AMD ROCm 的接口?
夏立雪:對的,我們是一個翻譯的中間層,你說的這兩個都是類似 N(芯片)這層的接口,而 M(模型)這層接口是 pytorch 的各種計算圖,這兩種語言之間的翻譯工作是我們做的。不僅讓你跑通、跑得正确,另外效率也是最高的。這是我們現在的核心的技術點。
智能湧現:它怎麼實現的?
夏立雪:原本多模型和多芯片之間的這個翻譯空間是 M × N 的,是一個非常錯亂的交叉組合,我們事先做了中間表達,相當于我在這兩個語言的翻譯過程中實現了一個自己的内部語言,我先翻譯成自己的語,再翻譯成相鄰層的語言,這樣的話相當于我就把這個線條的數量從 M × N,變成 M+N。這套核心技術能力,我們實驗室從 08 年開始就一直在做。
智能湧現:國内的那幾家大模型公司,他們願意接受這種模式嗎?還是他們更傾向于自己搭一個集群?
夏立雪:國内大模型公司現在還是很需要更多算力夥伴的,因為國外的 Meta、谷歌都在做開源大模型,不斷地去發布它的新的模型來證明它的在這方面的科學價值,競争也是比較白熱化的。不過集群分為訓練和推理集群,訓練集群太大了,不是我們的核心目标,我們跟大家的合作更多的是在推理上。
這樣也形成了分工,在模型怎麼用起來方面,他們是需要借力我們這樣的生态夥伴來探索的。另外在推理這邊對性價比的要求更高,因為它最終是算賬。比如,遊戲行業上了一個大語言模型用于生成對話,我最後帶來的用戶體驗的提升和留存,和這個成本之間是不是能夠算得過來賬,所以我們的優化價值也能幫到大家。
其實我們和大模型公司是有一個共同的使命的,就是最終推動大模型在千行百業落地,這裡邊需要大模型公司提供更好更高效的模型,我們來把端到端的系統效率做到極致。
智能湧現:提到項目的發起人是汪玉老師,汪老師對于您這次創業的助力是什麼?
夏立雪:我們項目的發起人是汪玉老師,他是我的導師。我在清華大學從本科一直讀到博士畢業,加入阿裡之後,也一直和汪老師保持着非常密切的交流。所以我對電子系整個產研體系有比較長期的關注和持續的理解,汪老師為我們公司帶來了很多有用的技術與經驗輸入。
電子系在清華是學生最多的系,清華一共有 24 萬校友,電子系有兩萬多,積累了非常多在這個行業發光發熱的人。
汪老師鼓勵學生畢業後創辦一些創新公司,基于自己在大學受到的訓練,把大公司、政府和高校通過這些創新小公司連接起來。無問芯穹也承載了一部分這樣的期待。然後我們在技術方面的積累确實是源自清華電子系,包括我畢業的這個實驗室的技術。
智能湧現:你們和清華系其他 AI 大模型項目之間有沒有聯動?聽說已經和智譜在推進合作了?後續的合作規劃是什麼?
夏立雪:這次大模型創業潮裡,模型層有非常多知名的清華系企業。我們定位在中間層,因為整個市場是足夠大的,配合就很顯得很重要,我們希望能夠去連通產業的上下遊資源,把大家團結起來,一起把這個國内的 AGI 給落地到千家萬戶。
智能湧現:英偉達的生态壁壘如何構築的?
夏立雪:CUDA 是他的股價支撐點,是他最厲害的地方,但也是老黃最擔憂的地方。因為大家在硬體能力上,本質上沒有代際的差異,至少英偉達和 AMD 之間沒有的。軟體的這部分護城河,是英偉達靠着歷史上非常重的資金和精力投入做起。AI 起來之後,他投入非常多的精力去支持這些開源生态,讓大家都使用自己的硬體來開發模型。大概十幾年,英偉達把這條路徑打通了之後,他終于可以 " 躺着賺錢 " 了。現在大模型出來了之後,模型之間的結構差異變小了,生态的壁壘忽然變薄了。
原本需要幾千個算子交叉組合成幾萬種以上的計算圖的設計空間,有無數的人幫他做,這個壁壘特别厚。但是現在,這幾萬設計空間中只有那麼 80 個算子組成的不到 10 種模型結構,就能夠支持未來 80% 的市場,那 AMD 就可以幹,很多硬體廠商都可以幹。
智能湧現:您從大廠離開到自己創業,有沒有一些思維的轉變?科學家創業需要面臨的困難和挑戰是什麼?
夏立雪:我已經算轉型非常小的了。一方面是我在清華電子系讀博的時候,博士課題是跟人工智能相關的,且電子系本身就是和產業走得非常近的細分專業。另一方面,我在阿裡也不是純做技術,而是做了内部的產品孵化,我需要去設計產品的目标、特色、投入、收益……相當于其實我已經在阿裡内部做過一次成功的創業。
但是在大廠創業和自己出來創業又完全不一樣,因為現在我要從海量的市場信息中,去調研、去定戰略。不管從壓力上還是從機遇上來說,和當年的能動空間都是完全不一樣的,我覺得對我來說是一個最大的挑戰。真的創業之後,我發現其實自己的時間會被拆得非常細碎,你不僅需要去看市場、抓商務、懂技術。大廠裡面可能只需要負責最多不到 10 個任務,然後現在你可能同時負責 1000 個任務,怎麼能夠去完整地閉環這些事情,對于一個科學家來說是一個非常大的挑戰。
end
>