今天小編分享的科學經驗:AIGC算力玩家現狀:爆單與挑戰并行,洞察趨勢更為關鍵,歡迎閲讀。
AIGC 算力更行業内的動向,現在曝光了。
新款伺服器還沒發布便已爆單;
雲計算廠商不單求 N 卡,同樣關注國產廠商;
相比預訓練而言,推理需求如今更加被關注、熱議。
在量子位智庫最新舉辦的AIGC 算力沙龍上,算力領網域數月來備受關注的趨勢發展、行業挑戰及最新動向,都有了更加明确的解讀。
來自國產芯片廠商、伺服器廠商、雲廠商以及加速方案明星玩家,分别從各自角度出發帶來分享,由此構成對 AIGC 算力產業更加全面的認知。
他們分别是昆侖芯、天數智芯、聯想集團、首都在線和潞晨科技。
作為算力領網域不同層玩家,在最新趨勢下他們有哪些切身感受?對未來進程又有哪些思考和看法?
量子位在不改變嘉賓原意的基礎上,對分享内容及圓桌對話進行了編輯整理。希望能夠給你帶來更多的啓發與思考。
本次沙龍邀請的嘉賓分别是:
王志鵬,昆侖芯互聯網行業總經理
郭為,天數智芯副總裁
黃山,聯想集團 ISG 伺服器產品總監
朱湛峰,首都在線產品中心總經理
李永彬,潞晨科技生态負責人
ChatGPT 之前算力需求趨勢已有顯現單卡推理成本面臨挑戰
國產芯片廠商昆侖芯最新分享了對大模型推理方面的關注。
目前行業内已經達成了一種共識,市場對于推理的需求正在快速增長。随着大模型生态的持續發展,大模型的效果不斷提升,同時推理成本也在逐步下降,這些因素都将加速大模型的商業化應用。随之而來的便是對模型推理的海量需求。
昆侖芯互聯網行業總經理王志鵬表示:
當百億、千億規模參數的模型需要部署推理時,推理技術面臨分布式化的挑戰。具體來説,需要把一個大模型拆分到單台機器多張加速卡上并行存放、并行計算。
這些技術之前在訓練場景應用很廣泛,比如 pipeline 并行。但是推理有自身特殊需求,比如很多對話類任務對推理時延要求很高。Tensor 并行會比較适合在線推理,而 pipeline 并行有助于提升吞吐,在一些離線的推理場景中也有用。
大模型推理引入了對通信的需求,多卡之間在每一層計算完成後都有一層通信。這種情況下怎麼适應推理場景的優化?針對非常多高頻次、小數據量的推理場景,需要重點去優化時延,而不是提升帶寬利用率?
所以當下面臨的一個核心問題是:如何在單機 8 卡上達到大模型推理的最優性能。在真實業務場景落地中,昆侖芯采用 INT8、Continuous Batching 等關鍵技術,為業務帶來了數倍的性能提升。
中國芯面臨哪些技術瓶頸?
國產 GPU 廠商天數智芯,更加關注芯片底層面臨的挑戰。
天數智芯副總裁郭為表示,主要挑戰來自Chiplet D2D 的 IP 成熟度、3D 封裝技術、工藝三方面。
我們很希望有一家成熟的 D2D IP 供我們直接使用,但是國内還存在标準不統一的問題。
3D 封裝技術涉及到堆疊,也是挑戰。
而且 Chiplet 不是萬能的,不可能通過 14nm 的 Chiplet 來 " 幹翻 "5nm、3nm 的技術,所以從根本來講還是一個工藝問題。
那麼從 GPU 廠商角度來看,大模型将會駛向何處?
郭為給出了 4 個方向:
通用人工智能通過 Few-Shot Learning 方式快速在垂直
模型更大、更大數據量(探索規模效應的天花板)
多模态(NLP& 影像 & 語音)
對易用、通用、可配置算力的需求
聯想:新一代 8NVLink GPU 伺服器爆單了
聯想集團 ISG 伺服器產品總監黃山透露的一個小消息,讓人更加直觀感受到當下算力行業的火熱:
我們 8 月 18 日準備推出的新一代 8NVLink GPU 伺服器,還沒發布訂單已經爆了。
實際上,對于千億級大模型訓練,8NVLink GPU 伺服器是一個最好的選擇。如果進入到訓推一體階段,聯想給出的推薦為 8PCle 伺服器。
如上是關于行業當下的需求,未來 AI 伺服器架構發展會呈現怎樣的趨勢?
聯想認為,其一是獨立的 "GPU Box",通過 PCle Switch 與伺服器節點互聯;其二是圍繞 CPU 和 GPU 芯粒互聯的設計。
與此同時,在算力需求暴增的現狀下,關于綠色低碳、AI 基礎設施能效和散熱方面也需要予以重視。
GPU 容量增速沒有跟上算力需求增速
潞晨科技是一家從誕生起,就面向大模降本增效的初創公司。
潞晨科技生态負責人李永彬表示,近一兩年來算力增長需求非常快,對于 GPU 算力來説,GPU 容量的增長速度沒有這麼快,中間形成了 GAP。
而且 AI 大模型的計算模式也發生了改變,不會像之前 Deep Learning 時代,針對某一個任務直接去适應模型,它會基于基礎模型再微調的方式,來做領網域 / 行業内大模型。
對于大模型來説,計算量非常大,預訓練需要 1-2 個月時間也很常見,因此對于速度優化的要求非常高。
所以潞晨打造了 Colossal-AI 系統,在過去兩年來提出了多套訓練 / 推理加速方案,并積極擁抱開源。
比如最近,Colossal-AI 發布類 LLaMA 基礎大模型預訓練方案,訓練速度較傳統方案提升 38%,顯著降低成本,不限制商業使用,開箱即用僅需 4 步。
雲計算發展不同于傳統架構
首都在線作為一家資深雲廠商,趨勢下的直接感受是,行業對于雲計算架構的需求不再是一個傳統的池化、資源池,而是要求整個架構變得非常靈活。
首都在線產品中心總經理朱湛峰表示:
GPU 業務不同場景對于服務的配置需求是非常零散的,怎麼在同一個架構上滿足這些需求?這是一個非常復雜的過程,我們現在能做到一台伺服器、通過一個後台的開關就可以把它切換到不同的形态,以不同方式交付給客户,這個和傳統雲行業很不一樣。
同時在一些技術細節上也會變得不同。
GPU 業務大部分都是高并發的,伺服器之間要求低延遲、高帶寬、高并發存儲,這都是一個很大的挑戰。
圓桌實錄趨勢前後布局有何變化
量子位:目前各家在生成式 AI 上的布局如何?和趨勢發生前相比有哪些變化?
潞晨科技李永彬:因為我們本身就是做大模型相關的,現在 ChatGPT 等大模型趨勢非常符合潞晨的發展路徑。前兩年我們剛開始做這個方向的時候,可能大家對大模型還有疑慮,這麼高的成本能做什麼?那麼現在來看,很幸運我們提前布局踩在了風口上。我們最近的動态也會一直更新,并且在 Colossal-AI GitHub 上同步。
天數智芯郭為:通俗來講我們就是鏟子的,做通用的鏟子,接下來還會繼續在這個方向上前進,努力幫大家更好挖金子。
聯想黃山:今天我們首先解決的最基本問題是,讓基礎設施如何能提供最高效的算力。同時聯想也會去做大模型,以及算力服務、雲服務等。
昆侖芯王志鵬:我們因為和場景、業務走得很近,所以更聚焦在生成式 AI 領網域,因此較早進行了布局。
首都在線朱湛峰:我們比較明确是不會去設計自己的大模型的,我們将以雲上算力給大模型企業提供強有力的支持。
技術将會不斷迭代
量子位:生成式 AI 之後的發展趨勢将會如何?是基于原有技術不斷加碼,還是從更底層創新?
首都在線朱湛峰:從雲的角度來看,現在這個趨勢走向還沒有完全展現出來。結合我們自身的情況微觀來看一下,我們 AI 事業部從技術架構到業務角度完全是跟原來的公有雲完全獨立開的,因為幾乎沒法以同一種方法運作,所以我們看到説 AIGC 對計算的基礎架構都可能有非常大的挑戰。
我相信随着 AIGC 的演進,從機櫃到帶寬、到伺服器、到存儲将會對整個雲架構或服務架構的方式產生巨大改變,這也是需要我們和客户公司來一起适應的。
昆侖芯王志鵬:我們會從這樣幾個角度來看:首先一定是持續的迭代過程,不只是靠一代芯片就能達到理想狀态,而且這個過程是跟算法應用場景一起迭代。當前最主流的 AI 芯片已經到達算力邊界,然後算法就會基于 AI 芯片繼續迭代,同時為下一代硬體指明方向。
第二點是看接下來要做什麼。一個變化思路是,突破對一個單卡的局限,上升到伺服器整機以及大集群系統層面,在這個層次上有一些整體的解決方案或者優化思路。
聯想黃山:我們這邊什麼都做,在 AI 算力需求爆發的時代,我們看到從最底層的新品到伺服器,再到上面中間件、算子、算法庫、模型庫、應用、實際場景,做 API 服務。包括變成一個方案級服務,訂閲、包租,整個采購和之前自動計算、科學計算都有巨大區别。
因為 AI 數據類型不一樣,所以對算力基礎設施的要求也不一樣。這是整個一套完整的技術棧,不能分開去看,我們雖然説自己什麼都做,但不是什麼都賣。我們希望能夠推動 AI 使用、适合它的全棧方案智能化。
天數智芯郭為:我們是一家芯片廠商,從芯片廠商的角度來看,這件事還是回到實際上我們芯片是為算法服務,然後對于算法它是一個怎樣的發展趨勢?
實話實説,因為我們不是算法公司所以不是非常專業。比如今年的情況,恨不得 Transformer 要統一天下,那麼明年還是不是這個情況?這個事情我相信誰都給不出一個明确的答案,對于芯片公司來講我們該怎麼辦?
從我的認知來看,仍然還是回到通用這件事。我們仍然會堅持提供一個通用的架構、通用的算力。這件事説一千道一萬,產品到底好不好,還是能不能實際用、實際用的人用得舒服,才能給客户提供最大價值。我們一直認為堅持在通用這條道路上,能夠給客户、給算法工程師提供最大價值。
潞晨科技李永彬:潞晨這邊是做軟體的,所以對 AI 浪潮變化也是深有體會。像剛剛提到 2、3 年前,GPT-3 剛出來以後,大模型賽道只有少數人參與。
現在 ChatGPT 帶起來這麼大的風潮,很多企業都想要參與進來。可能前幾年大家都還在搞 CPU 大數據,市場雖然需要 GPU 但是還沒有這麼高,所以現在來看市場變化還是很大的。生成式 AI 也帶了許多新的技術挑戰,正是潞晨和 Colossal-AI 所擅長和努力的方向。
算力中心成為新基建
量子位:各位現在所在企業的算力基礎設施布局如何?算力中心在行業内最終會扮演一個怎樣的角色?
潞晨科技李永彬:算力中心現在都很重要,尤其像現在高端算力出現了一些監管措施,那對于大模型浪潮來説,算力中心要比其他時刻更加重要,對算力提供者也提出了更高要求,比如許多雲廠商,當然包括做軟體基礎設施的角色也會參與進來。
天數智芯郭為:重要性毋庸置疑,這個屬于新基建。除了商業方面的算力建設,各個地方政府也都在積極建設算力中心,包括一線、省會、二三線城市等。在算力中心建設這部分我們也在積極參與。最重要回到一句話,算力中心建起來之後誰來用?這個問題我們也在和各個合作夥伴、地方政府探讨。
聯想黃山:我也認為算力中心是很重要的。有一份行業報告顯示,它對比中國、美國、日本的算力投資。在 2020 年,對算力投資最大是中國—— 7000 億,其次是美國,最後是日本。
這些投資在以前叫做算力中心、超算中心,後來發展到今天叫智算中心。為什麼叫智算?因為有一個東西叫智慧算力,它在 2022 年的規模已經超過了其他算力,并且在未來 5 年内會以 57% 的速度增長,其他算力的增長速度大概為 10-30%。
所以這意味着什麼?什麼叫智慧算力?剛剛我也提到從底層來看,它從芯片設計上都會有不一樣的設計。聯想是世界 HPC TOP500 強裏 top 最多的公司,持續已經 5 年了。但是 HPC 有很多自己的能力,能夠為儲存中心提供整套的 IPC 方案。
但是今天我們遇到新的難題,因為新的智算中心給我們提出新要求。這需要全部重新梳理,從驅動、中間件層再到上面軟體。所以這也是我認為在這個時代下要去幫客户解決的痛點。至于怎麼把智慧算力應用?首要是要把基礎層都做明白。
昆侖芯王志鵬:生成式 AI,我們看到它的應用場景是非常廣闊的,它其實改變了 AI 和人的互動方式,因此會成為流量的新入口,未來會應用于手機、雲端、邊緣、端側等等。這種潛力是無限的。
在這種趨勢下,變化不光會發生在智算中心。作為芯片公司,我認為思路有很多,其實我們看到的是一個個獨立的負載(workload),對 workload 理解得越深,在數據處理、解決方案等上遊整個鏈條上就能做得更多。整體來説,能夠提供給客户或智算中心的面向產品的方案也會更完善。從這個角度來説,布局的重要性就不必多説了。
新範式出現了嗎?
量子位:AIGC 趨勢推動算力廠商有哪些範式、模式的創新?能助推我們在不同層級做快速迭代?
首都在線朱湛峰:我認為很多變革都是一點一點發生,現在能看到一個實例是,原來很多合作夥伴會把他的業務交給一兩家廠商來做。但是現在它會變成一個标準調度來使用多個雲。所以對于雲廠商來説,產品彈性、标準化有提升到了一個新高度,不僅是讓客户适應,而是自己要适應行業。這是我們看到的一個明顯變化。
昆侖芯王志鵬:對于芯片公司來説,我覺得很多創新是圍繞市場的核心需求。大家對于芯片最關注的還是核心性能,但是除此之外,我們如果能夠和上下層一些應用場景結合,就能有一些更完整的端到端方案讓客户快速感知。比如硬體層面的一體機,結合對算法加應用的整體端到端方案。
聯想黃山:我覺得離範式改變還有點遠。因為我剛才的觀點是説是很多東西都要從底層到向上都要做,所以我們覺得我們建立于建立範式還是有差距的。我覺得但是這裏面剛才我也是從模型提供的這種方式,這個我們在不光是金融和醫療,我們其實本身上也都有一些實踐,這些東西即取即用,然後教這個我覺得是一個 AI 應用落地的一個範式,一個範例,這個也可能也不是因為 AIGC 導致 ,AI 應用落地本身就需要這樣的。
天數智芯郭為:從芯片廠家的角度來講,我覺得跟上來講的話還是得產品,就還是説這個就是我們本身芯片本身的能力。那比如説在對于芯片來講,那比如説在工藝受限的情況下,我們是不是可以有一些别的方式能夠提高帶芯片的算力?
同時在單芯片算力不可能無限增大,那對于集群來講,會設計到芯片之間的互聯,以及集群之間的互聯,這會不會影響一些新互聯技術的出現?帶來更快互聯速度?
當然這又是另外一件事。芯片之間互聯速度太快也會有其他影響,但是這個不重要,更重要的是説還是回到產品本身——怎麼做對產品有更好把握?做更快迭代?這樣才能适應 AIGC 時代以及發展需求。
潞晨科技李永彬:軟體層面看到很多新變化。比如大模型的開源。在 Deep Learning 時代,因為成本不高所以大家上手做的門檻不高。但是大模型只有頭部廠商、大集團、明星初創有實力去考慮預訓練,有一些廠商願意開源供市場使用,但也有廠商選擇不開源。目前我們也在做一些開源方面的工作。
量子位:追問一下潞晨,對于 OpenAI 的開源 / 閉源問題怎麼看?
潞晨科技李永彬:我個人覺得開源能有更長的發展和更多成長。OpenAI 它當然有一些自身商業方面的考慮,想要保持競争力。但是如 Meta 開源 LLaMA 後,全世界都有參與進來共建生态。當然包括像硬體廠商,英偉達的強大不僅在于它的硬體,也包括它開放的生态,大家願意留在這個生态裏不斷共建。
開源還是閉源?
量子位:最近英偉達和 HuggingFace 上達成了最新合作,國内也會看到類似的合作形式嗎?
潞晨科技李永彬:生态方面,國内很多模型也會開源分享,以及國内也有像 model as service 這樣的嘗試。
天數智芯郭為:開源顯然是優于閉源的。對于生态來講,回到天數智芯的角度來講,我們堅定用户主流生态。對于 OpenAI,最近它的财報披露還在虧錢。在技術層面已經強到如此了但還是在虧錢,所以我認為還是要擁抱開源。
當然,開源和閉源不是絕對對立的。我們理解有些閉源是從公司商業模式出發。從天數的立場來説,我們積極擁抱開源,同時也願意同合作夥伴探讨實際的商業落地模式。
聯想黃山:僅代表個人觀點,因為我們不做這方面。我認為 OpenAI 這樣的頭部廠商,市場機會很多。另外對于開源,對于我們聯想來説是非常喜歡開源的,這能給我們自己做模型時提供更多經驗。
昆侖芯王志鵬:我認為開源大模型生态會與商用大模型長期共存,因為兩者面向的是互補的市場,市場需求也不盡相同。做一個類比,我們現在回頭來看 CPU 市場,以 Windows 為代表的閉源商用市場,和以 Linux 為代表的開源軟體市場,現在也是處于長期共存的狀态。
首都在線朱湛峰:我們自己的定位是不做大模型。但是從生态來講,我們非常積極主動去和上下級廠商溝通,促進國内生态發展。
算力租賃會如何發展?
量子位:最近算力租賃這個概念很火,但這不是個新概念了。所以 AIGC 時代下,算力租賃服務有發生哪些變化?長期來看算力租賃會一直由產業去推動?還是發展成為一種公共服務?
首都在線朱湛峰:對于算力租賃,我們可以把它定義為算力的雲化服務。我認為雲化服務是未來,我想象中 AI 的未來裏,所有終端都是雲終端,從 AI 的計算到媒體傳輸、視頻流傳輸都是在雲端進行,這個過程中必定會涉及到不同業務在做,所以算力的需求會變成彈性需求,彈性對于租賃來説是一個非常大的優勢。
第二點,它能夠幫助成本分擔。任何一個公司想要從底層開始構建一套完整的技術棧都是非常燒錢的,租賃方式也大大降低了一個公司進入到這一行業的成本。所以我認為它必然是一個未來趨勢。
昆侖芯王志鵬:作為芯片公司,從 AI 算力提供商的角度來看,對我們自身的要求是提供 " 歸一化的算力 "。希望可以降低雲廠商對我們的接入成本,同時希望做到部門算力價格更低。
聯想黃山:大模型在做預訓練的時候,可能需要擁有自己的集群,在當前這個階段它可能不太可以獨立完成。我也非常認同二位所説的趨勢,真正有一天做完預訓練、需要真正產生社會價值、商業價值的時候,推理需求會擴大。這樣估算,我認為推理市場需求能占到 60%,由此我認為算力租賃應該是一個最好的方式,所以我認為算力租賃這條路還是很有前景的。
天數智芯郭為:我認為顯然不需要每一家公司都做一個自己的示範路徑。當然如果非要這樣做,從我們芯片公司的角度來説非常歡迎。可是客觀事實下這明顯不可能。對于算力主體來講,我們要考慮的是什麼樣的算力才能讓客户願意買單?我們認為是通用算力,所以我覺得算力租賃确實是一個和大模型算力出口相伴的趨勢。
最新趨勢下如何布局業務?
量子位:作為底層算力提供商,對于未來上層需求發展有哪些判斷?基于這些判斷,是否在業務發展優先級上做了相應布局?
潞晨科技李永彬:目前的市場需求可能訓練方面多一些,後續推理需求會更多一些。這個趨勢和目前我們的優化重點也是相符合的。Colossal-AI 現在針對不同市場需求做了相應的工作,對于資源少的情況,我們提供一些方案使其能夠在更少資源下去完成任務;對于資源充足情況,在相同硬體的計算效率上做更大提升。總體上起到對 AI 大模型相關需求降本增效的效果。
天數智芯郭為:目前大模型的趨勢是十億、百億、千億規模,但是後續會想萬億、十萬億級發展嗎?可能也不至于。回到主流廠商供不應求的話題,這對于國產廠商來説,後續發展需要找好着力點。這個着力點就是產品本身好不好用,這樣後續才能讨論是不是能跟上腳步的問題。
聯想黃山:市場目前給了我們非常清晰的反饋,今年年初客户對 GPU 需求都是成千上萬塊,因為很多人要去給大模型做預訓練。但是從 7 月開始,各行各業的客户來和我們提的需求是幾十台伺服器,來做訓推一體。這些客户已經想好了,在預訓練大模型成熟的時候加入進來,我們要在這個時候和它的項目進行匹配。
那麼現在行業推進的下一步是什麼呢?也許明年就要變成真正企業專屬應用的一套東西,所以我在這方面就是布局一整套完整的技術棧,從訓到推,各有各的特點,各自能适應相應的客户需求。
昆侖芯王志鵬:我的想法差不多。有一類客户自身的定位是提供基礎大模型,他們對算力是不計成本的,但這類玩家很少。現在也出現了大量企業,它需要算成本賬、評估效果和業務收益,随着算法開源、模型效果逐漸變好,推理各方面成本下降,這一類客户也正在成為我們重點關注的對象。
首都在線朱湛峰:我從另外一個角度來談一下。目前英偉達在行業裏的占比非常非常高,我們在業務布局的時候會将很大一部分精力放在國產芯片、國產 GPU 上,我們還是希望這個市場裏不只有一家廠商能提供算力,也有更多國產廠商能夠為我們自己的模型、業務提供算力,這是我們一直在做的事。
關于量子位智庫沙龍
量子位智庫主題活動,圍繞 AI 和前沿科技相關的最新進展和熱門話題,邀請一線行業專家,系統性分享認知。