今天小編分享的科技經驗:中國大模型要用Infra“降本增效”,歡迎閱讀。
( 圖片來源:钛媒體 App 編輯拍攝)
今年 7 月世界人工智能大會(WAIC)召開前一天,上海浦東的一家酒店裡一場關于 AI 算力芯片的企業會議上,有兩家同樣做 AI Infra 技術的公司高管亮相,引發關注。
盡管他們彼此是競争對手,但此次共同目标,是争奪這家 AI 芯片企業的合作訂單。據钛媒體 App 了解到,其中一家 AI Infra 公司的 CEO 在得知對手将出席此次會議後,立即與主辦方溝通,希望增加一個演講名額,并特意從北京海澱飛赴上海,在數百位媒體和合作夥伴面前進行該公司成立半年多來的首次公開演講。
最終,這位 CEO 的努力得到了回報,他不僅成功赢得與該客戶的合作,還在短短三天後 WAIC 一場 AI 算力發布會上,順利拿下了與另一家 AI 算力企業的合作許可,成果豐碩。
這是國内 AI Infra 行業激烈競争的一個縮影。
所謂 AI Infra,定位于算力與應用之間的 " 橋梁 " 角色的基礎軟體設施層,主要利用 AI/GPU 芯片的算力中心和算力雲等的推理、訓練形式,為 AI 大模型應用提供軟體系統、數據存儲和處理、網絡設施等技術,解決美國對華高端 AI 算力限制下模型斷訓、英偉達與國產算力之間解耦等計算、存儲和通訊網絡難題。
當前 AI 算力緊缺、美國英偉達 GPU 對華限制、模型成本 " 降本增效 " 等因素下,興起不足一年的 AI Infra 行業已經成為中國 AI 大模型產業不可缺少的關鍵一環,也是與美國 AI 市場之間 " 别樹一幟 " 的特色,因為矽谷很少有超百億估值規模的純 AI Infra 公司。
中金公司指出,目前 AI Infra 產業處于高速增長的發展早期,未來 3-5 年内各細分賽道有望保持超過 30% 的高速增長。而基金管理機構 KKR&Co. 數據顯示,随着 AI 算力需求增長,全球數據中心投資有望達到每年 2500 億美元(約合人民币 1.9 萬億元)。
另據紅杉資本、貝恩等機構統計,預計到 2027 年,全球 AI 市場規模将飙升至近 1 萬億美元,AI 硬體和服務市場年增長率達 40%-55%。在這其中,全球會有超過 4 萬億元人民币(6000 億美金)投資到 AI 基礎設施層,生成式 AI 計算規模增長至 109.9 億美元,模型訓練成本每年增長 240%(2.4 倍)以上。
過去 12 個月内,AI Infra 已成為熱門賽道。阿裡、百度百舸、字節火山引擎等公司都在發力 AI Infra 技術產品;7 月,AI Infra 公司矽基流動(SiliconFlow)完成總金額近億元人民币的天使 + 輪融資,智譜 AI、360、水木清華校友基金、耀途資本等機構參與;9 月,無問芯穹完成近 5 億元 A 輪融資,成立 16 個月内累計已完成近 10 億元融資,投資方名單相當豪華——社保基金中關村自主創新專項基金、啟明創投、聯想創投等超過 46 家機構和實體。
無問芯穹聯合創始人、CEO 夏立雪此前對钛媒體 App 表示,在一個互聯網客戶大模型推理的業務場景中,無問芯穹将整體算力使用效率提升了 90%,有效地解決了客戶大模型業務中算力成本的問題,幫助業務夥伴實現算力成本的大幅下降。他指出," 我們認為(公司未來)3-5 年内肯定能夠規模化地實現利潤 "。
超 40 億美金算力做 ChatGPT,算力争奪戰一觸即發
經過 60 多年的發展,AI 技術改變了設計、教學、駕駛、醫療,甚至是 GPU 顯卡的價格。
随着新一輪 AI 熱潮下,作為 AI 三要素之一,算力已經成為國家間競争力,具有重大戰略性意義。而算力需要與芯片、基礎設施、數據三大要素緊密結合:芯片是算力的決定性因素,中央處理器 ( CPU ) 、圖形處理器 ( GPU ) 、存儲半導體等芯片尤為重要,決定了計算能力的強弱;5G 網絡、數據中心、雲計算集群、超級計算機等基礎設施是推動算力發展因素;數據價值則是算力存在與發展的終極意義。
在 Scaling Laws(縮放定律)指引下,投入模型的計算資源和數據量越大,模型的能力就越強。過去十多年中,計算資源和數據的規模呈現出指數級增長,這也是 AI 重新進入公眾視野的原因。下面列出的幾組數據,很明顯說明 AI 大模型規模與算力基礎設施成本之間的鴻溝:
1、美國 OpenAI 公司開發的 GPT 1.0 版本參數量 1.7 億,而 GPT-4 版參數量可能已經超過 1 萬億,增長速度驚人;
2、而 GPT-3.5 在微軟雲 Azure AI 超算基礎設施上進行訓練,總算力消耗約 3640PFlops-days ( 即按每秒一千萬億次計算,需運行 3640 天 ) ;
3、算力成本當中,一顆台積電量產的 3nm 芯片成本超過 2 萬美金;
4、一個 8 卡的英偉達 A100 價格已超過 25 億美金;
5、2023 年 1 月,ChatGPT 使用近 3 萬顆英偉達高端 GPU 來處理數億個日常用戶請求,此類 GPU 的單個售價就已高達數萬美元,微軟旗下由 GPT 模型支持的新 Bing AI 聊天機器人,僅在算力基礎設施搭建環節就花費至少 40 億美元,這一數額甚至超過了南蘇丹一國的 GDP(國内生產總值)。如今 GPT-5 預計要用超過 10 萬卡集群設施。
由此可見,随着 AI 大模型數據量規模增加,算力需求日益旺盛,但 AI 芯片成本高居不下。4 萬億美金 AI 算力規模投入的背後,算力發展分化與鴻溝問題不斷顯現。
據字節跳動公開的萬卡集群大模型訓練架構 MegaScale 的數據,訓練擁有 1750 億參數的大模型需要在千卡集群上訓練接近 20 天或者萬卡集群上訓練近 2 天,按照 GPU 使用機時計算,單次訓練費用超過 200 萬元,其算力利用率僅約為 50%-60%。
模型大、算力利用率低、投入成本卻高達百萬至千萬元以上,這成為當下 AI 算力現狀。
正如百度集團執行副總裁、百度智能雲事業群總裁沈抖所說,随着 AI 應用爆發式的增長,模型訓練和推理的需求也在大幅提升,算力成本和使用效率這兩個指标就變得至關重要,直接影響模型能力更新和 AI 應用大規模落地的速度。
中國的 AI 算力不僅獲取成本高昂,而且 " 東數西算 " 導致算力訓練慢、且部分 GPU 芯片長期處于限制狀态,因此,提升算力利用率成為了有效提升大模型性能和降低成本的關鍵,這也是 AI Infra 存在的根本意義——面向上下遊,AI infra 把各類模型同各種芯片解耦适配,一方面減少算力資源閒置現象,另一方面則實現模型發展的 " 提速降本 "。
" 對于 AI Infra,作用就是解決其應用開發的上手門檻,以及大規模部署時的使用成本。特别是我們知道有一個階段是算力緊缺,算力資源相對緊缺且昂貴,有的應用開發者即便對推廣產品很有興趣,也會因為成本過高而卻步。 我們正是解決了這些問題,幫助用戶在使用 Token 時不再為價格擔憂,實現更快、更低成本的操作,這就是 AI Infra 帶來的價值所在。" 矽基流動創始人、CEO 袁進輝最近在一場論壇上這樣說 AI Infra 作用。
從產品層面,多名阿裡雲技術人員在演講中提到,數據牆、内存牆、Scaling 集群擴展、光互連等問題,都是需要 AI Infra 解決的。用更加易懂的語言說,AI Infra 就是對标英偉達 CUDA + NVIDIA DGX SuperCloud 的一種綜合性服務。
中金公司在研報中指出,AI Infra 是 AI 產業必不可少的基礎軟體堆棧," 掘金賣鏟 " 邏輯強、商業潛質高。其中,AI Infra 基礎軟體工具有較高的商業化潛力。
大體來說,AI 算力包括訓練、推理兩個環節。目前各家提供的 AI Infra 方案各不相同,如阿裡、百度、字節自身都擁有多種算力和伺服器產品,所以其 AI Infra 技術更多是内部使用;而無問芯穹、矽基流動、清程極智這類初創公司更多是服務于芯片和算力中心方,以及模型應用層,提供系統和算力結構性服務。
以阿裡雲為例。
阿裡雲的伺服器擁有英偉達、AMD、英特爾、倚天等多種芯片算力,因此,阿裡雲也構建了 Al Infra,名為磐久 Al Infra 2.0 伺服器,且内置 ALS(ALink System)。阿裡雲 CTO 周靖人曾透露,其磐久 AI 伺服器提供 AI 算法預測 GPU 故障,準确率達 92%,并且穩定連接超過 10 萬個 GPU,模型端到端訓練性能提升 10% 以上,其人工智能平台 PAI,已實現萬卡級别的訓練推理一體化彈性調度,AI 算力有效利用率超 90%,從而促使基礎大模型降價,讓更多人使用通義模型技術和阿裡雲計算服務,通義千問三款主力模型最高降幅 85%。
除了阿裡雲,百度智能雲則提供百舸 AI 異構計算平台,即基于 AI Infra 技術的雲計算平台,其将支持多芯混訓、多芯适配,在萬卡集群上實現了超過 99.5% 的有效訓練時長,而萬卡集群運行準備時間也從數周縮減至 1 小時;字節的火山引擎則擁有 AI 全棧雲,支持多芯、多雲架構,支持萬卡集群組網、萬億參數 MoE 大模型,時延優化最高達 75%,檔案存儲 vePFS 支持 2TB/s 吞吐并行存儲、自研 mGPU 容器共享方案,GPU 利用率提升 100% 以上。
另外,相對于阿裡、字節這些互聯網大廠,AI Infra 初創公司領網域則更細分,經钛媒體 App 統計,這些 AI Infra 公司主要提供三類方案:
一是通過類似 MaaS(模型即服務)軟體解決方案提供給模型方,或與算力集群一同提供項目制合作後抽成,後者回款更慢;(這寫的偏簡略易懂,實際要更為復雜)
二是提供租用算力雲和模型 API 平台,利用多元異構算力提供一個平台的個性算力和模型服務,能夠解決部分中小開發者成本低、算力性能要求高、但場景單一這類需求,無問芯穹、矽基流動、清程極智都已提供相關平台服務;
三是提供芯片 + 軟體的端到端方案;比如,無問芯穹正量產無穹 LPU 專用算力,主要解決端側模型推理,那麼未來,AI Infra 公司利用芯片硬體 + 自身軟體平台,可以提供智能硬體、自動駕駛、手機和 PC 等端側場景的算力模型服務。
如無問芯穹,其主要提供基于多元芯片算力底座打造出 Infini-AI 異構雲平台,包含一站式 AI 平台(AIStudio)和大模型服務平台;矽基流動則提供高性價比的 GenAI 雲服務 SiliconCloud、高性能大模型推理引擎 SiliconLLM、OneDiff 高性能影像生成引擎。
然而目前,全球能夠完整提供 AI 算力服務、且做到最好的公司,只有全球科技巨頭英偉達(NVIDIA),主要因為 A100、H100 是全功能 GPU 處理器,且能利用 CUDA 軟體同時提供 AI 大模型算力推理、訓練服務。因此,國内 AI Infra 技術和商業化規模遠低于英偉達。
" 作為一家創業公司,技術只是產品中的一個要素,我現在理解的是一切都要服務于商業化。" 袁進輝這句話點明了 AI Infra 的實質,這個行業需有市場需求、有技術壁壘、有行業盈利方案。
袁進輝表示,從軟體產品來看,以前有數據庫、作業系統、大數據系統,到今天出現了 AI Cloud," 這是我在這方面的理解,工程細節繁多和工程量大不是劣勢,反而可能成為标準化產品的壁壘。"
而美國擁有 together.ai, fireworks.ai 等 AI Infra 公司,主要服務微軟、亞馬遜、戴爾等大互聯網廠商。
無問芯穹是國内少數選擇異構混訓這條路徑的創企,主要通過異構多種 GPU 卡來同時混訓一個大模型,地方政府、大模型廠商和偏研究型的部門都有這方面需求。目前無問芯穹擁有英偉達、AMD 加上國產卡共六種芯片,任意兩種都能組合訓練,在百卡和千卡這個級别都已經完成混訓,整體效率高達 97.6%。
今年 9 月,夏立雪對钛媒體 App 表示,異構混訓的難點主要在于,不同的芯片之間有不同的算子庫, GPU 性能如何預測,任務怎樣拆分讓不同硬體各司其職,同時,怎樣在通信上實現較好地協調以及打通通信庫等多種問題。而無問芯穹的初心是解決國内算力不足的問題,把不同的模型在各類硬體上都能夠快速完成高效部署,去讓算法和算力之間形成最佳的軟硬體聯合的優化、軟硬協同,讓各種各樣的算力都能夠把自身的價值發揮到最大。
" 我們在整個產業中屬于連接模型和硬體,去讓大家能夠把算力更好地用起來的基礎設施的工作。所以我們确實在成立一開始就和很多重要的合作夥伴已經做了很密切、深入的合作和一些戰略協同。" 夏立雪表示,在一個互聯網客戶中,無問芯穹利用軟硬協同的核心技術優化客戶大模型推理的業務場景,将算力使用成本降低了 90%,實現算力資源大幅節省和提效作用。
中國 AI 算力受限下,大模型的未來需要體系結構的變革
" 人工智能技術潛力為重振美國夢,和重塑美國工業化提供了不可錯過的機會 "。OpenAI 于 11 月 13 日公布一份全新由該公司領導的 " 美國 AI 基礎設施(Infra)藍圖 "。
OpenAI 認為,美國需要定制一項國家戰略,确保美國在未來 AI 領網域處于領導地位。OpenAI 公司全球事務副總裁克裡斯 · 勒哈恩(Chris Lehane)表示,其已經花費 " 很多時間 " 與拜登政府和特朗普團隊讨論 AI 基礎設施需求,這将是美國未來關注的重要領網域之一。
事實上,随着算力經濟成為全球戰略競争新焦點,AI 算力也成為美國對華打壓限制的關鍵賽道。
據報道,美國商務部要求台積電自 11 月 11 日起,停止将經常用于人工智能(AI)應用的先進芯片供貨給中國大陸客戶。美國商務部致函台積電,對出口到中國大陸的某些 7nm 或更先進設計的精密芯片實施出口限制,這些芯片用于驅動 AI 加速器和圖形處理器(GPU)。
不止是台積電。三星同樣受到美國禁令限制,目前已向中國大陸客戶發布相關通知,無法為提供 AI 芯片類晶圓代工服務。更早之前,英偉達、AMD 等多款先進 AI 芯片對華限售。
目前台積電方面并未直接予以否認。11 月 8 日下午,台積電回應钛媒體 App 表示:" 對于傳言, 台積公司不予置評。台積公司遵紀守法,嚴格遵守所有可使用的法律和法規,包括可适用的出口管制法規。"
11 月 13 日,國務院台辦發言人朱鳳蓮表示,推進兩岸產業合作有利于兩岸企業發展,增進兩岸同胞民生福祉。有關報道再次證明,美國打 " 台灣牌 ",升高台海緊張局勢,目的是 " 以台遏華 "。而民進黨當局妄圖 " 倚外謀獨 ",一味随美起舞搞 " 脫鉤斷鏈 ",給兩岸有關產業合作設定越來越多的人為障礙,最終損害的是島内企業的利益,削弱的是台灣相關產業的優勢,讓台灣進一步錯失產業發展的機遇。
然而,無論消息真假與否,長期來看,美國一定會對華 AI 算力進行限制。所以如何在 Scaling Law 放緩、數據規模到達天花板、算力需求不斷增加等因素下,通過 AI 系統化、計算體系結構化解決當前問題,是中國 AI 發展的關鍵要素。
"Meta、OpenAI 都朝着 10 萬卡規模往上走,所以數據中心層面一定會朝更大規模增長發展,也許未來的算力增長定律,已經不再局限在單顆芯片的層面,而是整個體系算力層面。跨數據算力體系會支撐未來基礎設施的訓練,擴張整個算力供給、提高并行計算創新能力,這是未來算力發展的重中之重。" 在閉門圓桌中,一位半導體行業人士對钛媒體 App 表示,如果未來中國缺乏算力,各種行業各個領網域一定會受到嚴重影響。
周靖人早前在一場群訪中強調,模型更新離不開基礎設施,AI 是一個系統化的技術變革,如果沒有底層的相關能力的支持,今天模型的研發、迭代就沒有承載的地方,這是一個相輔相成、承上啟下的關系。
事實上,本文寫的很粗略,AI Infra 基礎設施層其實非常龐大,擁有很多很復雜的技術細節,包括 AI 系統、AI 算力框架、編譯和計算結構、算子和開發體系等多個專業技術,僅多卡混訓、解決并行計算問題,AI Infra 行業經歷了多年的反復技術積累。
一位 AI 算力公司技術人員告訴钛媒體 App,我們這個行業一直都在不斷踩坑和反復配合當中,AI Infra 行業沒有一個先行例子可以復制。
英偉達 CEO 黃仁勳近期坦言,通用計算誕生 60 年以來,開始出現向加速計算的轉換,通過并行計算,令 GPU 時代的算力較 CPU 時期大幅提升。而神經網絡和深度學習的發展,亦讓電腦獲取知識更加快,帶來電腦的智能化飛躍。他認為,傳統計算方式依賴預設的演算法模型,缺乏學習和理解能力。而結合深度學習,系統可以對資料進行調整最佳化提升算力的使用率。
黃仁勳強調,計算技術每十年将進步一百萬倍,只需 2 年,英偉達甚至整個行業都将發生天翻地覆變化,更以 " 難以置信 " 形容 AI 的未來,認為 AI 縮小了人類間的技術差距,未來 10 年算力将再提高 100 萬倍。
" 我越來越堅定,如果中國想做自己的生态,想做自己的 AI,必須全產業鏈自主可控。我自己在 AI 軟硬體優化的基礎上積累完,然後我們在 AI 大模型時代中推動中國把所有算力真的都用起來,然後去跟美國做競争,這是我自己内心深處特别想幹的事情,這是我們做這家企業(無問芯穹)的初心。" 無問芯穹發起人、清華大學電子工程系教授、系主任汪玉教授曾表示,算力需要發揮更大作用,從而能推動中國 AI 發展。
(本文首發于钛媒體 App,作者|林志佳,編輯|胡潤峰)