今天小編分享的科學經驗:華為雲,讓AI算力入山河,歡迎閱讀。
整個 2023 年,全球科技界都在為大模型沸騰。雲計算產業作為 AI 大模型與產業場景間的最短路徑,自然也在大模型浪潮中備受關注。目前階段,雲廠商已經紛紛入局大模型,從多個角度探索大模型帶給雲計算產業的可能性。
但我們往往會忽略這樣一個關鍵節點:" 百模千态 " 的大模型,第一項挑戰是 AI 算力。而做好大模型服務,首當其衝也要做好算力服務。
在 AI 算力這個最為基礎的能力中,隐藏着 AI 雲服務如何能走向更遠的真正答案。
9 月 21 日,在華為全聯接大會 2023 期間,華為常務董事、華為雲 CEO 張平安圍繞 " 共建智能世界雲底座,讓 AI 重塑千行萬業 " 發表主題演講,發布盤古大模型在礦山、政務、汽車、氣象、醫學、數字人、研發等領網域的創新服務,并宣布華為雲昇騰 AI 雲服務正式上線,加快讓千行萬業實現大模型普惠。圍繞盤古大模型落地,本次華為雲分享的主題是 " 解難題,做難事 "。讓 AI 算力能用、夠用、好用、有大用,就是華為雲解開的第一道難題。
算力入山河,AI 始落地。
為了做好這件重要的 " 難事 ",昇騰 AI 雲服務出發了。
大山大河,
需要 AI 大算力
信息革命以來,人類逐步發現科技創新的幅度與算力消耗成正比,這一點在大模型身上又一次得到了印證。
大模型的出現和成熟,給千行萬業智能化帶來了全新的機遇。可以說,每個行業的每個場景都值得融入大模型,甚至其中大部分可以被大模型所重塑。而無論是大模型本身模型規模大、數據參數多的特點,還是各個行業湧現的大模型需求,都指向同一個結果:社會生產體系所消耗的 AI 算力,将得到指數級提升。
大模型需要大算力,已經成為了行業共識。但如果我們具體打開這個問題,會發現圍繞 AI 算力產生的產業挑戰非常多樣。我們可以将其概括為供需矛盾、能效挑戰、運維需求、安全顧慮四種。
先來看 AI 算力最為核心的挑戰,即供需之間客觀上的不平衡。
截至 2023 年 7 月,中國累計已經有 130 個大模型問世。" 百模大戰 " 帶來了 AI 算力的巨量增長。根據相關數據報告,過去 10 年全球 AI 算力需求增長了 30 萬倍,而未來 10 年我們還面臨着需求 500 倍的增長。根據《2022-2023 中國人工智能計算力發展評估報告》顯示,在 2022 年中國進行的 AI 計算總量已經超過了通用計算。在可見的未來,AI 算力将會變成社會各界需求量最大、供需缺口最大、資源最為緊張的計算形态。
其次是大模型與大算力,帶來了尖銳的能效問題。
由于大模型訓練需要集群式 AI 計算,因此其訓練任務大量依靠數據中心,而 AI 伺服器的功率密度遠超普通伺服器,單機櫃的功耗是過去的 6 到 8 倍。在雙碳大背景下,數據中心的能效比必須持續下降,因此大模型帶來的計算能效問題已刻不容緩。如何在 AI 算力提升與能效比下降之間達成平衡,成為了產業界必須面對的問題。
除此之外,我們還要看到 AI 算力在應用過程中發生了一系列運維難題。由于大模型的訓練、部署目标各不相同,各自的訓練與部署環境也差異巨大,期間也自然會產生網絡時延、模型可靠性、運維管理門檻等運維問題。舉個例子,一些大模型需要極大量級的算力集群來支撐,而大量伺服器與計算單元之間的協同往往會出現問題,一旦計算單元出現問題,研發人員就需要重啟訓練。大模型訓練中巨大的時間、人才、算力成本消耗,就發生在頻繁的故障與重啟訓練任務當中。因此,大模型不僅需要 AI 算力充足,還需要算力服務精細,幫助用戶降低整體運維難題。
最後,我們還要看到大模型帶來新的安全顧慮。
由于大模型的部署場景大多事關國計民生,因此其安全隐患必須全部掃清。在數據訪問、存儲加密、傳輸安全等領網域,大模型目前還存在着諸多的安全隐患。
整體而言,大模型并不是高度一致化的產品。其本身技術分類復雜、工程化路徑多變,并且各個用戶還需要根據自身需求進行大模型的精調與訂制化工作。這些問題讓大模型對 AI 算力服務有了多方面、多角度的差異化需求。
滿足大模型的 AI 算力需求,已經成為了大模型時代的頭一道考題。
把昇騰 AI 雲服務
做實,做精,做成競争力
對于華為雲來說,要把算力這道題答好,需要兼顧兩方面的建設:一個是如何讓 AI 算力充足可用,另一個是如何跨越算力服務在運維、安全、能效等方面的挑戰。AI 算力既要做實,還要做精。
今年 7 月,華為雲發布了最新的昇騰 AI 雲服務,可以為千行萬業的用戶提供澎湃 AI 算力。在其背後,是華為雲堅實的算力基礎設施建設。
截至目前,華為雲在貴安、烏蘭察布、蕪湖建設了 3 大 AI 算力中心。基于此,昇騰 AI 雲服務在全國範圍内實現了 20ms 的時延圈。用戶可以實現就近接入,一根光纖即可聯接澎湃的 AI 算力,服務即開即用。為确保大模型訓練數據的全生命周期安全,昇騰 AI 雲服務還采用了數據傳輸與存儲加密、數據安全清除、數據訪問控制、數據水印防洩露等多重技術。值得注意的是,無論對于企業還是社會整體,雲服務都是能效比最優的雙碳時代 AI 算力獲取方式。
為了實現 AI 算力的極致性能,華為雲還在基礎設施之上進行了針對 AI 雲服務的技術優化。比如 ModelArts 提供了數據、訓練、推理三層加速,通過 DataTurbo 數據加速技術能夠利用計算節點存儲資源構建分布式緩存,将數據讀取時延降低至亞毫秒級。TrainTurbo 訓練加速技術可以實現在訓練數據超過 100T 時數據讀取時間縮短 50%,并使能整體訓練效率提升 20% 以上。在模型的推理環節,InferTurbo 推理加速技術通過圖編譯技術加速模型推理,通過全鏈路垂直協同優化,将大模型的推理性能提升 30%。
在這樣強大基建與核心技術加持下,用戶可以獲得極致的 AI 計算性能,而為了讓算力不僅 " 夠用 ",還要 " 好用 ",華為雲進行了一系列把 AI 算力 " 做精 " 的探索。
比如說,AI 開發有賴于工具與平台的全面。昇騰 AI 雲服務背後,有着異構計算架構 CANN、全場景 AI 框架昇思 MindSpore、AI 開發生產線 ModelArts 等一系列華為持續打造的 AI 底層開發工具與技術平台,從而為大模型提供分布式并行加速,算子和編譯優化、集群級通信優化等關鍵能力,奠定 AI 算力服務的根技術加持。
如上文所說,在大模型訓練、部署過程中還面臨着一系列運維、能效等問題。在算力服務的優化方面,昇騰 AI 雲服務可以提供更長穩的 AI 算力服務,千卡訓練 30 天長穩率達到 90%,還可以實現分鍾級信息獲取、2 小時定界、24 小時提供解決方案,斷點恢復時長不超過 10 分鍾,任務恢復時長小于半小時。
在模型遷移方面,華為雲為用戶提供了遷移工具鏈,并集成全棧的開發工具,能夠實現典型模型遷移效率低至 2 周,主流場景自助遷移。此外,昇騰 AI 雲服務還适配了業界主流的開源大模型,如 LLAMA、Stable Diffusion 等,從而真正讓昇騰 AI 雲服務滿足 " 百模千态 " 的大模型需求。
對于運動員來說,基本功就是競争力。在雲 + 大模型的賽道上,華為雲通過基建、技術、服務的集成,也把 AI 算力練成了競争力。
澎湃易用的 AI 算力,是大模型產業化落地的基石,也是一切故事的開端。
算力,技術,場景:
構築大模型正循環
在大模型這個突然到來的巨大智能化機遇面前,千行萬業的用戶有着差異化巨大的需求。有人缺少算力,有人需要模型,有人尋覓場景,也有人需要特定技術工具的幫助。任何一個條件的缺失,都會讓大模型的飛輪無法旋轉。
換個角度看,算力資源、技術工具、模型的場景化應用都能變成支點。這些要素可以通過全棧配合、彼此推動的方式,幫助企業用戶和開發者走上大模型之路。
華為雲提供的昇騰 AI 雲服務,不僅 AI 算力能用、夠用,好用,還能通過與華為雲一系列布局進行聯動,讓大模型從此 " 有大用 ",從而共同實現盤古大模型解難題,做難事。
比如說,我們能夠看到眾多技術創新與昇騰 AI 雲服務相輔相成,共同解決着 AI 算力需求大、供給難的挑戰。華為雲最新發布的分布式 QingTian 架構就有着這樣的效果。
以 AIGC 為代表的大模型應用,算力需求特點是高度依賴分布式計算能力,這也對算力架構產生了新的挑戰。分布式 QingTian 架構作為新一代對等架構,能夠将傳統的數據中心算力集群,演變為基于高速總線的對等池化系統集群,從而打破單一部件的性能限制,實現軟硬協同、管控面全解除安裝、資源與性能零損耗,最終為用戶帶來性能、可靠性、安全可信等方面的極致體驗。
除此之外,華為雲還圍繞不斷發展的 AI 需求,在 AI 雲存儲、GaussDB 向量數據庫、數智融合、Serverless+ 大模型工程套件等一系列領網域進行了技術創新,從系統架構層、數據處理層、模型訓練層、應用開發層實現系統性創新,從而掃清了用戶使用 AI 雲服務過程中的障礙,讓 AI 算力真正對齊到千行萬業的場景化需求。
在基礎 AI 算力與系列技術創新之上,就是華為雲提供的盤古系列大模型。在華為全聯接大會 2023 上,我們也可以看到盤古大模型在行業中有了更為深入的場景化落地。
在汽車行業,盤古汽車大模型能夠覆蓋車企的設計、生產、營銷、研發等環節,并在自動駕駛訓練、專用場景落地等領網域發揮獨特價值。在自動駕駛領網域,盤古汽車大模型可基于實際場景采集的照片和視頻,構建該場景的數字孿生空間,加入可移動的物體、可編輯的天氣、光照等,生成供自動駕駛學習的場景樣本。在港口、礦區等作業場景,盤古汽車大模型的多場景、多車型控制算法,可讓 60 噸的重卡橫向誤差小于 0.2 米、精準停靠誤差小于 0.1 米。目前在新疆疆納礦業和内蒙古伊敏露天煤礦,已有 23 輛無人重卡在礦山中 24 小時不間斷作業。
在直播 + 數字人領網域,盤古數字人大模型基于十萬級高質量直播話術進行預訓練,能夠自動生成專業話術,從而準确、流利地介紹產品,并且還能自動捕捉彈幕和觀眾實時互動。在貴州丹寨,盤古數字人大模型已經讓非遺產業蠟染走向全球。
總結一下不難發現,華為雲已經形成 AI 算力作為底座,技術創新作為驅動,盤古大模型融入行業場景為導向的 " 大模型正循環 "。澎湃 AI 算力可以帶動大模型的使用;技術創新将不斷降低大模型的門檻;行業場景将帶動大模型規模化落地。算力推動場景和技術發展;技術進步實現算力得到充分釋放,場景價值被深入挖掘;場景的進步将帶動算力建設,引領技術進步。三者滾動向前,吸引千行萬業在雲上尋找大模型的答案。
以算力為基礎,以算力為鑰匙,讓 AI 融入山河大地——這便是華為雲的 AI 長歌。
>