今天小編分享的财經經驗:大模型來了,你的“存力”攢夠了嗎?,歡迎閲讀。
文 | 曾響鈴
提到 AI、大模型,很多人腦海裏最先想到的是算力、算法、數據這 " 三駕馬車 "。
而要論誰最重要,恐怕多數人都會覺得是算力。
畢竟," 算力緊缺 " 的氣氛常常被渲染起來。
然而,随着大模型進一步演進,不同要素的資源配置情況逐步發生了改變。
其中,數據的重要性正提到了前所未有的高度,由此也正在帶來對存儲越來越嚴苛的要求。
在一個全新的視角下,數據與其背後的 " 存力 ",正在成為影響大模型創新整體過程的關鍵因素。
大模型創新從 " 片面追求 " 走向 " 全局視角 "," 存力 " 價值凸顯
在某種 " 算力不足恐懼症 " 下,前幾年,各個省市都在大力建設 AI 算力中心。
參數模型有多大、多少卡、每秒多少次運算能力……是大家的主要關心點。
中國強大的基礎設施建設能力與優勢,在新基建這裏又繼續發光發熱。
這無疑對 AI、大模型的發展帶來了很多好處,尤其是讓算力問題得到纾解。
但是,當一個 " 急事 " 快要落定後,我們的目光,就不免要落到全局層面,思考大模型創新在整體上應該如何才能做出優勢?
很明顯,算力,只是補了急切的短板,而大模型創新從來都必須是端到端完成,才能最終展現出場景變革的價值。
我們知道,大模型訓練大體上可以分為數據歸集、數據預處理(匿名、打标籤等工作)、模型訓練、應用推理幾個流程階段。
一個樸素的邏輯是,要想端到端效率高,一方面要保證每個階段效率高,另一方面還要讓不同階段的接駁更順暢。
然而,目前這兩個方面都存在問題。
在 " 接駁 " 這件事上,在數據歸集後,由數據預處理階段邁入模型訓練階段,因為分離部署、存在數據煙囱,跨設備、跨中心拷貝到數據訓練場景中去,訓練準備耗時冗長——一個 20 億數據集,拷貝都要準備整整 30 天。
要知道,現在大模型的發展進度幾乎是按周刷新。
而這也導致模型訓練階段的效率不佳。很多企業圖省事采用本地盤做存儲,數據在跨算力伺服器間同步時讀取效率低 ( 加載 1TB 數據往往需 4~6 小時 ) ,GPU 長時間處于等待狀态造成資源閒置。
這背後,除了跨設備同步,還疊加有另一重原因,即大模型訓練往往存在海量的小檔案讀取,小檔案的讀寫性能較差,極其耗費時間。
而訓練階段的效率問題還沒完。
一旦出現故障,或者要優化算法,就需要讓 GPU 停下來,調整好了再啓動,這種往往持續數小時的百 GB,甚至 TB 級的 Checkpoint 斷點續訓的存在,與海量數據同步一起,致使 GPU 資源利用率普遍不高,昂貴的投資被白白浪費。
好不容易 " 熬 " 到了應用推理階段,要想推理效果更好,尤其是規避 " 大模型幻覺 " 等問題,還需要不斷調取特定的知識數據。
在 " 全局視角 ",大模型創新要解決的問題還很多,但從各種問題不難看出,它們都與數據及其背後的存儲相關。
所謂 AI 全流程 " 全局視角 ",其實可以歸集到 " 數據 " 視角進行整體規劃。
事實上,這本身就是數據對大模型越來越重要的一種端到端流程上體現。
當前人工智能大模型的快速發展依賴大規模、高質量的數據養料,已經是普遍的共識。
在算法都是基于公開大模型微調、走向收斂,算力主要依靠英偉達、昇騰等提供資源(意味着與企業的預算能力挂鈎,企業能主動做的并不多)的情況下,數據已經成為 AI 大模型的差異化變量,優質數據越多,模型效果越好,數據規模和質量決定 AI 智能的高度。
與此同時,AI 大模型迭代加速,從單模态到多模态對數據的要求并非簡單的 " 多加一份模态的 ",而是在參數規模和數據量上都進行着 PB 到 EB 的萬倍增長。
可以説," 缺數據,無 AI"。
更進一步看,在數據獲取完成後,大部分有關數據的症結問題,最終又都可以歸結到存儲是否能夠跟上的問題。
因為,AI 數據存力是人工智能大模型的數據載體,與大模型的數據歸集、預處理、訓練、推理等全生命周期的流程緊密相關,存力建設對人工智能發展非常重要。
此外,在數據安全性、可靠性等方面," 存力 " 也發揮着直接的作用。
在全局視角下,要提升端到端的效率," 算力 " 跑的快," 存力 " 也要跟上,算力與數據存力一起系統化地構成了 AI 算力基礎設施。
如果説 " 缺數據,無 AI",那麼毫無疑問先進數據存力将會是構建 AI 差異化優勢的關鍵。
" 全局視角 " 下,外置高性能共享存儲正在推動優勢 " 存力 " 的形成
既然存力如此重要,那麼企業要如何構建優勢 " 存力 "?
總結前文,只有能夠解決數據歸集、數據預處理、數據訓練、模型推理等環節的低效問題,推動數據價值的實現,實現大模型創新端到端效率提升,才能算得上優勢 " 存力 ",而這涉及海量數據的復雜讀寫,必須要有高性能共享存儲才能解決。
具體而言,可以得出包括存力在内的 AI 算力基礎設施面臨着三大挑戰。
集群 GPU 利用率普遍低于 50%;
數據加載時間長,小時級斷點續訓時間;
語料數據規模大,從單模态到 Sora 等多模态大模型,語料從 PB 級到 EB 級增加,EB 級的數據規模擴張。
這些挑戰,都導向大規模數據集群的可用度上。
換句話説,能夠解決大規模數據集群的可用度的存力,就是好存力。
業界已經有一些領頭羊企業行動起來了。
例如,英偉達的 SuperPOD 參考架構,采用了外置高性能共享存儲來解決 AI 大模型三大挑戰:
其主要背景,就是數據集越來越大,采用 GDS(GPU 直通存儲)可以更高效地從存儲中讀取數據,提供更高性能和更低時延。
類似做法的不只有英偉達一家,Meta 采用外置共享存儲,支持了數千個 GPU 以同步方式保存和加載 Checkpoint,實現了靈活、高吞吐量的 EB 級存儲。
此外,還有 DDN(美國高性能計算和雲存儲廠商)利用外置共享存儲消除在不同存儲之間移動數據的開銷和風險、Net APP 利用高性能全閃存存儲提升 GPU 利用率等。
三大挑戰都被針對性解決,一種共識已經客觀上形成——采用外置高性能共享存儲,是優勢 " 存力 " 的重要可行解。
而在國内,也同樣有這樣的產品和服務可以選擇。
華為同樣提供外置高性能 AI 存儲,其 AI 數據湖解決方案,能夠實現全局檔案系統(統一數據管理、無論在何處)、上千節點 EB 級系統擴展、數據智能冷熱分級、多協定互通等能力,從而做到提升 GPU 利用率、大大降低斷點續訓喚醒時間、滿足 EB 級語料存儲要求,最終提升大規模數據集群的可用度,一次性解決 AI 算力基礎設施面臨的三大挑戰。
外置高性能共享 AI 存儲同樣得到了國内廣大政企客户的認可。
目前,華為高性能共享 AI 存儲已經在智算中心、超算中心、國家實驗室、高教科研、大中型銀行、運營商、企業 AI 助手等場景下應用,服務科大訊飛、建設銀行、天翼雲智算中心、昌平實驗室、上海交大、中原銀行 ( 智能客服 ) 等客户。
以科大訊飛為例,早期其數據中心采用 " 開源分布式存儲軟體 + 伺服器硬體 " 搭建,存在讀寫性能不佳(十億小檔案數據量時讀寫性能陡降)、可靠性不夠充分(故障網域小、冗餘保護不足)等掣肘,使得其只能将 50PB 數據量需要抽成多個存儲集群(為了系統安全性的考慮),出現前文提到的問題—— AI 訓練時需要頻繁地将數據在存儲集群間進行搬遷,GPU 利用率不足 50%。
采用華為 AI 數據湖方案後,科大訊飛實現了一個集群一個檔案系統即可輕松應對多模态大模型時千億 ~ 十萬億參數規模,同時基于高性能存儲層 + 大容量存儲層的自動數據分級實現了 TCO 最優。
高性能,高容量,高密度,高可靠性,高安全性……在科大訊飛激烈競逐大模型賽道時," 存力 " 不再成為瓶頸,而是帶來了極大的助力。
這也説明,企業不能因為暫時沒有 AI 平台的計劃就不需要提前準備 " 存力 ",需要提前規劃和建設 "Al Ready 的數據湖 ",否則後續可能面臨數據資產歸集困難、架構無法平滑演進而造成重復投資建設等重大問題。
而一旦優勢 " 存力 " 形成,其給企業帶來的四重成本優化的價值也顯現出來:
1、時間成本
在全局視角下,外置高性能共享 AI 存儲解決大規模數據集群的可用度問題,實現端到端效率的提升,就是在以加速模型迭代的方式幫助政企搶抓大模型機遇。
2、财務成本
本地盤雖然采購時架構較為低廉,然而優質存儲方案從長期可擴展性、架構平滑演進來看綜合成本卻更低;而且,企業提前規劃建設 "AI Ready " 的數據湖存力底座,也能夠加速數據資產價值的激活,盤活温冷數據,從而完成數據到 " 數據資產 " 的轉化。
3、情緒成本
這是針對大模型最終用户而言,更高效的大模型應用迭代,以存儲内置的知識庫建設幫助推理應用,流暢、絲滑、準确,都能大大提升用户的體驗,減少不信任感,從而更好地實現價值轉化。
4、社會責任成本
馬斯克曾説,AI 的盡頭是電力,大模型規模更大,無論是算力還是數據存儲最終都依賴大量電力供應。‘’
而華為外置高性能共享 AI 存儲除了提升 GPU 利用率、保證 EB 級大規模數據高效訪問,其業界性能最高、容量密度最大的設計,還能夠直接幫助客户減少數據中心物理空間、節省功耗,與綠色低碳的時代目标共振。
總之,外置高性能共享 AI 存儲在國内外都已經有了最佳實踐,是實現優勢 " 存力 " 的關鍵選擇。在大模型洪流下,在數智化轉型更新浪潮中,有需求的政企組織可以盡快行動起來了。