今天小編分享的科技經驗:盤古大模型之外,華為首秀大模型時代「硬實力」,歡迎閲讀。
就像當年所有公司都在你追我趕的「上雲」,現在所有公司都在問,如何才能用上大模型?
不少公司不斷推出不同的大模型,來幫助企業進入到這個 AI 的新時代。
如果説大模型代表的「算法」、GPU 代表的算力都在因為大模型而不斷進化時,在數據方面,尤其是數據存儲方向上,業界目前還沒有更好的方案,來解決大模型時代數據的存儲、訓練和傳輸。
7 月 14 日,在華為盤古大模型 3.0 發布一周後,華為數據存儲發布了新產品 OceanStor A310 和 FusionCube A3000,兩款產品分别在深度學習數據存儲,以及訓(練)/ 推(理)融合能力上進行了提升,有望進一步降低 AI 大模型的使用門檻。
華為公司副總裁,數據存儲產品線總裁周躍峰|華為
兩小時完成大模型部署
「如果用人類進化歷史做比喻,大腦類似于算力、算法類似于方法論,而文字類似于數據,有了文字,才能傳承文明。」
華為公司副總裁,數據存儲產品線總裁周躍峰如此描述算力、算法和數據,三個在 AI 時代最重要的元素的關系。
在大模型為代表的新的 AI 時代,算力和算法在快速推進,這就對數據也提出了更高的要求——一方面大模型需要的數據量更大,一方面數據存儲需要更好的配合算力,避免讓 GPU「空閒」浪費算力資源和成本。
華為團隊認為,大模型時代存儲的技術挑戰有兩個:
1、數據準備階段的問題,包括數據歸集慢以及數據預處理周期長。
數據歸集需要從跨地網域的多個數據源拷貝原始數據,這些原始數據不能直接用于 AI 模型訓練,需要将多樣化、多格式的數據進行清洗、去重、過濾、加工,大量的數據預處理工作需要耗用大量的 GPU,我們知道 100 個 GPU 每小時的訓練成本是幾十萬,可以用「近存計算技術」系統性地處理這個問題,從而讓整個系統更高效。
2、訓練集加載效率問題和訓練中斷處理。
相較于傳統深度學習模型,大模型帶來訓練參數、訓練數據集呈指數級增加,如何實現海量的小檔案數據集快速加載,降低 GPU 等待時間都是需要認真考慮的問題。同時,主流訓練模型已經有千億級參數,甚至将發展至萬億級。
AI 大模型訓練不穩定,頻繁的參數調優、伺服器故障或者網絡的故障經常造成中斷,需要 Checkpoint(檢查點)機制确保訓練能夠快速返回。
針對上述痛點,華為團隊推出了 OceanStor A310 和 FusionCube A3000 兩款產品:
OceanStor A310 深度學習數據湖存儲
為智能數據而生,實現從數據歸集、預處理到模型訓練、推理應用的 AI 全流程海量數據管理。
利用全局檔案系統 GFS 構建智能的數據編織能力,接入分散在各地網域的原始數據,實現跨系統、跨地網域、跨雲的全局統一數據視圖和調度,簡化數據歸集流程;
通過存儲内嵌的算力實現近數據的預處理,減少無效數據傳輸,同時降低預處理伺服器等待時間,預處理效率提升 30%。
FusionCube A3000 訓 / 推超融合一體機
面向十億級模型應用,集成存儲節點、訓 / 推節點、交換設備、AI 平台與管理運維軟體,可實現一站式快速部署,通過預置 AI 大模型,2 小時即可完成開局,開箱即用。
高性能容器實現 GPU 共享,提升資源利用率。客户可以在邊緣部署全流程的推理業務,并且每周或每月進行一次模型調優,這就需要多應用融合調度,大模型小模型融合調度。
通過容器應用共享 GPU 資源池,資源利用率可以達到 70% 以上。
「存算互助」
不久前 Snowflakes 的年度大會上,這家知名數據平台公司宣布了和英偉達達成合作協定,将在大模型訓練等領網域進行深度合作。
英偉達的 GPU 堪稱是大數據時代的「新核彈」,從某種意義上説,誰能拿到足夠多英偉達的 GPU,就在算力上取得了優勢。
但這件事還有另一個角度。
當前計算機體系結構依然是以 CPU 計算芯片為代表傳統的馮 · 諾依曼架構,而 GPU 是針對 AI 場景定制的芯片,CPU 和 GPU 速度差可達 4-20 倍以上。
這帶來的最大的問題是大多數情況下 CPU 跟不上 GPU 的處理速度,這樣就會長時間使得 GPU 處于飢餓狀态,導致昂貴的 GPU 資源浪費。
華為蘇黎世研究所存儲首席科學家張霁透露,團隊正在研究如何利用近存計算 / 存内邏輯的能力,在海量 AI 數據存放的源頭進行适當的計算邏輯的解除安裝,釋放 CPU 的部分能力,降低 CPU 和 GPU 的效率差,進而提高 GPU 的處理效率。
這意味,如果在數據存儲端,就能把一些預處理的工作完成,就能減輕 CPU 的壓力,進而讓 CPU 和 GPU 能更高效的合作,提升 GPU 的處理效率。
尤其在目前 GPU 算力相對緊缺的當下,數據存儲端如果能和 GPU 產生「互補」,無疑是一件好事。
周躍峰認為,目前大模型算力成本約占整個成本的 25%,而數據清洗、預處理等工作,在不算數據存儲硬體的情況下,占到成本 22%,從這個角度看,數據機器存儲過程,在大模型時代越來越重要。
「這不僅僅是簡單的數據量變大,而且數據的處理過程,以及過程中對于硬體性能的要求越來越高。」
周躍峰認為,随着大模型出現,數據存儲和處理相關領網域未來會越來越有前景。