盤古大模型之外，華為首秀大模型時代「硬實力」 - 大酷樂

今天小編分享的科技經驗：盤古大模型之外，華為首秀大模型時代「硬實力」，歡迎閲讀。

就像當年所有公司都在你追我趕的「上雲」，現在所有公司都在問，如何才能用上大模型？

不少公司不斷推出不同的大模型，來幫助企業進入到這個 AI 的新時代。

如果説大模型代表的「算法」、GPU 代表的算力都在因為大模型而不斷進化時，在數據方面，尤其是數據存儲方向上，業界目前還沒有更好的方案，來解決大模型時代數據的存儲、訓練和傳輸。

7 月 14 日，在華為盤古大模型 3.0 發布一周後，華為數據存儲發布了新產品 OceanStor A310 和 FusionCube A3000，兩款產品分别在深度學習數據存儲，以及訓（練）/ 推（理）融合能力上進行了提升，有望進一步降低 AI 大模型的使用門檻。

華為公司副總裁，數據存儲產品線總裁周躍峰｜華為

兩小時完成大模型部署

「如果用人類進化歷史做比喻，大腦類似于算力、算法類似于方法論，而文字類似于數據，有了文字，才能傳承文明。」

華為公司副總裁，數據存儲產品線總裁周躍峰如此描述算力、算法和數據，三個在 AI 時代最重要的元素的關系。

在大模型為代表的新的 AI 時代，算力和算法在快速推進，這就對數據也提出了更高的要求——一方面大模型需要的數據量更大，一方面數據存儲需要更好的配合算力，避免讓 GPU「空閒」浪費算力資源和成本。

華為團隊認為，大模型時代存儲的技術挑戰有兩個：

1、數據準備階段的問題，包括數據歸集慢以及數據預處理周期長。

數據歸集需要從跨地網域的多個數據源拷貝原始數據，這些原始數據不能直接用于 AI 模型訓練，需要将多樣化、多格式的數據進行清洗、去重、過濾、加工，大量的數據預處理工作需要耗用大量的 GPU，我們知道 100 個 GPU 每小時的訓練成本是幾十萬，可以用「近存計算技術」系統性地處理這個問題，從而讓整個系統更高效。

2、訓練集加載效率問題和訓練中斷處理。

相較于傳統深度學習模型，大模型帶來訓練參數、訓練數據集呈指數級增加，如何實現海量的小檔案數據集快速加載，降低 GPU 等待時間都是需要認真考慮的問題。同時，主流訓練模型已經有千億級參數，甚至将發展至萬億級。

AI 大模型訓練不穩定，頻繁的參數調優、伺服器故障或者網絡的故障經常造成中斷，需要 Checkpoint（檢查點）機制确保訓練能夠快速返回。

針對上述痛點，華為團隊推出了 OceanStor A310 和 FusionCube A3000 兩款產品：

OceanStor A310 深度學習數據湖存儲

為智能數據而生，實現從數據歸集、預處理到模型訓練、推理應用的 AI 全流程海量數據管理。

利用全局檔案系統 GFS 構建智能的數據編織能力，接入分散在各地網域的原始數據，實現跨系統、跨地網域、跨雲的全局統一數據視圖和調度，簡化數據歸集流程；

通過存儲内嵌的算力實現近數據的預處理，減少無效數據傳輸，同時降低預處理伺服器等待時間，預處理效率提升 30%。

FusionCube A3000 訓 / 推超融合一體機

面向十億級模型應用，集成存儲節點、訓 / 推節點、交換設備、AI 平台與管理運維軟體，可實現一站式快速部署，通過預置 AI 大模型，2 小時即可完成開局，開箱即用。

高性能容器實現 GPU 共享，提升資源利用率。客户可以在邊緣部署全流程的推理業務，并且每周或每月進行一次模型調優，這就需要多應用融合調度，大模型小模型融合調度。

通過容器應用共享 GPU 資源池，資源利用率可以達到 70% 以上。

「存算互助」

不久前 Snowflakes 的年度大會上，這家知名數據平台公司宣布了和英偉達達成合作協定，将在大模型訓練等領網域進行深度合作。

英偉達的 GPU 堪稱是大數據時代的「新核彈」，從某種意義上説，誰能拿到足夠多英偉達的 GPU，就在算力上取得了優勢。

但這件事還有另一個角度。

當前計算機體系結構依然是以 CPU 計算芯片為代表傳統的馮 · 諾依曼架構，而 GPU 是針對 AI 場景定制的芯片，CPU 和 GPU 速度差可達 4-20 倍以上。

這帶來的最大的問題是大多數情況下 CPU 跟不上 GPU 的處理速度，這樣就會長時間使得 GPU 處于飢餓狀态，導致昂貴的 GPU 資源浪費。

華為蘇黎世研究所存儲首席科學家張霁透露，團隊正在研究如何利用近存計算 / 存内邏輯的能力，在海量 AI 數據存放的源頭進行适當的計算邏輯的解除安裝，釋放 CPU 的部分能力，降低 CPU 和 GPU 的效率差，進而提高 GPU 的處理效率。

這意味，如果在數據存儲端，就能把一些預處理的工作完成，就能減輕 CPU 的壓力，進而讓 CPU 和 GPU 能更高效的合作，提升 GPU 的處理效率。

尤其在目前 GPU 算力相對緊缺的當下，數據存儲端如果能和 GPU 產生「互補」，無疑是一件好事。

周躍峰認為，目前大模型算力成本約占整個成本的 25%，而數據清洗、預處理等工作，在不算數據存儲硬體的情況下，占到成本 22%，從這個角度看，數據機器存儲過程，在大模型時代越來越重要。

「這不僅僅是簡單的數據量變大，而且數據的處理過程，以及過程中對于硬體性能的要求越來越高。」

周躍峰認為，随着大模型出現，數據存儲和處理相關領網域未來會越來越有前景。