今天小編分享的科學經驗:華為天才少年透露研究課題!背後存儲團隊發布兩大新品,均面向大模型,歡迎閱讀。
招最優秀的人才,打最硬的仗,出手即打破傳統。
這就是華為最新揭秘的大模型領網域最新動作,劍指 AI 存儲,一口氣發布兩產品:
OceanStor A310 深度學習數據湖存儲與 FusionCube A3000 訓 / 推超融合一體機,性能密度刷新業界紀錄。
它們由華為數據存儲團隊推出,華為 " 天才少年 "張霁正是其中一員。
2020 年,博士畢業于華中科技大學的張霁,以 " 天才少年 " 身份入職華為、加入數據存儲產品線。如今是華為蘇黎世研究所數據存儲首席科學家。
在發布會上,他還進一步揭開華為天才少年的神秘面紗,透露了自己正在推進的工作:
圍繞以數據為中心的未來存儲架構關鍵技術,包括向量存儲、數據方艙、近存計算、新應用場景下的數據存儲新格式、硬體加速等。
顯然,不只是大模型本身,在大模型相關的數據、存儲等領網域,華為也早已開始積極布局,啟用最頂尖人才。
而面對大模型時代的數據存儲問題,華為作為存儲市場頭部廠商,究竟如何看待?
從最新發布的兩款產品中,就能窺見答案。
面向大模型的存儲應該長啥樣?
此次發布的新品有兩款,分别是:
OceanStor A310 深度學習數據湖存儲
FusionCube A3000 訓 / 推超融合一體機
雖然都是面向 AI 大模型,但是兩款新品對應的具體場景有所不同。
首先來看OceanStor A310,它面向基礎 / 行業大模型數據湖場景,可以貫穿 AI 全流程,同時也具備面向 HPC(高性能計算)、大數據的同源數據分析能力。
它不光性能強大,而且支持混合負載、多協定無損融合互通、近存計算等,可極大程度上提升效率。
具體性能方面,OceanStor A310 支持單框 5U 96 閃存盤,帶寬可達 400GB/s。通俗理解,就是每秒鍾能傳 200 多部高清電影。
IOPS(每秒進行讀寫操作的次數)能達到 1200 萬。
由此 OceanStor A310 的性能密度也達到了目前全球最高:
每 U 帶寬性能達到 80GB/s 及每 U 的 IOPS 達到 240 萬,均達到業界标杆 1.6 倍;
每 U 容量密度為 19 盤位,達到業界标杆 1.5 倍。
而且 OceanStor A310 具備超強水平擴展能力,最大支持 4096 節點擴展。
可以實現對 AI 全流程海量數據管理(從數據歸集、預處理到模型訓練、推理應用);實現數據 0 拷貝,全流程效率提升 60%。
除此之外,OceanStor A310 還通過存儲内置算力,減少無效數據傳輸。實現數據編織,也就是通過全局檔案系統 GFS 來支持 AI 大模型分散在各處的原始數據,實現跨系統、跨地網域、跨多雲的全局統一數據調度,簡化數據歸集流程。
基于近存計算,OceanStor A310 還能通過内嵌算力實現數據預處理,避免數據在傳統的系統當中存儲、伺服器、GPU 之間的無效搬移,降低伺服器等待時間,預處理效率提升至少 30%。
另外,OceanStor A310 能直接使用到當下的 HPC 中,如果之後企業需要将系統更新到面向大模型時,就不再需要數據搬遷。
再來看FusionCube A3000 訓 / 推超融合一體機。
相對而言,它面向的場景是行業大模型訓練、推理一體化,主打降低企業使用 AI 大模型的門檻。
它主要針對百億級模型的應用,當然也可以水平擴展後支持更大規模模型。
内置的存儲節點是華為的 OceanStor A300 高性能存儲節點。它雙控支持 180 萬 IOPS、50GB/s 帶寬。
結合訓 / 推節點、交換設備、AI 平台軟體與管理運維軟體一起,FusionCube A3000 可以實現一站式交付、開箱即用。2 個小時内可完成部署、5 秒故障檢測、5 分鍾故障恢復。
在實現邊緣部署多場景的訓練 / 推理應用業務的同時,它也能定期對模型進行調優。
通過高性能容器實現多個模型訓練推理任務共享 GPU,FusionCube A3000 将資源利用率從40%提升至70%以上,能夠很好支持多應用融合調度和管理、不同大小模型融合調度。
商業模式方面,FusionCube A3000 有兩種選擇。
其一是基于華為自研的 OceanStor A300 高性能存儲節點、網絡、昇騰計算與管理運維軟體,即華為昇騰一站式方案;另外也支持第三方一站式方案,可以集成第三方的 GPU 伺服器、網絡節點以及 AI 的平台軟體。
以上就是華為最新面向 AI 存儲發布的新品。
此外在模型層,他們還聯合了訊飛星火、ChatGLM、紫東 · 太初等大模型夥伴共建生态。
但華為的雄心不止于此,在發布會現場,華為數據存儲產品線總裁周躍峰特意和華為天才少年張霁,聊了聊華為存儲未來的事。
據張霁介紹,為了應對當下大模型提出的數據歸集新挑戰,他及所在團隊正在研究一種名為 "數據方艙" 的技術。
這種技術實現了讓數據和它的相關憑證、隐私、權限等信息一起流轉,當數據達到數據歸集地後,進入方艙執行和保護,從而保證數據的安全。
周躍峰博士透露,這一技術目前正在和中信銀行、雲上貴州等客戶做聯合的技術創新和實踐。
此外,為了應對 AI 大模型快速接入數據的需求,張霁等也在基于 "萬物皆可向量" 的理念,研究向量存儲技術。
他表示目前這種技術還處于早期萌芽階段,但是發展迅速,華為已做了非常前沿的布局。比如他們聯合華為海思硬體團隊一起,在近存計算方面做了很多突破瓶頸,利用軟硬協同的方式加速向量檢索。同時華為也在和蘇黎世聯邦理工大學等頂尖高校合作。
目前,張霁與其團隊正在瑞士蘇黎世研究所與蘇黎世聯邦理工大學 Onur Mutlu 教授等頂尖科學家們開展研究與合作。
Onur Mutlu 教授曾帶領團隊榮獲 2022 年奧林帕斯獎,這一獎項頒給全球在數據存儲領網域取得突破性貢獻的科研工作者。
正如張霁所說,他們的目标是希望在以數據為中心的體系結構變革背景下,利用算法和架構協同的方式,釋放數據的真正價值,解除安裝部分 GPU、CPU 的算力,節省無效數據搬移產生的能耗,從而最終推動數據新範式的快速發展。
所以,為什麼是以數據為中心?華為存儲看到了哪些行業趨勢?以及在大模型趨勢下,華為為何如此重視存儲問題?
存儲:大模型生态的重要一環
在大模型時代下,有這樣一句話廣為流傳:
數據以及數據質量的高度,決定着人工智能智力的高度。
的确,大模型所謂的 " 大 ",核心體現就在數據方面。
當下企業開發及實施大模型面對的幾大挑戰也都與數據有關:
數據準備時間長
訓練集加載效率低
訓練易中斷
企業實施門檻高
首先在數據準備階段,往往需要從跨地網域的多個數據源拷貝 PB 級原始數據。原始數據經常是多種格式、協定,導致這一流程一般十分復雜。
接着,爬取好的數據在訓練前需要進行清洗、去重、過濾、加工。
相較于傳統單模态小模型,多模态大模型所需的訓練數據量是其 1000 倍以上。一個百 TB 級大模型數據集,預處理時間将超過 10 天。
其次在訓練階段,大模型訓練參數、訓練數據集呈指數級增加,其中包含海量小檔案。而當前小檔案加載速度不足 100MB/s,效率不高。
另外大模型頻繁的參數調優、網絡不穩定、伺服器故障等多種因素,導致訓練過程平均約 2 天就會出現一次中斷,需要 Checkpoints 機制來确保訓練退回到某一點,而不是初始點。
但這種恢復往往也需要 1 天以上時間,直接導致大模型訓練周期拉長。而面對單次 10TB 的數據量和未來小時級的頻度要求,減少 Checkpoints 恢復時間也是一個需要解決的問題。
最後一方面挑戰來自大模型應用。
在應用門檻上,系統搭建難、資源調度等對于很多企業來說還是太難了,企業傳統的 IT 系統 GPU 資源利用率通常不到 40%。
更何況目前趨勢還要求企業盡可能快速更新大模型知識數據,快速完成推理。
那麼該如何解決這些問題?
華為已經給出了一種答案,從存儲入手。
華為數據存儲產品線總裁周躍峰博士表示,數據中心三大件 " 計算、存儲和網絡 ",密不可分、可以互補。
華為分布式存儲領網域副總裁韓振興更是給出了明确觀點:加強存力建設可以加速 AI 訓練。
得出這樣的結論,華為表示主要看到了技術、行業等多方面趨勢。
首先在技術方面,大模型時代下,馮 · 諾依曼架構難以滿足當下需求。
它要求數據在計算、訓練或推理過程中發生非常多搬移動作。在數據量非常龐大的情況下,這樣操作不合适。
周躍峰博士表示,比爾 · 蓋茨在很久以前說給一台電腦 128k 的内存,它能做所有事。
但是當下情況顯然不是如此,數據量還在不斷增加,存儲與計算的增配需求差異随之擴大,這時存儲資源和計算資源就需要拆抽成獨立模塊建設,以實現靈活擴展并提高資源利用率,因此計算架構需要發生改變。
這也就是近年比較火熱的 "存算分離" 概念,在存和算之間做出更好的劃分,這樣才能實現更高效的計算、匹配海量數據下的大架構創新。
大模型時代下數據量空前增加,如果構建充足的存力讓數據能快速在各個環節流轉,可以充分利用算力、提高訓練效率。比如華為在 AI 存儲新品中強調的近存計算,正是這樣來互補算力。
再來看行業方面。
海量數據預處理是當下面臨的一大挑戰。
周躍峰觀察到,有人提出用訓練的 GPU 資源去處理這部分任務," 但這樣會給 GPU 提出更高要求,更何況目前還面臨供應問題。"
目前國内的存算基礎設施建設中,算力中心建設相對完善,但在存力建設方面仍然短缺。這就導致在數據預處理等階段中,為了等待數據處理,算力閒置的情況,造成資源浪費。
所以當下需要去重視存力,以在行業内形成一個最佳的存算比。
此外,華為還觀察到對于一些中小企業、科研院所、大學對訓練 AI 大模型有着很大的需求,他們對存力設施搭建,還提出了更加簡易、靈活的要求。
由此也就不難理解,為什麼華為在大模型趨勢下會錨定存儲方向發力,而且率先推出 OceanStor A310 和 FusionCube A3000。
而且對于 AI 大模型的存力需求,華為看到的時間也更加早。
據透露,兩款產品的籌備研發都是在 2、3 年前就已經啟動的,當時千億級參數大模型才剛剛問世不久。
并且除了推出自家新存儲產品外,華為格外強調了生态建設。
正所謂:獨行快,眾行遠。
華為表示,在提供 AI 存儲的過程中,堅持硬體及軟體生态的開放。
硬體方面,華為未來會全面支持業界主流 CPU/GPU 廠商設備,做好性能适配與調優,并提供不同形态硬體的統一管理能力,兼容用戶現有硬體生态。
軟體方面,廣泛與業界優秀軟體夥伴合作,提前完成方案适配調優;模型層支持業界主流的通用大模型軟體,同時支持面向具體應用場景的垂直行業模型入駐;平台服務層支持主流 AI 開放平台軟體和 AI 服務鏈軟體,包括昇思 MindSpore、PyTorch 等;IAAS 層開放支持第三方容器軟體和開源 K8S。
一言以蔽之,當下的最新動作,是華為存儲在大模型時代下掀開的第一頁。
所以,如今已經站在起跑線上的華為,究竟如何看待大模型時代下的存儲?
中國不重視存力,AI 會被制約
大模型趨勢演進到當下," 百模大戰 "、算力焦慮先後成為業内的熱議話題。
還有一大基石,則是數據,如今也已被逐漸推至台前。
周躍峰博士分享到,對于 ChatGPT 來說,英文數據訓練的效率要比中文高。
原因不在于中文不适合科學語言表達,而是數字化時代下,被記錄下來的中文資料遠遠少于英文資料。
所以周躍峰提出:
如果中國不重視存力,将會對未來我們挖掘人工智能潛力、發展人工智能產業,造成巨大制約。
如果更進一步解釋的話,他認為機器和人一樣,它需要有腦力,即算力;還要知道方法論,即算法。
回顧人類從猿猴發展到智慧人類的過程中,文字的產生讓人類文明飛速發展。
如果對應來看,機器的數據可以堪比人類發展史中的文字。
因為有了文字後,信息得以被記錄、交流和傳承,人類開始可以自我學習和進化。機器也是一樣的,如果世界沒有被數據記錄下來、讓機器去讀,它也只是一個冰冷的機器而已。
總之,大模型趨勢下,關于數據、計算、存儲都正在經歷一輪新變革。
高性能計算的 " 木桶效應 ",使得用上了先進的芯片,并不代表具備先進算力,計算、存儲、網絡三個環節缺一不可。
由此也就不難理解,華為為什麼要在進軍大模型領網域後,率先在存儲領網域布局。
只有從基礎入手,才能走得更穩,走得更遠。
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>