今天小編分享的互聯網經驗:對話阿裏雲吳結生:AI時代,雲上高性能計算的創新發展,歡迎閲讀。
Hyperion Research 預計,雲端 HPC 市場的增長速度将是本地伺服器市場的兩倍多,到 2027 年,雲端 HPC 市場規模預計将超過 140 億美元。
原先 HPC(High performance computing,高性能計算)" 高高在上 ",幾乎只應用在高精尖科研領網域,但随着以 AI 代表的新一代數字技術的應用,HPC 也在更多行業有了 " 大展拳腳 " 的機會,在企業側的應用場景也越來越多。
從 HPC 到 Cloud HPC
在阿裏雲智能集團副總裁,彈性計算產品線負責人、存儲產品線負責人 吳結生看來,如今已經有很多行業應用了高性能計算,且高性能計算的負載正呈現出多樣化發展的趨勢," 當下,很多基礎模型的預訓練、自動駕駛、生命科學,以及工業制造、半導體芯片等行業和領網域都應用了高性能計算。" 吳結生指出。
阿裏雲智能集團副總裁,彈性計算產品線負責人、存儲產品線負責人 吳結生
傳統模式下,HPC 因其獨有的定位、復雜的架構,以及極高的運維難度,造成了成本高昂,且适配業務發展特性較差,這也讓很多企業 " 望而卻步 "。
而當企業對于高性能計算的需求不斷增加時,如何讓更多企業 " 用得起 " 和 " 用得好 " 高性能計算成為行業面臨的難題。
這時候,雲計算就承擔起了讓 HPC 被更多企業,更便捷應用的重任。談及 Cloud HPC 的優勢時,吳結生告訴钛媒體 APP,以雲計算的模式應用高性能計算,具備了四個顯著的優勢:首先,是彈性的能力,通過雲的方式,具有高度的彈性,可以彈性地分配、調用大規模資源,讓企業獲得的算力更高;其次,Cloud HPC 具備異構計算的兼容性能力,以雲的方式,可以對異構芯片之間的算力進行整合,兼容性更強;第三,Cloud HPC 讓用户具備了快速部署的能力;第四,與本地化的 HPC 相比,Cloud HPC 具備了平台化的數據處理生态。
就數據處理能力,吳結生向钛媒體 APP 舉例詳細介紹到,以汽車研發為例,汽車研發的過程中需要用到仿真計算,仿真計算在預處理的過程中會產生數據,計算的過程中也會產生大量數據,如何将處于不同位置的數據 " 挪動 ",整合到一起,就成為了傳統 HPC 時代的難題。
Cloud HPC 的出現很好的解決了這個問題,吳結生告訴钛媒體 APP,通過彈性高性能計算集群,加上并行檔案存儲系統,可以免除數據的挪動,提升整個系統的能力,從而提升效率,縮短產品研發進程。因此可以看出,雲上的高性能計算,具備借助整個雲平台,将包括計算、存儲、網絡和一些安全方面的能力疊加起來的優勢。
" 按需制宜 "
從目前應用趨勢上來看,用户對于算力的需求的多樣化的。這種情況下,顯然單一的計算架構已經不能滿足所有用户的需求。
" 算力目前遇見的核心問題就是:計算架構的單一性與算力需求多樣性之間的矛盾。" 中國工程院院士邬江興曾在 2024 年全國高性能計算學術年會上公開表示," 算力需求是多樣性的,面對不同的場景、不同的計算環境、不同的任務類型、不同的性能需求,需要不同的算力架構。可是計算架構是單一的,目前的情況走下去,會有兩種發展結果:一個是‘削足适履’,一個是各自為政,都不是好的發展結果。"
這樣的算力困境同樣發生在高性能計算領網域,吳結生告訴钛媒體 APP,多元化的負載需求,也對高性能計算提出了新的挑戰。面對這些挑戰,吳結生認為,企業需要通過多樣化的產品、系統架構和技術方案,來滿足不同負載對計算能力、存儲性能、網絡帶寬等方面的差異化需求。
從需求側出發,根據不同的業務場景,以及場景下算力的耦合度和數據的密集度可以大致劃分為松耦合、緊耦合,吳結生告訴钛媒體 APP,算力越耦合,就越需要高性能的網絡連接能力,針對不同的業務場景,用户應該選擇相對應的產品架構,這樣才能在确保計算效率的同時,降低使用算力的成本。
在松耦合場景下,用户對于延遲的要求不是很高,對算力的類型也沒有要求(比如對 CPU 代系沒有強要求)。但是,該場景下,用户對性價比的要求更高,他們需要以更低的成本,更高的彈性,實現算力的全局調度," 阿裏雲借助自身積累的雲資源規模,加之創新性的 CIPU(雲基礎設施處理器)架構,提供 E-HPC Instant 來服務‘松耦合’的高性能計算負載," 吳結生指出," 通過 E-HPC Instant 對雲上所有可用區的資源進行不同代系的算力抽象,并實現全局的資源分配和任務調度,滿足用户對于彈性的需求。"
吳結生以制藥行業為例分享了具體松耦合場景中的架構經驗,他表示,在該場景下,客户有高吞吐量的彈性計算需求—随時需要大規模的 CPU、GPU 計算資源,計算峰值大、任務并發度高。阿裏雲的產品為客户提供了彈性按需的海量資源:智能調度底層大規模基礎設施,任意時刻提供 10 萬核以上的資源保障,優化大并發下計算和存儲性能,顯著提高藥物研發效率,只需原來 1/3 的成本。
在緊耦合場景下,大多業務場景都存在計算任務多、規模大、計算時間緊張等特點,這種場景更為适合 Cloud HPC,利用雲資源的規模大、并行計算能力強等特點,滿足企業對于高性能計算的需求。
針對此,阿裏雲推出了高性能計算平台— E-HPC 平台,可以同時提交 AI 作業和傳統 HPC 的作業,在資源管理層,同時管理了 HPC 的 Slurm 集群和 AI 的 ACK ( K8s ) 集群,作業管理層根據作業類型将 AI 作業和 HPC 作業分别投遞到相應的集群上運行。
以汽車行業為例,目前的研發周期需要效率非常高,本地 HPC 集群硬體資源老化,嚴重影響業務進度,并且業務流程割裂:線下前後處理與線上求解計算的流程割裂,數據挪動頻繁。" 如果建一個 1000 台機器這樣的一個超算集群,傳統方式肯定是幾個月。那麼今天在雲上 10 萬核的需求我們可以在不超過一天之内建好。并且客户可以利用雲的資源規模去做彈性的資源分配。在雲上可以獲取豐富的以及最新代際的算力形态,滿足各種不同工作任務的這種負載的需求。"
在吳結生看來,E-HPC 高性能計算服務落地過程中最大的挑戰是——任務的計算實例之間需要緊耦合的通信。面對這個痛點,阿裏雲首先以 CIPU 作為所有底層物理資源的連接器,将底層物理資源統一納管,提高計算效率,進而加速 IO 效率,通過 eRMDA 網絡大幅提升緊耦合的 HPC 工作負載性能,最終實現以更低成本,更快速度的交付能力。
除此之外,吳結生告訴钛媒體 APP,E-HPC 還通過多層次的網絡拓補感知與彈性擴容的能力,快速彈出網絡拓撲上靠近的 ECS 計算集群,适應緊耦合 HPC 作業極致性能要求。
AI 時代,雲上HPC 如何更好用?
ChatGPT 的橫空出世讓 AI 又一次成為了科技圈關注的焦點。這一輪的 AI 的火爆在吳結生看來,也将徹底改變所有行業," 當下幾乎所有的行業龍頭公司都已經是數據公司了,未來都将會是數據 +AI 的公司。" 吳結生告訴钛媒體 APP。
" 大模型的訓練場景是比較傳統的高性能計算在雲上的一種重新復興,我們稱之為極致緊耦合的場景。" 吳結生将大模型廠商的算力需求總結為:這些企業需要穩定大規模高性能的訓練算力,并需要彈性拓展的推理算力,還需要數據處理的速度和彈性能力,以提高資源利用率并降低成本。
當前大模型的預訓練需要集群化,構建萬卡甚至更大的集群,且整個集群需要是一個龐大的 " 整體 ",若其中一台機器出問題,都會造成訓練中斷。" 大模型的訓練就像是一排人兩個、兩個的将腿綁在一起,共同前進,這種并行的方式,一旦有一個人反應慢了或者倒了以後,可能整個隊伍的前進速度就被拖累了。" 吳結生以一個生動的比喻比拟了大模型的訓練過程。" 讓每張 GPU 卡,每台機器都以相同的‘步伐’前進,才能提升整體的模型訓練效率。" 吳結生如是説。
為了實現上述所描述的 " 相同步伐 ",阿裏雲靈駿集群采用 HPN 7.0 的網絡架構,通過一系列的創新來支持更大的規模、更優的效率和更高的穩定性:一方面,阿裏雲為每台機器 3.2T 的 RDMA 的計算連接,讓每台伺服器之間的通訊更順暢;另一方面,後端 GPU 互聯網絡和前端網絡分離,減少存儲的訪問對算力通信的幹擾,進而提升了整體 GPU 集群的計算效率。
這樣的 " 相同步伐 " 也對存儲能力提出更高的要求。在大規模的模型訓練過程中,經常會遇到各種原因而被迫中斷。" 我們的頭部大模型客户提出了連續的、分鍾級的 Checkpoint 的讀寫要求,這對存儲的吞吐要求是非常高的,這是為什麼在阿裏雲靈駿智算服務裏面,提供了高性能的并行檔案系統 CPFS,滿足訓練和推理的超高性能和成本優化要求。通過 CPFS,網絡的雙上聯、系統監控、自定位和自愈等優化,降低中斷次數和時間,使得我們訓練時長的有效率高達 99%," 吳結生指出。
無論是松耦合、緊耦合,還是極致緊耦合,面對多元化算力需求,CIPU 是阿裏雲基礎設施的基石,是差異化競争力的主要來源之一。通過 CIPU 架構,可以實現 0 虛拟化開銷,讓企業能更充分的利用 CPU、GPU 資源,從而減少開銷。除此之外,CIPU 架構還通過硬體加速的方式,進一步提升 IO 和存儲性能," 目前,阿裏雲已經推出了 2.0 版本的 CIPU 架構,整機穩定性提升 20%,帶寬性能可達 400Gbps,VPC 可達 6000 萬 pps,彈性 RDMA 可達 5000 萬 message/s,存儲性能可達 360 萬 IOPS,50GB/s,這些性能都達到了業内領先水平。" 吳結生指出。
當下,每一家公司都是一個數據公司,很快每一家公司都會是一家數據 +AI 的公司,雲計算一直在踐行 Scaling Law,高性能計算也将煥發新的動能,雲計算提供的規模化、高性能、可擴展的算力與存力,會幫助企業在進行業務規模的擴展的同時,應對好數據規模的擴展,充分使用好 AI 模型以及基于模型的各類應用。我們也期待看到,雲計算廠商可以不斷創新,提供多元化的產品組合,幫助企業在不同負載場景中落地應用,實現智能化創新。
(本文首發于钛媒體 APP,作者|張申宇,編輯丨蓋虹達)