今天小編分享的社會經驗:讓算力像水電一樣方便地使用!“東數西算”算網作業系統跨廣網域調度試驗成果發布,歡迎閱讀。
現代快報訊(記者 盧河燕 杜雪迎)未來網絡正描繪着網絡發展的新藍圖,助力 " 東數西算 " 賦能數字經濟發展。8 月 23 日,第七屆未來網絡發展大會在南京上秦淮國際文化交流中心召開。紫金山實驗室聯合江蘇省未來網絡創新研究院、江蘇未來網絡集團、江蘇移動、江蘇聯通、寧夏電信、國家 ( 深圳 · 前海 ) 新型互聯網交換中心等部門,共同發布東數西算算網作業系統跨廣網域調度試驗成果。
在發布活動現場,該試驗采用訓練推理一體化的業務場景,在中衛、南京、深圳三個城市進行效果演示。傳統的訓推一體機是在一台物理伺服器中集成實現訓練和推理,未來面向東數西算 " 全國一台超級計算機 " 的願景,最佳的方案就是将訓練任務分發到算力質優價廉的西部,将推理任務分發到終端用戶密集的東部,以充分發揮不同區網域的協同效應。
據介紹,東數西算算網作業系統跨廣網域調度試驗該試驗演示包括三個部分:訓推任務——全局智能分發;模型檔案——跨網域即時同步;算力資源——極致動态伸縮。
第一部分訓推任務——全局智能分發。程式開發者,向系統分别描述訓練和推理任務對于算網資源的需求,訓練任務是強計算、弱互動的,系統會優先将其向價格優惠的算力樞紐節點進行分發,相對而言推理任務是強互動、弱計算的,系統會按需将其向靠近用戶的算力集群進行分發。其中,訓練任務的程式會立即運行,而推理任務的程式會等到有用戶訪問時才觸發運行。
第二部分模型檔案——跨網域即時同步。在訓練任務的程式運行過程中,系統接收到用戶訪問時會根據用戶所在位置就近地觸發推理任務的程式運行。當訓練任務的程式運行完畢,系統會自動将訓練任務生成的模型檔案,即時地同步到各個推理任務所在運行的區網域,這其中可通過 CENI 的确定性網絡能力保障跨網域同步的傳輸質量。模型檔案同步後,推理任務即可開始正常為用戶提供服務。
第三部分算力資源——極致動态伸縮。在推理任務的程式運行過程中,系統能夠根據在線用戶數量對算力資源進行動态伸縮。當在線用戶激增時,系統觀察到網絡請求數量的快速增加,并自動觸發程式的批量擴展,同時自動分配更多的算力資源用于保障服務質量。當在線用戶減少時,系統将相應地進行程式收縮與資源釋放,當用戶全部下線時,系統自動将程式關停并釋放掉所有資源。
現代快報記者了解到,本次試驗在能力方面,直觀驗證了在訓練推理一體化場景中,算網作業系統可實現訓練任務的全局智能分發、模型檔案的跨網域即時同步,以及算力資源的極致彈性伸縮。在技術方面,本質區别于傳統多雲管理平台對于虛拟機和虛拟網絡的多地網域配置,轉變為算網作業系統對于應用程式和連接質量的跨廣網域調度,為實現 " 全國一台超級計算機 " 提供了基礎。在使用方面,無論是程式開發者還是終端用戶,都無需感知資源同時能任意使用資源,進一步地向 " 算力像水電一樣方便地使用 " 的願景目标邁進。(官方供圖)
(校對 張紅霞 編輯 王鵬)