今天小编分享的社会经验:让算力像水电一样方便地使用!“东数西算”算网作業系統跨广網域调度试验成果发布,欢迎阅读。
现代快报讯(记者 卢河燕 杜雪迎)未来网络正描绘着网络发展的新蓝图,助力 " 东数西算 " 赋能数字经济发展。8 月 23 日,第七届未来网络发展大会在南京上秦淮国际文化交流中心召开。紫金山实验室联合江苏省未来网络创新研究院、江苏未来网络集团、江苏移动、江苏联通、宁夏电信、国家 ( 深圳 · 前海 ) 新型互联网交换中心等部門,共同发布东数西算算网作業系統跨广網域调度试验成果。
在发布活动现场,该试验采用训练推理一体化的业务场景,在中卫、南京、深圳三个城市进行效果演示。传统的训推一体机是在一台物理伺服器中集成实现训练和推理,未来面向东数西算 " 全国一台超级计算机 " 的愿景,最佳的方案就是将训练任务分发到算力质优价廉的西部,将推理任务分发到终端用户密集的东部,以充分发挥不同区網域的协同效应。
据介绍,东数西算算网作業系統跨广網域调度试验该试验演示包括三个部分:训推任务——全局智能分发;模型檔案——跨網域即时同步;算力资源——极致动态伸缩。
第一部分训推任务——全局智能分发。程式开发者,向系统分别描述训练和推理任务对于算网资源的需求,训练任务是强计算、弱互動的,系统会优先将其向价格优惠的算力枢纽节点进行分发,相对而言推理任务是强互動、弱计算的,系统会按需将其向靠近用户的算力集群进行分发。其中,训练任务的程式会立即运行,而推理任务的程式会等到有用户访问时才触发运行。
第二部分模型檔案——跨網域即时同步。在训练任务的程式运行过程中,系统接收到用户访问时会根据用户所在位置就近地触发推理任务的程式运行。当训练任务的程式运行完毕,系统会自动将训练任务生成的模型檔案,即时地同步到各个推理任务所在运行的区網域,这其中可通过 CENI 的确定性网络能力保障跨網域同步的传输质量。模型檔案同步后,推理任务即可开始正常为用户提供服务。
第三部分算力资源——极致动态伸缩。在推理任务的程式运行过程中,系统能够根据在线用户数量对算力资源进行动态伸缩。当在线用户激增时,系统观察到网络请求数量的快速增加,并自动触发程式的批量扩展,同时自动分配更多的算力资源用于保障服务质量。当在线用户减少时,系统将相应地进行程式收缩与资源释放,当用户全部下线时,系统自动将程式关停并释放掉所有资源。
现代快报记者了解到,本次试验在能力方面,直观验证了在训练推理一体化场景中,算网作業系統可实现训练任务的全局智能分发、模型檔案的跨網域即时同步,以及算力资源的极致弹性伸缩。在技术方面,本质区别于传统多云管理平台对于虚拟机和虚拟网络的多地網域配置,转变为算网作業系統对于应用程式和连接质量的跨广網域调度,为实现 " 全国一台超级计算机 " 提供了基础。在使用方面,无论是程式开发者还是终端用户,都无需感知资源同时能任意使用资源,进一步地向 " 算力像水电一样方便地使用 " 的愿景目标迈进。(官方供图)
(校对 张红霞 编辑 王鹏)