今天小编分享的互联网经验:在线、离线业务融合场景,天均CPU利用率提升至55%,欢迎阅读。
场景描述
图片系 AI 生成
在线服务资源使用量随着终端用户的使用习惯呈现出稳定的潮汐现象,夜间 CPU 利用率极低,导致集群均值 CPU 利用率较低;业务保有大量的独占资源池,资源池割裂产生大量的资源碎片,拉低 CPU 利用率;业务为了稳定性考虑,会过量囤积资源,进一步拉低 CPU 利用率。
解决方案
点击报名参与创新场景 50 的评选
在阿里云的协助下,小红书混部技术经历了四个阶段演进:闲置资源再利用、整机腾挪分时复用、常态混部、统一调度。
一,通过技术手段将集群中的闲置资源收集起来,分配给转码类业务场景使用;
二,通过弹性能力 ( HPA ) ,在凌晨业务低峰期按比例对在线业务缩容,腾挪空出整机,并将转码、训练等离线 pod 在该时段运行起来,起到利用率 " 填谷 " 的效果;
三,平台持续推进业务大规模合池,将业务由独占池迁至平台托管的公共混部池,通过合池、资源超卖等技术手段,CPU 分配率得到有效提升,同时通过建设更为细粒度的资源管理与调度能力来实现均值利用率提升的目标;
四,混合云架构的统一调度来管理异构计算资源,并支持各类业务形态的工作负载调度能力。
成效
通过大规模容器混部的持续推进,小红书在资源成本效能上有显著改善。
在 CPU 利用率方面,在线混部集群天均 CPU 利用率提升至 45% 以上,部分集群天均 CPU 利用率可稳定提升至 55%。在线集群 CPU 利用率提升 8%-15% 不等,部分存储集群利用率提升可达 20% 以上。在资源成本方面,为小红书各类离线场景提供数百万核时的低成本算力。混部集群 CPU 分配率提升至 125% 以上,相较于独占资源池,资源碎片率明显下降。
「关于创新场景 50」
场景不是案例,它更加精准、也更加抽象。数字化就是创新场景的不断叠加和迭代。
在此背景下,钛媒体重磅推出「创新场景 50」评选,每年遴选并解读 50 个全行业与业务深度融合的创新性场景及其解决方案,并在钛媒体年度ITValue Summit 数字价值年会上隆重颁奖、深度交流。
目前场景正在征集中,更精准的解读、更广泛的曝光、更强大的品牌势能,欢迎你提出问题,更欢迎你留下解决的方法和工具。点击这里投递更多场景信息
点击进入2024 ITValue Summit 数字价值年会,了解更多信息。