今天小编分享的科技经验:明年底,上海智算总规模将超70E,欢迎阅读。
专家:政策应鼓励扶持大模型应用国产算力
作者/ IT 时报记者 郝俊慧
编辑/ 郝俊慧 孙妍
截至 2024 年 6 月,上海算力综合指数全国排名第三,全市已建数据中心标准机架数 57.4 万个,建成通用算力规模达 7.7EFLOPS(FP32),智能算力部署提档更新,已建大型智算中心 12 个,智能算力总规模超过 54EFLOPS(FP16),处于全国领先地位,预计到 2025 年底,上海智算总规模将超过 70EFLOPS(FP16)。这是《IT 时报》记者在 11 月 26 日举行的第三届算力网络与数字经济论坛暨 2024 年 " 算力浦江 " 总结大会上了解到的。
大会发布了《上海市算力基础设施发展报告》(2024)(以下简称《报告》),《报告》撰写者之一,上海市通信学会 " 算力浦江 " 专委会主任委员、中国信通院华东分院院长廖运发在发布时指出,上海智能算力在数量规模、算力供给等方面均处于全国前列,同时近 116 EB 的存力量级在全国各省级行政区规模排名第四。
同日,由中国信通院工物所、泰尔英福、同济大学、上海人工智能实验室、国家(上海)新型互联网交换中心牵头,联合上海联通、有孚、沐曦、天数智芯、无问芯穹、华为等多家部門进行的跨網域异构算力网络实验验证成果发布。
经过近一年试验探索,通过优化底层异构芯片的通信传输、跨網域调度能力以及大模型并行训练策略等,截至目前,异构混训效率可达 97.5%,跨網域异构混训效率可达 90%,有效验证了跨網域异构算力网络调度可行性及效率。
超大型数据中心已有 13 个
作为上海一年一度算力基础设施发展情况的系统总结,《报告》全面展现了全市数据中心的算力规模、存力规模、算网运力、空间布局、绿色算力、产业生态等方面的发展现状,其中一系列重磅数字是首次公布。
从数据中心规模类型看,上海在用数据中心(指单数据中心物理标准机架数超过 100 个)数量为 127 个,其中超大型数据中心 13 个、大型数据中心 46 个、中小型数据中心 68 个。
大部分数据中心已接入省级以上骨干网络。据统计,全市数据中心接入国家级骨干网 16 个、省级骨干网 75 个,占比分别为 13%、59%,即七成以上数据中心均已接入省级以上骨干网络,超全国平均水平十六个百分点。同时,接入城網域网的数据中心有 19 个,占比 15%。
《报告》显示,未来上海将积极推进此类型数据中心纳入省级以上骨干网,实现跨城市、跨区網域网络连接互联互通。
算力调度方面,上海构建了一张城市级高速全光算力环网,上海以基础电信运营商、上海新型互联网交换中心为主体构建了 "3+1+N" 的算力网络调度体系,其中三大电信运营商负责跨区網域的算力网络调度,新型互联网交换中心负责本市算力中心之间的算力网络调度。截至 2024 年 10 月,新型互联网交换中心已完成 19 个网络节点建设,覆盖全市 24 家重点数据中心企业。
长三角算力枢纽建设方面,长三角(上海)算力互联互通平台建设工作已启动,平台建成后将在长三角地区形成 " 跨地網域、跨主体、跨架构 " 的算力资源标准化互联互通,实现算力资源高效供需匹配。基础电信企业已启动超过 3500 公里本地和长途光缆工程建设,打通长三角一体化示范区算力枢纽节点和芜湖枢纽节点的算力网络。
加速构建绿色算力体系
随着大数据的深度渗透和人工智能技术的突破性进展,全球算力正展现出强劲而稳定的增长态势。IDC 数据显示,到 2027 年,全球 非结构化数据将占到数据总量的 86.8%,达到 246.9ZB, 全球数据总量从 103.67ZB 增长至 284.30ZB, 复合年均增长率为 22.4%, 保持稳定增长态势。
算力之争,就是能源之争。
《报告》显示,截至今年 6 月,全市数据中心 IT 机房建筑面积已超 500 万平方米,且以商业用电为主,总配电量超 415 万 KVA,相较于全国均处于前列。
因此,上海对新建智算中心 PUE 值、存量改造智算中心 PUE 值、智算中心内绿色能源使用占比、液冷机柜数量占比等绿色算力关键指标提出了全新的要求。
数据显示,近年来,全市数据中心 PUE 能效结构优化显著,测试结果显示,全市有 19 家数据中心的实测 PUE 在 1~1.3 之间,占全部数据中心的 14.9%,PUE 在小于 1.5 的数据中心数量为 56 个,占比 44.1%,提供绿色算力已成为各家数据中心的普遍共识。
新型液冷逐渐成为数据中心的主流转型方向。目前,全市数据中心采用风冷制冷方式有 59 家,占比 46%,采用水冷、混合制冷方式的数据中心数量分别为 45 家、17 家,占比分别为 35%、13%。《报告》认为,随着数据中心高性能伺服器、高功率机柜的使用量越来越大,先进计算中心等新型技术设施建设越来越多,数据中心的制冷方式结构也将发生显著改善,水冷、液冷、混合制冷等新型制冷方式需求也越发强劲。
算力供需矛盾仍然突出
不过,虽然上海在打造算力高地的征途中已成绩斐然,但放眼未来,目前上海算力产业发展仍存在不少挑战。
" 算力市场还存在供需对接的矛盾,虽然我们建了这么多算力,但还是有很多用户找不到算力,或者找不到合适的算力。可有些时候,我们的算力提供又容易陷入同质化竞争,导致算力建设和发展有一点不良趋势。" 大会圆桌论坛环节,一位嘉宾坦言,上海公共算力服务平台还需进一步优化,以缓解算力的供需矛盾。
随着 AI 大模型发展推动算力结构更新,上海仍然面临高质量算力供给和国产高端芯片短缺的挑战。一方面,大模型训练所需的算力资源极为庞大,对计算性能和存储能力提出了极高要求。上海虽已建成多个高性能计算中心和智算中心,但在面对大规模、高复杂度的 AI 大模型训练任务时,仍将存在算力供给压力。另一方面,算力资源的分配和调度也面临挑战,表现在找算力难、调算力难、用算力难等方面,尤其是具备高可用性、高性价比、高灵活性的高质量算力供给更为缺乏。然而,国产算力在性能、稳定性、兼容性上还有差距,尚未形成全栈服务能力,高端 AI 芯片短缺,且缺乏丰富的工具集、数据集、参数集,进一步导致市场上算力 供需矛盾突出。
上述嘉宾认为,根本解决方案还是要支持国产化算力,但从现实情况来看,政府在支持国产芯片建设上比较积极,可整个社会需求却还没上来,导致有很多国产算力池空置," 今后政府应该对需求方和用户使用国产化算力,有更多的鼓励和扶持,让国产算力能繁荣起来。"
此外,在全球气候变化和绿色低碳发展背景下,算力中心的节能减排和可持续发展问题愈发凸显。
上海华鲲振宇智能科技有限责任公司副总经理程子敬指出,目前中国算力中心建设存在三个挑战:一是随着 GPU 芯片性能的提升,单片功耗越来越大,因此产生的发热量也直线上升,如果仍沿用旧有的风冷方式,芯片很容易在大模型训练时自动降频,这显然是不符合投资预期的;第二个挑战仍与电力有关,目前很多已有的数据中心是按照通算伺服器标准建设的,单机柜可用电量有限,一旦更换为耗电量更高的 GPU 智算伺服器,很可能一个 42U 高的机柜只能放两台伺服器,在北上广等地价昂贵的城市,这是不可承受的成本;三是国产卡与国际先进 GPU 性能差距依然明显,要想实现同样参数规模的大模型训练,国产算力集群需要的卡数和电能可能是国际先进集群的两倍以上,这也是一笔巨大的成本,而且不可持续增长。因此,他认为,必须加强算力中心的节能技能研发和应用,长期来看,先进的液冷散热技术成本是可控的。
《报告》也建议,用能管理逐渐从能耗 " 双控 " 向碳排放 " 双控 " 转变,对于在算力中心所用的绿色能源,不再纳入能耗总量和强度控制,对于绿色能源就近建设的重点智算中心,对电力资源进行直供试点,不额外增加上网电价。
排版/ 潘璐
图片/ IT 时报 算力浦江
来源/《IT 时报》公众号 vittimes
请加「星标」不错过我们
>