今天小编分享的科技经验:国家队入场,为智算中心再添一把火,欢迎阅读。
日前,国务院国资委召开的 AI 人工智能专题推进会火爆全网,受到了行业的广泛关注。
会议要求,中央企业要主动拥抱人工智能带来的深刻变革,把加快发展新一代人工智能摆在更加突出的位置。会议强调 " 要夯实发展基础底座,把主要资源集中投入到最需要、最有优势的领網域,加快建设一批智能算力中心 ";" 强化需求牵引,加快重点行业赋能,构建一批产业多模态优质数据集,打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态 "。
会上有 10 家中央企业签订倡议书,表示将主动向社会开放人工智能应用场景。作为国民经济的重要支柱,央企在人工智能领網域的布局和发展更是备受关注。央企加速布局人工智能,将为相关行业带来新的发展机遇,同时也体现了国家对于人工智能的高度重视和大势所趋。
随着全球 AI 技术的快速发展,智能算力已成为推动经济增长和社会进步的关键要素。中国作为全球最大的经济体之一,正积极应对这一技术变革,加强智能算力的研发和应用,以提升国家竞争力。
在深入了解中国在智算市场的布局之前,先来了解一下什么是 " 智能算力 "?我们日常生活中都有哪些时候会接触到智能算力?
何为智能算力?
按照《中国算力白皮书(2022 年)》的定义,算力主要分为四部分:通用算力、智能算力、超算算力、边缘算力。通用算力以 CPU 芯片输出的计算能力为主;智能算力以 GPU、FPGA、AI 芯片等输出的人工智能计算能力为主;超算算力以超级计算机输出的计算能力为主;边缘算力主要是以就近为用户提供实时计算能力为主,是前三种的组合。
单从概念上看似乎觉得有一些遥远,但实际上,智能算力已经深入到了我们生活的方方面面。倘若说起春节档电影中的特效、渲染和人脸识别,或者是我们日常使用的智能客服、语音翻译等应用,这些背后都离不开智能算力的支持。
如果说人工智能是创新的加速器,那么智算中心则可以为各类技术创新提供支撑。
大模型引发算力缺口,中国需要多少智能算力?
2023 年众多大模型产品发布,基于大模型的 AIGC 技术在文本生成、知识回答、影像生成、逻辑推理等方面表现出远超预期的效果,吸引了大量用户与市场关注。
据不完全统计,截至 2023 年 10 月,中国大模型创新主体共 254 家,分布于 20 余个省市 / 地区,其中,北京 122 家,数量居全国首位。截至 2024 年 1 月,备案上线大模型 38 款,占全国近一半。百度发布文心一言 4.0,用户规模过亿,日均调用量达千万次;智谱 AI 研发第四代基座大模型 GLM4,开源版全球下载量超 1000 万次,是目前开源影响力最高的国产大模型;百川智能发布实现全球最长上下文視窗的大模型 Baichuan2,开源版仅四个月全球下载量超 600 万次;中科院自动化所发布全球首个千亿参数多模态大模型紫东太初 2.0。在深度学习框架方面,百度飞桨知名度与使用率均处国内第一梯队,国内市占率近 36%,截至 2023 年 12 月底,已凝聚 1070 万开发者,服务 23.5 万家企事业部門。
在实际应用中,利用 AI 技术自动生成内容的生产方式打造的 " 数字人 " 效果媲美真人水平;人工智能预测蛋白质结构给基础研究带来全新的研究手段;人工智能驱动的聊天机器人能够学习和理解人类的语言并与人类进行对话;华为云开发的 " 盘古气象大模型 " 在预报台风轨迹和登陆时间方面大显身手 ……
看得见的 AIGC 蓬勃发展背后,是看不见的智能算力在支撑。大模型爆发掀起了新一轮 AI 热潮,也改变了智能算力需求与格局。
工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等六部门联合印发的《算力基础设施高质量发展行动计划》提出到 2025 年,中国算力规模超过 300EFLOPS,智能算力占比达到 35%。
说到这里可能会有人发问:FLOPS 是什么?300EFLOPS 是什么水平?
FLOPS 是算力的部門,衡量算力资源每秒进行浮点运算的次数,是 Floating-point operations per second 的英文缩写。它常被用来估算电腦的执行效能,尤其是在使用到大量浮点运算的科学计算领網域中,比如机器视觉相关影像处理的训练与推理。
FLOPS 前面加上字母表示更大的算力部門:
一个 MFLOPS(megaFLOPS)等于每秒一百万(=10^6)次的浮点运算。
一个 GFLOPS(gigaFLOPS)等于每秒十亿(=10^9)次的浮点运算。
一个 TFLOPS(teraFLOPS)等于每秒一万亿(=10^12)次的浮点运算。
一个 PFLOPS(petaFLOPS)等于每秒一千万亿(=10^15)次的浮点运算。
一个 EFLOPS(exaFLOPS)等于每秒一百亿亿(=10^18)次的浮点运算。
下面举几个例子方便了解:通过大量数据样本进行人工智能模型训练时,根据数据规模、检测效果、模型类别的不同,训练一次的算力需求大概为 2-19PFLOS 不等;在人脸、语言识别的推理过程中,根据识别精度、并发数量等的不同,对算力的需求跨度可能从 10GFLOPS-64TFLOPS,智能驾驶为完成环境感知、决策避障、自车定位等功能时的算力需求大概为 8TFLOPS。
截至 2023 年 6 月底,全国在用数据中心机架总规模超过 760 万标准机架,算力总规模达到 197EFLOPS,位居全球第二。
在大模型需求驱动下,智算中心项目如雨后春笋般涌现。
30 余座城市抢建智算中心
随着下游算力需求的集中爆发和 " 东数西算 " 的推进,各级政府、运营商、互联网企业纷纷开启智算中心建设计划。据国家信息中心与相关部门联合发布的《智能计算中心创新发展指南》显示,目前全国正在建设或提出建设智算中心的城市已经超过 30 个,经典案例包括京津冀大数据智算中心、长沙 5A 级智能计算中心等。
智算中心建设的企业主体则包括三大电信运营商和部分互联网企业。运营商推动建设的智算中心具有一定公共服务属性,成为政府主导的算力基础设施建设的良好补充。以百度、阿里、腾讯为代表的互联网企业也纷纷建设智算中心,以推动自身业务发展、更好地推动客户人工智能场景落地。
前瞻结合至顶智库统计,截至 2023 年 8 月,中国已投入运营和在建的智算中心分布在北京、上海、南京、杭州等多个城市。从区網域分布来看,中国智算中心集中于东部地区和中部地区。其中,东部地区智算中心数量达 25 个,占比 62.5%,排名第一,以京津冀和长三角地区为主 ; 中部地区占比 17.5%,排名第二 ; 西部和东北地区的智算中心数量占比分别为 12.5% 和 7.5%。
值得注意的是,北京是发力智算中心的主要地区之一。北京在海淀、朝阳、经开区、石景山、门头沟、大兴、丰台等区均布局智算中心,目前已建成智能算力总规模约 5000P。
近日,石景山区北重科技文化产业园的四跨厂房已开启火热的改造施工,建成后初期将具备 610P 的算力,相当于 30 万台高性能电腦的计算能力,可供一个人工智能大模型在 30 秒内完成对近 1000 万张图片的学习和识别,预计今年 10 月即可建成投用。
刚刚开年就动作频频
新年伊始,各大运营商便积极行动起来,纷纷加强在智能计算中心领網域的布局。
1 月 8 日,中国移动智算中心(武汉)在武汉未来科技城开放运营,已建成 1500PFLOPS 服务能力,到今年底计划扩容至 6800PFLOPS,成为华中地区规模最大的智算中心。
1 月 22 日,上海电信在上海点亮 " 大规模算力集群暨人工智能公共算力服务平台 ",计划 2024 上半年在上海规划建设到达 15000 卡,总算力超 4500P,其中单池新建国产算力达万卡,预计成为国内首个超大规模国产算力液冷集群。
1 月 30 日,中国联通人工智能创新中心成立仪式在京举行。值得注意的是,2023 年 11 月 24 日中国联通长三角(芜湖)智算中心项目才正式开工。
可以看到电信、移动、联通三大电信运营商正在聚力 " 东数西算 " 数据中心集群建设,全力推进各自相关项目,加快打造全国算力中心城市和智算中心,促进数字经济与实体经济深度融合。
AI 伺服器是智算中心建设中最关键的设备
AI 伺服器是智算中心建设中投入比重最大、最为关键的设备。
据市场研究机构 IDC 的最新报告显示,从 2022 上半年到 2023 年上半年,中国 AI 伺服器市场规模成长了 54%,其中 GPU 伺服器依然是主导地位,占据 92% 的市场份额,达到 30 亿美元。同时 NPU、ASIC 和 FPGA 等非 GPU 加速伺服器以同比 17% 的增速占有了 8% 的市场份额,达到 2 亿美元。
2023 年上半年,从厂商销售额角度看,浪潮、新华三、宁畅位居前三,占据了 70% 以上的市场份额;从伺服器出货台数角度看,浪潮、坤前、宁畅位居前三名,占有近 60% 的市场份额。
AI 伺服器依赖高性能芯片供给。中国市场面临的算力缺口给国内的芯片发展带来新的机遇。中国本土的 AI 芯片厂商发展正处于快速增长的阶段并取得了显著的成就,吸引了大量的投资和关注。这些企业在 AI 芯片设计、算法优化、生产制造等方面具备了一定的实力和竞争优势。此外,中国政府的政策支持也起到了重要的推动作用。2023 年上半年,中国加速芯片的市场规模超过 50 万张。从技术角度看,GPU 卡占有 90% 的市场份额;从品牌角度看,中国本土 AI 芯片品牌出货超过 5 万张,占比整个市场 10% 左右的份额。
从国产 AI 伺服器所需的 AI 加速芯片的供应商来看,目前国内阿里巴巴(含光系列)、百度(昆仑系列)、华为(昇腾系列)等云服务提供商都有自研的云端 AI 加速芯片。还有寒武纪(思元系列)、海光信息(深算系列)、燧原科技、天数智芯、壁仞科技、摩尔线程、沐曦等。此外,景嘉微、龙芯中科等也在研发云端 AI 加速芯片。
从 2023 年上半年的数据来看,中国 AI 伺服器芯片国产化率较去年出现了下降,比例从去年的 15% 左右下降到 10% 左右。这主要是因为高端训练伺服器的需求大幅增长,而国产芯片性能难以跟上。
为了进一步提升国产 AI 伺服器的性能,不仅需要芯片厂商在技术上持续创新,提高芯片的性能和稳定性,还需要这些芯片厂商深入了解市场需求,开发出更符合实际应用场景的芯片产品。同时,政府、企业和研究机构也应加大投入,支持国产芯片产业的发展,为其提供更多的研发资源和市场机会。
如何让智算中心真正用起来?
智算中心建成后,如何令其在运营过程中发挥更大的作用,依旧是一个非常关键的问题。
当下智算中心已逐渐赋能区網域产业集群发展,但值得注意的是,其在多元算力融合、上下游协同、建设应用联动、能源消耗、使用价格等方面仍面临诸多挑战。
比如:通用算力和专用算力还有待融合。在自动驾驶、智慧医疗、智慧城市等不同场景中,算力需求不同。单一化算力方案难以满足多元算力需求,不能兼顾多产业和多领網域。
算力、算法和数据协同不足。这些年来建设的智算中心,不同的芯片平台、算法模型、数据库、应用层面部分处于垂直一体化 " 孤岛 " 状态,软硬體兼容性问题有待改进。
投资建设运营有待联动。智算中心投资、建设和运营往往由不同主体负责。前期建设部門往往对建设后运营的模式、服务标准投入不足,出现了管头不管尾、建设运营割裂的现象,影响客户体验。
碳排放和能耗高。设备自身的能耗排放带来非常大的挑战,比如 OpenAI 公司的超大规模预训练模型 GPT-3 训练所需的耗电量为 19 万千瓦时,相当于 2021 年人均用电量的 228 倍。
投资成本和应用价格待规范。智算中心的投建成本较高,部分智算中心每 100P 半精算力的投资成本高达 5 亿 -6 亿元,远远高出正常市场价格,同时使用成本也较高,比如据保守估计 GPT-3 大模型训练费用超过 1200 万美元。
智算中心建设需要结合建设基础、当地或区網域产业特色,分类引导施策,改建并行,发展与数字经济相适应的智算中心;还需要选择合理的建设和运营模式,实现长效运营、促进有序布局,保证智算中心所释放的经济社会效益最大化。
如今中国智算中心产业发展正在克服 1.0 时代的挑战进入 2.0 时代,中国在智算中心的建设中,始终坚持以算力融合、软硬协同、建运一体、能耗低碳、成本优化、需求牵引、安全可信为基础,稳步推进智算中心的发展。