今天小编分享的互联网经验:大模型时代,超算应用如何更好落地?,欢迎阅读。
超算,对普通人而言,是既陌生又熟悉的存在。人们经常能够通过新闻了解到超算领網域的相关信息,比如哪个国家的又获得第一了,哪个国家新的超算项目又落地了 ...... 但是,好像超算又离我们很远,因为与传统数据中心不同,原先几乎所有的超算项目都是用于国家高精尖技术科研领網域。
不过,随着近两年超算与人工智能、大数据等新兴技术持续融合,超算的应用边界不断扩展,场景不断丰富,成为催生科技创新和产业变革的重要驱动。如科学智能 AI for Science,高性能数据分析 HPDA 等,并在风险人员识别、自动驾驶、新药研发、灾难气象预测等领網域加速落地。
超算与智算、传统数据中心的差别在哪?
数据显示 , 我国算力规模近五年年均增速近 30%, 算力运用已成为科学研究和企业创新的必备技能。而这些算力主要集中在超算中心、智算中心,以及传统数据中心之中。不过这 " 哥仨儿 " 应用场景、技术架构却大相径庭。
超算与智算、传统数据中心之间最大的差别是应用场景不同。超算主要应用于大规模科学计算、工程仿真、气象预报、生物信息等领網域,这些应用需要处理海量数据和高复杂度计算,对计算性能要求极高。
而智算则主要应用于人工智能、机器学习、影像处理、语音识别等领網域,这些应用需要快速迭代和优化模型,对计算效率要求较高。对此,青云科技 HPC 及 AI 算力产品经理苗慧表示,在概念上,超算和智算就有了相应的区别。超算,即高性能计算,通常由大量的计算节点和高速互连网络组成,可同时进行大量并行计算任务。智算,即人工智能计算,具备自主学习、自主推理和自主决策的能力,能够模拟和解决复杂问题,具有一定的智能水平。" 两者在计算能力、处理方式和应用领網域上都有所不同。" 苗慧强调。
而相较于超算、智算而言,传统数据中心的应用则更加广泛,包括云计算、大数据分析、企业级应用等。数据中心需要满足各种不同的应用需求,同时还需要提供灵活的 IT 服务和可靠的数据存储服务。
从超算行业来看,超算已为汽车制造、气象海洋、基因测序、新药研发、芯片制造、石油勘探等众多行业提供了灵活弹性、快捷高效、安全可靠的算力支持。
另一方面,从技术架构上看,超算与智算、传统数据中心也存在较大差别。超算的技术特点主要体现在高性能、高吞吐量和低延迟等方面。为了满足大规模科学计算和工程仿真的需求,超算需要具备强大的计算能力和存储能力,同时还需要具备高效的网络通信能力。
而智算的技术特点主要体现在自适应、智能化和分布式计算等方面。智算系统可以根据应用需求自动调整计算资源,优化计算过程,提高计算效率。
传统数据中心方面。则通常采用分布式的架构,将计算和存储资源分散在各个伺服器上。这种架构可以提供灵活的 IT 服务和可靠的数据存储服务,但计算能力和存储能力有限。
除此之外,机柜体积也是超算与智算、数据中心的一大差别。以 " 神威 · 太湖之光 " 为例,其占地面积 605 平方米,差不多有 10 个羽毛球场那么大,需要有一栋专门的建筑来放置。而 " 天河二号 " 体积就更大了,占地 720 平方米。这点与智算中心和一般数据中心的机柜体积差距比较明显。
中国超算处于 " 快速发展 " 与 " 追赶一流 " 的重要阶段
2022 年,随着大模型的诞生,带动了智算中心的发展,让更多人认识到了智算中心。与之相比,超算中心其实也在 " 悄悄发展 "。
近年来,我国超算进入快速发展的阶段,以国家级超算中心为主的国内超算平台正在加强寻求可持续性发展。
从政策发展来看,我国超算行业政策经历了由推动超算中心建设到强化算力统筹智能调度再到梯次布局算力基础设施的转变。
时间回到 2016 年,那一年,我国发布的《国家创新驱动发展战略纲要》中就提出,建设超算中心等数字化基础设施。不仅于此,国家《" 十四五 " 规划》中还进一步强调:加快构建全国一体化大数据中心体系,强化算力统筹智能调度,建设 E 级和 10E 级超级计算中心 ......
2023 年 2 月,中共中央、国务院引发的《数字中国建设整体布局规划》中提出,系统优化算力基础设施布局,促进东西部算力高效互补和协同联动,引导通用数据中心、超算中心、智能计算中心、边缘数据中心等合理梯次布局。
从超算布局来看,截至 2023 年底,我国已经形成 14 个超算中心,分别位于天津、广州、长沙、深圳、济南、无锡、郑州、昆山、成都、西安、乌镇等地。在越来越多利好政策的引导,中国超算步入发展的快车道。
不过放眼全球,中国超算水平与国际一流水平仍存在差距,根据 2023 年世界超算领網域的顶级会议—— 2023 年国际超算大会(SC23)上发布的最新一届 TOP500 榜单显示,部署在美国橡树岭国家实验室的 Frontier 超级计算机获得四连冠,且仍旧是榜单上唯一 E 级超算系统。美国另一台超算系统 Aurora 首次上榜,位列第二。排第三的是安装于美国微软云的 Eagle 系统,这也是 TOP500 榜单上云系统取得的最高排名。日本超算系统富岳从上年的第二位移至第四位,欧洲最大的超算系统 LUMI 位列第五。
据了解,中国已较长时间没有向 TOP500 提交新系统的测试结果,没再参与排名。此次榜单中,神威 · 太湖之光和天河二号分别排在了第 11 和 14 位。
综上,中国超算正处于快速发展与追赶国际一流水平的重要阶段。而在这个重要的阶段中,离不开 " 产学研用 " 等多方力量共同推进。
从产业侧和用户侧出发,众多科技厂商纷纷入局超算相关领網域,一方面,用科技的力量推动超算发展,另一方面,随着不断应用场景的涌现,为超算也提供了更多 " 大展拳脚 " 的舞台。
而在这个阶段,推动超算中心从 " 各自为战 ",到 " 互联互通 ",实现 " 算力互联 " 是关键一步,而这一步也是众多厂商和地方主管部门接下来工作的焦点。
地方层面,2023 年 5 月,国家超算互联网联合体成立,首批 15 家区網域、高校超算中心意向入网。国家超级计算无锡中心主任杨广文曾表示,为了解决我国超算中心运行面临的挑战,提升我国超算的应用水平,推动超算中心从提供裸机时向提供多领網域应用服务转变,构建超算互联网势在必行。
据了解,早在 2020 年,国家超级计算无锡中心便承担了国家高性能计算专项项目 " 国家高性能计算环境领網域应用平台及服务体系研究与构建 "。国家超级计算无锡中心联合国家超级计算广州中心、中科院计算机网络信息中心等多家国家级超级计算中心,以及清华大学、之江实验室等多家核心应用部門,开展了超算互联网技术体系和应用模式研究。
技术服务商层面,以华为、青云科技、浪潮等为代表的科技服务供应商也积极布局超算互联领網域。以青云科技为例,青云此前依托技术与落地实践的积累,已经正式发布了 AI 智算平台和 AI 算力云服务。苗慧对钛媒体表示,对不同规模的多元异构算力中心来说,AI 智算平台可以提供提供统一管理、智简运维、高效的用户自服务等,实现算力资源按应用、按需求随时匹配,自动切换,实现多种计算场景服务的标准化运营,以开放的应用框架和模型服务等丰富生态,全面提升算力中心的运营效率与平台能力,同时支持利旧。
除了各大厂商的积极布局以外。国家层面也在努力推动超算产业发展。近日 , 国家超算互联网开展 " 体验官 " 招募计划。据了解,该计划将邀请 1500 名来自全国科研、制造业、人工智能等领網域的应用研发者与使用者 , 作为国家超算互联网首批公测用户 , 助力国家超算互联网优化迭代平台功能 , 提升算力商品全流程交付体验。
除了产业侧与用户侧以外," 学、研 " 也是超算发展过程中至关重要的一环。而超算的发展也需要 " 学、研 " 为其提供源源不断的人才与技术支持。
人才培养是重中之重
正如上文所言,人才培养对于任何一个行业来说都是重中之重,对于超算亦是如此。
以盐城超算中心为例,据了解,盐城超算中心基于成熟的运维技术及体系化人才培养,依托专业运维团队及高效管理系统,中心将强化与清华、北大等院校合作,对网络通信和存储读写进行实时维护,提高超算互联网整体运行效率,打造面向全国的 " 超算产业化人才培养基地 "。
除此之外,钛媒体注意到,湖北省也在超算人才发展方面 " 走在前列 ",据相关人士介绍,通过智能基座、产教融合育人基地、众智等项目,鲲鹏、昇腾与湖北的 10 所头部高校展开多项合作,覆盖 3 万名学生;联合高校、科研机构积极探索 HPC+AI 领網域的交叉学科科研人才的培养模式,为 HPC 与 AI 的融合协同发展储备尖端人才;与武汉大学、华中科技大学等 10 余所本地高校完成 50 多个项目对接,覆盖上千名科研人员。
据了解,根据规划,未来 3 年,人才计划将延伸到 50 多所湖北的高校,培养 10 万高校计算人才,为湖北数字经济发展提供源源不断的动力。
无独有偶,济南超算中心联合建设齐鲁工业大学网络空间安全学院,是教育部批准的全国计算机科学与技术博士学位授权点,支撑齐鲁工业大学计算机科学与技术学科建设,该学科成为山东省省属高校重点建设的 13 个 " 高峰学科 " 之一,设有国际博士 / 硕士研究生联合培养项目。
而人才培养除了需要各大高校支持以外,适当的前瞻性也是必不可少的。因为大多数人才还处于学生阶段,需要几年才能步入社会,投身产业发展之中,所以在人才培养的过程中,适当的前瞻性尤为重要,对此,ASC 组委会委员刘军表示,ASC 组委会在設定赛题的过程中,也将代表性与超前性考虑其中。
值得注意的是,正是基于适当超前性与代表性的考虑,2023 年火热一年的大模型相关应用——大语言模型 LLaMA 推理加速,設定为本届 ASC 预赛赛题之一谈及如此設定赛题的原因时,刘军对钛媒体表示,在 2022 年,大模型还没有如此火热的时候,ASC 就設定了源大模型相关的赛题," 本届大赛,结合了当下业内认知度较高,开源程度较高,应用前景较广的 LLaMA 模型,围绕大语言模型 LLaMA 推理加速,进行比拼," 刘军指出," 依托全球化资源的调用、代码支持等强大的后台支撑,考验各个参赛对于如何更加有效地获取相关资源,实现大模型的推理加速。也是为日后大模型与超算的融合铺平道路 "。
可以想见,2024 年,在 " 产学研用 " 等多方共同推进下,以及大模型不断像各个行业渗透的趋势下,中国超算领網域将迎来快速发展的一年,在这个过程中,我们需要加强技术研发和创新、拓展应用领網域、培养高素质人才、加强产业生态建设等方面的工作。同时,还需要加强国际合作与交流,积极参与国际竞争,才能不断提升我国超算的国际影响力。