今天小编分享的科技经验:中国大模型要用Infra“降本增效”,欢迎阅读。
( 图片来源:钛媒体 App 编辑拍摄)
今年 7 月世界人工智能大会(WAIC)召开前一天,上海浦东的一家酒店里一场关于 AI 算力芯片的企业会议上,有两家同样做 AI Infra 技术的公司高管亮相,引发关注。
尽管他们彼此是竞争对手,但此次共同目标,是争夺这家 AI 芯片企业的合作订单。据钛媒体 App 了解到,其中一家 AI Infra 公司的 CEO 在得知对手将出席此次会议后,立即与主办方沟通,希望增加一个演讲名额,并特意从北京海淀飞赴上海,在数百位媒体和合作伙伴面前进行该公司成立半年多来的首次公开演讲。
最终,这位 CEO 的努力得到了回报,他不仅成功赢得与该客户的合作,还在短短三天后 WAIC 一场 AI 算力发布会上,顺利拿下了与另一家 AI 算力企业的合作许可,成果丰硕。
这是国内 AI Infra 行业激烈竞争的一个缩影。
所谓 AI Infra,定位于算力与应用之间的 " 桥梁 " 角色的基础軟體设施层,主要利用 AI/GPU 芯片的算力中心和算力云等的推理、训练形式,为 AI 大模型应用提供軟體系统、数据存储和处理、网络设施等技术,解决美国对华高端 AI 算力限制下模型断训、英伟达与国产算力之间解耦等计算、存储和通讯网络难题。
当前 AI 算力紧缺、美国英伟达 GPU 对华限制、模型成本 " 降本增效 " 等因素下,兴起不足一年的 AI Infra 行业已经成为中国 AI 大模型产业不可缺少的关键一环,也是与美国 AI 市场之间 " 别树一帜 " 的特色,因为硅谷很少有超百亿估值规模的纯 AI Infra 公司。
中金公司指出,目前 AI Infra 产业处于高速增长的发展早期,未来 3-5 年内各细分赛道有望保持超过 30% 的高速增长。而基金管理机构 KKR&Co. 数据显示,随着 AI 算力需求增长,全球数据中心投资有望达到每年 2500 亿美元(约合人民币 1.9 万亿元)。
另据红杉资本、贝恩等机构统计,预计到 2027 年,全球 AI 市场规模将飙升至近 1 万亿美元,AI 硬體和服务市场年增长率达 40%-55%。在这其中,全球会有超过 4 万亿元人民币(6000 亿美金)投资到 AI 基础设施层,生成式 AI 计算规模增长至 109.9 亿美元,模型训练成本每年增长 240%(2.4 倍)以上。
过去 12 个月内,AI Infra 已成为热门赛道。阿里、百度百舸、字节火山引擎等公司都在发力 AI Infra 技术产品;7 月,AI Infra 公司硅基流动(SiliconFlow)完成总金额近亿元人民币的天使 + 轮融资,智谱 AI、360、水木清华校友基金、耀途资本等机构参与;9 月,无问芯穹完成近 5 亿元 A 轮融资,成立 16 个月内累计已完成近 10 亿元融资,投资方名单相当豪华——社保基金中关村自主创新专项基金、启明创投、联想创投等超过 46 家机构和实体。
无问芯穹联合创始人、CEO 夏立雪此前对钛媒体 App 表示,在一个互联网客户大模型推理的业务场景中,无问芯穹将整体算力使用效率提升了 90%,有效地解决了客户大模型业务中算力成本的问题,帮助业务伙伴实现算力成本的大幅下降。他指出," 我们认为(公司未来)3-5 年内肯定能够规模化地实现利润 "。
超 40 亿美金算力做 ChatGPT,算力争夺战一触即发
经过 60 多年的发展,AI 技术改变了设计、教学、驾驶、医疗,甚至是 GPU 显卡的价格。
随着新一轮 AI 热潮下,作为 AI 三要素之一,算力已经成为国家间竞争力,具有重大战略性意义。而算力需要与芯片、基础设施、数据三大要素紧密结合:芯片是算力的决定性因素,中央处理器 ( CPU ) 、图形处理器 ( GPU ) 、存储半导体等芯片尤为重要,决定了计算能力的强弱;5G 网络、数据中心、云计算集群、超级计算机等基础设施是推动算力发展因素;数据价值则是算力存在与发展的终极意义。
在 Scaling Laws(缩放定律)指引下,投入模型的计算资源和数据量越大,模型的能力就越强。过去十多年中,计算资源和数据的规模呈现出指数级增长,这也是 AI 重新进入公众视野的原因。下面列出的几组数据,很明显说明 AI 大模型规模与算力基础设施成本之间的鸿沟:
1、美国 OpenAI 公司开发的 GPT 1.0 版本参数量 1.7 亿,而 GPT-4 版参数量可能已经超过 1 万亿,增长速度惊人;
2、而 GPT-3.5 在微软云 Azure AI 超算基础设施上进行训练,总算力消耗约 3640PFlops-days ( 即按每秒一千万亿次计算,需运行 3640 天 ) ;
3、算力成本当中,一颗台积电量产的 3nm 芯片成本超过 2 万美金;
4、一个 8 卡的英伟达 A100 价格已超过 25 亿美金;
5、2023 年 1 月,ChatGPT 使用近 3 万颗英伟达高端 GPU 来处理数亿个日常用户请求,此类 GPU 的单个售价就已高达数万美元,微软旗下由 GPT 模型支持的新 Bing AI 聊天机器人,仅在算力基础设施搭建环节就花费至少 40 亿美元,这一数额甚至超过了南苏丹一国的 GDP(国内生产总值)。如今 GPT-5 预计要用超过 10 万卡集群设施。
由此可见,随着 AI 大模型数据量规模增加,算力需求日益旺盛,但 AI 芯片成本高居不下。4 万亿美金 AI 算力规模投入的背后,算力发展分化与鸿沟问题不断显现。
据字节跳动公开的万卡集群大模型训练架构 MegaScale 的数据,训练拥有 1750 亿参数的大模型需要在千卡集群上训练接近 20 天或者万卡集群上训练近 2 天,按照 GPU 使用机时计算,单次训练费用超过 200 万元,其算力利用率仅约为 50%-60%。
模型大、算力利用率低、投入成本却高达百万至千万元以上,这成为当下 AI 算力现状。
正如百度集团执行副总裁、百度智能云事业群总裁沈抖所说,随着 AI 应用爆发式的增长,模型训练和推理的需求也在大幅提升,算力成本和使用效率这两个指标就变得至关重要,直接影响模型能力更新和 AI 应用大规模落地的速度。
中国的 AI 算力不仅获取成本高昂,而且 " 东数西算 " 导致算力训练慢、且部分 GPU 芯片长期处于限制状态,因此,提升算力利用率成为了有效提升大模型性能和降低成本的关键,这也是 AI Infra 存在的根本意义——面向上下游,AI infra 把各类模型同各种芯片解耦适配,一方面减少算力资源闲置现象,另一方面则实现模型发展的 " 提速降本 "。
" 对于 AI Infra,作用就是解决其应用开发的上手门槛,以及大规模部署时的使用成本。特别是我们知道有一个阶段是算力紧缺,算力资源相对紧缺且昂贵,有的应用开发者即便对推广产品很有兴趣,也会因为成本过高而却步。 我们正是解决了这些问题,帮助用户在使用 Token 时不再为价格担忧,实现更快、更低成本的操作,这就是 AI Infra 带来的价值所在。" 硅基流动创始人、CEO 袁进辉最近在一场论坛上这样说 AI Infra 作用。
从产品层面,多名阿里云技术人员在演讲中提到,数据墙、内存墙、Scaling 集群扩展、光互连等问题,都是需要 AI Infra 解决的。用更加易懂的语言说,AI Infra 就是对标英伟达 CUDA + NVIDIA DGX SuperCloud 的一种综合性服务。
中金公司在研报中指出,AI Infra 是 AI 产业必不可少的基础軟體堆栈," 掘金卖铲 " 逻辑强、商业潜质高。其中,AI Infra 基础軟體工具有较高的商业化潜力。
大体来说,AI 算力包括训练、推理两个环节。目前各家提供的 AI Infra 方案各不相同,如阿里、百度、字节自身都拥有多种算力和伺服器产品,所以其 AI Infra 技术更多是内部使用;而无问芯穹、硅基流动、清程极智这类初创公司更多是服务于芯片和算力中心方,以及模型应用层,提供系统和算力结构性服务。
以阿里云为例。
阿里云的伺服器拥有英伟达、AMD、英特尔、倚天等多种芯片算力,因此,阿里云也构建了 Al Infra,名为磐久 Al Infra 2.0 伺服器,且内置 ALS(ALink System)。阿里云 CTO 周靖人曾透露,其磐久 AI 伺服器提供 AI 算法预测 GPU 故障,准确率达 92%,并且稳定连接超过 10 万个 GPU,模型端到端训练性能提升 10% 以上,其人工智能平台 PAI,已实现万卡级别的训练推理一体化弹性调度,AI 算力有效利用率超 90%,从而促使基础大模型降价,让更多人使用通义模型技术和阿里云计算服务,通义千问三款主力模型最高降幅 85%。
除了阿里云,百度智能云则提供百舸 AI 异构计算平台,即基于 AI Infra 技术的云计算平台,其将支持多芯混训、多芯适配,在万卡集群上实现了超过 99.5% 的有效训练时长,而万卡集群运行准备时间也从数周缩减至 1 小时;字节的火山引擎则拥有 AI 全栈云,支持多芯、多云架构,支持万卡集群组网、万亿参数 MoE 大模型,时延优化最高达 75%,檔案存储 vePFS 支持 2TB/s 吞吐并行存储、自研 mGPU 容器共享方案,GPU 利用率提升 100% 以上。
另外,相对于阿里、字节这些互联网大厂,AI Infra 初创公司领網域则更细分,经钛媒体 App 统计,这些 AI Infra 公司主要提供三类方案:
一是通过类似 MaaS(模型即服务)軟體解决方案提供给模型方,或与算力集群一同提供项目制合作后抽成,后者回款更慢;(这写的偏简略易懂,实际要更为复杂)
二是提供租用算力云和模型 API 平台,利用多元异构算力提供一个平台的个性算力和模型服务,能够解决部分中小开发者成本低、算力性能要求高、但场景单一这类需求,无问芯穹、硅基流动、清程极智都已提供相关平台服务;
三是提供芯片 + 軟體的端到端方案;比如,无问芯穹正量产无穹 LPU 专用算力,主要解决端侧模型推理,那么未来,AI Infra 公司利用芯片硬體 + 自身軟體平台,可以提供智能硬體、自动驾驶、手机和 PC 等端侧场景的算力模型服务。
如无问芯穹,其主要提供基于多元芯片算力底座打造出 Infini-AI 异构云平台,包含一站式 AI 平台(AIStudio)和大模型服务平台;硅基流动则提供高性价比的 GenAI 云服务 SiliconCloud、高性能大模型推理引擎 SiliconLLM、OneDiff 高性能影像生成引擎。
然而目前,全球能够完整提供 AI 算力服务、且做到最好的公司,只有全球科技巨头英伟达(NVIDIA),主要因为 A100、H100 是全功能 GPU 处理器,且能利用 CUDA 軟體同时提供 AI 大模型算力推理、训练服务。因此,国内 AI Infra 技术和商业化规模远低于英伟达。
" 作为一家创业公司,技术只是产品中的一个要素,我现在理解的是一切都要服务于商业化。" 袁进辉这句话点明了 AI Infra 的实质,这个行业需有市场需求、有技术壁垒、有行业盈利方案。
袁进辉表示,从軟體产品来看,以前有数据库、作業系統、大数据系统,到今天出现了 AI Cloud," 这是我在这方面的理解,工程细节繁多和工程量大不是劣势,反而可能成为标准化产品的壁垒。"
而美国拥有 together.ai, fireworks.ai 等 AI Infra 公司,主要服务微软、亚马逊、戴尔等大互联网厂商。
无问芯穹是国内少数选择异构混训这条路径的创企,主要通过异构多种 GPU 卡来同时混训一个大模型,地方政府、大模型厂商和偏研究型的部門都有这方面需求。目前无问芯穹拥有英伟达、AMD 加上国产卡共六种芯片,任意两种都能组合训练,在百卡和千卡这个级别都已经完成混训,整体效率高达 97.6%。
今年 9 月,夏立雪对钛媒体 App 表示,异构混训的难点主要在于,不同的芯片之间有不同的算子库, GPU 性能如何预测,任务怎样拆分让不同硬體各司其职,同时,怎样在通信上实现较好地协调以及打通通信库等多种问题。而无问芯穹的初心是解决国内算力不足的问题,把不同的模型在各类硬體上都能够快速完成高效部署,去让算法和算力之间形成最佳的软硬體联合的优化、软硬协同,让各种各样的算力都能够把自身的价值发挥到最大。
" 我们在整个产业中属于连接模型和硬體,去让大家能够把算力更好地用起来的基础设施的工作。所以我们确实在成立一开始就和很多重要的合作伙伴已经做了很密切、深入的合作和一些战略协同。" 夏立雪表示,在一个互联网客户中,无问芯穹利用软硬协同的核心技术优化客户大模型推理的业务场景,将算力使用成本降低了 90%,实现算力资源大幅节省和提效作用。
中国 AI 算力受限下,大模型的未来需要体系结构的变革
" 人工智能技术潜力为重振美国梦,和重塑美国工业化提供了不可错过的机会 "。OpenAI 于 11 月 13 日公布一份全新由该公司领导的 " 美国 AI 基础设施(Infra)蓝图 "。
OpenAI 认为,美国需要定制一项国家战略,确保美国在未来 AI 领網域处于领导地位。OpenAI 公司全球事务副总裁克里斯 · 勒哈恩(Chris Lehane)表示,其已经花费 " 很多时间 " 与拜登政府和特朗普团队讨论 AI 基础设施需求,这将是美国未来关注的重要领網域之一。
事实上,随着算力经济成为全球战略竞争新焦点,AI 算力也成为美国对华打压限制的关键赛道。
据报道,美国商务部要求台积电自 11 月 11 日起,停止将经常用于人工智能(AI)应用的先进芯片供货给中国大陆客户。美国商务部致函台积电,对出口到中国大陆的某些 7nm 或更先进设计的精密芯片实施出口限制,这些芯片用于驱动 AI 加速器和图形处理器(GPU)。
不止是台积电。三星同样受到美国禁令限制,目前已向中国大陆客户发布相关通知,无法为提供 AI 芯片类晶圆代工服务。更早之前,英伟达、AMD 等多款先进 AI 芯片对华限售。
目前台积电方面并未直接予以否认。11 月 8 日下午,台积电回应钛媒体 App 表示:" 对于传言, 台积公司不予置评。台积公司遵纪守法,严格遵守所有可使用的法律和法规,包括可适用的出口管制法规。"
11 月 13 日,国务院台办发言人朱凤莲表示,推进两岸产业合作有利于两岸企业发展,增进两岸同胞民生福祉。有关报道再次证明,美国打 " 台湾牌 ",升高台海紧张局势,目的是 " 以台遏华 "。而民进党当局妄图 " 倚外谋独 ",一味随美起舞搞 " 脱钩断链 ",给两岸有关产业合作設定越来越多的人为障碍,最终损害的是岛内企业的利益,削弱的是台湾相关产业的优势,让台湾进一步错失产业发展的机遇。
然而,无论消息真假与否,长期来看,美国一定会对华 AI 算力进行限制。所以如何在 Scaling Law 放缓、数据规模到达天花板、算力需求不断增加等因素下,通过 AI 系统化、计算体系结构化解决当前问题,是中国 AI 发展的关键要素。
"Meta、OpenAI 都朝着 10 万卡规模往上走,所以数据中心层面一定会朝更大规模增长发展,也许未来的算力增长定律,已经不再局限在单颗芯片的层面,而是整个体系算力层面。跨数据算力体系会支撑未来基础设施的训练,扩张整个算力供给、提高并行计算创新能力,这是未来算力发展的重中之重。" 在闭门圆桌中,一位半导体行业人士对钛媒体 App 表示,如果未来中国缺乏算力,各种行业各个领網域一定会受到严重影响。
周靖人早前在一场群访中强调,模型更新离不开基础设施,AI 是一个系统化的技术变革,如果没有底层的相关能力的支持,今天模型的研发、迭代就没有承载的地方,这是一个相辅相成、承上启下的关系。
事实上,本文写的很粗略,AI Infra 基础设施层其实非常庞大,拥有很多很复杂的技术细节,包括 AI 系统、AI 算力框架、编译和计算结构、算子和开发体系等多个专业技术,仅多卡混训、解决并行计算问题,AI Infra 行业经历了多年的反复技术积累。
一位 AI 算力公司技术人员告诉钛媒体 App,我们这个行业一直都在不断踩坑和反复配合当中,AI Infra 行业没有一个先行例子可以复制。
英伟达 CEO 黄仁勋近期坦言,通用计算诞生 60 年以来,开始出现向加速计算的转换,通过并行计算,令 GPU 时代的算力较 CPU 时期大幅提升。而神经网络和深度学习的发展,亦让电腦获取知识更加快,带来电腦的智能化飞跃。他认为,传统计算方式依赖预设的演算法模型,缺乏学习和理解能力。而结合深度学习,系统可以对资料进行调整最佳化提升算力的使用率。
黄仁勋强调,计算技术每十年将进步一百万倍,只需 2 年,英伟达甚至整个行业都将发生天翻地覆变化,更以 " 难以置信 " 形容 AI 的未来,认为 AI 缩小了人类间的技术差距,未来 10 年算力将再提高 100 万倍。
" 我越来越坚定,如果中国想做自己的生态,想做自己的 AI,必须全产业链自主可控。我自己在 AI 软硬體优化的基础上积累完,然后我们在 AI 大模型时代中推动中国把所有算力真的都用起来,然后去跟美国做竞争,这是我自己内心深处特别想干的事情,这是我们做这家企业(无问芯穹)的初心。" 无问芯穹发起人、清华大学电子工程系教授、系主任汪玉教授曾表示,算力需要发挥更大作用,从而能推动中国 AI 发展。
(本文首发于钛媒体 App,作者|林志佳,编辑|胡润峰)