大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

万卡算力和万亿参数大模型时代,AI存储何时爆发?

2024-11-20 简体 HK SG TW

今天小编分享的互联网经验:万卡算力和万亿参数大模型时代,AI存储何时爆发?,欢迎阅读。

  图片系 AI 生成

当前,大模型最显著的特征之一就是参数量呈指数级增长。根据 Scaling Law(尺度定律)的规则,人工智能神经网络的参数量越多,模型越大,对于知识的总结归纳和推理泛化能力就越强。因而,从 ChatGPT 出现验证了 " 涌现 " 能力,到如今的两年里,业内首要关注的就是算力,怎样突破硬體算力,怎样以尽可能少的 Token 数量训练好一个模型。但在这一显著挑战之外,数据量猛增带来的数据存储,可能是仅次于算力的另一大技术难点。

大模型 " 卷 " 向存储

年初,一位长期关注 AI 大模型应用的 CTO 与钛媒体 APP 交流中表示:" 企业使用外部数据训练大模型,长文本是关键思路之一。但问题是,长文本处理特别消耗内存和硬體,因为模型训练和推理的内存变大,模型效果才能更好。这也导致在其每次查询的成本高于 GPT-4,而后者基于微调。这不是 ToB 企业能够负担得其起的。"

他对钛媒体 APP 解释:微软提出了大模型的 " 不可能三角 ",如果希望模型的微调能力很强,那么模型参数就不会很大,或者小样本的学习能力不会很强。长文本的逻辑是,让小样本学习的能力变强,同时放弃微调,这样模型参数肯定就会相应扩大。

彼时,正值国内长文本热潮。除了最早的 Kimi,阿里巴巴、百度、360 等众多厂商相继宣布进军长文本,从最初的可处理 200 万字上下文,迅速扩张至 1000 万字长文本能力。而在这股热潮中,也同样遗留了诸多待解决的问题。

根据技术博客 Medium 上一位 AI 工程师 Szymon Palucha 的记录:

以阿里开源的 Qwen2-7B(7 亿参数)大模型为例。目前 GPU 显存大小基本在 80GB(以英伟达 A100 为例),那么如果拿不到更好的 A100 时,他根据公式:参数模型内存 =7B*32 位 =7B*32/8 字节 =28B 字节 =28GB,测算出运行该模型至少还需要 28GB 内存,这还不算推理过程中对存储产生的额外开销。

为此,最简单的办法是降低参数精度,因为现在多数大模型可以半精度使用,而不会显著影响准确性。这意味着大模型在实际运行时,需要一定的内存或存储空间来存储和处理数据,大模型所需的内存量会根据上下文視窗的大小而变化。視窗越大,所占用的内存也就越多。

钛媒体注意到,这也是当下大模型应用厂商在破解算力问题之外,遇到的另一大技术困难点,去年还没有太多人关注——数据量猛增带来的数据存储、内存带宽、时延等一系列问题。并且随着需求的爆发,已经带来一些技术侧产品侧的演进。

支持万卡算力和万亿参数 LLM,存储两道槛

目前全球的科技巨头都在布局万卡算力集群和万亿参数规模的大模型训练,对于这些集群而言,高性能的计算、存储和网络缺一不可。从存储层面来看如何提供支撑?一是要至少达到 TB 级带宽、百万级 IOPS 的存储性能,未来可能会演变为数十 TB、上亿级 IOPS 的需求;二是要提升数据跨網域调度、数据安全、数据可持续性访问等能力。

回顾过去两年间大模型带来的存储挑战,可以从三个阶段总结:

2022 年初:大模型爆发初期,国内有超过 100 家的大模型公司开始迅速进行市场布局。在这个阶段,模型训练追求的就是 " 快 ",通过 IT 基础设施的方案优化,有效地提升 GPU 效率,加速模型的训练并得到市场认可,即可抢占市场先机。

为此,模型训练的数据加载、模型训练过程中的断点续训要尽可能地降低对计算时间的占用,在万卡算力集群万亿参数的大模型的快速训练时,小于 1 分钟断点续训,需要存储提供 TB 级的带宽,同时小模型的训练推理则对 IOPS 提出更高要求,存储系统需提供超过百万级的 IOPS。

2023 年底到 2024 年初:随着模型在各行业落地的需求,在很多的行业场景里,行业数据缺少积累,过去分散在各终端、地網域数据的夸協定、夸地網域高效率共享整合。这就要求存储具备数据跨網域调度,通过异构纳管实现全局命名空间管理,提升数据汇集、分析的效率。

2024 年下半年开始:模型的真实落地,对数据质量要求更高,语料公司需要将数据汇集并进行精加工。大模型的行业化落地过程中,为了提升通用模型的专业化能力,训练出精度更高的模型,要求有更高质量的数据集。为得到高质量数据,原始数据要经过粗加工、精加工等多个作业环节。这个阶段,对数据的安全存储和数据可持续性访问提出了更高要求。

浪潮信息存储产品线副总经理刘希猛指出,模型参数量、训练数据量、GPU 算力、网卡性能、GPU 规模近些年均在飞速增长,原有存储不足以应对 AI 的快速发展。无论是海量训练数据加载、PB 级检查点断点续训,还是高并发推理问答等,存储性能直接决定了整个训练推理过程中的 GPU 利用率。特别在万卡集群规模下,较差的存储性能会严重增加 GPU 闲置时间,导致模型落地困难、业务成本剧增。因此,现代存储已经由传统的数据载体和数据仓储,转化为 AI 发展的关键组件。存储系统正逐渐演进到提供更高的吞吐量,更低的时延,更高效的数据管理。

AI 存储何时爆发?

既然针对 AI 场景的存储系统在前几年并没有得到太多重视,从需求侧,何时会迎来新的爆发点?" 过去一年,存储的增量市场基本全部来自于 AI 场景。" 刘希猛对钛媒体 APP 解释。

如果将未来的 AI 市场分为大致两类:一类是 AI 产业化的市场,在 AI 产业化进程中,更多的关注点可能集中在了模型训练,紧随其后的是语料生产,然后是算法优化。那么,存储首先就会在模型训练、语料生产领網域产生价值,特别是语料,从今年开始就已有迹象,并在接下来两年里实现快速增长。

在刘希猛看来,从目前来看,大模型训练中最紧缺的是数据,各行业在可能都会开始着手收集各自领網域的数据,并进行相应的数据加工处理。算力方面,尽管有人认为算力建设已接近泡沫阶段,甚至有些用力过猛。这一判断可能在一定程度上具有方向性的正确性。接下来,算力的发展可能会进入一个相对平稳的阶段。

第二类是产业的 AI 化,即大模型真正落地到行业并产业实际价值,可以观察到一些领網域已经先行一步。例如,金融领網域的量化交易、证券交易,在科研领網域,AI 也开始被用来辅助科研工作。此外,制造业也是 AI 应用的一个重要领網域。这两方面都会对 AI 存储市场带来比较好的促进作用。

刘希猛还指出,当前 AI 存储面临的挑战尚未完全解决,若继续向前发展,其实还是要从性能、效率以及可靠性三方面入手。一是高性能,以解决混合 AI 负载对存储读写带宽、IOPS,以及低时延的要求;二是高效率,通过存储支持檔案、对象、大数据等非结构化協定融合互通,全局命名空间等,减少多份数据重复存储,以及数据夸協定、夸区網域、夸系统调度检索的问题;三是高韧性,通过故障的快速恢复、故障前的精准预测降低系统异常时的性能影响,以及服务的连续性,同时强化数据保护与安全防护能力,保证数据的完整、一致、持续可访问。

目前国内外在建千卡集群、万卡集群,且未来可能还会出现更大规模的集群。想要达到同等算力,若是采用国产 GPU,可能需要不仅达到十万卡规模,而是更为庞大的集群。

随着集群规模的扩大,除了存储本身面临的挑战外,还将带来存储整体方案的挑战。这涉及从存储到前端网络,再到算力节点的整个链条。其中,网络的选择成为一个关键问题。国内之所以更多地使用 RoCE 网络,是因为国内的集群规模需求更大,而 IB 网络在扩展规模上有所限制。RoCE 网络与存储及上层之间的协同性,尤其是超大规模集群的协同性上,可能会成为新的关注点。

钛媒体注意到,RDMA ( Remote Direct Memory Access ) 全称远程内存直接访问技术,是一种数据传输技术。目前算力集群对网络的建设在 2022 年之前基本会选择 " 二层虚拟网络 ",随着 AI 应用的爆发,2023 年至今已经在尝试智能无损网络和以太网,并且往往围绕性能、成本、生态系统和兼容性等方面进行权衡。RoCE 就是一项基于以太网的 RDMA 技术。

甲骨文公司中国区技术咨询部高级总监嵇小峰与钛媒体 APP 交流中同样指出,大规模集群除了 GPU 数量多之外,同时具备网络低延时和高带宽的特性。从基础设施角度来看,大量 GPU 集中部署会带来供电和冷却方面的巨大挑战。同时,在训练过程中,对存储的需求同样至关重要。因为训练往往涉及成千上万块 GPU 的协同作业,一旦有少数 GPU(如一块或两块)出现故障,整个训练进度可能会因此延误。

例如,今年 9 月亮相的 Oracle Zettascale 算力集群,目前可提供 13 万多颗 GPU,相当于可提供 2.4 ZFLOPS 的云端算力。为进一步增强网络的低延迟和高带宽,Oracle 采用支持两种网络協定:InfiniBand 和 RoCEv2,这是一种增强版的以太网。这两种技术均具备一种核心绕行机制,能让网络流量避开常规路径中必须穿越的某些组件,以实现更迅速的传输至目标地。这样的设计促进了数据更快地抵达 GPU,进而提升了处理效率。

随着 AI 存储需求的不断涌现,包括 GPU、模型架构、存储解决方案及网络技术的各大厂商,正纷纷加速布局,力求在构建超大规模集群的浪潮中抢占先机。(本文首发于钛媒体 APP,作者 | 杨丽,编辑 | 盖虹达)

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們