今天小编分享的科学经验:AIGC算力玩家现状:爆单与挑战并行,洞察趋势更为关键,欢迎阅读。
AIGC 算力更行业内的动向,现在曝光了。
新款伺服器还没发布便已爆单;
云计算厂商不单求 N 卡,同样关注国产厂商;
相比预训练而言,推理需求如今更加被关注、热议。
在量子位智库最新举办的AIGC 算力沙龙上,算力领網域数月来备受关注的趋势发展、行业挑战及最新动向,都有了更加明确的解读。
来自国产芯片厂商、伺服器厂商、云厂商以及加速方案明星玩家,分别从各自角度出发带来分享,由此构成对 AIGC 算力产业更加全面的认知。
他们分别是昆仑芯、天数智芯、联想集团、首都在线和潞晨科技。
作为算力领網域不同层玩家,在最新趋势下他们有哪些切身感受?对未来进程又有哪些思考和看法?
量子位在不改变嘉宾原意的基础上,对分享内容及圆桌对话进行了编辑整理。希望能够给你带来更多的启发与思考。
本次沙龙邀请的嘉宾分别是:
王志鹏,昆仑芯互联网行业总经理
郭为,天数智芯副总裁
黄山,联想集团 ISG 伺服器产品总监
朱湛峰,首都在线产品中心总经理
李永彬,潞晨科技生态负责人
ChatGPT 之前算力需求趋势已有显现单卡推理成本面临挑战
国产芯片厂商昆仑芯最新分享了对大模型推理方面的关注。
目前行业内已经达成了一种共识,市场对于推理的需求正在快速增长。随着大模型生态的持续发展,大模型的效果不断提升,同时推理成本也在逐步下降,这些因素都将加速大模型的商业化应用。随之而来的便是对模型推理的海量需求。
昆仑芯互联网行业总经理王志鹏表示:
当百亿、千亿规模参数的模型需要部署推理时,推理技术面临分布式化的挑战。具体来说,需要把一个大模型拆分到单台机器多张加速卡上并行存放、并行计算。
这些技术之前在训练场景应用很广泛,比如 pipeline 并行。但是推理有自身特殊需求,比如很多对话类任务对推理时延要求很高。Tensor 并行会比较适合在线推理,而 pipeline 并行有助于提升吞吐,在一些离线的推理场景中也有用。
大模型推理引入了对通信的需求,多卡之间在每一层计算完成后都有一层通信。这种情况下怎么适应推理场景的优化?针对非常多高频次、小数据量的推理场景,需要重点去优化时延,而不是提升带宽利用率?
所以当下面临的一个核心问题是:如何在单机 8 卡上达到大模型推理的最优性能。在真实业务场景落地中,昆仑芯采用 INT8、Continuous Batching 等关键技术,为业务带来了数倍的性能提升。
中国芯面临哪些技术瓶颈?
国产 GPU 厂商天数智芯,更加关注芯片底层面临的挑战。
天数智芯副总裁郭为表示,主要挑战来自Chiplet D2D 的 IP 成熟度、3D 封装技术、工艺三方面。
我们很希望有一家成熟的 D2D IP 供我们直接使用,但是国内还存在标准不统一的问题。
3D 封装技术涉及到堆叠,也是挑战。
而且 Chiplet 不是万能的,不可能通过 14nm 的 Chiplet 来 " 干翻 "5nm、3nm 的技术,所以从根本来讲还是一个工艺问题。
那么从 GPU 厂商角度来看,大模型将会驶向何处?
郭为给出了 4 个方向:
通用人工智能通过 Few-Shot Learning 方式快速在垂直
模型更大、更大数据量(探索规模效应的天花板)
多模态(NLP& 影像 & 语音)
对易用、通用、可配置算力的需求
联想:新一代 8NVLink GPU 伺服器爆单了
联想集团 ISG 伺服器产品总监黄山透露的一个小消息,让人更加直观感受到当下算力行业的火热:
我们 8 月 18 日准备推出的新一代 8NVLink GPU 伺服器,还没发布订单已经爆了。
实际上,对于千亿级大模型训练,8NVLink GPU 伺服器是一个最好的选择。如果进入到训推一体阶段,联想给出的推荐为 8PCle 伺服器。
如上是关于行业当下的需求,未来 AI 伺服器架构发展会呈现怎样的趋势?
联想认为,其一是独立的 "GPU Box",通过 PCle Switch 与伺服器节点互联;其二是围绕 CPU 和 GPU 芯粒互联的设计。
与此同时,在算力需求暴增的现状下,关于绿色低碳、AI 基础设施能效和散热方面也需要予以重视。
GPU 容量增速没有跟上算力需求增速
潞晨科技是一家从诞生起,就面向大模降本增效的初创公司。
潞晨科技生态负责人李永彬表示,近一两年来算力增长需求非常快,对于 GPU 算力来说,GPU 容量的增长速度没有这么快,中间形成了 GAP。
而且 AI 大模型的计算模式也发生了改变,不会像之前 Deep Learning 时代,针对某一个任务直接去适应模型,它会基于基础模型再微调的方式,来做领網域 / 行业内大模型。
对于大模型来说,计算量非常大,预训练需要 1-2 个月时间也很常见,因此对于速度优化的要求非常高。
所以潞晨打造了 Colossal-AI 系统,在过去两年来提出了多套训练 / 推理加速方案,并积极拥抱开源。
比如最近,Colossal-AI 发布类 LLaMA 基础大模型预训练方案,训练速度较传统方案提升 38%,显著降低成本,不限制商业使用,开箱即用仅需 4 步。
云计算发展不同于传统架构
首都在线作为一家资深云厂商,趋势下的直接感受是,行业对于云计算架构的需求不再是一个传统的池化、资源池,而是要求整个架构变得非常灵活。
首都在线产品中心总经理朱湛峰表示:
GPU 业务不同场景对于服务的配置需求是非常零散的,怎么在同一个架构上满足这些需求?这是一个非常复杂的过程,我们现在能做到一台伺服器、通过一个后台的开关就可以把它切换到不同的形态,以不同方式交付给客户,这个和传统云行业很不一样。
同时在一些技术细节上也会变得不同。
GPU 业务大部分都是高并发的,伺服器之间要求低延迟、高带宽、高并发存储,这都是一个很大的挑战。
圆桌实录趋势前后布局有何变化
量子位:目前各家在生成式 AI 上的布局如何?和趋势发生前相比有哪些变化?
潞晨科技李永彬:因为我们本身就是做大模型相关的,现在 ChatGPT 等大模型趋势非常符合潞晨的发展路径。前两年我们刚开始做这个方向的时候,可能大家对大模型还有疑虑,这么高的成本能做什么?那么现在来看,很幸运我们提前布局踩在了风口上。我们最近的动态也会一直更新,并且在 Colossal-AI GitHub 上同步。
天数智芯郭为:通俗来讲我们就是铲子的,做通用的铲子,接下来还会继续在这个方向上前进,努力帮大家更好挖金子。
联想黄山:今天我们首先解决的最基本问题是,让基础设施如何能提供最高效的算力。同时联想也会去做大模型,以及算力服务、云服务等。
昆仑芯王志鹏:我们因为和场景、业务走得很近,所以更聚焦在生成式 AI 领網域,因此较早进行了布局。
首都在线朱湛峰:我们比较明确是不会去设计自己的大模型的,我们将以云上算力给大模型企业提供强有力的支持。
技术将会不断迭代
量子位:生成式 AI 之后的发展趋势将会如何?是基于原有技术不断加码,还是从更底层创新?
首都在线朱湛峰:从云的角度来看,现在这个趋势走向还没有完全展现出来。结合我们自身的情况微观来看一下,我们 AI 事业部从技术架构到业务角度完全是跟原来的公有云完全独立开的,因为几乎没法以同一种方法运作,所以我们看到说 AIGC 对计算的基础架构都可能有非常大的挑战。
我相信随着 AIGC 的演进,从机柜到带宽、到伺服器、到存储将会对整个云架构或服务架构的方式产生巨大改变,这也是需要我们和客户公司来一起适应的。
昆仑芯王志鹏:我们会从这样几个角度来看:首先一定是持续的迭代过程,不只是靠一代芯片就能达到理想状态,而且这个过程是跟算法应用场景一起迭代。当前最主流的 AI 芯片已经到达算力边界,然后算法就会基于 AI 芯片继续迭代,同时为下一代硬體指明方向。
第二点是看接下来要做什么。一个变化思路是,突破对一个单卡的局限,上升到伺服器整机以及大集群系统层面,在这个层次上有一些整体的解决方案或者优化思路。
联想黄山:我们这边什么都做,在 AI 算力需求爆发的时代,我们看到从最底层的新品到伺服器,再到上面中间件、算子、算法库、模型库、应用、实际场景,做 API 服务。包括变成一个方案级服务,订阅、包租,整个采购和之前自动计算、科学计算都有巨大区别。
因为 AI 数据类型不一样,所以对算力基础设施的要求也不一样。这是整个一套完整的技术栈,不能分开去看,我们虽然说自己什么都做,但不是什么都卖。我们希望能够推动 AI 使用、适合它的全栈方案智能化。
天数智芯郭为:我们是一家芯片厂商,从芯片厂商的角度来看,这件事还是回到实际上我们芯片是为算法服务,然后对于算法它是一个怎样的发展趋势?
实话实说,因为我们不是算法公司所以不是非常专业。比如今年的情况,恨不得 Transformer 要统一天下,那么明年还是不是这个情况?这个事情我相信谁都给不出一个明确的答案,对于芯片公司来讲我们该怎么办?
从我的认知来看,仍然还是回到通用这件事。我们仍然会坚持提供一个通用的架构、通用的算力。这件事说一千道一万,产品到底好不好,还是能不能实际用、实际用的人用得舒服,才能给客户提供最大价值。我们一直认为坚持在通用这条道路上,能够给客户、给算法工程师提供最大价值。
潞晨科技李永彬:潞晨这边是做軟體的,所以对 AI 浪潮变化也是深有体会。像刚刚提到 2、3 年前,GPT-3 刚出来以后,大模型赛道只有少数人参与。
现在 ChatGPT 带起来这么大的风潮,很多企业都想要参与进来。可能前几年大家都还在搞 CPU 大数据,市场虽然需要 GPU 但是还没有这么高,所以现在来看市场变化还是很大的。生成式 AI 也带了许多新的技术挑战,正是潞晨和 Colossal-AI 所擅长和努力的方向。
算力中心成为新基建
量子位:各位现在所在企业的算力基础设施布局如何?算力中心在行业内最终会扮演一个怎样的角色?
潞晨科技李永彬:算力中心现在都很重要,尤其像现在高端算力出现了一些监管措施,那对于大模型浪潮来说,算力中心要比其他时刻更加重要,对算力提供者也提出了更高要求,比如许多云厂商,当然包括做軟體基础设施的角色也会参与进来。
天数智芯郭为:重要性毋庸置疑,这个属于新基建。除了商业方面的算力建设,各个地方政府也都在积极建设算力中心,包括一线、省会、二三线城市等。在算力中心建设这部分我们也在积极参与。最重要回到一句话,算力中心建起来之后谁来用?这个问题我们也在和各个合作伙伴、地方政府探讨。
联想黄山:我也认为算力中心是很重要的。有一份行业报告显示,它对比中国、美国、日本的算力投资。在 2020 年,对算力投资最大是中国—— 7000 亿,其次是美国,最后是日本。
这些投资在以前叫做算力中心、超算中心,后来发展到今天叫智算中心。为什么叫智算?因为有一个东西叫智慧算力,它在 2022 年的规模已经超过了其他算力,并且在未来 5 年内会以 57% 的速度增长,其他算力的增长速度大概为 10-30%。
所以这意味着什么?什么叫智慧算力?刚刚我也提到从底层来看,它从芯片设计上都会有不一样的设计。联想是世界 HPC TOP500 强里 top 最多的公司,持续已经 5 年了。但是 HPC 有很多自己的能力,能够为储存中心提供整套的 IPC 方案。
但是今天我们遇到新的难题,因为新的智算中心给我们提出新要求。这需要全部重新梳理,从驱动、中间件层再到上面軟體。所以这也是我认为在这个时代下要去帮客户解决的痛点。至于怎么把智慧算力应用?首要是要把基础层都做明白。
昆仑芯王志鹏:生成式 AI,我们看到它的应用场景是非常广阔的,它其实改变了 AI 和人的互動方式,因此会成为流量的新入口,未来会应用于手机、云端、边缘、端侧等等。这种潜力是无限的。
在这种趋势下,变化不光会发生在智算中心。作为芯片公司,我认为思路有很多,其实我们看到的是一个个独立的负载(workload),对 workload 理解得越深,在数据处理、解决方案等上游整个链条上就能做得更多。整体来说,能够提供给客户或智算中心的面向产品的方案也会更完善。从这个角度来说,布局的重要性就不必多说了。
新范式出现了吗?
量子位:AIGC 趋势推动算力厂商有哪些范式、模式的创新?能助推我们在不同层级做快速迭代?
首都在线朱湛峰:我认为很多变革都是一点一点发生,现在能看到一个实例是,原来很多合作伙伴会把他的业务交给一两家厂商来做。但是现在它会变成一个标准调度来使用多个云。所以对于云厂商来说,产品弹性、标准化有提升到了一个新高度,不仅是让客户适应,而是自己要适应行业。这是我们看到的一个明显变化。
昆仑芯王志鹏:对于芯片公司来说,我觉得很多创新是围绕市场的核心需求。大家对于芯片最关注的还是核心性能,但是除此之外,我们如果能够和上下层一些应用场景结合,就能有一些更完整的端到端方案让客户快速感知。比如硬體层面的一体机,结合对算法加应用的整体端到端方案。
联想黄山:我觉得离范式改变还有点远。因为我刚才的观点是说是很多东西都要从底层到向上都要做,所以我们觉得我们建立于建立范式还是有差距的。我觉得但是这里面刚才我也是从模型提供的这种方式,这个我们在不光是金融和医疗,我们其实本身上也都有一些实践,这些东西即取即用,然后教这个我觉得是一个 AI 应用落地的一个范式,一个范例,这个也可能也不是因为 AIGC 导致 ,AI 应用落地本身就需要这样的。
天数智芯郭为:从芯片厂家的角度来讲,我觉得跟上来讲的话还是得产品,就还是说这个就是我们本身芯片本身的能力。那比如说在对于芯片来讲,那比如说在工艺受限的情况下,我们是不是可以有一些别的方式能够提高带芯片的算力?
同时在单芯片算力不可能无限增大,那对于集群来讲,会设计到芯片之间的互联,以及集群之间的互联,这会不会影响一些新互联技术的出现?带来更快互联速度?
当然这又是另外一件事。芯片之间互联速度太快也会有其他影响,但是这个不重要,更重要的是说还是回到产品本身——怎么做对产品有更好把握?做更快迭代?这样才能适应 AIGC 时代以及发展需求。
潞晨科技李永彬:軟體层面看到很多新变化。比如大模型的开源。在 Deep Learning 时代,因为成本不高所以大家上手做的门槛不高。但是大模型只有头部厂商、大集团、明星初创有实力去考虑预训练,有一些厂商愿意开源供市场使用,但也有厂商选择不开源。目前我们也在做一些开源方面的工作。
量子位:追问一下潞晨,对于 OpenAI 的开源 / 闭源问题怎么看?
潞晨科技李永彬:我个人觉得开源能有更长的发展和更多成长。OpenAI 它当然有一些自身商业方面的考虑,想要保持竞争力。但是如 Meta 开源 LLaMA 后,全世界都有参与进来共建生态。当然包括像硬體厂商,英伟达的强大不仅在于它的硬體,也包括它开放的生态,大家愿意留在这个生态里不断共建。
开源还是闭源?
量子位:最近英伟达和 HuggingFace 上达成了最新合作,国内也会看到类似的合作形式吗?
潞晨科技李永彬:生态方面,国内很多模型也会开源分享,以及国内也有像 model as service 这样的尝试。
天数智芯郭为:开源显然是优于闭源的。对于生态来讲,回到天数智芯的角度来讲,我们坚定用户主流生态。对于 OpenAI,最近它的财报披露还在亏钱。在技术层面已经强到如此了但还是在亏钱,所以我认为还是要拥抱开源。
当然,开源和闭源不是绝对对立的。我们理解有些闭源是从公司商业模式出发。从天数的立场来说,我们积极拥抱开源,同时也愿意同合作伙伴探讨实际的商业落地模式。
联想黄山:仅代表个人观点,因为我们不做这方面。我认为 OpenAI 这样的头部厂商,市场机会很多。另外对于开源,对于我们联想来说是非常喜欢开源的,这能给我们自己做模型时提供更多经验。
昆仑芯王志鹏:我认为开源大模型生态会与商用大模型长期共存,因为两者面向的是互补的市场,市场需求也不尽相同。做一个类比,我们现在回头来看 CPU 市场,以 Windows 为代表的闭源商用市场,和以 Linux 为代表的开源軟體市场,现在也是处于长期共存的状态。
首都在线朱湛峰:我们自己的定位是不做大模型。但是从生态来讲,我们非常积极主动去和上下级厂商沟通,促进国内生态发展。
算力租赁会如何发展?
量子位:最近算力租赁这个概念很火,但这不是个新概念了。所以 AIGC 时代下,算力租赁服务有发生哪些变化?长期来看算力租赁会一直由产业去推动?还是发展成为一种公共服务?
首都在线朱湛峰:对于算力租赁,我们可以把它定义为算力的云化服务。我认为云化服务是未来,我想象中 AI 的未来里,所有终端都是云终端,从 AI 的计算到媒体传输、视频流传输都是在云端进行,这个过程中必定会涉及到不同业务在做,所以算力的需求会变成弹性需求,弹性对于租赁来说是一个非常大的优势。
第二点,它能够帮助成本分担。任何一个公司想要从底层开始构建一套完整的技术栈都是非常烧钱的,租赁方式也大大降低了一个公司进入到这一行业的成本。所以我认为它必然是一个未来趋势。
昆仑芯王志鹏:作为芯片公司,从 AI 算力提供商的角度来看,对我们自身的要求是提供 " 归一化的算力 "。希望可以降低云厂商对我们的接入成本,同时希望做到部門算力价格更低。
联想黄山:大模型在做预训练的时候,可能需要拥有自己的集群,在当前这个阶段它可能不太可以独立完成。我也非常认同二位所说的趋势,真正有一天做完预训练、需要真正产生社会价值、商业价值的时候,推理需求会扩大。这样估算,我认为推理市场需求能占到 60%,由此我认为算力租赁应该是一个最好的方式,所以我认为算力租赁这条路还是很有前景的。
天数智芯郭为:我认为显然不需要每一家公司都做一个自己的示范路径。当然如果非要这样做,从我们芯片公司的角度来说非常欢迎。可是客观事实下这明显不可能。对于算力主体来讲,我们要考虑的是什么样的算力才能让客户愿意买单?我们认为是通用算力,所以我觉得算力租赁确实是一个和大模型算力出口相伴的趋势。
最新趋势下如何布局业务?
量子位:作为底层算力提供商,对于未来上层需求发展有哪些判断?基于这些判断,是否在业务发展优先级上做了相应布局?
潞晨科技李永彬:目前的市场需求可能训练方面多一些,后续推理需求会更多一些。这个趋势和目前我们的优化重点也是相符合的。Colossal-AI 现在针对不同市场需求做了相应的工作,对于资源少的情况,我们提供一些方案使其能够在更少资源下去完成任务;对于资源充足情况,在相同硬體的计算效率上做更大提升。总体上起到对 AI 大模型相关需求降本增效的效果。
天数智芯郭为:目前大模型的趋势是十亿、百亿、千亿规模,但是后续会想万亿、十万亿级发展吗?可能也不至于。回到主流厂商供不应求的话题,这对于国产厂商来说,后续发展需要找好着力点。这个着力点就是产品本身好不好用,这样后续才能讨论是不是能跟上脚步的问题。
联想黄山:市场目前给了我们非常清晰的反馈,今年年初客户对 GPU 需求都是成千上万块,因为很多人要去给大模型做预训练。但是从 7 月开始,各行各业的客户来和我们提的需求是几十台伺服器,来做训推一体。这些客户已经想好了,在预训练大模型成熟的时候加入进来,我们要在这个时候和它的项目进行匹配。
那么现在行业推进的下一步是什么呢?也许明年就要变成真正企业专属应用的一套东西,所以我在这方面就是布局一整套完整的技术栈,从训到推,各有各的特点,各自能适应相应的客户需求。
昆仑芯王志鹏:我的想法差不多。有一类客户自身的定位是提供基础大模型,他们对算力是不计成本的,但这类玩家很少。现在也出现了大量企业,它需要算成本账、评估效果和业务收益,随着算法开源、模型效果逐渐变好,推理各方面成本下降,这一类客户也正在成为我们重点关注的对象。
首都在线朱湛峰:我从另外一个角度来谈一下。目前英伟达在行业里的占比非常非常高,我们在业务布局的时候会将很大一部分精力放在国产芯片、国产 GPU 上,我们还是希望这个市场里不只有一家厂商能提供算力,也有更多国产厂商能够为我们自己的模型、业务提供算力,这是我们一直在做的事。
关于量子位智库沙龙
量子位智库主题活动,围绕 AI 和前沿科技相关的最新进展和热门话题,邀请一线行业专家,系统性分享认知。