今天小编分享的科学经验:如果没有AI算力,大模型这场战役我们可能胜不了,欢迎阅读。
没想到,在 ChatGPT 爆火后的一年里,竟然出现了一个隐藏 "Boss" ——
量子位获悉,百度、360 等互联网大厂均已开始基于昇腾部署 AI 模型;而知乎、新浪、美图这样全速推进 AI 业务的公司,背后同样出现了华为云昇腾 AI 云服务的身影。
明面上,大模型带动了 N 卡炙手可热;但另一面,国产算力提供者中的头部企业华为也浮出水面。
有意思的是,上述提到的玩家,目前展现的共性也非常明显:无一例外都是有场景的互联网玩家。
简单解释,就是这些公司在大模型变革之前,基本都在各自的行业中有稳定的业务生态,也有核心的商用场景。
毫无疑问,他们需要更快更高效让大模型引擎转动,可以更快产生最直接的价值,云算力是最合适的选择。
国内算力市场,悄然生变
解题就得从大背景展开,国内算力市场的供给和需求,正在产生方向性变化。
首先是资源的供给,也就是提供算力的市场,出现了变化。
从去年开始,国内市场就出现了 "N 卡难求 " 的情况。为此英伟达轮番推出特供版 GPU,在算力和功率上一再缩水,但还是受到限制。最近才有风声的 HGX H20 和两款新的 GPU,也被曝可能推迟到明年 2 月或 3 月才能发布。
一系列算力供给缩水动作,使得国内市场上已有的英伟达系列显卡进一步稀缺,算力一个月内涨价 50% 甚至 100% 已是常态。
据《经济参考报》介绍,由于算力资源持续紧张,国内算力服务公司如汇纳科技,已经在 11 月中旬拟将所受托运营的内嵌英伟达 A100 的高性能算力伺服器算力服务收费同步上调 100%。
与此同时,国内互联网厂商因大模型急速增长的算力需求,又加剧了这种紧张的局面。
先是国内大模型数量激增,10 月份统计数据显示,国内已发布了 238 个大模型。
每一个大模型背后都意味着海量算力的投入,综述《A Survey of Large Language Models》显示,650 亿参数大模型 LLaMA,在2048 块 80G A100上训练了 21 天;而 700 亿大模型 LLaMA 2,同样用了2000 块 80G A100训练。
然而,AI 算力需求还会持续上涨。
据 OpenAI 测算,自 2012 年以来,人工智能模型训练算力需求每 3~4 个月就翻一番,每年训练 AI 模型所需算力增长幅度高达 10 倍。
△图源 OpenAI
显然,随着 AI 成为全球产业的增速引擎,算力作为背后的驱动力自然关注不小,甚至出现了 " 谁能争抢到算力,谁就更有先发权 " 这样的说法。
一方面,如果算力跟不上,无法搭上 AI 这班快车,直接面临的结果就是在竞争中落于下风,甚至可能被行业抛弃。
360 公司创始人周鸿祎曾经谈到,公司如果没有搭上 ChatGPT 这班车,很有可能会被淘汰。
与之相反,如果及时跟进潮流,公司就能凭借已有场景,快速在行业竞争中获得优势。像是一度裁员 12% 的美版头条 BuzzFeed,在宣布和 OpenAI 合作使用 ChatGPT 帮助创作内容后,股价一度暴涨 119%。
另一方面,算力的充足与否,又直接决定了拥有 AI 技术和产品的公司,能否提供长期稳定的服务,从而在这场竞争中拥有先发权。
即使是在这场潮流中占据主导话语权的 OpenAI,也面临算力紧张而无法满足用户需求、被迫将用户 " 拱手相让 " 的问题。
例如前不久,ChatGPT 出现了几次流量过大、伺服器承载不下导致应用响应崩溃的情况,导致国外用户争相涌向谷歌 Bard 和 Anthropic 的 Claude 2;付费订阅产品 GPT-4,同样因为伺服器流量爆炸而出现 " 暂停订阅 " 的情况。
但当下算力受限的情况,导致传统互联网企业要想快速跟上 AI 大模型相关的业务,无法再单单依靠 " 买卡 " 这一条路。
毕竟光是等待算力龙头如英伟达发卡的时间,很可能就已经错过了这一波风口。
相比之下,有场景的互联网玩家,一旦有合适的算力,就能更快接入 AI 大模型相关的业务,从而在这场竞争中获得先发话语权。
在这样的需求下,像华为云这样的国产算力玩家,再度成为国内互联网厂商们关注的对象。
作为有算力、能提供云服务、最早适应大模型打法的云厂商之一,华为云究竟为何能在一众算力供给者中脱颖而出,为有场景的玩家们所看好?
为什么是华为云?
在行业调研中,行业玩家们对大模型时代的云服务,有 4 大普遍性诉求:
算力可持续
高效长稳
简单易用
开放兼容
而之所以选择华为云,从其 " 对症下药 " 的技术细节就能管窥一二。
其架构由下至上,包括 AI 算力、异构计算架构、AI 框架、AI 平台、大模型、工具链几个层级,由此构成一个算力充沛、高效稳定、低门槛广生态的云底座。
1、算力可持续
可持续的算力能从最根本上缓解行业玩家们的算力焦虑,同时也是大模型快速炼成、应用落地的基本保障。
在这方面,华为云打造了贵安、乌兰察布、芜湖3 大 AI 云算力中心,提供 3 大主节点及 30+ 分节点,支持 AI 算力即开即用。
昇腾 AI 集群也在今年全面更新,集群扩展至16000 卡,成为业界首个万卡集群。它可支持万亿参数大模型分布式训练。
此外在保障算力资源合理分配方面,华为云支持资源弹性伸缩,可根据业务需求实际情况,自动增加或缩减伺服器实例或带宽资源,可在保障业务能力的同时节约成本。
2、稳定高效
先来看稳定性。
由于大模型训练过程比传统分布式训练更复杂,导致训练所需计算集群规模空前增加、涉及器件数量往往在百万 / 千万级别。如果单器件发生故障,就可能导致集群训练中断,且故障原因定位定界复杂。
这就使得当前大模型训练更容易出现故障,训练时间被拉长。
以 Meta 的 OPT-17B 训练为例,理论上在 1000 个 80G A100 上训练 3000 亿个单词,需要 33 天。实际训练却使用了 90 天,期间出现了 112 次故障。其中主要问题是硬體故障,导致手动重启 35 次,自动重启约 70 次。
△OPT-175B 意外中断情况
在这方面,华为云昇腾 AI 云服务支持裸金属集群进行大模型训练,无虚拟化损失,并行训练效率提升 100%。从处理器、算子、框架、平台全链路垂直协同优化,主力场景性能是业界平台的1.5 倍以上。
以盘古大模型(2000 亿参数)在 2048 卡上的训练为例,实现了30 天训练不中断,长稳率达到 90%,断点恢复时长控制在 10 分钟以内。
此外华为云还实现了千卡预训练故障自动诊断恢复,增强智能运维工具能力,实现分钟级信息获取、2 小时定界、24 小时提供解决方案。
△华为常务董事、华为云 CEO 张平安
再来看高效性,这是场景玩家们的迫切需求。
但是千亿参数大模型在训练中需要大量的梯度、参数等进行同步,集群很难实现线性加速比。即,增加了一倍的计算集群规模,但是计算量无法同比增加。比如:
1024 卡集群:计算和通讯比例为 7:3
2048 卡集群:计算和通讯比例为 4:6
华为云昇腾 AI 云服务通过模型 + 集群的混合并行策略,让模型切分更加平衡,从而实现集群接近线性加速比。
1024 卡集群:计算和通讯比例为 85:15
2048 卡集群:计算和通讯比例为 80:20
4096 卡集群:计算和通讯比例为 70:30
以及在训练成本方面,华为云昇腾 AI 云服务使用 CAME 优化器,相较于业内常用方案可节约 50% 内存用量。
要知道,大模型的海量参数会导致训练时内存消耗空前增加,进一步导致训练成本升高。CAME 优化器专为大模型训练而来,获得了 2023 年 ACL 杰出论文奖。
3、简单易用降低开发门槛
如今 ChatGPT 引爆的大模型趋势已经全面铺开,来自千行百业的玩家们都迫切想要快速将大模型接入自己的业务中。
但是大模型开发又是一个复杂的系统工程,从头开始自己摸索会影响落地速度。
所以云服务厂家们纷纷推出了简单易用的开发工具。比如华为云提供了全链路工具链,云化免配置、开箱即用,可实现 5 倍速开发大模型。
它包括大模型开发工具套件,可自动化、半自动化数据工程,效率提升 3 倍,5 分钟快速构建应用开发。
调试调优部分包含 1400+ 算子沉淀,30+ 可视化调优部署工具;提供丰富的 API 能力,可调用盘古大模型 100+ 能力集。
还能将典型模型迁移效率提升到2 周内搞定,实现主流场景自主迁移。
4、构建开放兼容生态
最后,并非所有场景玩家都需要从头构建大模型。选择在已有基础大模型上进行微调或者直接使用,是更加降本增效的方案。
那么对于开发者、行业玩家而言,有更多选择就很重要了。
基于这一点业内需求,华为云上线了百模千态社区,企业和开发者能直接使用业界主流的开源大模型,如 Llama、GLM 等。同时聚合数据集、模型、实践等 10 万 +AI 资产。
为了满足开发者的不同偏好,昇腾 AI 云服务已兼容 TensorFlow、PyTorch、RAY、Caffe 等 AI 框架。
进入昇腾 AI 云服务百模千态专区,仅需 3 步即可开发自己的大模型。
基于如上云服务能力,华为云已经给业内诸多玩家提供了大模型使能服务。
比如美图仅用 30 天就将 70 个模型迁移到了昇腾,同时华为云和美图团队一起进行了 30 多个算子的优化以及流程的并行加速,AI 性能较原有方案提升了 30%。
昆仑万维和华为云签署战略合作,双方将在华为云昇腾算力领網域展开全面深入合作,致力于打造企业专属模型,支持企业级 AI 应用,持续赋能千行万业应用创新与场景落地。
△华为云 CTO 张宇昕
在当前算力稀缺、资源不足的情况下,这些场景玩家选择与华为云这样的云厂商联手,来快速增强自身 "AI 硬实力 "。
而这种大背景之下,也涌动着当前的产业趋势:
技术创新的曲线开始趋于平缓,商业创新的曲线开始发力。
其中,增速最快的,自然是有场景、有业务的玩家。
场景玩家如何把握 AI 落地机遇
ChatGPT 发布一年以来,AIGC 已行至下半场。
上半场,国内外掀起一股基础大模型技术争锋浪潮," 百模大战 " 态势之下,涌现出一批 AI 初创公司。
这些公司或掌握底层 AI 架构基础、或有搭建上层 AI 工具的经验,依靠技术发布了不少有创意且吸睛的产品,融资更是拿到手软。
然而,随着相关技术逐渐从开疆拓網域走向稳定成熟,AIGC 产业也出现了新的变化。
下半场,AI 技术公司开始追求产业落地,不少初创公司更是在寻求扩大生态圈的方式。
相比之下,有场景的互联网公司,通过观察 AIGC 技术优势,依托生态优势、加上算力基础,就能快速扩大影响力,进而在公司中取得话语权。
在这种情况下,技术和场景玩家的身位也在悄然发生变化——
技术玩家,需要 " 拿锤找钉 ",面临进一步扩张技术生态和产品场景的难题。
虽说这些玩家已经具备了成熟的基础大模型或工具链技术,但技术仍旧需要找到场景,才能进一步稳定出圈。
相比之下,场景玩家成为了 " 拿钉找锤 " 的一方。
依托已有场景需求和稳定用户生态,这些玩家只需将 AIGC 技术融入业务,就能进一步实现降本增效。
然而,即便是 AIGC 技术趋于成熟的当下,想要快速跟进也并非易事,除了底层的算力搭建以外,大模型所需的训练和加速等技术也并非就能 " 一蹴而就 "。
在这样的下半场态势中,像华为云这样底层算力、AI 相关技术和平台、生态三者齐备的国内云厂商,在场景玩家的发展中进一步起到了催化剂的作用。
底层算力上,华为云依托自研的昇腾处理器打造的超大规模 AI 集群,已经由 4000 卡更新到 16000 卡集群,能支持万亿级模型训练,不仅速度更快,训练周期也更稳定;
AI 相关技术和平台上,除了 AI 算力之外,华为云还为开发者提供了完善的工具和资源,解决了 AI 大模型部署从训练、加速到不同框架适配这些难题,进而基于已有的研发经验,给厂商提供运营所需的技术服务;
AI 生态上,华为云已经与 150 多家伙伴、200 多家客户,共同构筑了 20 多个行业大模型以及 400 多个 AI 应用场景,加速行业智能化更新。
所以,在当前国际大环境下,有场景的玩家,只需要借助像华为云这样的云厂商提供的技术服务,就能快速将下半场大模型机遇变成红利,而华为云也能给国内的互联网企业提供更多选择。
现有的趋势,也能说明这一点。
美图首个懂美学的 AI 视觉大模型发布当天,股价单日上涨 21.28%,随后更是受到国内影像编辑工具行业的广泛关注;
拓维信息发布的交通 CV 大模型,如今已在高速公路稽核等行业场景得到应用,这 1 年一来股价上涨了 129.44% ……
显然,这些玩家基于自身已有的业务,再依托云厂商提供的大模型和算力,就能快速将场景势能发挥到最大优势。
但无论选择什么类型的云厂商、做出怎样的判断,国内互联网企业都依旧需要回到当前的大环境下,结合客观形势做出判断。
在国外算力购买愈发困难的当下,面临新一轮 AI 竞争趋势,如何让算力像水电一样即取即用,是所有国内企业都应当要思考的问题。
事实上,如今中国的算力水平实际上已经位居世界第二,占全球市场比重达 25%,从 2017 年到 2022 年的复合增长率达到 48.8%。
当更多的企业愿意投资算力、交易算力,就能推动算力产业进一步降本增效,加快算力向现实生产力转化。
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>