今天小编分享的互联网经验:华为云:长坡厚雪,未来可期,欢迎阅读。
没有哪个行业比互联网更期待大模型,就像伯乐望眼欲穿下一匹千里马。
作为新兴技术和商业模式的代表,互联网天然强依赖于新技术,新浪潮,互联网企业总是走在最前线,并且快速将技术转化为产品和服务,互联网投身其中,也受益其中。
过往历史证明了互联网善用新技术的正确性,PC 互联网过渡到移动互联网,通信网络从 2G 到 5G,上网终端从电腦到手机,数字基础设施从传统 IT 到云计算,尽管互联网从来不是新技术的策源地,却总是把新技术用得最好的行业。
大模型是势能更大的新技术,互联网行业绝不能错过,尤其是在如今的行业形势下,互联网行业集体遭遇增长瓶颈,上一波技术浪潮带来的红利逐渐褪去,互联网企业暴露在更严峻的外部环境中,大模型是互联网行业能找到的最佳答案。
但这一次,互联网企业面临着截然不同的命题。由技术到商业的链条中,缺失了关键的 AI 算力一环,AI 算力不再像通用算力般垂手可得;同时大模型落地商业创新落地也要慎而又慎。互联网行业开始重新思考,如何补全大模型应用化的版图?
华为云的昇腾 AI 云服务最近受到了很多的关注,笔者注意到,云服务自身的迭代更新与大模型 AI 算力的双重需求,正在重新定义互联网行业所需要的云服务。
互联网企业,开始涌向华为云
过去二十年,互联网有两幅截然不同的「面孔」,两种模样交替呈现。一面是,互联网几乎是所有新技术的拥趸,不管技术如何更迭,互联网总是能够在旧技术上叠加新技术,电商、游戏、视频等新业态,归根究底都是技术的应用化。
云计算是互联网企业的数字基础设施,互联网是原生于云的一代企业,云计算使得企业用更低的成本,实现更高的效率和灵活性,相较于非云原生企业,互联网企业总是能够快人一步推出产品,互联网云服务商也成为云计算上半场的主导厂商。
一位云厂商销售线人士表示," 互联网有点‘吃自助餐’的感觉,喜欢吃就吃,不喜欢吃就走,他们更注重效率和直接的资源交换。"
2019 年,华为云正式进军互联网赛道,当时华为云在互联网行业声势不显,互联网企业基本已经采用了互联网云服务商的产品,华为云内部对这件事的定义是 " 虎口拔牙 ",华为云没有互联网云服务商的资源,例如投资、流量等资源置换,只能选择用技术和服务打动客户。
以某互联网客户为例,该企业有互联网巨头的投资,并且早期全部使用了互联网云服务,但在后续服务过程中,互联网云服务商始终未能帮助客户解决问题,该企业不得已求助了华为云,华为云仅用半天时间召集了研发人员并给出了解决方案,自此该互联网企业全量迁移至华为云。
类似 " 虎口拔牙 " 的案例,在华为云看来稀松平常,这也是华为云能够在本不占优的互联网行业一步步站稳脚跟的重要原因。华为云的这种方式注定成效要来得要慢,但一旦达成合作,华为云便能持久地服务客户。
从 2019 年到 2021 年,华为云开启了漫长的行业攻坚战,从 5G 商用,到多云选择,再到不断更新的数据安全问题,互联网开始越来越多地选择更可靠的华为云,而华为云也从互联网用云的 others 选项变为业务用云的新选择。
2021 年,无疑是互联网的分水岭,在经历了 20 年的 " 高速增长 " 之后,中国互联网企业大都经历了市值缩水、营收增长放缓或减少的痛苦过程,但反观,美国互联网企业的市值,却在继续高歌猛进。学术界声讨:" 核心技术的落后、互联网企业出海难、对实体经济的支撑力度不足是中国互联网的短板。"
一时间,中国互联网开始从快速扩张向产业赋能转型,然而,面向产业的互联网是无法快速复制的,因为每个行业都有专业知识設定的门槛,互联网的赋能需要减速。简单高效的消费互联网模式和粗放的管理模式都需要作出改变。
此时,华为云敏锐察觉到了市场新的变化,面向互联网提出:" 向实 "、 " 向新 "、" 向外 " 的新价值主张。一是互联网创新方向回归技术创新,将创新应用场景渗透至产业领網域,赋能实体经济;二是坚持硬核技术创新,提升企业可持续发展韧性;三是互联网企业积极拓展全球化市场,将经验传递全球市场从而获得新增长。
即便没有今天的大模型,互联网行业也在慢慢向华为云迁移,把部分核心业务放在华为云上,获得安全稳定的体验以及新业务增长,尤其近两年互联网云服务商故障频发,互联网企业首选的多云服务商大多是华为云,华为云的品牌认知已经树立。
大模型算力,重新定义云服务
2023 年,OpenAI 开启了大模型时代。大模型需要大算力,AI 算力对于云服务的重塑,偶然之中透着必然,起到了 " 一力降十会 " 的效果,这「力」便是 AI 算力。
大规模预训练模型需要大量的 AI 算力支持,用于处理海量的数据,进行大量的计算,以学习数据的内在规律和表现方式,这种训练过程需要高性能的 AI 芯片和大规模的计算资源,才能快速、准确地完成模型的训练。
现实是互联网企业往往不具备搭建大规模算力集群的条件,首先是硬體投入巨大,如 GPU、TPU 等芯片价格昂贵,其次是技术门槛高,从硬體选型、系统架构设计、集群管理、性能优化等方面都需要专业的技术人员,此外还有数据的存储、管理、传输,可扩展集群的性能稳定和效率,还有后续的运营和安全保障等方面,大模型训练是一项复杂的系统工程。
云服务商最大程度简化了大模型算力集群的复杂操作,让互联网企业可以专注于大模型应用层,不过这并不意味着复杂度就此消失,而是云服务商来解决大模型的硬體和軟體问题,目前区别大模型云服务的核心之一,就在于有无可持续的 AI 算力供应。
不论是海外还是国内,都在试图寻找替代英伟达 GPU 的方案。云厂商 " 老大哥 "AWS 早就开始自研芯片,在近日举办的 re:Invent 大会上,AWS CEO Adam Selipsky 宣布了其下一代 Graviton 4 和 Trainium 2 芯片硬體,重点是满足机器学习(ML)训练和生成式人工智能(AI)的需求。
国内云服务商也有所跟进,但程度却远不及 AWS,既有投入资源的局限,也有战略意识不足的原因。受限于海外制裁等原因,华为对于 AI 算力的投入要更早更坚决,当大模型的火热,将 AI 算力提到了一个新的高度,华为云昇腾 AI 算力结合云服务,已经成为互联网企业应用大模型的优选。
华为在最底层构建了以鲲鹏和昇腾为基础的 AI 算力云平台,以及异构计算架构 CANN、全场景 AI 框架昇思 MindSpore,AI 开发生产线 ModelArts 等,为大模型开发和运行提供分布式并行加速,算子和编译优化、集群级通信优化等关键能力。基于华为的 AI 根技术,大模型训练效能可以调优到业界主流 GPU 的 1.1 倍。
华为云昇腾 AI 云服务的存在,使得国内互联网企业有了英伟达之外的另一选择,并且基于昇腾云服务,华为云还提供了全套工具链,如大模型工程化套件,覆盖了数据工程、模型开发和应用开发三大环节。相比传统标注平台,华为云的数据工程套件专门为 SFT 训练提供了 Prompt 在线辅助撰写功能,为 RLHF 训练提供了多人 Rank 在线标注和任务分拨功能。与离线对比,这两种任务实测效率可提升 3 倍。
云服务向底层芯片发展,既是云服务商下一阶段的入场券,也是关乎生存的生死线。
华为做过的难事,到了兑现价值的时候
华为之所以是一家令人尊敬的公司,因为它不只考虑商业利益的最大化,有些短期不可见到价值,甚至长期有可能没有价值的事情,华为也愿意做。
好处是,当历史的脚步恰好落在了某一点,华为之前的积累便能发挥很大的作用。典型如昇腾 AI 云服务,在很长一段时间,国内企业还抱有幻想,认为 AI 算力会像通用算力一样可得,只需要站在巨人的肩膀上再创新,便能复制新的成功,可惜事不遂人愿。
当技术披上了政治的外衣,华为没有就此屈服,而是攻向外界不敢不愿解决的难题,从軟體工具链突破乌江天险,到 MetaERP 强渡大渡河,GaussDB 树立全栈自主数据库第一品牌,再到 " 不作诗,只做事 " 的盘古大模型 3.0 的发布,尽皆如此。
这些产品和服务起初看起来似乎和互联网关系不大,但互联网行业的技术叠加,一定是朝着新的方向,而不是在已经翻烂的领網域里刷存在感,华为云提供了更多的可能性,而且是超前布局,在满足了自身需求之后,将这些能力外化输出。
中国云计算行业发展十余年,简单的事情从来不缺人做,但由先发优势和规模筑就的壁垒,总会一点点被新的需求打破,典型如互联网企业的用云变化,互联网企业早期关心的是有没有云服务,后来关注有没有更好的选择,现在互联网企业更关注一朵云能否长久地提供价值。
制约要素理论(Theory of Constraints)指出,任何一个复杂的系统,都会由少数几个限制因素决定它呈现的结果,一旦找到这些少数限制因素甚至那个最核心的限制因素,就可以利用它来撬动整个系统。
当云服务行至大模型时代,决定性要素便是 AI 算力云服务,没有 AI 算力的云服务,一定会被淘汰,没有持久供应的 AI 算力云服务,也缺少未来的想象空间,互联网行业用云演进与大模型的需求重合,引导云服务朝着新的方向进化。
互联网行业到了更新技术栈的轉捩點,华为云做的大量难事,也到了兑现价值的时候,不管互联网企业向何处去,华为云总是在下一个转角。
(本文首发钛媒体 APP)