今天小編分享的科學經驗:如果沒有AI算力,大模型這場戰役我們可能勝不了,歡迎閲讀。
沒想到,在 ChatGPT 爆火後的一年裏,竟然出現了一個隐藏 "Boss" ——
量子位獲悉,百度、360 等互聯網大廠均已開始基于昇騰部署 AI 模型;而知乎、新浪、美圖這樣全速推進 AI 業務的公司,背後同樣出現了華為雲昇騰 AI 雲服務的身影。
明面上,大模型帶動了 N 卡炙手可熱;但另一面,國產算力提供者中的頭部企業華為也浮出水面。
有意思的是,上述提到的玩家,目前展現的共性也非常明顯:無一例外都是有場景的互聯網玩家。
簡單解釋,就是這些公司在大模型變革之前,基本都在各自的行業中有穩定的業務生态,也有核心的商用場景。
毫無疑問,他們需要更快更高效讓大模型引擎轉動,可以更快產生最直接的價值,雲算力是最合适的選擇。
國内算力市場,悄然生變
解題就得從大背景展開,國内算力市場的供給和需求,正在產生方向性變化。
首先是資源的供給,也就是提供算力的市場,出現了變化。
從去年開始,國内市場就出現了 "N 卡難求 " 的情況。為此英偉達輪番推出特供版 GPU,在算力和功率上一再縮水,但還是受到限制。最近才有風聲的 HGX H20 和兩款新的 GPU,也被曝可能推遲到明年 2 月或 3 月才能發布。
一系列算力供給縮水動作,使得國内市場上已有的英偉達系列顯卡進一步稀缺,算力一個月内漲價 50% 甚至 100% 已是常态。
據《經濟參考報》介紹,由于算力資源持續緊張,國内算力服務公司如匯納科技,已經在 11 月中旬拟将所受托運營的内嵌英偉達 A100 的高性能算力伺服器算力服務收費同步上調 100%。
與此同時,國内互聯網廠商因大模型急速增長的算力需求,又加劇了這種緊張的局面。
先是國内大模型數量激增,10 月份統計數據顯示,國内已發布了 238 個大模型。
每一個大模型背後都意味着海量算力的投入,綜述《A Survey of Large Language Models》顯示,650 億參數大模型 LLaMA,在2048 塊 80G A100上訓練了 21 天;而 700 億大模型 LLaMA 2,同樣用了2000 塊 80G A100訓練。
然而,AI 算力需求還會持續上漲。
據 OpenAI 測算,自 2012 年以來,人工智能模型訓練算力需求每 3~4 個月就翻一番,每年訓練 AI 模型所需算力增長幅度高達 10 倍。
△圖源 OpenAI
顯然,随着 AI 成為全球產業的增速引擎,算力作為背後的驅動力自然關注不小,甚至出現了 " 誰能争搶到算力,誰就更有先發權 " 這樣的説法。
一方面,如果算力跟不上,無法搭上 AI 這班快車,直接面臨的結果就是在競争中落于下風,甚至可能被行業抛棄。
360 公司創始人周鴻祎曾經談到,公司如果沒有搭上 ChatGPT 這班車,很有可能會被淘汰。
與之相反,如果及時跟進潮流,公司就能憑借已有場景,快速在行業競争中獲得優勢。像是一度裁員 12% 的美版頭條 BuzzFeed,在宣布和 OpenAI 合作使用 ChatGPT 幫助創作内容後,股價一度暴漲 119%。
另一方面,算力的充足與否,又直接決定了擁有 AI 技術和產品的公司,能否提供長期穩定的服務,從而在這場競争中擁有先發權。
即使是在這場潮流中占據主導話語權的 OpenAI,也面臨算力緊張而無法滿足用户需求、被迫将用户 " 拱手相讓 " 的問題。
例如前不久,ChatGPT 出現了幾次流量過大、伺服器承載不下導致應用響應崩潰的情況,導致國外用户争相湧向谷歌 Bard 和 Anthropic 的 Claude 2;付費訂閲產品 GPT-4,同樣因為伺服器流量爆炸而出現 " 暫停訂閲 " 的情況。
但當下算力受限的情況,導致傳統互聯網企業要想快速跟上 AI 大模型相關的業務,無法再單單依靠 " 買卡 " 這一條路。
畢竟光是等待算力龍頭如英偉達發卡的時間,很可能就已經錯過了這一波風口。
相比之下,有場景的互聯網玩家,一旦有合适的算力,就能更快接入 AI 大模型相關的業務,從而在這場競争中獲得先發話語權。
在這樣的需求下,像華為雲這樣的國產算力玩家,再度成為國内互聯網廠商們關注的對象。
作為有算力、能提供雲服務、最早适應大模型打法的雲廠商之一,華為雲究竟為何能在一眾算力供給者中脱穎而出,為有場景的玩家們所看好?
為什麼是華為雲?
在行業調研中,行業玩家們對大模型時代的雲服務,有 4 大普遍性訴求:
算力可持續
高效長穩
簡單易用
開放兼容
而之所以選擇華為雲,從其 " 對症下藥 " 的技術細節就能管窺一二。
其架構由下至上,包括 AI 算力、異構計算架構、AI 框架、AI 平台、大模型、工具鏈幾個層級,由此構成一個算力充沛、高效穩定、低門檻廣生态的雲底座。
1、算力可持續
可持續的算力能從最根本上緩解行業玩家們的算力焦慮,同時也是大模型快速煉成、應用落地的基本保障。
在這方面,華為雲打造了貴安、烏蘭察布、蕪湖3 大 AI 雲算力中心,提供 3 大主節點及 30+ 分節點,支持 AI 算力即開即用。
昇騰 AI 集群也在今年全面更新,集群擴展至16000 卡,成為業界首個萬卡集群。它可支持萬億參數大模型分布式訓練。
此外在保障算力資源合理分配方面,華為雲支持資源彈性伸縮,可根據業務需求實際情況,自動增加或縮減伺服器實例或帶寬資源,可在保障業務能力的同時節約成本。
2、穩定高效
先來看穩定性。
由于大模型訓練過程比傳統分布式訓練更復雜,導致訓練所需計算集群規模空前增加、涉及器件數量往往在百萬 / 千萬級别。如果單器件發生故障,就可能導致集群訓練中斷,且故障原因定位定界復雜。
這就使得當前大模型訓練更容易出現故障,訓練時間被拉長。
以 Meta 的 OPT-17B 訓練為例,理論上在 1000 個 80G A100 上訓練 3000 億個單詞,需要 33 天。實際訓練卻使用了 90 天,期間出現了 112 次故障。其中主要問題是硬體故障,導致手動重啓 35 次,自動重啓約 70 次。
△OPT-175B 意外中斷情況
在這方面,華為雲昇騰 AI 雲服務支持裸金屬集群進行大模型訓練,無虛拟化損失,并行訓練效率提升 100%。從處理器、算子、框架、平台全鏈路垂直協同優化,主力場景性能是業界平台的1.5 倍以上。
以盤古大模型(2000 億參數)在 2048 卡上的訓練為例,實現了30 天訓練不中斷,長穩率達到 90%,斷點恢復時長控制在 10 分鍾以内。
此外華為雲還實現了千卡預訓練故障自動診斷恢復,增強智能運維工具能力,實現分鍾級信息獲取、2 小時定界、24 小時提供解決方案。
△華為常務董事、華為雲 CEO 張平安
再來看高效性,這是場景玩家們的迫切需求。
但是千億參數大模型在訓練中需要大量的梯度、參數等進行同步,集群很難實現線性加速比。即,增加了一倍的計算集群規模,但是計算量無法同比增加。比如:
1024 卡集群:計算和通訊比例為 7:3
2048 卡集群:計算和通訊比例為 4:6
華為雲昇騰 AI 雲服務通過模型 + 集群的混合并行策略,讓模型切分更加平衡,從而實現集群接近線性加速比。
1024 卡集群:計算和通訊比例為 85:15
2048 卡集群:計算和通訊比例為 80:20
4096 卡集群:計算和通訊比例為 70:30
以及在訓練成本方面,華為雲昇騰 AI 雲服務使用 CAME 優化器,相較于業内常用方案可節約 50% 内存用量。
要知道,大模型的海量參數會導致訓練時内存消耗空前增加,進一步導致訓練成本升高。CAME 優化器專為大模型訓練而來,獲得了 2023 年 ACL 傑出論文獎。
3、簡單易用降低開發門檻
如今 ChatGPT 引爆的大模型趨勢已經全面鋪開,來自千行百業的玩家們都迫切想要快速将大模型接入自己的業務中。
但是大模型開發又是一個復雜的系統工程,從頭開始自己摸索會影響落地速度。
所以雲服務廠家們紛紛推出了簡單易用的開發工具。比如華為雲提供了全鏈路工具鏈,雲化免配置、開箱即用,可實現 5 倍速開發大模型。
它包括大模型開發工具套件,可自動化、半自動化數據工程,效率提升 3 倍,5 分鍾快速構建應用開發。
調試調優部分包含 1400+ 算子沉澱,30+ 可視化調優部署工具;提供豐富的 API 能力,可調用盤古大模型 100+ 能力集。
還能将典型模型遷移效率提升到2 周内搞定,實現主流場景自主遷移。
4、構建開放兼容生态
最後,并非所有場景玩家都需要從頭構建大模型。選擇在已有基礎大模型上進行微調或者直接使用,是更加降本增效的方案。
那麼對于開發者、行業玩家而言,有更多選擇就很重要了。
基于這一點業内需求,華為雲上線了百模千态社區,企業和開發者能直接使用業界主流的開源大模型,如 Llama、GLM 等。同時聚合數據集、模型、實踐等 10 萬 +AI 資產。
為了滿足開發者的不同偏好,昇騰 AI 雲服務已兼容 TensorFlow、PyTorch、RAY、Caffe 等 AI 框架。
進入昇騰 AI 雲服務百模千态專區,僅需 3 步即可開發自己的大模型。
基于如上雲服務能力,華為雲已經給業内諸多玩家提供了大模型使能服務。
比如美圖僅用 30 天就将 70 個模型遷移到了昇騰,同時華為雲和美圖團隊一起進行了 30 多個算子的優化以及流程的并行加速,AI 性能較原有方案提升了 30%。
昆侖萬維和華為雲籤署戰略合作,雙方将在華為雲昇騰算力領網域展開全面深入合作,致力于打造企業專屬模型,支持企業級 AI 應用,持續賦能千行萬業應用創新與場景落地。
△華為雲 CTO 張宇昕
在當前算力稀缺、資源不足的情況下,這些場景玩家選擇與華為雲這樣的雲廠商聯手,來快速增強自身 "AI 硬實力 "。
而這種大背景之下,也湧動着當前的產業趨勢:
技術創新的曲線開始趨于平緩,商業創新的曲線開始發力。
其中,增速最快的,自然是有場景、有業務的玩家。
場景玩家如何把握 AI 落地機遇
ChatGPT 發布一年以來,AIGC 已行至下半場。
上半場,國内外掀起一股基礎大模型技術争鋒浪潮," 百模大戰 " 态勢之下,湧現出一批 AI 初創公司。
這些公司或掌握底層 AI 架構基礎、或有搭建上層 AI 工具的經驗,依靠技術發布了不少有創意且吸睛的產品,融資更是拿到手軟。
然而,随着相關技術逐漸從開疆拓網域走向穩定成熟,AIGC 產業也出現了新的變化。
下半場,AI 技術公司開始追求產業落地,不少初創公司更是在尋求擴大生态圈的方式。
相比之下,有場景的互聯網公司,通過觀察 AIGC 技術優勢,依托生态優勢、加上算力基礎,就能快速擴大影響力,進而在公司中取得話語權。
在這種情況下,技術和場景玩家的身位也在悄然發生變化——
技術玩家,需要 " 拿錘找釘 ",面臨進一步擴張技術生态和產品場景的難題。
雖説這些玩家已經具備了成熟的基礎大模型或工具鏈技術,但技術仍舊需要找到場景,才能進一步穩定出圈。
相比之下,場景玩家成為了 " 拿釘找錘 " 的一方。
依托已有場景需求和穩定用户生态,這些玩家只需将 AIGC 技術融入業務,就能進一步實現降本增效。
然而,即便是 AIGC 技術趨于成熟的當下,想要快速跟進也并非易事,除了底層的算力搭建以外,大模型所需的訓練和加速等技術也并非就能 " 一蹴而就 "。
在這樣的下半場态勢中,像華為雲這樣底層算力、AI 相關技術和平台、生态三者齊備的國内雲廠商,在場景玩家的發展中進一步起到了催化劑的作用。
底層算力上,華為雲依托自研的昇騰處理器打造的超大規模 AI 集群,已經由 4000 卡更新到 16000 卡集群,能支持萬億級模型訓練,不僅速度更快,訓練周期也更穩定;
AI 相關技術和平台上,除了 AI 算力之外,華為雲還為開發者提供了完善的工具和資源,解決了 AI 大模型部署從訓練、加速到不同框架适配這些難題,進而基于已有的研發經驗,給廠商提供運營所需的技術服務;
AI 生态上,華為雲已經與 150 多家夥伴、200 多家客户,共同構築了 20 多個行業大模型以及 400 多個 AI 應用場景,加速行業智能化更新。
所以,在當前國際大環境下,有場景的玩家,只需要借助像華為雲這樣的雲廠商提供的技術服務,就能快速将下半場大模型機遇變成紅利,而華為雲也能給國内的互聯網企業提供更多選擇。
現有的趨勢,也能説明這一點。
美圖首個懂美學的 AI 視覺大模型發布當天,股價單日上漲 21.28%,随後更是受到國内影像編輯工具行業的廣泛關注;
拓維信息發布的交通 CV 大模型,如今已在高速公路稽核等行業場景得到應用,這 1 年一來股價上漲了 129.44% ……
顯然,這些玩家基于自身已有的業務,再依托雲廠商提供的大模型和算力,就能快速将場景勢能發揮到最大優勢。
但無論選擇什麼類型的雲廠商、做出怎樣的判斷,國内互聯網企業都依舊需要回到當前的大環境下,結合客觀形勢做出判斷。
在國外算力購買愈發困難的當下,面臨新一輪 AI 競争趨勢,如何讓算力像水電一樣即取即用,是所有國内企業都應當要思考的問題。
事實上,如今中國的算力水平實際上已經位居世界第二,占全球市場比重達 25%,從 2017 年到 2022 年的復合增長率達到 48.8%。
當更多的企業願意投資算力、交易算力,就能推動算力產業進一步降本增效,加快算力向現實生產力轉化。
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>