預見2024：大模型成長進入關鍵期，探究AI背後的算力戰争

今天小編分享的互聯網經驗：預見2024：大模型成長進入關鍵期，探究AI背後的算力戰争，歡迎閲讀。

圖片來源 @視覺中國

文 | 元宇宙新聲，作者 | 賈桂鵬

距離大模型橫空出世已經過去一年有餘，在 AI 大模型的浪潮下，各大科技企業争先恐後地推出了自家的大模型產品。

與此同時，各行業企業也對大模型保持着高度關注，一些其他行業的企業也紛紛跨界布局大模型相關產品。

面對着全球都在追逐的大模型浪潮，這也使其對算力需求無處不在，但算力供給相對有限，" 缺口 " 或許将影響人工智能的發展。未來，算力問題也成為各行業實現人工智能普惠的最大難點。那麼，這一困局如何破解呢 ?

大模型在流行

《北京市人工智能行業大模型創新應用白皮書 ( 2023 年 ) 》中顯示，截至 2023 年 10 月，我國 10 億參數規模以上的大模型廠商及高校院所共計 254 家，分布于 20 餘個省市 / 地區。

商業咨詢機構愛分析的報告稱，2023 年中國大模型市場規模約為 50 億元，預計到 2024 年這一數字将達到 120 億元。

顯然，2024 年，大模型将繼續其火熱的現象，在 2023 年形成的百模大戰競争将會進一步白熱化，進一步滲透到各行各業的數字化進程中。

我們看到，大模型真正的價值在于行業側的應用落地，就目前業内對大模型的認知來看，絕大多數人對大模型相關產品的發展觀點類似于互聯網，消費級只是開始，產業級價值更大。

但如同互聯網一樣，消費互聯網發展迅速，甚至已經接近 " 天花板 "; 產業互聯網也僅是近年來在政策引導，數字技術驅動下，逐步發展提速。

為什麼大模型技術是產業界的一次革命呢 ?

一直以來，AI 在產業化的進程當中，發展得非常慢。那麼在大模型的技術出來後，我們認為它來到了一個轉捩點。

需要了解的是，大模型不僅是一個聊天機器人，也不是像抖音、快手這樣讓人消磨時間的娛樂軟體。它是一個提高生產力的工具，不僅僅是公司間競争的利器，更重要的是，它像發電廠一樣，把以前很難直接使用的大數據從 " 石油 " 狀态加工成了 " 電 "。而 " 電 " 是通用的，就能賦能百行千業，就能夠在實體經濟轉型數字化、智能化的過程中發揮重要的作用。

據有關機構預測，未來三年，在生產經營環節應用 AI 大模型的企業占比将提高到 80% 以上。

為了進一步釋放 AI 的效果，我們需要推動產學研用的深度融合，強化高價值的數據、高性能的算力、高質量的算法和協同創新，加快關鍵技術突破和產業應用，讓 AI 不僅會寫文章做 PPT，更能夠實際應用于各個領網域。

然而，随着大模型的不斷發展，我們也面臨着一些挑戰。

比如，目前的大模型是萬事通，但不是行業通。如果你真的用過大模型，在震驚完它什麼都會之後，你會發現一旦問它一些行業的問題，它就會説很多概念性的正确廢話。也就是説，大模型對行業理解的深度還遠遠不足。

大模型無法保證生成的内容完全可信，或者説大模型能產生知識模糊、制造知識幻覺。比如它會輸出 " 賈寶玉打虎 "" 林黛玉三打白骨精 " 等不符合事實的信息。

我們認為，相比于 AI 大模型自身發展的問題，算力不足的問題更顯突出。由于大模型的規模龐大，需要巨大的計算資源來進行訓練和推理。

但現有的計算基礎設施還無法滿足這一需求，這導致了訓練時間過長、推理速度緩慢等問題。這不僅限制了大模型的應用範圍，也制約了我們的創新步伐。

AI 時代，算力需求增加

我們看到，GPT-3 實際上是生成語言生成模型，他參數量大概 1750 億，而随着 GPT-4 和未來 GPT-5 的推出這個發展趨勢還會延續。

比如，對标 GPT-3 和 GPT-4 模型，GPT-3 模型訓練使用了 128 台英偉達 A100 伺服器 ( 訓練 34 天 ) ，對應 640P 算力，GPT-4 模型訓練使用了 3125 台英偉達 A100 伺服器 ( 訓練 90 — 100 天 ) ，對應 15625P 算力。從 GPT-3 至 GPT-4 模型參數規模增加約 10 倍，但用于訓練的 GPU 數量增加了近 24 倍 ( 且不考慮模型訓練時間的增長 ) 。

從全球算力的表現狀态分析來看，從 22 到 23 年經歷了疫情，數字經濟其實在這幾年增長還比較快。

尤其數字化優先成為企業重要的戰略發展途徑。所以算力已經成為整個行業裏面科技的更新和迭代的一個重要支撐。

未來算力發展的趨勢

眾所周知，人工智能實現方法之一為機器學習，而深度學習是用來實現機器學習的技術，通常可分為 " 訓練 " 和 " 推理 " 兩個階段。

訓練階段：需要基于大量的數據來調整和優化人工智能模型的參數，使模型的準确度達到預期，核心在于算力。

推理階段：訓練結束後，建立的人工智能模型可用于推理或預測待處理輸入數據對應的輸出，這個過程為推理階段，對單個任務的計算能力不及訓練，但總計算量也相當可觀。

雖然，目前算力的需求在不斷增加，也導致了出現 " 算力危機 "，但我們看到突破這些危機的一些技術趨勢。

第一個趨勢，在算力層面，我們看到通用算力正在轉向專用算力，也可以稱為智能算力。專用算力包括以 GPU 為核心的并行訓練加速，例如，英偉達 DPU，谷歌的 GPU，還有新型的算力形态，如 NPU 等，用于加速 AI 載體。

第二個趨勢是從單點到分布式的發展。在十多年前，我們可能只需要使用 CPU 進行 AI 模型訓練，然後逐漸轉向 GPU 加 CPU 的方式。當時由于 CPU 和 GPU 的編程方式不同，需要重新編譯兩次才能在 CPU 和 GPU 上運行，因此在那個時候，AI 模型通常在單台機器上單卡上運行。随着模型參數的增加和模型類型的多樣化，從單機單卡逐漸演變成了單機多卡，然後随着 GPU 的崛起，從單機多卡又發展為分布式訓練。這也使得模型訓練的速度更快。

第三個趨勢是能耗和可持續性。随着訓練集群的出現，能耗上升成為一個問題，數據中心需要進行改建和更新以滿足能耗要求，這也引發了合規和可持續性的關注。高能耗需要政府批準，因此降低能耗、實現綠色和節能成為趨勢。

第四個趨勢是軟硬結合。從純硬體走向軟硬體結合，尤其是英偉達等公司的帶領，軟體生态系統變得至關重要。軟體工程師和人工智能算法工程師的參與推動了這一趨勢。