今天小編分享的科學經驗:中國首個網絡大模型,pick了CPU,歡迎閱讀。
當電信網絡用上了大模型,會是一種什麼體驗?
以前網絡上若是出了問題,運維人員需得是先靠着經驗反復排查,找到了 " 病根 " 再 " 對症下藥 "。
而現在有了大模型,這事兒的 " 打開方式 " 就變得截然不同了。
首先,網絡上若是出現了問題,大模型已經學會自己去找 " 病根 "了,然後會把它的判斷結果呈現到運維人員的面前。
若是結果跟運維人員的診斷一致,那麼 OK," 啪的一下 ",問題就可以快速得到解決。
其次,即使診斷結果有所偏差或者描述不夠詳細,運維人員現在也只需做一個動作——問。
大模型不僅會像一位領網域專家一樣,憑借專業且豐厚的知識,對人類提出的問題做詳盡的解答;更重要的是,它還非常得快。
業界一般認為文本生成延時小于 100 毫秒是人類覺得較為舒适的阈值,而這個大模型它的生成速度則是:
首字元時延在 1 秒以内,生成延時在 50 毫秒左右。
因此,即使面對再多再復雜的問題,運維人員工作的感覺就好比旁邊有一位 " 高人 " 在現場指導一樣了。
值得一提的是,這個網絡大模型并不只是個現象級產品,而是已經實實在在的做到了" 上崗 "。
據悉,某電信運營商已經在全國 31 個省将它鋪開應用,日均調用量高達 10 萬次!
也正因如此,就在剛剛落幕的第二屆 " 華彩杯 " 算力大賽 · 智能計算專題賽中,它還拿下了一等獎的好成績,是獲得了官方認證的那種。
另外,方案白皮書《中國電信攜英特爾積極探索基于至強 ® CPU 平台的網絡大模型推理算力方案》也在中國通信标準化協會 CCSA TC610、歐洲電信标準化協會 ENI 產業标準組主辦的雲網運營自智與網絡大模型技術研讨會上正式發布。
那麼接下來,我們就來進一步深入了解一下這個網絡大模型。
當大模型 " 上崗 " 電信網絡
就目前 " 上崗 " 的結果來看,該電信運營商的各級運維人員均已接入網絡大模型。
正如我們剛才提到的,他們運維的方式已經產生了實質性的改變——
專業知識問答、信息篩選、總結信息等等,統統交給大模型來處理即可。
不僅如此,在網絡規劃方面,網絡大模型也在發揮着作用。
它的推理輸出結果已經涵蓋了網絡建設、網絡維護、網絡優化和運營決策等場景。
基層運維人員通過這些結果,就可以實現精準理解與分析規則、自動規則核查;同時,網絡大模型提供的專業領網域專業知識,還可以幫助電信行業方案分析與生成。
或許有小夥伴就要問了,這和市面上的眾多大模型問答產品又有什麼區别呢?
重點就在于夠垂直。
網絡大模型作為行業的 " 專家 ",它所提供的答案是可以深入理解運維人員的用戶需求和意圖的,因此生成的答案和知識更精準、更個性化。
生成内容是夠專業了,接下來我們就要聊聊速度的問題。
眾多的運維場景都屬于邊緣端,也正因如此,就會對數據在邊側的即時響應速度提出了較高的要求。
畢竟若是等大模型生成答案還要好幾分鍾,那麼對于運營商網絡故障修復來說就成了臃腫的包袱。
對此,該電信運營商的 " 解法 " 是:
使用滿足OTII 标準(邊緣硬體產業的新标杆)的邊緣伺服器。
邊緣伺服器的部署環境要求要比數據中心高,有時甚至需要部署在一些極端的惡劣情況下。
這意味着邊緣伺服器需要在功耗、體積、耐用性、 TCO 等方面符合特定的要求,能夠在極端高低溫、灰塵、腐蝕、震動衝擊、電磁幹擾下保持設備的正常運行。
而該電信運營商所采用的 OTII 伺服器部署在邊緣場景下就具備了相對的優勢,例如針對環境适應的問題,它可以在高溫 55 ° 以下工作。
除此之外,它還支持 IP65,符合 EMC ClassB 設計,支持 9 級地震烈度,機身小巧,有 1U/2U/4U 等多種型号,支持挂牆安裝等等。
不僅如此,伺服器還支持前維護,适應邊緣的運維需求,該電信運營商大量的邊緣機房無需任何改造,就可以部署基于 OTII 标準的标準伺服器。
也正因為在如此,便讓數據的及時互動和響應有了強有力的安全保障。
其生成速度也正如剛才所述,已經達到了首字元時延在 1 秒以内,生成時延在 50 毫秒左右,可以滿足大模型推理的功能和性能需求。
就目前來看,網絡大模型已覆蓋網絡" 規、建、維、優、營 "全生命周期五大類場景,圍繞知識問答、輔助助手、智能體三個維度,已經打造了12 個 AI 助手。
具體場景和性能表現如下表、圖所示:
△網絡大模型在不同應用場景中的性能表現
據悉,該電信運營商網絡大模型已實現問答準确率 85%、方案生成可用率 90%、故障處置效率提升 30%、高危指令稽核效率提升 50% 的總體目标。
由此可見,網絡大模型已然是一個合格有效且可放心 " 上崗 " 的 AI 了。
而在它能夠做到 " 夠快、夠準 " 的背後,該電信運營商還有一個殺手锏——
在背後起關鍵作用的算力 " 馬達 ",某電信運營商 pick 的是CPU。
Why CPU?
從上述 " 網絡 " 大模型的應用流程可以看到,模型推理是至關重要的一個環節,它直接決定了故障定位、處置方案的生成速度和準确率。
而這恰恰是 CPU 大顯身手的 " 主場 "。
從電信行業本身的特點來說,歷來整個系統中就有大量的 CPU 存量,無需引入全新的異構架構,而是繼續采用成熟的 CPU 方案,對電信行業來說有幾大優勢:
減少采購環節,降低總擁有成本。
該電信運營商作為全球規模最大的通信運營商之一,其網絡中部署着數以百萬計的 X86 伺服器。這些伺服器往往還處于使用周期内,完全可以通過軟體更新的方式,快速實現大模型的部署與應用。相比重新采購新的硬體設備,這種方式可以大幅降低前期投入,提高投資回報率。
電信行業對系統穩定性要求更高。
電信業務覆蓋範圍廣,涉及社會運行方方面面,從醫療救援到金融交易等等,對連續性要求極高,輕微故障也會直接影響客戶體驗。現代通信網絡又是全球最復雜的工程系統之一,一處小小的異常都可能引發連鎖反應,影響整網運轉。而以 X86 平台為代表的英特爾 CPU 架構安全和穩定性經過幾十年的積累和驗證,經得起考驗。
已建立成熟的運維技術團隊。
作為 ICT 領網域的傳統企業,該電信運營商擁有一支規模龐大、經驗豐富的 IT 技術團隊。這些工程師、運維人員,對英特爾 CPU 的微架構、指令集、調優工具等都有着深入的理解和掌握。繼續采用 CPU 部署大模型無需太多學習和培訓成本,大大降低了新技術的采用門檻。
△網絡網絡大模型在不同應用場景中的性能表現
具體到 CPU 產品的選型," 網絡 " 大模型方案使用第五代英特爾 ® 至強 ® 可擴展處理器作為算力核心,來應對高強度、高并發的大模型推理需求。
首先 , 第五代英特爾 ® 至強 ® 可擴展處理器配備了更多的處理器内核數量、更強的單核性能和更大的三級緩存(LLC)容量。尤其是 LLC 容量的提升 , 使得大多數模型參數能夠直接駐留其中 , 從而大幅提升推理速度。此外 , 每路處理器還支持多達 8 個 DDR5-4800 内存通道 , 能夠有效緩解高内存需求場景下的帶寬瓶頸。
更重要的是 , 第五代至強 ® 還内置了多個專用于 AI 加速的引擎。特别是英特爾 ® AMX ( 高級矩陣擴展 ) ,采用分塊矩陣乘法的創新方式 , 通過 Tile 矩陣乘法單元 ( TMUL ) 對數據實施矩陣運算。并且 AMX 支持 INT8、BF16 等低精度數據類型 , 在保證精度的前提下顯著提高每時鍾周期的指令數。
軟體方面,方案還引入了一系列英特爾 AI 工具來進一步釋放硬體潛力。
例如 , 英特爾開源的分布式推理優化框架 xFastTransformer(xFT),可基于至強 ® 平台的指令集實現張量并行、流水線并行等多種性能優化,并支持 BF16、INT8、INT4 等多種數據類型以及多種主流大模型。
這些 AI 軟體工具實現了對主流 AI 開發框架的全面兼容,使得網絡大模型無需修改代碼即可從 GPU 遷移到 CPU,真正實現 " 一次編寫,随處部署 "。
此外 , 得益于 CPU 的能效優勢 , 采用第五代至強 ® 方案還能顯著降低模型運營的能耗成本。數據顯示 , 第五代至強 ® 的開箱即用能耗比較上一代提升高達 34%, 啟用 BIOS 優化後還可進一步提高。
除了對 CPU 本身的選擇,網絡大模型由于需要部署到生產一線,有時甚至需要在極端惡劣環境部署,對于整個伺服器的要求非常高。
為了更好地滿足業務需求并提升使用體驗,該電信運營商選用了符合 OTII 标準的邊緣伺服器。
OTII 标準由英特爾聯合中國通信标準化協會、該電信運營商等企業共同制定,滿足電信邊緣場景對開放性、可擴展性的要求,涵蓋了伺服器外形、散熱、電源、管理等各方面的規範,在功耗、體積、耐用性等方面符合特定要求,能在極端高低溫、灰塵、腐蝕、震動衝擊、電磁幹擾等情況下保持運行。
由此可見 , 選擇 CPU 進行網絡大模型推理部署 , 已被該電信運營商這樣的大型企業實際驗證。這既是出于技術成熟度與穩定性的考量 , 更契合了企業客觀的 IT 環境與人才儲備。
該電信運營商的實踐表明,在時延、吞吐、功耗等關鍵指标上,CPU 不僅可以滿足嚴苛的業務需求,借助軟硬體的聯合優化,推理成本也大幅下降。
特别是該方案還在 2024 華彩杯取得好成績,為大模型在更多場景應用打造了一個标杆。該電信運營商和英特爾的合作模式,也成為一個可以值得借鑑的 " 範本 "。
随着未來技術發展,大模型還會深入走進更多行業,需要在性能、功耗、成本、易用性等多方面實現最佳平衡。
總的來說,CPU 在 AI 推理加速上仍然大有可為。
最後讓我們打個小廣告:為了科普 CPU 在 AI 推理新時代的玩法,量子位開設了《最 "in"AI》專欄,将從技術科普、行業案例、實戰優化等多個角度全面解讀。
我們希望通過這個專欄,讓更多的人了解 CPU 在 AI 推理加速,甚至是整個 AI 平台或全流程加速上的實踐成果,重點就是如何更好地利用 CPU 來提升大模型應用的性能和效率。
>