中國首個網絡大模型，pick了CPU

今天小編分享的科學經驗：中國首個網絡大模型，pick了CPU，歡迎閲讀。

當電信網絡用上了大模型，會是一種什麼體驗？

以前網絡上若是出了問題，運維人員需得是先靠着經驗反復排查，找到了 " 病根 " 再 " 對症下藥 "。

而現在有了大模型，這事兒的 " 打開方式 " 就變得截然不同了。

首先，網絡上若是出現了問題，大模型已經學會自己去找 " 病根 "了，然後會把它的判斷結果呈現到運維人員的面前。

若是結果跟運維人員的診斷一致，那麼 OK，" 啪的一下 "，問題就可以快速得到解決。

其次，即使診斷結果有所偏差或者描述不夠詳細，運維人員現在也只需做一個動作——問。

大模型不僅會像一位領網域專家一樣，憑借專業且豐厚的知識，對人類提出的問題做詳盡的解答；更重要的是，它還非常得快。

業界一般認為文本生成延時小于 100 毫秒是人類覺得較為舒适的阈值，而這個大模型它的生成速度則是：

首字元時延在 1 秒以内，生成延時在 50 毫秒左右。

因此，即使面對再多再復雜的問題，運維人員工作的感覺就好比旁邊有一位 " 高人 " 在現場指導一樣了。

值得一提的是，這個網絡大模型并不只是個現象級產品，而是已經實實在在的做到了" 上崗 "。

據悉，某電信運營商已經在全國 31 個省将它鋪開應用，日均調用量高達 10 萬次！

也正因如此，就在剛剛落幕的第二屆 " 華彩杯 " 算力大賽 · 智能計算專題賽中，它還拿下了一等獎的好成績，是獲得了官方認證的那種。

另外，方案白皮書《中國電信攜英特爾積極探索基于至強 ® CPU 平台的網絡大模型推理算力方案》也在中國通信标準化協會 CCSA TC610、歐洲電信标準化協會 ENI 產業标準組主辦的雲網運營自智與網絡大模型技術研讨會上正式發布。

那麼接下來，我們就來進一步深入了解一下這個網絡大模型。

當大模型 " 上崗 " 電信網絡

就目前 " 上崗 " 的結果來看，該電信運營商的各級運維人員均已接入網絡大模型。

正如我們剛才提到的，他們運維的方式已經產生了實質性的改變——

專業知識問答、信息篩選、總結信息等等，統統交給大模型來處理即可。

不僅如此，在網絡規劃方面，網絡大模型也在發揮着作用。

它的推理輸出結果已經涵蓋了網絡建設、網絡維護、網絡優化和運營決策等場景。

基層運維人員通過這些結果，就可以實現精準理解與分析規則、自動規則核查；同時，網絡大模型提供的專業領網域專業知識，還可以幫助電信行業方案分析與生成。

或許有小夥伴就要問了，這和市面上的眾多大模型問答產品又有什麼區别呢？

重點就在于夠垂直。

網絡大模型作為行業的 " 專家 "，它所提供的答案是可以深入理解運維人員的用户需求和意圖的，因此生成的答案和知識更精準、更個性化。

生成内容是夠專業了，接下來我們就要聊聊速度的問題。

眾多的運維場景都屬于邊緣端，也正因如此，就會對數據在邊側的即時響應速度提出了較高的要求。

畢竟若是等大模型生成答案還要好幾分鍾，那麼對于運營商網絡故障修復來説就成了臃腫的包袱。

對此，該電信運營商的 " 解法 " 是：

使用滿足OTII 标準（邊緣硬體產業的新标杆）的邊緣伺服器。

邊緣伺服器的部署環境要求要比數據中心高，有時甚至需要部署在一些極端的惡劣情況下。

這意味着邊緣伺服器需要在功耗、體積、耐用性、 TCO 等方面符合特定的要求，能夠在極端高低温、灰塵、腐蝕、震動衝擊、電磁幹擾下保持設備的正常運行。

而該電信運營商所采用的 OTII 伺服器部署在邊緣場景下就具備了相對的優勢，例如針對環境适應的問題，它可以在高温 55 ° 以下工作。

除此之外，它還支持 IP65，符合 EMC ClassB 設計，支持 9 級地震烈度，機身小巧，有 1U/2U/4U 等多種型号，支持挂牆安裝等等。

不僅如此，伺服器還支持前維護，适應邊緣的運維需求，該電信運營商大量的邊緣機房無需任何改造，就可以部署基于 OTII 标準的标準伺服器。

也正因為在如此，便讓數據的及時互動和響應有了強有力的安全保障。

其生成速度也正如剛才所述，已經達到了首字元時延在 1 秒以内，生成時延在 50 毫秒左右，可以滿足大模型推理的功能和性能需求。

就目前來看，網絡大模型已覆蓋網絡" 規、建、維、優、營 "全生命周期五大類場景，圍繞知識問答、輔助助手、智能體三個維度，已經打造了12 個 AI 助手。

具體場景和性能表現如下表、圖所示：

△網絡大模型在不同應用場景中的性能表現

據悉，該電信運營商網絡大模型已實現問答準确率 85%、方案生成可用率 90%、故障處置效率提升 30%、高危指令稽核效率提升 50% 的總體目标。

由此可見，網絡大模型已然是一個合格有效且可放心 " 上崗 " 的 AI 了。

而在它能夠做到 " 夠快、夠準 " 的背後，該電信運營商還有一個殺手锏——

在背後起關鍵作用的算力 " 馬達 "，某電信運營商 pick 的是CPU。

Why CPU？

從上述 " 網絡 " 大模型的應用流程可以看到，模型推理是至關重要的一個環節，它直接決定了故障定位、處置方案的生成速度和準确率。

而這恰恰是 CPU 大顯身手的 " 主場 "。

從電信行業本身的特點來説，歷來整個系統中就有大量的 CPU 存量，無需引入全新的異構架構，而是繼續采用成熟的 CPU 方案，對電信行業來説有幾大優勢：

減少采購環節，降低總擁有成本。

該電信運營商作為全球規模最大的通信運營商之一，其網絡中部署着數以百萬計的 X86 伺服器。這些伺服器往往還處于使用周期内，完全可以通過軟體更新的方式，快速實現大模型的部署與應用。相比重新采購新的硬體設備，這種方式可以大幅降低前期投入，提高投資回報率。

電信行業對系統穩定性要求更高。

電信業務覆蓋範圍廣，涉及社會運行方方面面，從醫療救援到金融交易等等，對連續性要求極高，輕微故障也會直接影響客户體驗。現代通信網絡又是全球最復雜的工程系統之一，一處小小的異常都可能引發連鎖反應，影響整網運轉。而以 X86 平台為代表的英特爾 CPU 架構安全和穩定性經過幾十年的積累和驗證，經得起考驗。

已建立成熟的運維技術團隊。

作為 ICT 領網域的傳統企業，該電信運營商擁有一支規模龐大、經驗豐富的 IT 技術團隊。這些工程師、運維人員，對英特爾 CPU 的微架構、指令集、調優工具等都有着深入的理解和掌握。繼續采用 CPU 部署大模型無需太多學習和培訓成本，大大降低了新技術的采用門檻。

△網絡網絡大模型在不同應用場景中的性能表現

具體到 CPU 產品的選型，" 網絡 " 大模型方案使用第五代英特爾 ® 至強 ® 可擴展處理器作為算力核心，來應對高強度、高并發的大模型推理需求。

首先 , 第五代英特爾 ® 至強 ® 可擴展處理器配備了更多的處理器内核數量、更強的單核性能和更大的三級緩存（LLC）容量。尤其是 LLC 容量的提升 , 使得大多數模型參數能夠直接駐留其中 , 從而大幅提升推理速度。此外 , 每路處理器還支持多達 8 個 DDR5-4800 内存通道 , 能夠有效緩解高内存需求場景下的帶寬瓶頸。

更重要的是 , 第五代至強 ® 還内置了多個專用于 AI 加速的引擎。特别是英特爾 ® AMX ( 高級矩陣擴展 ) ，采用分塊矩陣乘法的創新方式 , 通過 Tile 矩陣乘法單元 ( TMUL ) 對數據實施矩陣運算。并且 AMX 支持 INT8、BF16 等低精度數據類型 , 在保證精度的前提下顯著提高每時鍾周期的指令數。