今天小編分享的互聯網經驗:要我説,人工智能還得看英特爾,歡迎閲讀。
2023 年 12 月 15 号,英特爾發布了第五代英特爾至強可擴展處理器(以下簡稱第五代至強),大幅度強化了在人工智能方面的表現,為此還特意請了二手玫瑰樂隊來熱場。對于了解人工智能行業或者了解 CPU 的人來説會耐人尋味,因為在人工智能領網域中,GPU 往往才是那個起決定性作用的,英特爾作為 CPU 的代表,為什麼會也強調人工智能的表現呢?
對于人工智能企業,通常會以伺服器搭載的 GPU 來決定其性能。這是因為當下人工智能所使用的神經網絡非常復雜,想要計算出一個完整且靠譜的結果,就需要将一個大任務劃抽成多個小任務,再同時執行,這種方法稱作是并行計算。另一方面,由于多個任務同時執行,那就需要更多的節點加入到整個計算的過程中,也就是分布式計算,常見的分布式計算框架包括 MapReduce 和 Spark 等。
将上述兩種計算方法綜合在一起,再加上數據結構和軟體優化,就是人工智能領網域總是挂在嘴邊的密集計算。GPU 具備大量的并行計算核心,可以同時處理多個數據并行任務。此外,GPU 對影像、視頻等非傳統數據結構的密集型任務處理效果更好。再加上 GPU 還有高效的内存訪問模型(比如 HBM3 和 GDDR6),就讓更多的人工智能企業只在乎 GPU 而忽略了 CPU 的重要性。
誠然,GPU 肯定是有 GPU 的好處,但事實上 CPU 亦是不可或缺,乃至至關重要的一環。讓我們把麥克風交給英特爾,看看這位 CPU 老牌廠商是怎麼做的。英特爾發布的第五代至強,單從平均性能上看,比第四代至強高出了 21%。
第五代至強更新了幾個重要的方向,以加速人工智能密集計算。第一個就是高級矩陣擴展(英特爾 AMX),支持 INT8 和 BF16 這兩種數據類型的深度學習訓練和推理。INT8 是指使用 8 位二進制表示整數的數據格式。在人工智能領網域,INT8 被廣泛用于量化模型和低精度推理,以提高計算效率和減少存儲需求。相比于更高位數的整數或浮點數,INT8 占用更少的内存空間,可以減少數據傳輸和存儲的消耗。雖然 INT8 表示的數值範圍較窄,但在許多人工智能應用中,精度要求相對較低,使用 INT8 可以在不顯著降低模型性能的情況下大幅提高計算速度。
BF16 就更厲害了,這是一種浮點數格式,使用 16 位二進制表示浮點數。它在位數上比較接近于傳統的半精度浮點數(16 位),但在指數部分和尾數部分的位分配上有所變化。BF16 在人工智能領網域中用于深度學習模型的訓練和推理,尤其是在使用混合精度計算(Mixed Precision)的情況下。相比于傳統的單精度浮點數(32 位),BF16 可以在減少内存消耗的同時,保持對模型參數和計算結果的較高精度。它是一種平衡了計算性能和精度需求的浮點數格式。
那麼回到剛才提到的,數據結構是構成密集計算的關鍵,支持更多種類的數據結構就會提高密集計算的效率。這是 CPU 在人工智能方面性能更新的核心之一。第五代至強第二點更新是寄存器的帶寬以及加裝了兩個 FMA 單元。
寄存器(Register)是計算機體系結構中的一種存儲器件,用于存儲臨時數據和指令操作數。寄存器位于 CPU 内部,是與 CPU 内部數據通路直接連接的高速存儲器。與内存相比,寄存器具有更快的訪問速度和更低的延遲。寄存器帶寬越高,性能就越好。
FMA(Fused Multiply-Add)單元是一種計算單元,用于同時執行多個浮點數乘法和加法操作。它是現代 CPU 的一個重要部分,用于實現高性能的浮點數運算。FMA 單元可以用較低的延遲和更高的吞吐量進行浮點數乘加運算。FMA 單元可以在一次指令周期内執行一個乘加操作,利用了乘法和加法之間的數據依賴性。這種乘加操作常用于矩陣乘法、向量加權和神經網絡的計算等任務中,可以加速復雜的數值計算。
説了這麼多產品的技術那麼回到性能層面,第五代至強相較于第四代至強在推理方面的性能提升了 42%,自然語言處理的性能提升了 23%,影像分類和目标檢測性能提升了 24%,運行參數量在 200 億以下的大語言模型時,能夠實現詞元處理時延低于 100ms。
英特爾努力給誰看?
我要是英特爾我肯定選擇擺爛,因為 CPU 的工作方式是指令解碼和執行,通過從内存中獲取指令,并将其解碼成可執行的操作。在拿到任務以後,分配給其他單元,比如算術邏輯單元、控制單元等。有點像是工地上的工頭,分配工人們搬磚、砌牆。
CPU 的優點是極強的單線程執行能力、靈活、以及高可編程性。可這些優點在人工智能的密集計算中并不是很需要,這也是為什麼我剛才説 " 如果我是英特爾,那我會開始擺爛 "。畢竟逆風局,打得太累了。可英特爾之所以繼續加把勁,原因在于英特爾的戰略規劃。
這時候就要搬出這張圖了。
英特爾產品規劃圖
這張圖描述的是英特爾至強處理器產品的規劃,從 2024 年開始,產品線會增加一倍,分别為 P-core 至強和 E-core 至強。P-core 指的就是高性能,E-core 指的就是低功耗。就從起名方式來看,也知道下一代至強 E-core 版有多麼特殊。從 2017 年的第一代至強開始,其代号分别為天湖、喀斯喀特湖、庫珀胡、冰湖、藍寶石急流、翡翠急流、花崗岩急流,都是水相關的。而下一代至強 E-core 叫做 Sierra Forest。
Sierra 并不是英語,而是西班牙語,意思為山脈。比如 Sierra Nevada 就是内華達山脈的意思,那麼 Sierra Forest 就是山地森林的意思。那我考考你,如果你是一個大型人工智能企業,你有很多預算,如果英特爾推出了下一代至強產品,你應該買更高性能的 P-core 版,還是更低能耗的 E-core 版?
這是一個很反直覺的事情,答案是 E-core。大規模客户往往已建立好伺服器集群,伺服器跟 3C 產品不一樣,企業客户換代不需要頻繁更新換代,但是會替換一些過時的伺服器產品以填補人工智能領網域的算力需求。這時候性價比更高的 E-core 給了大規模客户更多的選擇空間,能用更少的預算達到相同的目标,而且大規模的伺服器集群,維護成本是指數級上漲的,低能耗的產品就意味着運維成本更低。事實上,一台伺服器從采購到報廢,90% 的成本,甚至可以説 99% 的成本都是運維。
另外一點,第四代至強和第五代至強采用的制程都是 Intel7。説到這裏補充一個冷知識,包括英特爾内部人員在内仍有很多人分不清,Intel7、Intel4、Intel3,代表的不是咱們説的 3 納米、4 納米和 7 納米,而是英特爾獨有的制程規劃。Intel7 和 10 納米差不多、Intel4 和 7 納米差不多。從規劃圖中可以看到,下一代至強直接跳過了 Intel4,直接使用 Intel3。雖然現在還不清楚 Intel3 制程的具體參數,不過可以猜到,應該會比 2023 年所有高精尖芯片的性能都要強。
芯片制程越小,CPU 能耗就越低,這也正是當下所有人工智能,尤其是大型人工智能企業最需要的。再加上 E 核和 P 核的戰略,可以明顯看出英特爾在 2024 年主打一手專門針對人工智能企業強化銷售,進而提高企業收入。
回到第五代至強,既然英特爾很清楚怎麼提高人工智能時代下的銷售額,那麼首先就需要給市場打一針強心劑,或者説用產品來給企業定性。讓英特爾的客户以及潛在客户明白,即使步入了人工智能領網域,GPU 當道的局面,你照樣得需要一顆 " 燈,等燈等燈 " 的 CPU。英特爾在 15 日發布會上強調無數次,説 2023 年是 AIPC 的元年,這可不是随口找個 slogan,綜上所述,人家可是真的這麼玩的。