預測超長蛋白質這事，CPU赢了

今天小編分享的科學經驗：預測超長蛋白質這事，CPU赢了，歡迎閱讀。

AI 模型的推理在 CPU 上完成加速和優化，竟然不輸傳統方案？

至少在生命科學和醫療制藥方向，已經透露出這種信号。

例如在處理 AlphaFold2 這類大型模型這件事上，大眾普遍的認知可能就是堆 GPU 來進行大規模計算。

但其實從去年開始，CPU 便開始苦練内功，使端到端的通量足足提升到了原來的 23.11 倍。

而現如今，CPU 讓這個數值 great again ——再次提升 3.02 倍！

不論是像抗菌肽這種較短的氨基酸序列，還是像亨氏綜合征蛋白這樣超長的序列，都可以輕松 hold 住。

而且所有的預測任務，在不考慮最高通量、僅僅是順序執行，8 個小時就能全部搞定。

甚至國内已經有雲服務提供商做了類似的優化方案：

相比于 GPU，基于 CPU 的加速方案在性價比上更為理想，而且在特定的情況下（超過 300 或 400 氨基酸），幾乎只有 CPU 能把它算完，而 GPU 的失敗率會很高。

要知道，像 AlphaFold2 這類任務，可以說是公認的 AI for Science 标杆。

從上述的種種迹象表明，CPU 不再是 " 你以為的你以為 "，而是以一種新勢力進軍于此，并發揮着前所未有的威力。

CPU，正在大步邁進新時代。

英特爾自己刷新自己

事實上，此次備受關注的 CPU 加速方案，背後不是别人，正是發明了 CPU 的英特爾。

2022 年，英特爾以第三代至強 ®️ 可擴展處理器為硬體基座，使 AlphaFold2 通量優化提升達 23.11 倍。一年後，他們在此基礎上，再次實現自我刷新。

2022 年，英特爾基于第三代至強 ®️ 可擴展平台，針對 AlphaFold2 的設計特點，在預處理、模型推理、後處理三階段實現了端到端優化。

如今，原有的五大端到端基礎步驟之上，第四代至強 ®️ 可擴展處理器的加入，再次給 AlphaFold2 帶來整體推理性能的提升。

此次優化方案主要圍繞預處理和模型推理兩個方面，基本劃分為五個步驟。

第一步：預處理階段，借助第三代或第四代至強 ®️ 可擴展處理器的多核優勢及其内置 AVX-512 技術，實現針對性的高通量優化。

第二步到第五步模型推理階段的優化，與 2022 年方案類似。

第二步，将深度學習模型遷移至面向英特爾 ®️ 架構優化的 PyTorch，并逐模塊地從 JAX/haiku 完成代碼遷移。

第三步，引入 JIT 圖編譯技術，将網格轉化為靜态圖，以提高模型推理速度。

第四步，切分注意力模塊和算子融合，即對注意力模塊進行大張量切分的優化思路；與此同時，使用 IPEX（英特爾 ®️ 擴展優化框架，建議版本為 IPEX-2.0.100+cpu 或更高）對 Einsum 和 Add 兩種算子進行融合。

第五步，借助至強 ®️ 可擴展平台的計算和存儲優勢實施針對性優化。比如基于 NUMA 架構技術，挖掘多核心優勢，破解多實例運算過程中的計算和内存瓶頸。

不過除了提供更強的基礎算力，第四代至強 ®️ 可擴展平台還帶來了諸多針對 AI 工作負載的優化加速技術。

具體可以拆分為四項：（詳細優化方案可點擊閱讀原文獲取）

一、TPP 技術降低推理過程中的内存消耗

TPP（Tensor Processing Primitives）相當于是一種虛拟的張量指令集架構，能讓英特爾 ®️ AVX-512 等物理指令集予以抽象，生成經過優化的平台代碼。

具體到計算執行上，TPP 能實現兩種優化方式：以單指令多數據方式處理數據；優化内存訪問模式，提升緩存命中率來提高數值計算和訪存效率。

這樣一來，狹長矩陣乘法的空間復雜度從 O ( n^2 ) 降為 O ( n ) ，運算内存峰值也将大幅降低，更有助于處理長序列蛋白結構預測的問題。

二、支持 DDR5 内存與大容量緩存帶來張量吞吐提升

AlphaFold2 中大量的矩陣計算過程需要内存來支撐，因此内存性能影響着整個模型運行性能。

第四代至強 ®️ 可擴展處理器帶來兩種解決思路——支持 DDR5 内存，以及大容量末級緩存：

一方面，與上個方案 DDR4 内存帶寬 25.6GBps ( 3,200MHz）相比，DDR5 内存帶寬提升了超 50%，達到 38.4GBps ( 4,800MHz）以上；另一方面，末級緩存也由上一代的最高 60MB 提升至現在最高 112.5MB，幅度 87.5%。

三、内置 AI 加速引擎 AMX

英特爾在第四代至強 ®️ 可擴展處理器中創新内置了 AI 加速器——英特爾 ®️ AMX，類似 GPU 裡的張量核心，加速深度學習推理過程并減少存儲空間。

它支持 INT8、BF16 等低精度數據類型，尤其 BF16 數據類型在精度上的表現不遜于 FP32 數據類型，AlphaFold2 使用 AMX_BF16 後，推理時間可縮短數倍之多。

四、高帶寬内存 HBM2e 增加訪存通量

每個英特爾 ®️ 至強 ®️ CPU Max 系列，都擁有 4 個基于第二代增強型高帶寬内存 ( HBM2e ) 的堆棧，總容量為 64GB ( 每個堆棧的容量為 16GB）。

由于能同時訪問多個 DRAM 芯片，它可提供高達 1TB/s 的帶寬。而且配置更靈活，有三種不同模式與 DDR5 内存一起協同工作：HBM Only、HBM Flat 以及 HBM Cache。

綜上，第四代英特爾 ®️ 至強 ®️ 可擴展處理器所帶來的四種優化技術讓 AlphaFold2 的端到端通量得到了再進一步提升，與第三代相比實現了高達 3.02 倍的多實例通量提升。

當然，除了 CPU 之外，英特爾在探索驗證 AlphaFold2 優化方案、步驟和經驗過程中，同樣也能提供其他 AI 加速芯片，給產業鏈上的生态夥伴提供強勁支持。

甚至已經給出了行業備受認可的解決方案。

就在前段時間，英特爾聯合 Github 上知名的 AI+ 科學計算的開源項目——Colossal-AI的團隊潞晨科技，成功優化了 AlphaFold2 蛋白質結構預測的性能，并将其方案開源。

基于 AI 專用加速芯片Habana ®️ Gaudi ®️，他們成功将端到端推理速度最高提升 3.86 倍（相較于此前使用的方案），應用成本相較于 GPU 方案最多降低 39%。

醫藥和生命科學領網域，AI 還有何作為？

大模型，毋庸置疑是近來科技圈最為火爆的技術之一。

它憑借自身強算法、多數據、大算力的結合所帶來的泛用性，在醫藥和生命科學領網域同樣大步發展着。

這一過程，AI 宛如從破解人類的自然語言，躍進到了破解生命的自然語言：

人類自然語言大模型：從 26 個字母，到詞 / 句 / 段。

生命自然語言大模型：從 21 個氨基酸字母，到蛋白質 / 細胞 / 生命體。

那麼具體而言，現在 AI 大模型可能會讓醫藥和生命科學領網域產生怎樣的變革？

我們不妨以百圖生科推出的，世界首個AI 大模型驅動的 AI 生成蛋白平台AIGP（AI Generated Protein）為例來了解一番。

AIGP 背後所依靠的，是一個千億參數的跨模态生命科學大模型，通過 " 挖掘公開數據和獨特自產數據 "、" 跨模态預訓練和科學計算 "，以及 " 蛋白質讀寫系統和細胞讀寫系統 "，三大步驟實現對蛋白質空間及生命體的建模。

如此大模型能力之下，百圖生科便具備了一系列給定 Protein（抗原），設計與之以特定方式結合的 Protein（抗體）的能力。

也因此參與到了一系列前沿藥物的開發，包括高性能免疫調控彈頭設計、難成藥靶點精準設計、定表位抗體彈頭設計、可溶性 TCR 設計等。

除此之外，百圖生科也具備對給定細胞 / 細胞組合，發現調控細胞的有效蛋白靶點 / 組合，并繼而快速設計調控蛋白的能力。

這就為多種疾病的靶點發現、耐藥 / 不響應患者改善、靶點科學線索轉化帶來新的可能。

不過有一說一，百圖生科的例子也是只是 AI 之于醫藥、生命科學領網域變革的一隅。

但今年生物醫學領網域的著名獎項（加拿大蓋爾德納獎）史無前例地頒給了人工智能科學家、DeepMind 創始人 Demis Hassabis 等人。

這也從側面反映了生命科學、醫藥領網域對于 AI 的認可，以及更多的期待。

如果您對本文涉及的基于 Habana Gaudi 與英特爾 ®️ 至強 ®️ 可擴展處理器對 AlphaFold2 進行端到端優化的技術細節感興趣，如果您也想了解百圖生科在 AIGP 領網域的最新進展，英特爾《至強實戰課》之《AI 驅動的生命科學與醫藥創新》将為您帶來更加全面且詳細的真人講解，歡迎大家注冊收看～

以及想要了解更多第四代至強 ®️可擴展平台對 AlphaFold2 的優化方案，請點擊【閱讀原文】。

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~