今天小編分享的科學經驗:預測超長蛋白質這事,CPU赢了,歡迎閱讀。
AI 模型的推理在 CPU 上完成加速和優化,竟然不輸傳統方案?
至少在生命科學和醫療制藥方向,已經透露出這種信号。
例如在處理 AlphaFold2 這類大型模型這件事上,大眾普遍的認知可能就是堆 GPU 來進行大規模計算。
但其實從去年開始,CPU 便開始苦練内功,使端到端的通量足足提升到了原來的 23.11 倍。
而現如今,CPU 讓這個數值 great again ——再次提升 3.02 倍!
不論是像抗菌肽這種較短的氨基酸序列,還是像亨氏綜合征蛋白這樣超長的序列,都可以輕松 hold 住。
而且所有的預測任務,在不考慮最高通量、僅僅是順序執行,8 個小時就能全部搞定。
甚至國内已經有雲服務提供商做了類似的優化方案:
相比于 GPU,基于 CPU 的加速方案在性價比上更為理想,而且在特定的情況下(超過 300 或 400 氨基酸),幾乎只有 CPU 能把它算完,而 GPU 的失敗率會很高。
要知道,像 AlphaFold2 這類任務,可以說是公認的 AI for Science 标杆。
從上述的種種迹象表明,CPU 不再是 " 你以為的你以為 ",而是以一種新勢力進軍于此,并發揮着前所未有的威力。
CPU,正在大步邁進新時代。
英特爾自己刷新自己
事實上,此次備受關注的 CPU 加速方案,背後不是别人,正是發明了 CPU 的英特爾。
2022 年,英特爾以第三代至強 ®️ 可擴展處理器為硬體基座,使 AlphaFold2 通量優化提升達 23.11 倍。一年後,他們在此基礎上,再次實現自我刷新。
2022 年,英特爾基于第三代至強 ®️ 可擴展平台,針對 AlphaFold2 的設計特點,在預處理、模型推理、後處理三階段實現了端到端優化。
如今,原有的五大端到端基礎步驟之上,第四代至強 ®️ 可擴展處理器的加入,再次給 AlphaFold2 帶來整體推理性能的提升。
此次優化方案主要圍繞預處理和模型推理兩個方面,基本劃分為五個步驟。
第一步:預處理階段,借助第三代或第四代至強 ®️ 可擴展處理器的多核優勢及其内置 AVX-512 技術,實現針對性的高通量優化。
第二步到第五步模型推理階段的優化,與 2022 年方案類似。
第二步,将深度學習模型遷移至面向英特爾 ®️ 架構優化的 PyTorch,并逐模塊地從 JAX/haiku 完成代碼遷移。
第三步,引入 JIT 圖編譯技術,将網格轉化為靜态圖,以提高模型推理速度。
第四步,切分注意力模塊和算子融合,即對注意力模塊進行大張量切分的優化思路;與此同時,使用 IPEX(英特爾 ®️ 擴展優化框架,建議版本為 IPEX-2.0.100+cpu 或更高)對 Einsum 和 Add 兩種算子進行融合。
第五步,借助至強 ®️ 可擴展平台的計算和存儲優勢實施針對性優化。比如基于 NUMA 架構技術,挖掘多核心優勢,破解多實例運算過程中的計算和内存瓶頸。
不過除了提供更強的基礎算力,第四代至強 ®️ 可擴展平台還帶來了諸多針對 AI 工作負載的優化加速技術。
具體可以拆分為四項:(詳細優化方案可點擊閱讀原文獲取)
一、TPP 技術降低推理過程中的内存消耗
TPP(Tensor Processing Primitives)相當于是一種虛拟的張量指令集架構,能讓英特爾 ®️ AVX-512 等物理指令集予以抽象,生成經過優化的平台代碼。
具體到計算執行上,TPP 能實現兩種優化方式:以單指令多數據方式處理數據;優化内存訪問模式,提升緩存命中率來提高數值計算和訪存效率。
這樣一來,狹長矩陣乘法的空間復雜度從 O ( n^2 ) 降為 O ( n ) ,運算内存峰值也将大幅降低,更有助于處理長序列蛋白結構預測的問題。
二、支持 DDR5 内存與大容量緩存帶來張量吞吐提升
AlphaFold2 中大量的矩陣計算過程需要内存來支撐,因此内存性能影響着整個模型運行性能。
第四代至強 ®️ 可擴展處理器帶來兩種解決思路——支持 DDR5 内存,以及大容量末級緩存:
一方面,與上個方案 DDR4 内存帶寬 25.6GBps ( 3,200MHz)相比,DDR5 内存帶寬提升了超 50%,達到 38.4GBps ( 4,800MHz)以上 ;另一方面,末級緩存也由上一代的最高 60MB 提升至現在最高 112.5MB,幅度 87.5%。
三、内置 AI 加速引擎 AMX
英特爾在第四代至強 ®️ 可擴展處理器中創新内置了 AI 加速器——英特爾 ®️ AMX,類似 GPU 裡的張量核心,加速深度學習推理過程并減少存儲空間。
它支持 INT8、BF16 等低精度數據類型,尤其 BF16 數據類型在精度上的表現不遜于 FP32 數據類型,AlphaFold2 使用 AMX_BF16 後,推理時間可縮短數倍之多。
四、高帶寬内存 HBM2e 增加訪存通量
每個英特爾 ®️ 至強 ®️ CPU Max 系列,都擁有 4 個基于第二代增強型高帶寬内存 ( HBM2e ) 的堆棧,總容量為 64GB ( 每個堆棧的容量為 16GB)。
由于能同時訪問多個 DRAM 芯片,它可提供高達 1TB/s 的帶寬。而且配置更靈活,有三種不同模式與 DDR5 内存一起協同工作:HBM Only、HBM Flat 以及 HBM Cache。
綜上,第四代英特爾 ®️ 至強 ®️ 可擴展處理器所帶來的四種優化技術讓 AlphaFold2 的端到端通量得到了再進一步提升,與第三代相比實現了高達 3.02 倍的多實例通量提升。
當然,除了 CPU 之外,英特爾在探索驗證 AlphaFold2 優化方案、步驟和經驗過程中,同樣也能提供其他 AI 加速芯片,給產業鏈上的生态夥伴提供強勁支持。
甚至已經給出了行業備受認可的解決方案。
就在前段時間,英特爾聯合 Github 上知名的 AI+ 科學計算的開源項目——Colossal-AI的團隊潞晨科技,成功優化了 AlphaFold2 蛋白質結構預測的性能,并将其方案開源。
基于 AI 專用加速芯片Habana ®️ Gaudi ®️,他們成功将端到端推理速度最高提升 3.86 倍(相較于此前使用的方案),應用成本相較于 GPU 方案最多降低 39%。
醫藥和生命科學領網域,AI 還有何作為?
大模型,毋庸置疑是近來科技圈最為火爆的技術之一。
它憑借自身強算法、多數據、大算力的結合所帶來的泛用性,在醫藥和生命科學領網域同樣大步發展着。
這一過程,AI 宛如從破解人類的自然語言,躍進到了破解生命的自然語言:
人類自然語言大模型:從 26 個字母,到詞 / 句 / 段。
生命自然語言大模型:從 21 個氨基酸字母,到蛋白質 / 細胞 / 生命體。
那麼具體而言,現在 AI 大模型可能會讓醫藥和生命科學領網域產生怎樣的變革?
我們不妨以百圖生科推出的,世界首個AI 大模型驅動的 AI 生成蛋白平台AIGP(AI Generated Protein)為例來了解一番。
AIGP 背後所依靠的,是一個千億參數的跨模态生命科學大模型,通過 " 挖掘公開數據和獨特自產數據 "、" 跨模态預訓練和科學計算 ",以及 " 蛋白質讀寫系統和細胞讀寫系統 ",三大步驟實現對蛋白質空間及生命體的建模。
如此大模型能力之下,百圖生科便具備了一系列給定 Protein(抗原),設計與之以特定方式結合的 Protein(抗體)的能力。
也因此參與到了一系列前沿藥物的開發,包括高性能免疫調控彈頭設計、難成藥靶點精準設計、定表位抗體彈頭設計、可溶性 TCR 設計等。
除此之外,百圖生科也具備對給定細胞 / 細胞組合,發現調控細胞的有效蛋白靶點 / 組合,并繼而快速設計調控蛋白的能力。
這就為多種疾病的靶點發現、耐藥 / 不響應患者改善、靶點科學線索轉化帶來新的可能。
不過有一說一,百圖生科的例子也是只是 AI 之于醫藥、生命科學領網域變革的一隅。
但今年生物醫學領網域的著名獎項(加拿大蓋爾德納獎)史無前例地頒給了人工智能科學家、DeepMind 創始人 Demis Hassabis 等人。
這也從側面反映了生命科學、醫藥領網域對于 AI 的認可,以及更多的期待。
如果您對本文涉及的基于 Habana Gaudi 與英特爾 ®️ 至強 ®️ 可擴展處理器對 AlphaFold2 進行端到端優化的技術細節感興趣,如果您也想了解百圖生科在 AIGP 領網域的最新進展,英特爾《至強實戰課》之《AI 驅動的生命科學與醫藥創新》将為您帶來更加全面且詳細的真人講解,歡迎大家注冊收看~
以及想要了解更多第四代至強 ®️可擴展平台對 AlphaFold2 的優化方案,請點擊【閱讀原文】。
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>