今天小編分享的科學經驗:低調平頭哥,吹響先進存力商業化号角,歡迎閱讀。
" 在 AI 時代,我們必須全面提升先進存力。"
這就是平頭哥半導體產品總監周冠鋒,在中國存儲界的盛會 MemoryS 2025 存儲峰會上給出的關于 AI 存力發展的号召。
要知道,相比于各種形态的算力設施,存儲設備在 AI 基礎設施當中受到的關注是相對較少的——
顯然,人們從未滿足于算力的發展水平,但在聚光燈效應之下,存力發展更加不充分的現狀卻沒有得到充分重視。
實際上,如果把 AI 算力比作水力發電,那麼存儲就像水庫,同樣會對 AI 等各種大規模數據應用形成制約。
2018 年成立的平頭哥,憑借自研的 磁碟 主控芯片鎮嶽 510,已經成為存儲設施建設的重要力量。
在這屆峰會上,AI 存力的發展建設成為了重要議題,在諸多與會者面前,平頭哥展示出了 AI 存力的鎮嶽 510 方案。
不讓存儲拖 AI 的後腿
上線一年多的鎮嶽 510,帶來了商業化落地的新進展——
鎮嶽 510已在阿裡雲的 EBS 規模化上線,大幅提升了整體系統的 IOPS 和吞吐帶寬,更大幅優化 IO 延遲,相當于在同等資源條件下,幫助阿裡雲 EBS 客戶承載更多訪問量,間接實現降本增效。
更重要的是,鎮嶽 510 也讓跑在阿裡雲 EBS 業務上的客戶應用獲得了更快的響應,從而赢得了更好的用戶體驗。
雲計算場景之外,平頭哥也為 磁碟 整盤廠商提供了新的選擇。
例如憶恒創源的 PBlaze7 7A40 系列 磁碟 產品,就基于鎮嶽 510 打造,成為業界首款具有 100 萬 IOPS 的 4K 随機寫性能的企業級 磁碟 產品;
得瑞領新剛剛發布的旗下首款 PCIe 5.0 高性能企業級 NVMe 磁碟 D8436/D8456 系列,也利用鎮嶽 510,相比上一代 PCIe4.0 產品實現了 70% 性能功耗比的提升。
高 IO 吞吐、高傳輸帶寬、低 IO 延時……一系列特性都瞄準了存力發展不足給 AI 帶來的制約。
那麼,磁碟 對于 AI 應用來說都起到了什麼樣的關鍵作用呢?
運算、傳輸、存儲……馮 · 諾依曼的計算機設計思想将 AI 基礎設施的運轉劃分出了多個流程,既相對獨立,各個環節之間又彼此關聯。
就以大模型為例,其訓練過程中的 GPU 的利用率,直接受限于數據的供給速度。并且由于 磁碟 的 I/O 延遲(50-100 μ s)遠高于 DRAM 延遲(50-100 ns),數據從存儲到内存的傳輸,正是大模型訓練數據供給速度的瓶頸。
到了推理階段,很多行業大模型需要在極短時間内進行實施決策,也需要更高的數據訪問速度和更低的數據時延。
此外,在 AI 大模型的訓練和部署中會間歇性的大量寫入 Checkpoint 檢查點環節,存儲設備需要具備所需的高寫入吞吐量。
反過來看,在算力一定的情況下,提高存儲設備的數據供給速度,就能拉高部門算力的利用效率,節省出算力時間。
上個月的 DeepSeek 開源周中,DeepSeek 在最後一天開源了 3FS 檔案系統,就是一個有效例證。3FS 的目标就是把 磁碟 的帶寬利用率提升到極致,從而降低模型的訓練總成本。
這還是在存儲能力本身沒有提高情況下的結果,如果存儲設備自身的能力得到提升,那麼對 AI 訓練的降本增效更加有所裨益。并且相比于堆更多算力,對存力地提升也是一種更加經濟的選擇。
所以,周冠鋒認為,DeepSeek 的 3FS,一方面在刺激着 AI 從業者将存儲設施更新到性能更高的 PCIe 5.0 接口設備,另一方面也在激勵做存力的廠商進一步提高其產品的性能。
也就是說,DeepSeek 将作為催化劑,同時從需求和供給兩側,推動改善存力設備相對于算力發展的不足。更為有利的是,DeepSeek 這個 " 催化劑 " 帶來的這波新機遇,剛好貼合了 磁碟 行業固有的演進節奏。
周冠鋒介紹,結合 磁碟 行業固有的節奏,以及伺服器、CPU 他們的演進節奏,2025 年會是 PCIe 5 伺服器的大規模上線的崛起之年。這樣的節奏,剛好匹配了基于鎮嶽 510 的 磁碟 大規模上線的節奏。
實際上,磁碟 是一個長周期行業,鎮嶽 510 早在 2021 年開始立項,當時就定下了 PCIe 5 的接口方案,讓鎮嶽 510 在產品上市之後剛好匹配市場需求。這對從業者的前瞻性視野和對行業規律的精準把握,無疑都具有極高的要求。
而現在,鎮嶽 510 在阿裡雲 EBS 的上線,以及合作夥伴整盤產品的推出,已經證明了平頭哥的這個選擇,給鎮嶽 510 帶來了成功。
當然,如果說前瞻性的視野為平頭哥找到了成功的方向,那麼還需要有足夠的驅動力,才能走向成功。
這個驅動力,無疑就是技術。
存儲主控的 " 六邊形戰士 "
在鎮嶽 510 的研發過程中,平頭哥進行了芯片架構和算法的全面創新。
鎮嶽 510 采用平頭哥自研緊耦合芯片架構,能夠适應 AI 等高性能應用場景。
它可以對 磁碟 任務進行高度抽象,将表項管理、隊列管理、Buffer 管理等可固化任務硬化為加速算子,以提升性能,地址分配、錯誤處理等 FTL 關鍵任務則運行于 CPU,以保持靈活性。
鎮嶽 510每秒可處理高達 340 萬次 IO,相當于 1 萬塊高性能機械硬碟(HDD)的性能總和,數據帶寬達到了 14GByte/s。
同時鎮嶽 510 還支持最新的 PCle 5.0 主機接口以及 DDR5.0 内存接口,進一步提升了芯片的數據吞吐速率。
延時上,鎮嶽 510 實現了4 μ s 的超低時延,比業界主流降低 30% 以上;在阿裡雲 EBS 上的實測結果也表明,鎮嶽 510 将讀寫混合 99.99% 長尾延時降低了 92%。
這得益于平頭哥創新的IO 自動化處理機制,将前端 IO 的解析與處理交由專用硬體模塊自動完成,也得益于芯片的實現了 IO/SYS/GC 全鏈路隔離,極大地降低這些任務之間的相互幹擾。
此外,平頭哥也提前預見 AI 的發展會對 IO 模型帶來的差異,采取了靈活性的設計,使得一年多之後的今天仍然能夠适配已經今非昔比的 AI 場景,讓 AI 發展不再受制于先進存力的短缺。
在準确率上,鎮嶽 510 實現了低至10^-18 的 UBER(不可修復的錯誤比特率),相當于每讀取百億億筆數據,才可能有一筆數據糾錯失敗,比業内标杆領先了一個數量級。
因為在算法層面,鎮嶽 510 采用了平頭哥自研的高性能 LDPC(奇偶校驗碼)糾錯算法,編碼效率逼近香農極限,同時還利用TappingSet 消除算法,消除工作過程中產生的譯碼環,從而将 ErrorFloor 降低一個數量級。
平頭哥還自研了閃存電壓預測算法,采取抛物線拟合方式,在各種閃存的不同工況、壽命、溫度等條件下,準确預測閃存電壓漂移,進一步降低 LDPC 解碼器的輸入誤碼率。
另外,鎮嶽 510 也更加節能,每瓦功耗可提供 42 萬筆的 IO 訪問。
以一個部署了 10 萬塊 磁碟 的數據中心為例,相比目前主流的 PCIe 4.0 磁碟,鎮嶽 510 在相同的性能下,僅主控芯片即每年節省 260 萬度電,相當于 2.6 萬塊 100 度汽車電池的總能量。并且,選擇更加節能的存儲芯片,不僅是出于電力成本或環境保護。
算力設備進步的同時,功耗和發熱也大幅增加,在算力設别擁有絕對話語權的背景之下,有限的散熱能力也會被優先分配給算力設備,使得存力設備不得不在功耗上做出更新。
劈開行業應用的存力枷鎖
平頭哥擁有更多基礎設施、應用場景,可通過阿裡雲業務對其產品進行實際驗證。在驗證取得成功之後,平頭哥也希望推動存力生态建設,拓展行業合作,将先進存力帶到更多應用場景。
比如在金融行業,一個微小的錯誤就有可能帶來不可挽回的損失,因而可靠、安全是最重要的指标;
在智能電力調度當中,需要根據情況進行實時決策研判,低延時就成了最關鍵的考量;
還有在搜索行業,并發量大又成了一個典型特征,給 IOPS 帶來了更大的需求;
除此之外,在不同行業間,甚至行業内部,對成本的把控同樣是要考慮的問題……
所以,平頭哥把鎮嶽 510 做成了集容量、時延、成本、能效、可靠和帶寬于一體的 " 六邊形戰士 ",在硬體上對每個行業的不同需求都能夠提供保障。
結合鎮嶽 510 的靈活性設計,就可以再根據行業特點,通過不同的固件軟體對行業看中的最關鍵因素進行專門化增強,從而遊刃有餘地走向千行百業。
總之,平頭哥憑借着全面的技術和算法創新,突破了各行各業先進存力發展的瓶頸,未來将全面加速創新。
不難看出,平頭哥在先進存力上,展現出了十足的野望——
劈開行業應用的存力枷鎖,将先進存力推向百業千行。
時間上,平頭哥趕上了存儲設備迭代與 AI 在千行百業的廣泛落地的雙重機遇;資源方面,平頭哥的阿裡背景也給其提供了堅實的保障;
再看平頭哥自身,也對存力發展的規律有着全面的把握和前瞻性的眼光,并同時在軟硬體上不斷創新;天時地利人和之下,平頭哥立志要成為這一波存力設備更新換代潮當中的引領者。
低調的平頭哥,這次注定要高調地将先進存力 磁碟 這塊短板補上。
— 完 —
一鍵關注 點亮星标
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!