今天小编分享的科学经验:低调平头哥,吹响先进存力商业化号角,欢迎阅读。
" 在 AI 时代,我们必须全面提升先进存力。"
这就是平头哥半导体产品总监周冠锋,在中国存储界的盛会 MemoryS 2025 存储峰会上给出的关于 AI 存力发展的号召。
要知道,相比于各种形态的算力设施,存储设备在 AI 基础设施当中受到的关注是相对较少的——
显然,人们从未满足于算力的发展水平,但在聚光灯效应之下,存力发展更加不充分的现状却没有得到充分重视。
实际上,如果把 AI 算力比作水力发电,那么存储就像水库,同样会对 AI 等各种大规模数据应用形成制约。
2018 年成立的平头哥,凭借自研的 磁碟 主控芯片镇岳 510,已经成为存储设施建设的重要力量。
在这届峰会上,AI 存力的发展建设成为了重要议题,在诸多与会者面前,平头哥展示出了 AI 存力的镇岳 510 方案。
不让存储拖 AI 的后腿
上线一年多的镇岳 510,带来了商业化落地的新进展——
镇岳 510已在阿里云的 EBS 规模化上线,大幅提升了整体系统的 IOPS 和吞吐带宽,更大幅优化 IO 延迟,相当于在同等资源条件下,帮助阿里云 EBS 客户承载更多访问量,间接实现降本增效。
更重要的是,镇岳 510 也让跑在阿里云 EBS 业务上的客户应用获得了更快的响应,从而赢得了更好的用户体验。
云计算场景之外,平头哥也为 磁碟 整盘厂商提供了新的选择。
例如忆恒创源的 PBlaze7 7A40 系列 磁碟 产品,就基于镇岳 510 打造,成为业界首款具有 100 万 IOPS 的 4K 随机写性能的企业级 磁碟 产品;
得瑞领新刚刚发布的旗下首款 PCIe 5.0 高性能企业级 NVMe 磁碟 D8436/D8456 系列,也利用镇岳 510,相比上一代 PCIe4.0 产品实现了 70% 性能功耗比的提升。
高 IO 吞吐、高传输带宽、低 IO 延时……一系列特性都瞄准了存力发展不足给 AI 带来的制约。
那么,磁碟 对于 AI 应用来说都起到了什么样的关键作用呢?
运算、传输、存储……冯 · 诺依曼的计算机设计思想将 AI 基础设施的运转划分出了多个流程,既相对独立,各个环节之间又彼此关联。
就以大模型为例,其训练过程中的 GPU 的利用率,直接受限于数据的供给速度。并且由于 磁碟 的 I/O 延迟(50-100 μ s)远高于 DRAM 延迟(50-100 ns),数据从存储到内存的传输,正是大模型训练数据供给速度的瓶颈。
到了推理阶段,很多行业大模型需要在极短时间内进行实施决策,也需要更高的数据访问速度和更低的数据时延。
此外,在 AI 大模型的训练和部署中会间歇性的大量写入 Checkpoint 检查点环节,存储设备需要具备所需的高写入吞吐量。
反过来看,在算力一定的情况下,提高存储设备的数据供给速度,就能拉高部門算力的利用效率,节省出算力时间。
上个月的 DeepSeek 开源周中,DeepSeek 在最后一天开源了 3FS 檔案系统,就是一个有效例证。3FS 的目标就是把 磁碟 的带宽利用率提升到极致,从而降低模型的训练总成本。
这还是在存储能力本身没有提高情况下的结果,如果存储设备自身的能力得到提升,那么对 AI 训练的降本增效更加有所裨益。并且相比于堆更多算力,对存力地提升也是一种更加经济的选择。
所以,周冠锋认为,DeepSeek 的 3FS,一方面在刺激着 AI 从业者将存储设施更新到性能更高的 PCIe 5.0 接口设备,另一方面也在激励做存力的厂商进一步提高其产品的性能。
也就是说,DeepSeek 将作为催化剂,同时从需求和供给两侧,推动改善存力设备相对于算力发展的不足。更为有利的是,DeepSeek 这个 " 催化剂 " 带来的这波新机遇,刚好贴合了 磁碟 行业固有的演进节奏。
周冠锋介绍,结合 磁碟 行业固有的节奏,以及伺服器、CPU 他们的演进节奏,2025 年会是 PCIe 5 伺服器的大规模上线的崛起之年。这样的节奏,刚好匹配了基于镇岳 510 的 磁碟 大规模上线的节奏。
实际上,磁碟 是一个长周期行业,镇岳 510 早在 2021 年开始立项,当时就定下了 PCIe 5 的接口方案,让镇岳 510 在产品上市之后刚好匹配市场需求。这对从业者的前瞻性视野和对行业规律的精准把握,无疑都具有极高的要求。
而现在,镇岳 510 在阿里云 EBS 的上线,以及合作伙伴整盘产品的推出,已经证明了平头哥的这个选择,给镇岳 510 带来了成功。
当然,如果说前瞻性的视野为平头哥找到了成功的方向,那么还需要有足够的驱动力,才能走向成功。
这个驱动力,无疑就是技术。
存储主控的 " 六边形战士 "
在镇岳 510 的研发过程中,平头哥进行了芯片架构和算法的全面创新。
镇岳 510 采用平头哥自研紧耦合芯片架构,能够适应 AI 等高性能应用场景。
它可以对 磁碟 任务进行高度抽象,将表项管理、队列管理、Buffer 管理等可固化任务硬化为加速算子,以提升性能,地址分配、错误处理等 FTL 关键任务则运行于 CPU,以保持灵活性。
镇岳 510每秒可处理高达 340 万次 IO,相当于 1 万块高性能机械硬碟(HDD)的性能总和,数据带宽达到了 14GByte/s。
同时镇岳 510 还支持最新的 PCle 5.0 主机接口以及 DDR5.0 内存接口,进一步提升了芯片的数据吞吐速率。
延时上,镇岳 510 实现了4 μ s 的超低时延,比业界主流降低 30% 以上;在阿里云 EBS 上的实测结果也表明,镇岳 510 将读写混合 99.99% 长尾延时降低了 92%。
这得益于平头哥创新的IO 自动化处理机制,将前端 IO 的解析与处理交由专用硬體模块自动完成,也得益于芯片的实现了 IO/SYS/GC 全链路隔离,极大地降低这些任务之间的相互干扰。
此外,平头哥也提前预见 AI 的发展会对 IO 模型带来的差异,采取了灵活性的设计,使得一年多之后的今天仍然能够适配已经今非昔比的 AI 场景,让 AI 发展不再受制于先进存力的短缺。
在准确率上,镇岳 510 实现了低至10^-18 的 UBER(不可修复的错误比特率),相当于每读取百亿亿笔数据,才可能有一笔数据纠错失败,比业内标杆领先了一个数量级。
因为在算法层面,镇岳 510 采用了平头哥自研的高性能 LDPC(奇偶校验码)纠错算法,编码效率逼近香农极限,同时还利用TappingSet 消除算法,消除工作过程中产生的译码环,从而将 ErrorFloor 降低一个数量级。
平头哥还自研了闪存电压预测算法,采取抛物线拟合方式,在各种闪存的不同工况、寿命、温度等条件下,准确预测闪存电压漂移,进一步降低 LDPC 解码器的输入误码率。
另外,镇岳 510 也更加节能,每瓦功耗可提供 42 万笔的 IO 访问。
以一个部署了 10 万块 磁碟 的数据中心为例,相比目前主流的 PCIe 4.0 磁碟,镇岳 510 在相同的性能下,仅主控芯片即每年节省 260 万度电,相当于 2.6 万块 100 度汽车电池的总能量。并且,选择更加节能的存储芯片,不仅是出于电力成本或环境保护。
算力设备进步的同时,功耗和发热也大幅增加,在算力设别拥有绝对话语权的背景之下,有限的散热能力也会被优先分配给算力设备,使得存力设备不得不在功耗上做出更新。
劈开行业应用的存力枷锁
平头哥拥有更多基础设施、应用场景,可通过阿里云业务对其产品进行实际验证。在验证取得成功之后,平头哥也希望推动存力生态建设,拓展行业合作,将先进存力带到更多应用场景。
比如在金融行业,一个微小的错误就有可能带来不可挽回的损失,因而可靠、安全是最重要的指标;
在智能电力调度当中,需要根据情况进行实时决策研判,低延时就成了最关键的考量;
还有在搜索行业,并发量大又成了一个典型特征,给 IOPS 带来了更大的需求;
除此之外,在不同行业间,甚至行业内部,对成本的把控同样是要考虑的问题……
所以,平头哥把镇岳 510 做成了集容量、时延、成本、能效、可靠和带宽于一体的 " 六边形战士 ",在硬體上对每个行业的不同需求都能够提供保障。
结合镇岳 510 的灵活性设计,就可以再根据行业特点,通过不同的固件軟體对行业看中的最关键因素进行专门化增强,从而游刃有余地走向千行百业。
总之,平头哥凭借着全面的技术和算法创新,突破了各行各业先进存力发展的瓶颈,未来将全面加速创新。
不难看出,平头哥在先进存力上,展现出了十足的野望——
劈开行业应用的存力枷锁,将先进存力推向百业千行。
时间上,平头哥赶上了存储设备迭代与 AI 在千行百业的广泛落地的双重机遇;资源方面,平头哥的阿里背景也给其提供了坚实的保障;
再看平头哥自身,也对存力发展的规律有着全面的把握和前瞻性的眼光,并同时在软硬體上不断创新;天时地利人和之下,平头哥立志要成为这一波存力设备更新换代潮当中的引领者。
低调的平头哥,这次注定要高调地将先进存力 磁碟 这块短板补上。
— 完 —
一键关注 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!