今天小编分享的互联网经验:国内首个自研架构类腦大模型,「陆兮科技」已通过《生成式人工智能服务备案》,欢迎阅读。
作者|黄楠
编辑|袁斯来
探寻大模型的起源,始于 2017 年那篇谷歌的《Attention Is All You Need》论文。其造性地提出了具备处理局部和长程依赖关系能力、契合 GPU 对大规模数据进行并发处理的 Transformer 架构(以下简称:T 架构),一举推动了 GPT 的问世。
但其盛名之下,不少人也忽略了 T 架构的两大缺陷:其一,运算机制过度依赖 " 矩阵乘法 ",算力消耗过大;二是单次运算需调用所有计算单元,算力与存储消耗过大。
这意味着,无论是训练或推理,面对大量数据集与长输入序列时,T 架构需无数次重复检索大模型权重(记忆体)中已有信息,将新数据与既有数据的相对距离进行逐一比对。这种 " 逐字逐句翻书本,从封面翻到封底 " 的处理机制,既赋予了其 " 精准捕获长距离依赖 " 的能力,也带来了巨额的算力与存储开销。
在 T 架构性能表现日趋老化的背景下,一些 AI 大模型公司开始探索非 T 架构研发,并在技术、产业、应用与合规层面实现突破。硬氪近日接触到的「陆兮科技」,正是一家专注从零开始搭建自研类腦架构的大模型公司。
「陆兮科技」CTO 周芃告诉硬氪,类腦大模型采用了模仿人腦结构和功能的 " 类腦算法 " 路线,又称 " 腦启发算法 " 路线。与 Transformer 架构和泛 GPT 类模型相比,人腦的运算与存储机制效能明显更高。
运算时,人腦采用 " 稀疏计算 " 机制,仅需调取与当次计算直接相关的神经元,其余闲置神经元均处于休眠状态。在存储时,人腦无需重复 " 翻书 ",对比新旧数据时只需调用高保真压缩后的记忆体,信息本身则处于 " 隐状态 " 中。
" 直观来说,T 架构驱动的大模型要实现大规模部署,所消耗的算力预计需占满几百甚至上千平米的机房,所消耗的电力需由多做水电站共同驱动。对比之下,人腦完成同样难度的计算,靠我们每天吃进去的米饭、馒头、蔬菜、肉类即可驱动。" 周芃解释到。
基于这一思考下,「陆兮科技」提出了 "NEURARK 类腦架构 ",通过复刻人类大腦高保真、轻量化、低功耗、零延迟的运算与存储机制,通过简化底层运算机制,运用 " 点乘 + 加法 " 等低能耗运算,来替代 " 矩阵乘法 " 的高能耗预算模式。
同时,「陆兮科技」还搭建了与人腦存储模式近似的 " 隐状态管理 " 机制,可以在大模型推理过程中,仅需调用记忆体,而无需调用既有数据集的方法,将数据存储占用降至极低。
目前,「陆兮科技」"NEURARK 类腦架构 " 已同信息产业头部国央企达成合作签约,在通用医疗大模型、糖尿 + 甲乳专病大模型等领網域开展共同研发与产品推广。其中,类腦医疗大模型已于国内某中部省份多家三甲医院、医联体网络医院与重点科室实现预部署。
此外公司还同金融、教育、气象、水利、政务、网络安全等基础设施行业的政府部門、国央企与头部厂商也已与其达成合作意向,部分已完成签约。多家智能设备主机厂商、芯片厂商正同「陆兮科技」在积极接洽中,希望在大模型芯片适配、端侧智能作業系統研发、智能设备定制化设计等领網域运用类腦架构与类腦大模型。
硬氪了解到,由「陆兮科技」自主研发的类腦大模型,已于今年 8 月获得国家网信办《生成式人工智能服务备案》,这也是国内首个取得该项备案的自研架构大模型、非 Transformer 架构大模型和采用 " 腦启发算法 " 技术路线的大模型,其非 T 架构大模型即将正式上线。