今天小编分享的科学经验:华为最新大模型来了!盘古3.0问世,千亿参数规模3万亿tokens,放话「不作诗只做事」,欢迎阅读。
终于,华为的大模型动向来了!
盘古大模型 3.0,今天正式发布。
最底层的基础大模型包括 100 亿参数、380 亿参数、710 亿参数和 1000 亿参数四个版本,预训练使用了超 3 万亿 tokens。
但和早先的传言不同,盘古大模型 3.0 并非是盘古版 ChatGPT,而是一个面向行业的大模型系列。
用华为自己的话来说就是:
盘古大模型,不作诗。
(而且现场全程没有 cue 到 " 生成式 " 这个关键词)
所以在惯例的现场演示环节,华为也都是派行业大模型出战。
比如让政务大模型判断照片中除了货车外还有哪些车辆违规,可以看到大模型标出了三辆小轿车,而且给出了原因。
与此同时,可提供 2000P Flops 单集群的昇腾 AI 云服务在乌兰察布和贵安同时上线。
" 千亿规模大模型具备涌现、思维链能力 "
不想作诗的盘古大模型 3.0,想做的事是面向行业。
这从它的架构上就可以感受到,盘古大模型 3.0 分为三层:
L0:基础大模型,包括自然语言、视觉、多模态、预测、科学计算;
L1:N 个行业大模型,比如政务、金融、制造、矿山、气象等;
L2:更细化场景的模型,提供 " 开箱即用 " 的模型服务
其中 L0 层的基础大模型负责提供通用技能。
模型可分为自然语言大模型和多模态大模型两类。能力覆盖了对话问答、文案生成、影像生成、影像理解等。
预训练数据中包含了超过 3 万亿 tokens,使用了超过 1000+TB数据训练,指令微调数据也在千万级。
并且盘古基础大模型是一个可伸缩、高可扩展的稀疏 - 稠密语言大模型。
千亿级别稠密模型已经具备涌现、思维链能力,构成了底座;通过稀疏化使其成为不同 " 行业专家 ",这样可使得推理过程更加高效。
L1 层由 N 个行业大模型构成。
在这方面,华为使用行业公开数据训练了多个行业通用大模型,如政务、金融、制造、矿山、气象等。
比如气象方面,盘古气象大模型的最新成果刚刚登上 Nature 正刊,只需要 1.4 秒就能完成 24 小时全球气象预报。
此外,行业可以换也能基于自有数据在 L0、L1 基础上,训练自己的专用大模型。
L2 层则提供更加细化场景的模型,主打 " 开箱即用 "。可专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景。
据了解,为快速适配、快速满足行业需求,盘古大模型采用完全的分层解耦设计。
在 L0 和 L1 大模型的基础上,华为云还提供了大模型行业开发套件,通过对自有数据二次训练,就可以拥有自己的专属行业大模型。
同时,根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。
华为在最底层构建了以鲲鹏和昇腾为基础的 AI 算力云平台,以及异构计算架构 CANN、全场景 AI 框架昇思 MindSpore,AI 开发生产线 ModelArts 等,能为大模型开发和运行提供分布式并行加速,算子和编译优化、集群级通信优化等关键能力。
基于华为的 AI 根技术,大模型训练效能可以调优到业界主流 GPU 的 1.1 倍。
华为云 2000P Flops 单集群的昇腾 AI 云服务在乌兰察布和贵安同时上线。
披露数据表明,昇腾云 AI 服务的千卡训练 30 天长稳率达到 90%,断点恢复时长不超过 10 分钟。
除了支持华为的 AI 框架 Mindspore 外,还支持 Pytorch,Tensorflow 等主流 AI 框架,框架中的 90% 算子,都可以通过华为的迁移工具从 GPU 平滑迁移到昇腾。
例如,美图仅用 30 天就将 70 个模型迁移到了昇腾,同时华为云和美图团队一起进行了 30 多个算子的优化以及流程的并行加速,AI 性能较原有方案提升了 30%。
气象大模型登上 Nature 正刊
在展示盘古大模型 3.0 的基础能力后,华为也对盘古大模型的一系列行业应用做了数据披露。
最近,盘古气象大模型登上 Nature 的消息刷屏了。
据悉,盘古气象大模型是首个精度超过传统数值预报方法的 AI 预测模型,同时预测速度也有大幅提升。
原来预测一个台风未来 10 天的路径,需要在 3000 台伺服器的高性能计算机集群上花费 5 小时进行仿真。现在基于预训练的盘古气象大模型,通过 AI 推理的方式,研究者只需单台伺服器上单卡配置,10 秒内就可以获得更精确的预测结果。
在药物研发领網域,原来一款新药研发平均需要 10 年时间、花费 10 亿美金。盘古药物分子大模型助力西安交通大学第一附属医院刘冰教授团队发现全球 40 年来首个新靶点、新类别的抗生素,并将先导药物研发周期缩短至 1 个月、研发成本降低 70%。
在铁路领網域,盘古铁路大模型能精准识别现网运行的 67 种货车、430 多种故障,无故障图片筛除率高达 95%,成为货运列检员身边有力的数字助手,将列检员从每日数百万张的 " 图海 " 检测中解放出来。
华为常务董事、华为云 CEO 张平安给最新动向,做了最凝练的总结:
盘古大模型要让每个行业、每个企业、每个人都拥有自己的专家助手,让工作更高效更轻松。
我们始终坚持 AI for Industries 的战略,在深耕行业的道路上不断前行。我坚信大模型将重塑千行百业,而每一个开发者,都将是改变世界的英雄。