今天小编分享的互联网经验:博士“下矿井、进车间”,站在华为云盘古大模型背后的人,欢迎阅读。
图片来源:视觉中国
务实点看,大模型要先走向行业;再务实点,华为云直接将博士们推向了一线。
盘古大模型初见真章是在 2021 年 4 月,NLP 大模型与 CV 大模型正式发布;此后,科学计算大模型、药物分子大模型、矿山大模型和万众瞩目的气象大模型等纷纷浮出水面;再到此前 7 月 7 日,华为开发者大会发布盘古大模型 3.0,9 月 21 日华为全联接大会发布盘古汽车大模型和医学大模型,华为云逐渐将盘古大模型在各行业的布局徐徐展开。
可是,做 B 端市场不是件容易的事情,贴近生活的大语言模型虽说能够满足丰富的日常互動,但其本身的语料内容缺乏不同行业的专业背景,在工作实用性上难以深入;金融、医疗、生物、气象等垂直领網域真正能触发大模型潜力,需要大模型设计者了解特定的行业,而行业术语、行业逻辑、行业场景等,是大模型算力、算法技术之外的天地。
行先于言,过去几年,华为云把一批又一批博士、专家、科学家派到客户现场,走田头、跑工地、下矿井、进车间,目前已帮助超过 1000 家企业落地智能化创新项目。今年,华为云还计划将 200+ 博士送到一线。长远来看,做出实用、好用的行业大模型,了解行业才是先见。
隔行如隔山
行业大模型是 " 行业 "+" 大模型 ",实为两个不同的专业与专业的结合碰撞。
好用的行业大模型首先是要懂行业,最终的产品需要运行在每个车间、矿井、田间地头,使用者说好,才算实现大模型落地这一关。将博士送往一线,是华为云做出的最朴实的决定。
在所有前往一线的博士们印象中," 隔行如隔山 " 的感受在预想之内,但还是来得有些 " 生猛 "。华为不缺擅长大模型的专业技术人才,也不缺来自各行业的一线经验,但每个行业都有自己的专业术语和独特业务,与博士们本职的技术研发工作相比,知识壁垒的确存在。尤其在行业体系更复杂的自动驾驶、金融、重工业等领網域,这些阻隔更为强烈。
先拿自动驾驶来说,华为云 EI 人工智能算法专家金博士对于下一线有着颇多感悟。
"初次进入自动驾驶行业,感受到的是其技术链条非常长,行业体系庞大。" 金博士直言。原来在纵深的自动驾驶行业技术链条中,只硬體层面就包含了车辆硬體、视觉和雷达等多传感器的选型、传感器的布局安装等细节;軟體层面则分类更多,围绕数据与算法,包含了数据采集、数据清洗、数据标注、感知算法、定位算法、决策规划和执行控制等等。而每一个模块,都有各自对应的专业团队。
所谓隔行如隔山,在众多专业模块中,找到华为云盘古大模型在自动驾驶行业的切入点,则是最难的业务问题。破题的火苗,出现在金博士与客户共同的 " 封闭会战 " 期间," 那段时间经常是 6 点多出发的高铁去上海,有一次我坐在位置上闭上双眼,腦海里冲击着完全不同的两个画面:早晨起床看窗外仅仅亮着那么三四盏灯,和几小时后淹没在一杯一杯水中的密集交谈、连带着高速头腦风暴,一根根头发都立了起来。"
需要高强度沟通的客户很多,传统车企、造车新势力、自动驾驶科技公司等不同类型行业客户,都在落地大模型所要沟通了解的范围之中,这些行业在一线的业务问题或多或少都有不同。不过,对金博士来说,行业多也好理解难也罢,想要创造出好用的东西,理解都是第一步,但总要走这第一步。
比对、总结、与思绪纷飞,沟通的成功让大家落实了切入方向——对付影响高阶自动驾驶落地的关键因素:各类不常见但不断出现的 " 长尾问题 ",因为如何加速长尾场景的数据闭环,是自动驾驶量产的关键。
大模型时代,自动驾驶行业的突破依赖高质量、高场景覆盖度、精细标注的数据。而现在的问题恰恰是:当前路采数据采集效率低、成本高、corner case 数据难获取,场景覆盖率低。一个包含视觉、雷达等多传感器的 10 秒 clip,采集标注等成本却达几百元,而自动驾驶需要的,是几百万小时的行驶数据。下到了一线后,金博士才如此真切地体会到了自动驾驶数据的价值。
科学家费曼说 " 只要我不能创造的,我就还不理解 "。也正是在博士们一线的深入体会与理解中,盘古汽车大模型能够生成多种 Corner case 场景,让自动驾驶遍历各种复杂场景变成可能。
通过应用盘古大模型,自动驾驶的 Corner Case 可以实现天级的闭环,显著提高数据闭环效率。基于盘古大模型的场景生成能力,企业可以构造出雨天、下雪天的场景用于模型的训练,不必等待特殊天气才能进行数据采集。此外,20% 的路测工作也可以通过大模型的场景生成来实现,缩短了里程积累的周期。大模型能够快速地构建出场景丰富的样本,而且对样本的数量要求也只有以前小模型的十分之一。
山外有山
只是山外还有山,除了打破行业间专业壁垒的难题,横亘在大模型设计者与使用者之间的,还有来自一线客户的真实需求,这往往与预想中不一致。做行业大模型,首先要尊重行业,其次要尊重来自一线的从业者的经验。
参与盘古金融大模型研发的谢博士感受尤为深刻:" 深入一线后,我们对金融行业客户现场交付有了新的认知,客户侧存在不同的业务线、不同背景的人,因此他们对大模型的需求和偏好是多样的,甚至有时,需求的特点是相对的。"
比如,宣传部门希望大模型生成的内容要更发散,更有创意性,能够帮助他们打开思路;但授信部门要撰写授信报告,则要求大模型生成的内容更客观、更精确、更尊重原文。" 引导客户群说出他们在工作中遇到的难点与真实需求是必要的。" 谢博士说到。
在一线,谢博士收集了宣传部门人员在撰写宣传文案会考虑宣传的对象特点作为人设,比如以年龄段来区分,针对老人、中年人、大学生等分别对应的写作文案的特点,将这些信息加入到 prompt 中,就能很好提升大模型生成效果。针对授信部门的人群,发现他们在撰写过程中经常引用财报等专业性较高的材料,那么在大模型书写过程中,就需要提示大模型参考特定材料,书写与原文保持一致。也正如此,不同场景的需求都在盘古金融大模型中有了精细划分。
而深入沟通,除了能够了解最真实的业务需求外,还聊出了更多业务之外的想法。祝博士主要负责了金融大模型的落地,更专注于盘古大模型的效果评测与效果提升。和银行员工的交流,是他在一线活动中印象最深刻的事。
大模型成风的那段时间," 我会不会失业?"" 会不会有一天,我将被技术终结?" 这些飘零的话语深深叩问着职场打工人的心。是拥抱技术还是换个姿势拥抱技术,大家深知,其实我们没有选择权。但当这看似遥远的事被真正考虑在企业发展中,还是会有些不可思议。
针对人力密集型场景,也就是大模型提质增效最具想象的场景,有银行表示并不希望员工被大模型取代,而应该让大模型提升服务质量与服务效率,释放员工做更多更高价值的事。基于此想法,华为云则联合该银行,梳理了大模型在企业应用的人员转身实践。
同样在银行一线驻扎的祝博士说到:"这次交流也驱动我们梳理了一整套企业落地方法论,我们想做到授人以渔,让企业、企业员工深入拥抱新技术,主动应用大模型解决业务痛点。" 通过联合实践,他们形成了一系列培训课程,从产品需求洞察、prompt 调优、微调、大模型运营等各个维度,并和远程银行、UX 设计、网点等部门合作,建立联合项目组,目的是驱动企业人员能力提升。也或许,这才是一线工作人员的真实需求。
最终,付出得到的回报也让祝博士十分开心。在当前已经上线的场景中,客户把网点文档问答包装成了该银行的 " 爆款 " 场景,10 月时计划全行推广,此外,因为应用效果比较好,他们还计划横向推广到信贷、金融、内审等场景。
见山
过去几年,通过把一批又一批博士、专家、科学家派到客户现场,直面难题、解决难题。除了上文提到的金博士、谢博士、祝博士的经历,华为做过的难事不算少数,也赢得了许多业内好评。
在矿山领網域,有博士被送到了山东能源集团,下到矿井实地调研,目的是为了解决提升精煤产率这一困扰业界多年的难题。精煤不仅低碳环保,而且经济价值更高,广泛应用于电力、钢铁、化工等领網域。2022 年,我国原煤产量达到 45.6 亿吨,但精煤产量仅为 4.9 亿吨。
只是,洗选煤生产的工艺参数涉及 100 多种,传统洗选密度控制依靠人工经验确定,无法及时准确地通过数据分析对分选密度进行实时调整,容易导致指标波动,造成精煤回收损失。
基于实地考察的结果,最终博士们提出通过盘古预测大模型能力,对不同煤层、不同季节、不同灰分(煤炭完全燃烧后余下的残渣)的原煤煤质数据和工艺参数智能分析,同时,基于华为自研的图网络融合技术对多个最优算法进行堆叠、动态调优,能够精准预测精煤产品的灰分值,从而实现重介选煤分选密度的精准控制与动态调整。在这一新方案下,山能济二煤矿每年能多产出 8000 吨精煤。而如果能将这个能力推广到全国,可以让每个煤矿每年平均多产出 2000 吨精煤。
推动 " 数智山能 " 之外,华为云的博士们通过将大模型技术赋能药物分子及医疗,也让一线的医疗科研按下加速键。
西交大一附院刘冰教授团队发现世界 40 年来首个抗生素,就是在盘古药物分子大模型助力下实现的,目前该项目已进入临床阶段,价值达到了 1 亿美元。据测算,通过盘古药物分子大模型,可以将先导药物研发周期缩短至 1 个月,研发成本降低 70%。
负责华为科学计算与生物医疗领網域产品的刘星星博士说到:" 我本身是生物医疗领網域的博士,五年前毕业之后,看到华为在生物医疗领網域投入的决心,以及华为在 AI、大模型的整体规划吸引了我,因此我决定,那就加入到华为。"
在自己的科研愿景下,刘星星博士也收获到了想要的东西:" 当时有个客户反馈说,和其它大厂也聊了很多,但最终发现华为最懂他们,我觉得这是最让我感到自豪的事情。我们长期深入一线的功夫没有白费。"
华为云对待科研的务实做法,对于一批真正想实现科研落地的人才来说,就是安抚躁动梦想的解药。
一作发 Nature 的华为工程师恺峰,是清华大学钱学森力学班 2016 级本科毕业生。7 月 6 日,恺峰和同事们的论文《三维神经网络用于精准中期全球天气预报》发表于 Nature 杂志,报告了业内 " 首个在中长期气象预报上精度超过传统数值预报方法的 AI 模型 "。这也是近年来中国科技公司首篇作为唯一署名部門的 Nature 正刊论文。
回忆起盘古气象大模型,时间穿回 2021 年底,恺峰在一次偶然的机会中发现中期气象预报可能是 AI 很好的运用场景。当时,他半开玩笑半认真地和同事说:" 我准备做一个很大的项目,用 2000TB 的历史气象数据去构建一个 AI 模型,要是成功了那么全世界气象预报的范式都要被彻底改变。"
当时,摆在面前的有三个问题,第一个是天量的数据,第二个是不均匀的经纬度网格和扭曲的等压面,第三个则是不断累积的迭代误差。但在解决问题的过程中,不断出现了与业界既定看法相悖的想法。
如何处理欧洲已经开放的 2000TB 的全球气象数据?恺峰首先选用了少量的数据作诊断性实验,但与大部分气象专家的看法相反,经过试验,他发现仅使用位势、温度、湿度、风速四种状态就可以很好地建模大气的演变,同时垂直高度上的层数对精度的影响很小。
此外,为了减少预测的系统误差等大部分类似问题,之前都是用自回归的方式来解决。但实践表明,这一方式用来做气象预测有巨大的弊端——自回归学到的结果不可避免的平滑,所有的极端天气都被忽略了。
" 我试了很多很多方法去解决这个问题,包括很多正则类方法,效果都不尽人意。最后解决这个问题的是一个非常简单的小技巧:我把不同时间的预测模型分开了,用 24 小时的模型去做天级的预报,6 小时,3 小时,1 小时的模型去做更细致的预报,这样来尽可能地减少迭代次数。这也让我们成为了唯一可以预测逐小时天气的 AI 模型。" 恺峰总结到。
此前的实习,恺峰做的是纯粹的科研,但这是让他觉得可惜的事情:" 两篇神经网络结构搜索相关的课题都离落地比较远,所以比较缺乏成就感。记忆里非常多种 idea,最终也没有找到实际场景可以很好的运用。当时感觉‘人生中第一次做科研’,却没有很好的 feedback。"
而进入华为之后的落地科研,让恺峰怀抱着激情的同时,真正了解到 AI 落地与 AI 科研之间的区别——科研的时候只需要在 "imagenet 数据集 " 上精度高一两个点就可以了,但是落地的场景很碎片化,数据标注流程和质量要自己控制,算法调优周期要尽可能的短,样本数目比较少但是场景特别多。不过," 落地场景一般做起来都比较快乐 ",恺峰说到:" 对我而言,更困难的地方是写各种文字材料,还有就是场景很碎片化,我更想做一些‘价值更大’的问题。"
成为山
华为鼓励博士、科研人员在一线做难事的同时,也在他们身后担当起了靠山作用。对待科研,华为确实是慷慨大方的。恺峰说到,在进行气象大模型的训练中,他申请了两个月的 AI 算力。在顺利的过程推进下,他们 AI 模型精度超过了全球最好的数值方法,例如,盘古对于台风路径预测的准确度比之前最好的欧洲中心预报还要高 20%。
对内慷慨,对外,华为希望共建一个大模型生态。其实,这也是在推进一线工作之后所要走完的最后一公里,让大模型继续下沉。
以云服务的方式提供昇腾 AI 算力,也解决了客户自训练大模型的难题。毕竟大模型训练依赖极大算力消耗,由于高端 GPU 芯片出口限制等问题,大模型产业发展需要持续供应、自主创新的 AI 算力。而昇腾 AI 云服务,可以实现从算力、芯片使能 ( CANN 算子库 ) 、AI 框架 ( MindSpore AI 计算框架 ) 到 AI 平台 ( AI 开发生产线 ModelArts ) 的自主创新。
博士们冲在前线做难事、解难题,昇腾 AI 云服务的澎湃算力做靠山,华为遥遥领先的其实是走出科研,走回一线的实践能力。
回头看看,那些难以跨过的山峦,也在攀越起伏的决意中,渐行渐远。