今天小编分享的互联网经验:通义大模型如何助力产业真正智能化,欢迎阅读。
本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的 " 数字先行者 " 共同探讨、碰撞,希望这些内容能让你有所启发。
本文来源 陈海青的访谈,陈海青「阿里云创新业务中心负责人、资深算法专家」
在 AI 加速走进千行百业的当下,大模型的技术创新和行业应用成为企业关注的焦点。
2018 年,阿里巴巴就已启动大模型的相关研究,2022 年 9 月发布 " 通义 " 大模型系列。今年 4 月," 通义千问 " 发布后,意味着阿里云将大模型能力正式规模化走向企业和产业应用。
以飞天云计算作業系統为基础底座,构建层次化的模型体系,其中通用模型层覆盖自然语言处理、多模态、计算机视觉,专业模型层深入金融、传媒、汽车、电商、医疗、法律等行业。通用与专业领網域模型协同,让通义大模型系列可兼顾性能最优化与低成本落地。
通过梳理从 " 通义 " 系列大模型产品的发展路径到其在企业和行业的应用进展,以及阿里云的产品思路、技术与业务结合的探索,了解通义大模型的能力,也就更能理解未来通义大模型将如何助力产业真正智能化。
" 通义 " 系列的研发路径
阿里在 2018 年就开始布局大模型技术链路。前期,在产业界落地的 90% 以上的业务是以理解型业务为主。生成式大部分是以验证性为主,比如商品描述生成等一些任务。后期,阿里云开始布局整个 " 以生成式任务为核心 " 的研究线,并且认为生成式任务可能是未来的主流,研究方向包括了文生文和文生图等模型。除了底层研究外,还搭建了原型产品,并结合技术做整体推进。
2022 年 9 月,阿里云发布了 " 通义 " 大模型系列。" 通义 " 模仿了人类构建认知的过程,将语言、语音、视觉等多模态和多任务考虑到统一模型范畴内。通义大模型也在业界首次实现模态表示、任务表示、模型结构的统一,让模型可同时处理含语言、影像、语音、视频在内的 30 多种跨模态任务。
2023 年初,GPT 和 OpenAI 的出圈是一个业界的标志性事件,让业界看到以基础大模型为核心,从单任务能力增强演进到 All-in-One 的能力体系。
如今,大模型已经逐步变成了一种基础设施。比如通义千问可以很好地完成摘要、续写,这种能力不仅仅作用于单行业和单任务,更是逐渐下沉为一个更广义的基础设施和全面能力。从模型检索、模型更新、训练、部署,再到推理、监控全流程一站式的模型服务能力,成为了新的 MaaS。由此,各行各业 APP、所有业务、所有产业,都可以基于大模型重新做业务效率和用户体验的提升,也值得把每一个系统和能力重新做一遍。
目前,通义系列产品抽成两类。一类 To D,即 To Developer,推出了 DashScope 灵积平台;第二类 To B,即企业 / 行业专属大模型平台。
从架构上来看,最底层,一定是基于阿里云的云基础设施,因为大模型必须依赖于高性能网络 RDMA、高性能存储、高性能 GPU;中间层,一定依赖于 PAI(Platform for AI)以及灵骏,即大规模的高性能伺服器集群和能力,而架设在最上层的 DashScope 灵积,是面向开发者的模型服务平台,在开放基础模型上提供离线、精调、持续训练及在线推理的服务和能力,更加原子化、灵活、友好地面向开发者。
对模型本身来讲,需要具备供开发者使用的基本能力。比如推理方面,特别是高性能的推理可实现 int8,甚至更少的 int4 无损高精度推理;能够支持基于基础模型 fine-tuning、SFT(supervised fine-tuning)或 continue training,甚至未来会支持 embedding,还有 plugin 框架的能力和体系。
企业 / 行业专属大模型平台,核心是在基础能力之上做了一层封装,围绕着大模型的基础軟體能力、插件能力、工具能力,再结合实时数据、离线数据,在通义大模型基础上帮助企业打造自己的专属模型。
企业大模型第一层,关键在于如何结合企业数据,构建企业专属模型。在这个过程中,阿里云为企业提供大量工具,以 prompts 这条链路为例,支持企业数据实现倒排索引或向量索引的索引化,再结合企业的实时数据和能力生成 pipeline,例如完成文档生成。
第二层是 API 与大模型的结合能力。企业自身有 ERP 系统、用户系统、订单系统等,阿里云会提供开发工具或研发工具,与企业级工具做结合。
第三层是构建围绕企业大模型平台的开发和离线等工具能力。例如,针对企业级的调试工作台,结合企业的业务场景,可提供评测平台、每日报表分析等系列能力。
从六月份开始,企业 / 行业专属大模型平台已经逐步开放给外部企业和阿里集团内部试用,同步推出一套可以支撑客户上传数据的离线管理模型评测,以及在线向量数据库索引等 pipeline 流程的构建。
从技术到应用,定制企业专属模型
大模型刚引起各界关注的时候,大家希望阿里云能够提供对市场的教育以及相关技术培训。随着大家对大模型技术认知有一定的基础之后,客户们的关注点也发生了一些变化,如希望进一步了解基础模型的能力和优劣势,如何接入并与企业业务结合调出更好的模型,以及成本、监管和安全等问题。
打造企业专属模型,要从数据开始。上传的数据会有两种用途:一部分是用在离线场景,形成专属模型或者场景。例如在阿里云上开设一个专属 VPC(Virtual Private Cloud)空间,搭配数据上传的服务和能力,再结合阿里云相关的技术产品,以结构化数据直接调用 fine-tuning 或者 SFT 接口做持续训练和微调,从而构建企业的专属模型。搭建完成后,直接删除专属空间里的数据。另一部分,会变成实时向量化索引、倒排索引,或部分能够实时的变成接口和能力去跟大模型结合,从而能够做对应的生成。
接入数据之后,阿里云会继续帮助企业做再训练和微调,提供从离线、在线到强化学习的 pipeline 的相应工具。
首先,构建离线的企业专属模型。当客户上传了一部分数据之后,阿里云会根据客户的数据和场景选择不同的 SFT 模型和接口。SFT 有不同的方法,它可以作用于神经网络不同层,所以在阿里云的企业专属大模型平台上面可以支持不同行业和不同场景,不同的 SFT 方法高效产生离线模型。基于第一层产生的模型,阿里云会针对 SFT 优化之后的企业专属模型,提供一套包含单独测评和对比测评的评测方案和体系,进行模型的初步评测。
在线部分,则主要是根据支持多数据源的接入,包含上传不同文档的数据、数据库导入的数据和场景。比如向量化索引、倒排索引或企业已有的接口,以接口的 influence interface 方式接入数据,使得模型能够动态生成实时数据,或者上传数据的检索来支持 prompts 的检索和接入。阿里云同样会支持类似于 plugin 的插件方式,帮助企业把自己的 ERP、CRM、订单系统、客户系统等 API 和能力,插入到模型服务中来,使它能够支持到 plugin 的场景,做端到端的闭环。
最后就是强化学习。阿里云会对整个强化学习的设计与专属模型的闭环提供不同的反馈机制,使得在实际业务场景中得到客户不同的反馈。对于目标数据的真实反馈或设计内置的强化学习 reward 函数,专属模型会不断闭环调优,过程中不会跟基础模型产生任何的关联影响。
当前,阿里云正在跟内外部客户一起实践和打磨技术的落地。仅在阿里巴巴集团内部,对大模型的需求就有几百个,包括简单知识型提效类工具和深度需求。
第一类需求是关于业务改造,以大模型为大腦和核心,将大模型集成进核心业务决策。
第二类需求是对业务和产品进行再造和创新,比如以旅游为主的飞猪或本地生活。
第三类需求是打开现有行业的宽度,比如天猫精灵从第二代系统以自然语言理解和知识引擎为核心技术,到第三代大模型系统,拓宽了智能硬體的边界,也带来了巨大的市场空间和变化。
以钉钉接入大模型的项目为例,在通义千问大模型的能力接入之前,首先要梳理、抽象项目任务。钉钉的主要应用场景有四部分:IM 即对话消息、会议和音视频、文档相关、低代码平台,并包含了多个相关的下游任务和场景。
之后,基于钉钉的实际场景构建高质量的 SFT 数据。以企业办公场景的音视频摘要为例,需要倒排一百条或几百条数据的摘要,我们希望构建下游任务中的 CST 数据,再基于 pipeline 流程完成离线模型和在线模型的构建。
大模型的体验优化,一部分源于基础模型能力本身。例如协同办公场景下的子任务和泛化性都应该由通义负责,或者通义结合钉钉一部分协同办公的高质量数据构建的企业专属模型完成;例如企业内部的问答、基于知识的问答摘要、头腦风暴的写作场景等,这些都应该是基础模型结合高质量数据所散发出来的能力。
此外,包括钉钉的协同办公场景在内,每一个行业都会有大量的实时数据,所以数据和场景是变化的。这就意味着今天对于模型在企业端或者在钉钉端的干预,是对于 prompts 的干预,它不仅仅是一个静态的 prompts,有可能是会结合一些动态的接口数据、场景数据、人事数据、会议数据等,构建动静态结合的混合数据。对于生成的干预和部分结合动态数据的 prompts 构建,再结合 plugin 机制,则是由钉钉侧或者业务侧去完成的。
在项目实施中也有一些挑战——钉钉的多任务都有不同高质量的 SFT 数据,如果只是暴力的把多份 SFT 数据融合起来,直接灌入大模型,基于通义千问大模型重新做持续训练或者做微调,会导致在专属模型上,不同的任务在数据构建的分布和场景下面会相互干扰。
由此,在构建企业基础模型时尽可能的保持 All-in-One 的机制,也是通义大模型在实践中不断探索的内容。
未来很长一段的时间里,基础模型和企业模型或许会并行协同发展,并达到一定的平衡。
一方面基础模型会基于高质量的数据、高质量的场景、先进的算法和能力而逐步发展;另一方面,企业专属模型和场景同样也会结合企业下游任务高质量数据混合去发展。但是,随着时间的推移,基础模型会变得越来越强,未来能实现用更少的数据、更高的效率去构建专属模型。
大模型的未来
All-in-One 大模型,可以把每一个下游任务做整体效率和性能的提升。无论是阿里内部还是各行各业的企业和开发者,都可以通过大模型把各自业务进行整体更新甚至是颠覆性创新。但大模型的应用和落地仍面临很多挑战,需要一个循序渐进的过程。
首先,大模型结合到企业级模型当中时,需要跟企业业务和行业做深度耦合。纯粹的基础模型或面向开发者的基础模型,并不能完全满足企业的诉求,这要求从企业专属大模型能力出发,更好的结合企业级数据和能力。
此外,对企业级客户来说,今天大模型训练、推理部署的成本还是比较高的,但未来无论是推理成本还是离线训练成本,一定会逐步迭代呈倍数或者指数级下降。
对大模型自身发展而言," 百模大战 " 中,不同的大模型会在几方面拉开差距:首先是算法本身,目前对外开源的技术路径基本都停留在去年 3 月份的指令微调方法和零星的一些技术点上,未来行业需要更多地进行自主创新,包括模型和能力创新。其次是数据,实现规模化的 C 端强化学习仍然很困难,数据本身也需要梳理,除了底层非结构化数据,还需要大量高质量的指令微调数据。
打造大模型产品的差异化能力,关键有两方面。第一,是对于模型本身的理解以及结合。因为产品一定是包含了一个或者多个下游任务,这个下游任务又会跟行业相关。因此,通过高质量的 SFT 数据或者 instruct tuning 的数据,需要加入行业 Know-How,再快速构建基于下游任务的模型。第二,大模型颠覆了很多产品的体验,如何把下游业务产品体验做得更好成为关键。例如搜索可能会变成以生成式内容为核心的搜索体系。
在差异化能力之下,关键是要进一步创新。首先需要做好 instruct tuning,即扩展指令式的处理能力;其次增强推理能力,通过参数的增加、COT 能力的增强,让大模型有可能像人类一样推理;第三,从模态(多模态)本身来讲,例如上传一个图片并加入 prompts,理解图片并实现 prompts 的回复。未来不仅仅是文本本身的理解,还需要对图片甚至视频进行理解。
今天,具备算力优势的云厂商做大模型被认为是顺理成章,但更多的中小企业也不想错失大模型的机遇。对中小企业而言,结合大模型的路径也有两条。
第一条路径是不做大模型,而是做小模型。比较典型的就例如清华智谱 ChatGLM-6B 这类开源模型,通过更少的算力锁定小场景下一个或者几个下游任务并结合数据。虽然成本低,但也会存在一些问题,比如不具备很强的 All-in-One 泛化能力,以及推理、智能等能力也相对较弱。
另一条路径是与云厂商合作。因为云厂商天生对量化计算的性能有极致的追求,在高性能的云计算基础设施架构上,针对多任务的分布式推理、分布式的离线构建,能做到成本和性能的最优。以离线训练为例,一家小厂商搭建一个下游任务模型,只需要保持一年 1-2 次训练频率就可基本实现稳定;后续成本能更多的放在推理层。无论是按 token 付费 , 还是以独占方式付费,模型整体方案成本都会大大下降。
本文摘自《云栖战略参考》2023 第一期
扫码限时申领纸质版
↓↓