今天小编分享的互联网经验:蜜度CTO刘益东:AI技术发展的成果要让普通人都能理解,欢迎阅读。
文 | 周鑫雨
编辑 | 邓咏仪
在今年的世界人工智能大会(WAIC)逛蜜度的展台,会有一种来到了做 AIGC 应用的 To C 企业的错觉,与会者可以体验用 AI 写诗、作画,并领取 AI 制作的明信片。
WAIC 蜜度展厅。图源:蜜度
此次,长年为政企提供语言智能服务的蜜度在 WAIC 上一口气发布了三个垂直领網域的大语言模型:蜜巢知识问答与内容生成大语言模型、蜜巢智能舆情分析大语言模型、智能校对领網域大语言模型 " 蜜度文修 "。这三款语言大模型主要为新闻出版、媒体采编、政府公文领網域提供智能化的服务。
蜜度 CTO 刘益东告诉 36 氪,以前蜜度参加过不少展会,采取的都是在螢幕上展示产品专业参数的形式。从去年 WAIC 开始,蜜度开始用普通用户都能理解的形式呈现技术能力,观众可以对 AI 技术进行现场体验。
他打了个比方:" 我们的展台,想让爷爷奶奶辈也感受到 AI 的智能便利。好比大诗人杜甫常将写好的诗念给不识字的老婆婆听,以便通俗易懂。"
7 月 6 日的 WAIC 开幕式上," 深度学习之父 " 杨立昆重申 "LLM 不会是那条通往人类智能的道路 "。这也让许多厂商跳脱出 Transformer 的框架,去做创新。
发布自研的行业基座大模型,是今年蜜度的目标。刘益东觉得,自研行业基座大模型是蜜度的方向:" 下一个创造风口的可能就不是 OpenAI,国内厂商要抓住机会。"
以下是刘益东和 36 氪的对话:
先垂直,后通用
36 氪:这次蜜度和友商们同台秀大模型肌肉,为此蜜度做了哪些准备?
刘益东:我觉得这次 WAIC 大家会有一些同行竞争的压力,但更多地是抱着交流学习的态度。虽然很多厂商都推出了大模型,但是聚焦的垂直领網域是有差异的。我觉得作为企业,需要更多地思考我们的优势在哪里,以及怎么为客户和用户带来实用、便捷、高性价比的 AI 服务。
36 氪:那关于这个问题,蜜度的思考结果是怎样的?
刘益东:在过去的十多年时间里,蜜度主要服务的是政务、媒体、企事业部門的办公需求,也积累了一定规模的客户,所以我们接下来发力的点还是会从这些行业延伸,包括会慢慢地触及教育行业的 B 端客户。
我觉得蜜度的优势首先在数据能力,在 2017、2018 年的时候我们已经把 AI 的一些能力通过产品赋能用户了,在大量高质量行业数据的基础上,蜜度能够更好地实现应用落地。
其次是客户经验的积累,我们对客户需求的认知和理解程度还是很高的,虽说现在方案仍需要精细打磨,但至少现在我们已经有相关的基础,能在未来给客户提供 " 开箱即用 " 的成熟方案。
最后是蜜度对科研的投入,2019 年公司成立了专门的科研机构 " 微热点研究院 ",主要用于与学界科研力量一起追踪前沿科技。
36 氪:大会上蜜度先发了三个垂直领網域的大模型,而不是一个通用的基座。
刘益东:是的,这次我们发布的几个模型是针对垂直领網域的。
我们的目标是在今年下半年在已经发布的模型的基础上,去训练一个参数规模在千亿级的行业基座模型。当然这个基座模型还是会倾向于政务和媒体的场景。
36 氪:先基于开源模型训练垂直领網域的模型有怎样的考虑?
刘益东:大模型领網域的发展可以说是日新月异,我们选择先做垂直领網域的模型主要是考虑了现实应用的需求。因为基座模型的训练是一个漫长、投入大的过程,同时不是说一次就能得到很好的效果,而是要做很多方向的调整。为了满足客户当下的需求,我们考虑先推出垂直领網域的大模型,满足垂直行业应用的需求。
36 氪:华为也有自己的 " 盘古大模型 ",提出了垂直领網域的模型解决方案,作为华为昇腾的客户,蜜度与华为会不会也形成竞争关系?
刘益东:在我的理解中,华为更多的是做一些底层基础设施的工作,而我们的定位是偏中上层的应用。整个 AI 生态不是说一个人就能把所有事都干完,大家各自都在做擅长的事,所以我们一直和华为都有良好的合作。
最难的是工程落地
36 氪:ChatGPT 带起的 AI 热潮也已经过去大半年了,您觉得算力、数据等哪些难点得到了一定的解决?哪些还是 " 卡脖子 " 问题?
刘益东:我觉得算力、算法、数据,还有一些工程性的挑战都是非常关键的因素。
先从算力讲起。过去半年多的时间里,各地的算力网络建设也很快。比如上海的超算中心就在过去半年里提供给了我们很大的算力支持,其实建设的速度很快,并且它能够支持国产的异构算力,算力这个难点还是得到一定的解决。
接着是算法。整个大模型开源生态在过去半年里发展得非常快。最开始开源模型有千亿的参数,我们只能用小数据做试验。后来更多的快速训练的框架面世,就能帮助我们仅用百卡的级别来训练一个百亿参数级别的模型。所以通过半年的观察和摸索,下半年我们具备了自主训练基座大模型的条件。
不过,在数据层面我们仍然面临一些挑战。因为中文高质量的数据生态发展才几个月的时间,当然这段时间内各行各业都在建立高质量的数据训练集,其中一些是以开放的方式,我觉得这是非常好的趋势。如果解决了中文训练数据的问题,至少从大模型的算力、算法和数据三个角度而言,基本上不会有太多问题。
而最大的挑战来源于工程落地。大模型前期的落地步骤包括用户应用,成本很高。如何让大模型在内部落地,并且让客户高效利用好,这是蜜度这半年来在思考和在实施的。目前我们已经做到把蜜度的大语言模型部署在消费级的显卡上,比如说国产的华为昇腾 NPU 卡。
AI 技术发展的成果要让普通人都能理解
36 氪:蜜度大模型的优势主要在哪些方面?
刘益东:主要在部署成本上。我们的大模型已经能够做到用消费级显卡就能部署,对于企业客户而言,考虑到安全保障,这个成本是可接受的。
同时用户要把大模型用好,和单纯部署中间有一个 gap,弥合这个 gap 对于我们来说就是要去契合地接入各种业务场景,设计互動友好的产品界面,我们做了很多工程性的工作,把整体的功能用简单易用的形态交付给客户。
36 氪:这次展示的 AI 作诗、绘画等模型功能,看上去都很 toC,蜜度是有做 toC 应用的计划吗?
刘益东:以前我们参加过很多展会,更多地是把比较专业的细节在螢幕上展示。但参展者就会觉得很陌生,这其实不利于普通客户的传播和理解。所以从去年的 WAIC 开始我们就以普通用户可以理解的形式把我们的技术能力展现出来。
36 氪:这次大会杨立昆也提到大语言模型不是通往 AGI 的最优解,您对此是怎么看的?蜜度是否会跳脱出 Transformer 的路径去做新的尝试?
刘益东:我们内部一直在启动一些创新,不管是基于 Transformer 的还是新的技术路径。那么我们的创新能不能超越 Transformer?这其实并不是拍拍腦袋就能实现的,而是需要大量的科研投入。
欢迎交流