今天小编分享的互联网经验:对话Kyligence:Be part of the Generative AI game,数据平台竞技场指向“用数”,欢迎阅读。
文|沈筱
编辑|王与桐
生成式 AI 技术正在推动数据平台厂商从 " 幕后 " 走到 " 台前 "。
无论是 Snowflake 联合英伟达打出的「数据 + 人工智能算法 + 计算引擎」组合拳,还是 Databricks 喊出的在一个数据平台内实现「数据 + 模型 + 应用」三大功能的口号,无一不彰显了从服务「管数」向服务「用数」迈进的野心。
在变化背后,双方达成的微妙默契是,企业在利用大型语言模型构建和部署人工智能应用时,无须移动数据。换句话说,数据是大语言模型应用过程中最难的部分,对他们而言,最难的部分已经解决好了,基于数据训练、微调模型,部署、运行模型应用都是捎带手的事。尽管这一捎带手,付出的是收购人工智能公司的真金白银。
的确,正如 Databricks 的联合创始人 Patrick Wendell 所言,在大模型百花齐放,可获得性高而成本逐渐降低的当下,建模技术以及建模能力正在迅速商品化,模型本身是竞争的必要不充分条件,数据才是人工智能战略的核心。
而在生成式 AI 浪潮下,离客户数据最近的数据平台厂商很难按兵不动。
在近期举办的 2023 用户大会上,大数据分析和指标平台供应商「Kyligence」也发布了关于生成式 AI 的新布局——「工具 + 指标平台 + 引擎」。但区别于 Snowflake 和 Databricks 提供覆盖大模型挑选、训练、微调到应用部署的全链条,Kyligence 更多聚焦于领網域特定的生成式 AI 应用,即工具层。
会上,Kyligence 推出了基于⼀站式指标平台「Kyligence Zen」的生成式 AI 新产品「Kyligence Copilot」AI 数智助理(预览版)。而支撑上述指标平台和应用的底层技术则是 Kyligence Enterprise OLAP(多维分析)引擎。
结合⼤语⾔模型能⼒,Kyligence Copilot 可以帮助用户通过⾃然语⾔对话获取指标,完成围绕业务指标的分析和洞察,例如归因分析、目标看板,并⽀持⾃动创建仪表盘。此外,Kyligence Copilot 还可以推送指标到 IM 群组、创建任务,整合围绕指标的⼯作流程。
据介绍,Kyligence Copilot 目前支持 SaaS、本地化部署、嵌入式三类落地形式。同时,公司开发了「Byzer-LLM」工具箱,支持客户基于通用大语言模型,利用专有数据形成的指标知识库进行训练、微调,生成企业的指标领網域模型。
伴随 Kyligence Copilot 的推出,Kyligence 的定位也朝着 " 用数 " 更进一步。Kyligence 联合创始人兼 CEO 韩卿告诉 36 氪,生成式 AI 技术于公司最大的价值是,使 Kyligence 从一个技术公司,走向一个真正的管理軟體公司,以数据为基础,从指标侧构建、输出企业经营管理体系,助力客户精细化运营。
如 Kyligence 联合创始人兼 CTO 李扬所言,Kyligence Enterprise 是面向 IT 专业人员的数据管理工具,Kyligence Zen 是可以面向业务人员的数据分析工具,而 Kyligence Copilot 填补了公司要实现 " 人人用数 " 目标所缺失的最后一块拼图。
这块拼图究竟如何发挥作用?从预览版到真正用起来还有什么挑战,如何解决?以及,如何看待生成式 AI 浪潮下,大数据行业的发展趋势?围绕上述问题,在大会期间,36 氪和其他媒体与 Kyligence 联合创始人兼 CEO 韩卿、联合创始人兼 CTO 李扬进行了深入交流。
以下是交流实录,经 36 氪编辑:
01 AI 数智助理——「人人用数」的最后一块拼图
Q:在开发 Copilot 时,Kyligence 主要考虑了哪些关键要素?
韩卿:第一是对行业特定领網域认知的深度。我们做了这么多年数据仓库、数据分析,其实非常理解这个行业的痛点在哪,低效的点在哪,哪些地方用到了大量人力。从这个角度,我们就是要基于对行业痛点的理解,找到可以利用 AI 技术在哪些点突破、创新。
第二是,产品需要一些差异化。我们在原有专业领網域的积累,相应的能力,并不是非常 general。让大模型写文章,随便写首诗其实没有差异化。我们今天发布的产品是建立在本身的积累之上,比如 OLAP 引擎和指标平台。到今天,我们通过 AI 的手段把过往积累的能力放大了。以前可能靠我们慢慢去研发,也在往用数的方向走,但现在有生成式 AI,是 10 倍、100 倍的爆发。
第三是专注。AI 出来之后所有人都想做一些尝试和新的东西。我看到了太多的公司在大模型出来后,甚至连自己的商业模式,专注的东西全换掉了。我们做这么多年企业服务学到的东西是,要把专业服务做好、做深、做专业,就得聚焦,不能什么都做,不能今天什么热就做什么。
我内部写过一篇全员信,有三句话。第一,大模型 not our game,它本身不是我们领網域,也不是我们参与的地方;第二,要 be part of the game,参与进去;最后是define our own game,要找到自己的游戏赛场。所以,我们开发的产品就是在大数据这个领網域,基于指标平台,把 AI 能力放进来,产生碰撞。
Q:怎么找到公司自己的游戏赛场?构想到开发出现在的 AI Copilot 预览版,这半年时间主要做了哪些工作,最难的一步是什么?
李扬:个人理解不一样,比如做技术的会认为技术层面还好。现在回头看比较困难的还是,技术、产品和业务的结合。
大家都知道语言模型是个好东西,但今时今刻考虑到投资回报,我用它做什么,不用它做什么,这个应该想清楚。比如用它做餐厅的点单系统,回报率和投入比起来明显就不合适。
当想清楚用自然语言加上指标体系,可以让管理精度有质的提升,以前只能管理到科室,现在可以管理到每一个业务人员。这儿感觉是有商机的,想清楚了投入进去以后,后面就都还好。
Q:当时是如何预判到这轮技术趋势的?
韩卿:我们很难预判,但有所谓的愿景,Kylin+intelligence,以 AI 的技术提升数据的使用、分析能力。前几年我们可能更多关注利用机器学习做平台的优化、自动化,比如说 2019 年我们就推出了 AI 增强引擎,核心在于,凡是消耗人多的地方都用 AI 替换掉。
有这个愿景,当新的 AI 技术出来的时候,换个词我们叫 " 抓住机会 "。我的核心产品和关注的方向并没有变。
抓住机会比预测更重要。
Q:公司层面来看,Copilot 这款产品对 Kyligence 而言,最大的价值体现在哪?
韩卿:最大的帮助是让我们从一个技术公司,走向一个真正的管理軟體公司。
我以前提供的是工具,今天提供的是平台,甚至上面承载了一些管理方法论。这样来看,大家的定位就不一样了。这是我们的核心。我们一直想干的事情其实是可以定义行业标准、行业未来,可以引领行业变化的趋势。这个是创业公司或者在行业深耕的公司应该做的事情。
Q:具体来讲,Copilot 在 Kyligence 强调 " 管理方法论 " 的战略中扮演什么角色?
韩卿:我们主张以 AI 变革组织运营与管理,分效率、经营、协同三个层面。一是提升数据分析的效率,来释放所有人的潜力;二是通过 AI 赋能运营来释放管理的潜力;三是通过 AI 加强协同,来释放组织甚至组织与组织之间的潜力。Copilot 是中间很关键的一环。它背后 AI 技术发展带来的人机互動方式的改变,让我们对这三个问题的解决再上了一个台阶。
李扬:Luke(韩卿)讲的管理方法论,具体到现阶段的实践上就是 " 人人用数 "「工具 + 指标平台 + 引擎」框架,即 AI 助理(零门槛的数据工具)+ 指标体系(零门槛的数据语言)+ 合理成本(为成本优化数据引擎)。AI 助理是整个拼图最晚来到的,但,是最关键的一个部分,通过自然语言联通使用数据工具的最后一公里。
完整的拼图是,我们有每个人都能触达的数据工具,可以使用统一的数据语言高效沟通,同时成本是低廉可控的,我的业务是有价值回报的。
02 凑齐拼图,但无缝拼接尚需时日
Q:Kyligence 提出的 " 人人用数 " 的「工具 + 指标平台 + 引擎」框架,落地还有哪些难点?
李扬:这个框架现在还只是一个从技术或产品逻辑理论上比较通畅的状态。从实际落地验证的角度来说,还有很大的提升空间。
我们最终希望能达成的效果是,像 ERP 到来的时代那样,把整个管理水平提升一个台阶。参考 ERP 落地,对应到数据管理,应该是先在几个典型的行业和头部客户里,建立指标体系的模板,基于行业 know-how,我应该用什么样的数字化方法去管理这个领網域,还能用指标体系的方式沉淀下来。这份知识就是沉淀,还可以复制。SAP 的各类管理模块可大规模复制,这就是一个成熟的形态。
今天显然还在早期。相比于前一代技术,可以使能的个体变多了。之前是公司财务部,或者是运营部的一部分人用电子化系统,现在技术能力提升了,可以管理到末端,每个业务端。这个可能是下一步要做的。缺的一块东西是,基于实践的行业套路。
Q:具体地,Kyligence 服务的行业需要发展到什么样的状态,才能支撑公司实现 " 人人用数 " 的目标?
李扬:可以用精益化制造打比方。所谓的精益制造,尤其是以德国企业为典型,能把整个从物料管理开始,到库存再到制造的每一个环节很精确地量化,然后做供应链整体优化而非局部最优。这个可能就是一个成功的样子。
也就是,从端到端每个环节都可以用数字化描述,每个环节、每个部门都可以用数字体系的方法去观察,或者考评绩效。
以这个为模板,可以看到,能做到这儿的行业其实还不多。尤其是过去,互联网或者是做新行业的时候,总是先冲再说,先干再谋求精细化、高质量发展。数字化管理也是最近提出来的,因为存量做完了,各种红利吃完了,现在是要来考管理水平。
Q:所以从行业客户的角度,客观来看要用起来,目前困难或挑战是什么?
韩卿:第一个困难是模型层面,国产模型的成熟度还不够。Open AI 的模型没有办法给到我们银行客户或者大客户使用。
第二个困难是,要看这些想要用的客户有没有数据的积累,数据成熟度到哪段了。这个决定了能否用起来。比如,今天我们 Copilot 做得再好,但是你的数据没用,那巧妇难为无米之炊。或者数据乱糟糟,我的 AI 工具再厉害也回答不出来问题。
所以会发现,数据基础比较好的企业,会更快用起来,并且效果比较好。对我们的挑战就在于大家都想追齐,这个时候怎么帮助客户把落地的问题解决好。
Q:数据准备不够,国产化的模型成熟度不够。这样两头难的情况,怎么解决?Kyligence 也提到了 " 边使用、边治理 " 的理念,有没有想跟一些合作伙伴共同来做?
韩卿:" 边使用、边治理 " 是纵向来看,过去因为数据治理成本高,大量依赖人工,耗费专家腦力,但现在一是有了云化,成本降低了,二是有了 AI,比如我们的 AI 增强引擎,可以支撑客户在数据使用过程中建立、迭代模型。所以企业可以先买服务,边使用、边治理。
整个行业的角度来讲不是 " 边使用、边治理 " 的问题,客户是分层的。我们已经有客户能合规地使用 Open AI,那我们就跟他合作,大家往前跑,模範先打出来。
整个行业,国家刚出台了一个《生成式人工智能服务管理暂行办法》,我们认为比征求意见稿要宽松得多,这是好事情。因为有了这样的规则,大家知道边界在哪里,有什么问题是行业要解决的。
大模型本身这件事情不是我要解决的。我们现在关注的是用了大模型,怎么把我们的东西做得非常好。然后随着不管是行业、政府,还是整个赛道的变化,逐步调整就好。今天所有的客户到这里,我也服务不起来,一点一点来挺好。
Q:模型层的问题不归 Kyligence 解决,那么要落地应用,如何解决模型幻觉、数据安全等实际的问题?
李扬:不准确是大家老担心的问题,核心的逻辑是最好不要把关键回答问题的那一段交给一个纯开放的大语言模型来做,而是引导到一个确定性的系统,比如我们的指标平台。
我们把回答问题的步骤拆解为四步,包括提问审查、指令理解、指令执行和数据解读,可以在不同步骤中用几个相对小的语言模型做特定能力的补偿。
比如,安全问题。第一关就是审查提问是否合法合规,是否属于工作范畴,如果不是,模型就不会回答;
第二步指令理解,需要明白自然语言对应到指标平台上具体的是什么指令执行;
第三步指令执行,根据指令做出分析决策,比如归因分析,或者把绩效最差的销售挑出来。这是最关键的需要解决胡说八道问题的环节。这个动作是在指标平台上面完成的,不是不确定的大语言模型在回答。
这里我们的做法和其他厂商可能不同,没有用 NLP to SQL,而是 NLP to DSL(Domain Specific Language),基于指标体系这个统一的数据语言,限定回答的自由度。
为什么?to SQL,从自然语言直接映射到数据查询,长期来看一定是正确的方向,但我们预判 SQL 的目标空间还是很复杂,灵活度非常大,要稳定收敛,短期里面会有挑战。
另外,在数据安全方面,SaaS 形态的方案是最容易和最方便验证新技术的,但也是大家最有顾虑的一种落地方式。我们制定了严格的流程管控、审计和监控流。网络和计算与公司的办公網域完全隔离,数据存储、计算资源也都是按照组织隔离的。同时,数据传输过程端到端完整加密。整个工作流程,我们有 SOC 2 Type Ⅱ 认证、ISO 9001/27001 认证等。
Q:所以不是 to SQL,而是 to DSL 也是出于快速落地的考量?
李扬:技术的进步需要有快速的闭环和迭代来完成。我们的策略就是先控制自然语言使用的自由度,把它限制在指标领網域的范围里,从而实现快速的商业落地,这样企业就能从中受益。
通常如果回报周期越短,越是能快速带来企业下一轮投入。因为有一个好的想法验证出来果然有用,而且有可量化的价值,企业就会很愿意做新一轮的投入。
现在美国 AI 炒得很热,最近又有一些 AI 泡沫化这种担忧出来。之所以有这样的担忧,一方面当然确实贵,另外一方面落地的速度不够快。如果已经落地形成一轮闭环,有真金白银的兑现,就谈不上泡沫。
Q:提到投入产出,一分为二,公司自己的经济账怎么算?对客户来说考虑 ROI 是不是也需要有场景筛选的过程?
韩卿:对我们内部来说,创业公司永远是把原来的事情做起来,以及跟做创新之间找到平衡。对我们来说投入还好。但目前很难说这笔账到底怎么样。但我只知道一点,不做就落后,落后就死掉。一个创业公司如果固守成规,不往前走,那肯定出事情。
对客户来说,是的。这也是为什么今天出的还是预览版。这个技术本身实在太新了,有太多的未知。第二个事情是,我们也希望通过预览版,让大家看到我有这样的能力,找到一些数字化转型的先锋客户,一起探索有什么新的或者好的场景。
Q:Kyligence 目前用的什么模型?对指标领網域应用而言,模型的能力差异体现在哪?
李扬:模型的能力差异主要体现在指令理解和数据解读。我们的 Kyligence Copilot 预览版目前支持可以合规使用 OpenAI 模型 API 的企业。本地化部署主要是 LLaMA 和 Falcon。我们测试的结果是,这两个模型在指令理解能力方面大约是 GPT3.5 的 70%,具备落地应用的能力。当然我们也在积极测试其他的开源模型,也希望能够和国内的大模型厂商开展合作。
Q:对不是最优结果,企业客户接受吗?
李扬:从企业接受度来说,只要比今天的那个人做得好就可以。人也会犯错,听领导的要求,也会有一定的理解偏差或者理解错误。
Q:算力方面,客户能满足使用 Copilot 的需求吗?
李扬:出乎意料的好像还行。这个聊到是企业私有化部署的 IT 成本问题。初步应用起来,给领导管理层,够他们用的 AI,或者说显卡、计算资源,小几十万就够了。如果要应用到整个公司几万人,可能大概就百万规模的 IT 预算。
03 生成式 AI 已来,大数据领網域竞争边界模糊
Q:简单来说,您认为大模型究竟为大数据领網域带来了什么变化?
韩卿:人机互動模式的变化会带来使用数据的革命性变化,从过去以数据为中心做分析的方式变为以人为中心。
过去使用数据需要靠专业人士。我作为管理者想要看指标,就要委托一个人帮我做,可能是专业的程式员或工程师。整个互動模式是一层一层转包的过程。有了 Copilot,就是一个效率放大器,决策效率会大幅提升。
我们一直在做的事情是把专业的、复杂的东西,逐渐变得平民化、简单化。比如,OLAP 引擎是很专业的工具,只有金融等行业的大客户才能用起来,但是指标平台大部分客户是可以接受的。业务人员也能理解,当然它还是一个专业工具。如果变成 Copilot,几乎每个人都可以用。
把复杂问题简单化的过程,也是我们讲的人机互動的革命。
Q:Kyligence 有一些 BI 的合作伙伴,指标平台跟 BI 是什么关系?
李扬:严格来说 BI 是属于我们认为的数据应用层,不是我们主要发力的地方,我们发力在平台和引擎,以及围绕的一些指标的、有深度的能力方面。所以从定位来讲,BI 是我们的合作伙伴,我们也并没有打算取代掉 BI 的这个场景。
Q:有了大模型,未来 Kyligence 的 Copilot 产品和 BI 厂商发展的方向会不会越来越趋同?
李扬:应该会有一定重合,大家其实在解决同一个问题,只是在不同的层面工作。但如果问题对应的场景并不复杂,比如就是简单看两张报表,不需要引擎、平台、数据这样的分层,可能会存在竞争。
但如果我们把蛋糕做大,把人人用数的能力放大出来,把行业指标体系的可复制能力推开,真的能提高整个行业数智管理能力基线,就不会存在竞争的问题了。做引擎的做引擎,做内核的做内核,做行业应用的做应用。
Q:未来终极的产品形态有没有可能就只是人机互動的形式?
李扬:不会。并非所有的事光用语言表达就一定是最高效的。举个例子,做一个仪表盘,要把图画得好看,字体大一点,横轴加一个标注等等。如果要用语言把这个事说得很清楚,会特别费劲。反过来还是滑鼠点两下更快。
所以人机互動不是零或者一的替代关系,只是多了一种渠道。有时候这种渠道是高效的,但有时候就不一定是必要的。
Q:海外的 Databricks、Snowflake 最近也有一些动作,Kyligence 有何不同,比如跟 Snowflake 相比?
李扬:从不同的角度,答案会不太一样。从技术起源的角度很像,大家都是 OLAP 引擎。
从产品定位上,我们已经有一些差异。因为我们现在更多是通过指标平台能力作为出口,推广我们的产品,更偏向业务。相当于往业务和应用层抬了一步,在产品角度不会直接和它形成对位竞争。
当然最新动态很多,Snowflake 自己也收购了一些 AI 的公司。产品层面也许未来也是趋同,大家都在进步。
OLAP 的引擎能力投入我们也从来没有停过。我们看到的是底层架构的东西,尤其是在国内,要被大家用起来是需要一个出口的,跟国外的模式不一样。国外有点像偏科更容易过,把一件事情做到极致。国内希望你有一个价值闭环,说得清的东西。所以近两年,针对国内市场我们做了把能力圈层往外扩的努力。
Q:像 Databricks、Snowflake 这样收购生成式 AI 公司的做法,在国内可行吗?
韩卿:通过收购快速补齐能力是科技公司常用的方法,尤其是在技术高速剧变的时候。我们对国内 AI 等公司不是很熟悉,很难给出准确的看法。这类 M&A 在美国很成熟,但在国内以收购模式做整合并且做的好的似乎还不多。从美国市场的实践看,这应该是一个比较好的模式,只是可能需要更多的时间和探索。
Q:和国内友商相比,Kyligence 的差异化体现在哪?
李扬:行业里其实做指标平台的并不少,中肯地说,在指标平台这个层面,相似大过于不同。
我们最大的技术差异点是在 OLAP 引擎层。配合上每一个人都来用数的前提,一是要支撑公司 5 万人、10 万人大家都来用这个数据,对引擎本身的性能,尤其是高并发下的稳定性有较高要求,同时成本也要合理。这两个方面 Kyligence 有一定的优势。面向成本优化,降低每一次查询的成本,也是我们对引擎这款产品设定的持续发展方向。
另外,我们也在持续推进计算引擎的性能。去年 7 月我们联合 Intel 在 Databricks Summit 上发布了 Gluten 的新技术,本质上就是把向量化的执行引擎植入到 Spark 中。我们的 Kyligence Turbo 就是一个向量化的 Spark 引擎技术,目前测试下来比标准版 Spark 引擎提速 2 倍以上。大概在今年 10-11 月开始,我们会和一些愿意尝鲜的头部客户,在真实生产环境中测试它的表现怎么样。