今天小编分享的互联网经验:大模型的号角已在数据分析市场吹响,欢迎阅读。
接上回,复旦大学大数据学院与高等学术研究院副院长、上海市数据科学重点实验室副主任阳德青,上海市大数据股份有限公司高级产品经理、DAMA 中国认证首席数据官汪科科,以及来自观远数据、Datafocus、北极九章、思迈特 Smartbi 的演讲嘉宾分别结合自己的行业经验为大家分享了大模型在数据治理与数据分析行业的落地场景。
下半场,我们邀请到天津海量信息副总裁杨智炜、澜码科技创始人兼 CEO 周健、数势科技 CTO 韩秀锋、北极九章合伙人兼首席布道师沙海洲以及 DataFocus 创始人兼产品经理王碧波同台交流。当 AI 遇见 BI,二者将如何对话?以下是
圆桌摘录,内容较长,建议收藏:
01 八仙过海,各显神通
杨巍:今天现场成立最早的公司是天津海量信息,是一家处理非结构化数据起家的公司,请问你们是从什么时候、因什么机缘进入数据中台以及结构化数据的市场?
▲ 杨 巍
杨智炜:天津海量成立得比较早,1999 年就成立了,和百度算是同期。我们当时也做搜索引擎,不过是为企业级客户做,核心技术是中文分词。该技术服务过腾讯、阿里以及海外等多家企业。后来围绕该技术衍生出很多服务应用,比如智能采集、智能审核等服务,但我们的技术底层始终围绕大数据板块。大数据平台最早是团队在 2005 年前后开始搭建,一直到今天已经迭代到第五代。伴随着 AI 技术的出现,我们也试着将 AI 结合我们自身的大数据架构层层嵌入,来支撑我们一直在做的事情,能够更智能化地为客户服务。
▲ 杨智炜
杨巍:台上企业成立第二久的是 DataFocus,成立于 2014 年。在你们公司网站上有一句话叫,太多的工程师、太多的企业日夜与数据库打交道,他们甚至忘了 SQL 是一种极其小众的语言。当下,大语言模型生成机器语言的能力应该说已经被证实了,请问王总您认为 DataFocus 的解决方案是暂时领先的、大模型更新后或将很好地写出小众的机器语言,还是说即使在目前大模型的架构下,在相对长的一段时间里,你们都有不可替代的优势?
王碧波:哈哈,这个问题非常直接,也感谢杨老师能够看到我们很早之前写的这样一句话。我们对大模型的能力也有第一时间的感知,BERT、T5 模型的时候就已经关注了。我觉得这么多年以来,幻觉是大模型技术根本性的问题,是很难消除的。假定说它没有幻觉,它可能也就没有创新能力了,就像是一体两面,你不能指望它既有创造力,又什么错都不犯。总体来说,我们可以期待下一代模型准确率会继续提高,幻觉现象会减弱,但要想让它完全杜绝这个问题短期内是不可能的,所以目前来看我们的路线仍然是未来比较靠谱的。
▲ 王碧波
杨巍:好的,谢谢。时间来到 2018 年,北极九章成立了。北极九章最早成立的时候有一个口号,把增强型数据分析最早带入中国。增强型分析听起来也在讲 AI 和数据分析的结合,所以我想请教一下,增强型数据分析和大模型驱动的数据分析的根本区别在哪里?大模型技术的哪些部分可能是对之前增强型数据分析的颠覆,或是更好的技术实现?
沙海洲:2018 年那会儿大家都在卷敏捷 BI、dashboard,我们就已经想做这么一件事情,但是没有想好如何定义。然后我们在 Gartner 那边遇到了 " 增强型分析 " 这个概念,于是就借用它引进中国。其实增强是一个泛化的概念,我们只是希望能够整体改变大家现有的和数据互動的方式跟整个工作流。而我们所做的增强型分析也并不意味着和大模型数据分析泾渭分明,我们会把包括大模型在内的多种技术,根据它们适合的场景,作为产品的功能模块,迭代到产品上,从效果上客户受益是我们的终极目的。
▲ 沙海洲
杨巍: Gartner 对 toB 的信息服务行业确实有很大影响,这次有好几位参会的嘉宾网站上都直接引用了 Gartner 的某句话或某个概念。时间再后移两年,数势科技成立了。数势科技的主要产品是指标体系,韩总能不能简单介绍一下指标体系和 BI 是什么关系、有什么区别?
韩秀锋:数势科技是 2020 年成立的,创始团队也都是百度和京东的背景。我个人是在 2023 年加入的,原先在百度做 AI 技术的场景落地,所以对 AI 技术产品化解决场景问题的领網域有比较多的经验。数势科技在做企业数字化转型的过程中发现企业数据价值化的关键在于要让数仓里面的结构化和非结构化数据真正服务好企业各个场景的实践。我们的产品也围绕这个核心问题不断地聚焦和收敛,最终选定了做企业数仓虚拟化的产品,在刚才的技术曲线里面属于 HeadlessBI(无头 BI)的技术路径。也就是说,通过技术化的思路,自下而上地把业务的场景化语言、领網域型语言与技术解耦,使得研发是研发,业务是业务。22 年底、23 年初,也被称为大模型元年,我们看到了 agent,看到了数据价值和大模型结合的机会,于是进一步让数据和价值普惠化,迭代了我们的产品。
▲ 韩秀锋
杨巍:好的谢谢。又过了三年,澜码就成立了,可以说是大模型原生的企业。澜码的口号是人人都能设计自己的 AI Agent。今天除了周总之外,其他公司都是搞 BI,那么请问 Agent 对 BI 究竟有什么样的作用?
周健:在企业服务行业里,AI Agent 其实最早不叫 Agent。Gartner 在 2021 年提出,企业业务未来将发展为 Composable,即业务是可拆解的、可组装的,并提出一个能力 "packaged business capabilities",即封装好的业务能力。换言之,我们可以通过 RPA 调用不同的应用,可以通过数据库中获取数据,可以通过 BI 或者机器学习获得洞察等等,这些能力组装起来就能变成各种各样的 Agent。Agent 可以算是一个新时代的軟體产物,但解决的并不是上一代系统与系统之间的连接,而是赋能人和系统之间的连接。在我们做编排和自动化的过程中,很重要的一环就是对需求端的理解。我们经常说只吃第三个包子饱不了,所以我们为了吃第三个包子,还是要把前面第一个可能是 RAG,第二个可能是数据分析,随后可能是和 API 相关的 func call 能力等等都吃到肚子里。到了现在这个阶段,我们觉得 Agent 已经可以和其他传统 PAAS 包括 BI 厂商一起合作,共同服务用户,帮助用户编排他们想要完成的任务,BI 更着重解决需求理解这一侧。
▲ 周健
02 大模型浪潮下的 BI 市场
杨巍:接下来我有几个问题与大家一起讨论,每个问题想请两位嘉宾来回答。首先想请北极九章和 Datafocus 的两位结合你们业务落地时候的真实情况与我们分享一下,在大模型技术出现前后,BI 最终用户的角色和身份有没有变化?
王碧波:大模型出来之后,用户明显下沉,没有太多技术基础的人反而受益最大。原先他明白自己干不了这些事,之前的做法可能是直接找 IT 人员帮我,如果 IT 做不了,那我干脆就不干了,所以有大量需求还没有被释放出来。现在当团队引入这样的产品后,门槛降低,业务人员就有机会慢慢参与这件事。
杨巍:那请问沙总,您觉得按照 Datafocus 这位嘉宾的说法,数据分析师这个职位会不会从体制中消失?
沙海洲:我觉得我们在座各位的目的都不是要干掉现在的分析师,国内最大的问题是我没有足够多的分析师。数据分析师的概念大约十年前才在中国兴起,截止目前总数是远远不够的。当企业招不到足够的数据分析从业者怎么办?我们觉得可以通过工具来弥补,让普通的业务人员得到技术的赋能。
韩秀锋:我想补充一个实际案例。我们最近和国内餐饮 top10 的品牌书亦烧仙草合作,虽然他们阐述数据的需求在整个场景里优先级是比较高的,但几乎所有的店长和区網域督导都不会使用传统 BI 工具,总部只能通过巡店去看各门店的经营数据。后来接入我们的产品后,就很好地帮助他们这部分的数据价值落地了。所以在数字智能时代,数据的消费市场必然是在不断扩大的。同时,数据分析师、数据工程师等数据的生产者其实也需要不断把企业知识能力进一步加工,让企业知识和数字人或是 Agent 相结合,与其说是替代,不如说是数据行业角色工作的内容和方式在转变。
杨巍:谢谢补充,刚好下一个问题我也是想请教您和 Datafocus。Datafocus 说他们的方案可以极大地简化指标体系,我想听听您对此的评价。
韩秀锋:其实当下结合我们对客户的服务实践来看,最具落地性的还是指标平台加 ChatBI 的模式。在数据消费环节,我们通过 ChatBI 的方式把原先数据使用的门槛降低,一次性互動即可完成数据生产。同时我们强调企业整个数据的模型构建与业务领網域知识全管理等等耦合在一起,构建过程与企业的复杂度、数据的量级都强相关,而且这个模型抽象化的质量也决定了后面它能不能迭代进化。因为数据治理或者数据积累很多都是越治越乱,需要不断在新的平台上迭代。当然,各有各的路线选择,路线也和企业具体的目标客户和群体行业相关。
杨巍:那我想请教王总,您觉得在数势科技描述的数据非常复杂的情况下,你们的技术路线如何简化他们的指标系统?
王碧波:其实我整体比较赞成刚才韩总的观点,Datafocus 的产品目的也是从技术上简化指标体系的构建。当然,市场上有许多企业大多数人对数据的要求都不明确,大家懒得提问或者压根不知道该如何提问,这都是非常现实的问题,只不过 Datafocus 不做个性化定制的业务。
杨巍:我理解的王总的意思是指标体系既是一个真实的需求,也是一个很好的商业模式,我想接着请教海量科技和北极九章有关商业模式的问题。我看了两位的官网,海量的网站上没有产品中心这个板块,只有应用中心,里面介绍了很多场景和能力;北极九章相反,只有产品中心和客户实际的产品应用案例。所以我想请教二位,大模型驱动的 BI 在实际的商业模式中,产品化和定制化你们是如何取舍的?
杨智炜:我延续前面指标的话题来说,因为我们现在很多数字化工作也是围绕企业的各项指标来实践,我认为指标大致可以分为几种类型,一种是计划性指标,这部分是围绕着 PDCA 模型,可以由企业按照计划梳理出来的;第二种是突发性指标,这类指标围绕着 OODA 模型,该类模型指标更多的是应对突发事件,我们工作的完备性;再有一类指标可以被称为挑战性指标,具有一定难度,需要考验团队的目标策略性。我们的业务展开正是基于这个逻辑。随着互联网的发展,其实面对挑战的是后两者的指标,我们需要打造的是产品个性化,输出即结果的服务。企业的核心不是产品形态的标准化,而是其模式的标准化,就像麦肯锡的方法论是其核心,运用该方法论可以为不同的企业进行多元化的咨询服务。
杨巍:那请问北极九章目前有多大比例直接卖产品,有多少比例是做个性化的服务?
沙海洲:我们公司只做纯产品,我们服务各个行业的大客户。我们认为虽然行业之间有各式各样的区别,但是数据是可以极致抽象的,只要你的产品标准化程度足够高,你就能够帮助客户解决他们的痛点。因为我们观察发现客户越来越理智,当需要用很高的成本解决 20 个需求和用极低的成本解决 19 个需求时,他们会选择后者。当然,我们也会和一些产业伙伴合作,包括专门做数据中台、做指标平台的企业,由他们来负责帮助客户解决一些个性化定制的需求。
杨巍:那请问北极九章如何评价不做 BI 只做 Agent 的澜码科技?
沙海洲:我觉得特别好。其实我们也看到许多在百模大战中走出来的公司都在做一些商业化的积极转变。我们近期正在对接的某客户就提出过一个想法,说有没有可能帮他们建立一个 AI 中台,用大模型的能力帮助他们在具体的业务场景下调用不同的小模型或应用,最终用大模型集中输出,这也是大模型技术落地的一种形式,其实很接近 Agent。我们不建议只依赖某种特定的技术或者固定的一种产品。我个人也非常喜欢澜码这种走在技术前沿的公司,当然我们自己也在努力做走在技术前沿的公司。
杨巍:最后一个发言机会留给周总,澜码的 BI 要用别人的,你们准备怎么与他们竞争呢?
周健:为什么要和他们竞争呢?我前几天和一家做指标的合作伙伴聊天,对方担心说未来会不会不需要指标,不需要再做 ETL 数据仓库了,给出一句指令就一劳永逸了,但我个人认为这种情况不太会发生。我们每个时代都有自己时代的 IT 基础设施,会有越来越多新颖的东西。就像最初数据库其实仅仅用于银行和运营商的核心系统,是十几年前谷歌带进来的技术,所谓的大数据,后来我们才进一步开始分析用户行为数据等等。那其实今天大语言模型带给我们最重要的也是处理非结构化数据的能力,我们的聊天记录、零散的文本都得以被利用起来。不管是 SQL 还是 Hadoop 还是各种各样的指标,BI 是利用数据的方法,我相信这是不会被替代的,但未来一定会有越来越多层面的东西,人应该被解放去做这些创新的事情。举个最简单的例子,我现在总算有一个 Agent 可以去计算我们公司的周报和销售的周报,可以利用大模型去理解周报并帮助我进一步做数据分析,最后给到我一些销售的线索。我们的计算会变得越来越便宜,越来越多的数据能够被利用起来,能够发挥越来越多的价值。人们应该去打黑神话悟空,而不是在 Excel 里面做算术盘数据,这是我们的观点。
活动最后的 happy hour 环节,叁伍拾科技,杭州量智数据科技,九地 AI以及人社部 AIGC 教材副主编、导师卢山也分别向现场观众介绍了自己在数据智能领網域的实践和洞察,创业者和技术爱好者也在此环节展开了充分交流与展示。
本次沙龙由启迪之星(上海)、小即是大创新伙伴联合 CCF(上海)中国计算机学会主办,由上海市女企业家协会科创专委会、上海数据集团、SMG 团委共同协办,并得到来自亚马逊云科技云创计划、欧美同学会上海 AI 分会、S 创 Slush、复旦 mba 读书会、钛媒体、亿启云巢、SMG AI 研习社、北大青年 CEO 俱乐部、LSE 校友俱乐部、大连理工创业校友会、Datawhale、Llama 中文社区上海站、五角场高新园、长阳创谷 、segmentfault 、上海 AI 爱好者俱乐部 、橘子联盟的大力支持。