今天小编分享的科技经验:对话帆软:大模型不是BI的“万能药”,BI也不是大模型的“低垂果实”,欢迎阅读。
腦子一热花几百万买个大模型,却看不到有什么业务价值,这可能是过早投入大模型的代价。
大模型厂商希望快速实现大模型商业化,必然要打造一批标杆场景和用例,让企业客户看到真正价值并为之买单。作为一家大数据 BI(商业智能)和分析平台提供商,帆软很快就进入到了大模型厂商和企业客户的视线。
" 大家第一个想到的是知识库,第二个可能就是 BI,企业客户提了很多需求,类似复杂报表、BI 等业务场景,大模型厂商自己搞不定,这也是为什么很多国内国外的头部大模型,都会主动来找帆软合作去打造场景。" 帆软 FineChatBI 负责人翁林君表示。
实际上,这并不是 AI 第一次 " 入侵 "BI,但却可能是影响最大、最深远的一次,在帆软看来,生成式 AI 的快速发展为 BI 产品带来了巨大的技术红利,帆软坚持 AI for BI 而不是 AI + BI。
"BI 领網域肯定不止于大模型,还涉及到数据连接、图表渲染、计算引擎、权限管理等各种基础能力,没有大模型之前,BI 也在用机器学习去解决一些问题,只是大模型是一个增强版的 AI 技术。另外,如果底层数据脏乱差,AI 也很难用起来,数据治理很重要,表面是大模型,冰山之下是数据治理。" 翁林君说。
大模型不是 BI 的 " 万能药 ",BI 也不是大模型的 " 低垂果实 "。幻想大模型能一下子改变 BI 产品的核心逻辑,以及 BI 很容易就可以被大模型塑造成标杆场景,都是不切实际的想法。
大模型之前,AI 与 BI 的纠葛
迄今为止,BI 产品的演进大致经历了传统 BI、敏捷 BI、增强 BI 的过程。" 传统 BI" 产品起源于上世纪八九十年代,代表性技术包括 SQL、OLAP 数据可视化等,用户的使用门槛非常高,能把 BI 用好的都是 DBA 和 MBA 的结合体,在一个企业内的占比不到 1%。
随后,数据可视化技术 VizQL 的出现,让一部分懂 OLAP 数据模型,同时具备一定的数据思维和业务理解的分析师和业务部门的数据 BP 能够用 " 敏捷 BI" 产品做自助分析,用户的渗透率大幅提升到 10% 左右。
紧接着机器学习、深度学习等 AI 技术,从学术界蔓延至工业界,咨询机构 Gartner 把该阶段的 BI 产品叫做 " 增强 BI",核心理念是用 AI 技术去增强 BI 产品的能力,业界开始尝试用这些技术去进一步降低 BI 产品的使用门槛,催生了早期的检索式 / 对话式 BI 产品。
帆软对于 AI 的态度始终不温不火,此前也较少谈及 AI,但据钛媒体 App 了解,帆软内部团队对 AI 做了一轮又一轮的验证,尤其在 2019 年前后,国内外厂商纷纷推出 " 问答式 BI" 功能,帆软也开始探索 " 问答式 BI" 产品化落地的可行性,成立了专项团队做产品化尝试,并推出 FineAI 进行小范围验证。
当时的 " 问答式 BI" 在技术上大都采用规则解析或规则解析 + 端到端(小)模型的方法来实现文本到 SQL 的转化,技术上的限制导致问答的召回和精度不够理想。并且由于端到端(小)模型的跨场景泛化能力不足,就需要针对特定场景不断的增加语料,并重新训练模型来提高精度和召回,从而导致实施成本变得难以接受。
如此,这就导致 " 问答式 BI" 会面临意图识别、查询结果的精度和基于场景定制化开发、部署的成本之间不可调和的矛盾,并最终沦为一个摆设,实际用起来的少之又少,用户的渗透率并没有得到大幅提升,因此帆软终止了 " 问答式 BI" 产品的市场推广。
大模型 BI,填补了一块市场空白
直到大模型的到来,其跨任务、跨场景的泛化能力,让业界看到了实现一个成熟、能落地的 " 问答式 BI" 产品的可行性。
" 大模型的泛化能力很强,不需要针对每个数据集做单独训练,同时内嵌了海量知识,包括各行各业的数据分析领網域知识,能够帮用户把业务问题拆解为分析思路,很大程度上解决了过去小模型所不能解决用户侧和技术侧两个核心问题。" 翁林君说。
回溯 BI 产品的发展历史,会发现有一条清晰的主线,就是不断的利用新技术降低数据分析门槛,使之有更大的閱聽人群体,和更广泛的应用场景。
具体到 "AI For BI" 的落地场景,大体可以抽成两大类。一类是嵌入到原有产品流程中,去提升搭建制作的效率。另一类是直接以对话为核心入口,去系统性地降低用户的使用门槛。
前者,帆软研发了 "AI 小助手 ",具体包括公式生成、组件制作、数据编辑、看板美化和分析报告五个功能,后者,帆软孵化了 " 对话式 BI" 产品 FineChatBI。
"AI 小助手确实能够在某些场景下提升分析师的制作效率,但整体价值没有通过降低数据消费门槛,让更广泛的业务用户能够用起来的价值大。所以,今年我们会重点投入 FineChatBI,目标是让更多的能够直接发挥数据生产力价值的业务用户用起来。" 翁林君说。
从市场客户来看,BI 需求可以按照两个维度划分,一是用户数据分析能力,二是数据分析的复杂性,此前的 BI 产品主要瞄准了具备数据分析能力的复杂场景,如 FineBI,而一些一线人员所需要的 BI 场景,往往业务不复杂,但是用不起来专业的 BI 产品,此时 FineChatBI 就正好提供给这类用户。
" 两类产品满足客户不同场景的分析需求,有些业务人员不是分析师,也想做数据分析,使用 FineChatBI 入手快、效果好,另外一些分析师主要解决复杂的 BI 需求。" 翁林君表示
AI 要用得起来,不能只靠大模型
大模型本身并不是 BI 的优势,在一个场景里面用好大模型才是,这需要清晰的场景设计、丰富的数据准备、可靠的基座模型。
在大模型到来之前,前一代的 " 对话式 BI" 本质上是一个对话式 / 检索式取数工具,它的价值仅仅是让业务人员更容易的取到数据。新一代 " 对话式 BI" 一方面利用 Text2DSL 采用完全可控的方式取到可信的数据,另一方面,利用大模型 hypothesis testing 知识和分析思路生成能力补齐业务人员认知和能力上的差距。
" 这就是为什么我们把产品定位成对话式业务分析工具,实现对话式的业务分析,让业务人员能够真正用起来。以可信查数为基础能力,构建思路拆解、数据查询、异常检测、归因分析、趋势预测、报告生成等整个分析闭环。核心是要了解每种技术的边界,把最合适的技术去解决正确的问题,而不是拿着锤子找钉子,啥都用大语言模型去解决。" 翁林君说。
大模型赛道越卷,对于帆软这类做应用场景的公司越是利好。不同的大模型数据样本不同,最后收敛的方向不一样,不同的任务帆软会使用不同的模型,开源模型也是一个很好的选择,帆软这类企业能够很明确地定义出场景里面的问题,然后能够针对性地挑选模型,对应准备数据,从而优化整个任务。
" 虽然现在国内很多大模型都号称已经追平了 GPT-4,但我们测试下来最好的模型还是 GPT-4,大部分场景我们会先用好的模型试验这个场景能做到什么程度,验证成功以后,我们就会用开源模型结合数据训练 ",翁林君如是表示。
在数据治理方面,不同于前几年大而全的中台热,帆软采用以用带建的方式做数据治理,大部分企业的中台建设跟不上需求变化,帆软用 BI 的需求反向推动数据治理,并且提供了一系列数据治理工具,贯穿数据从治理到呈现的业务场景,端到端的驱动业务决策。
" 大模型对 BI 行业影响将持续在两方面,其一,大模型作为一种技术红利,可帮助解决传统 BI 中难以解决的问题,同时降低数据分析门槛,使更多用户能够参与其中。其二,大模型会渗透到数据全链路各个环节中,从数据采集、管理和使用等方面提升整体效率,从而实现 BI 行业全面更新。" 翁林君总结道。