今天小編分享的科技經驗:對話帆軟:大模型不是BI的“萬能藥”,BI也不是大模型的“低垂果實”,歡迎閲讀。
腦子一熱花幾百萬買個大模型,卻看不到有什麼業務價值,這可能是過早投入大模型的代價。
大模型廠商希望快速實現大模型商業化,必然要打造一批标杆場景和用例,讓企業客户看到真正價值并為之買單。作為一家大數據 BI(商業智能)和分析平台提供商,帆軟很快就進入到了大模型廠商和企業客户的視線。
" 大家第一個想到的是知識庫,第二個可能就是 BI,企業客户提了很多需求,類似復雜報表、BI 等業務場景,大模型廠商自己搞不定,這也是為什麼很多國内國外的頭部大模型,都會主動來找帆軟合作去打造場景。" 帆軟 FineChatBI 負責人翁林君表示。
實際上,這并不是 AI 第一次 " 入侵 "BI,但卻可能是影響最大、最深遠的一次,在帆軟看來,生成式 AI 的快速發展為 BI 產品帶來了巨大的技術紅利,帆軟堅持 AI for BI 而不是 AI + BI。
"BI 領網域肯定不止于大模型,還涉及到數據連接、圖表渲染、計算引擎、權限管理等各種基礎能力,沒有大模型之前,BI 也在用機器學習去解決一些問題,只是大模型是一個增強版的 AI 技術。另外,如果底層數據髒亂差,AI 也很難用起來,數據治理很重要,表面是大模型,冰山之下是數據治理。" 翁林君説。
大模型不是 BI 的 " 萬能藥 ",BI 也不是大模型的 " 低垂果實 "。幻想大模型能一下子改變 BI 產品的核心邏輯,以及 BI 很容易就可以被大模型塑造成标杆場景,都是不切實際的想法。
大模型之前,AI 與 BI 的糾葛
迄今為止,BI 產品的演進大致經歷了傳統 BI、敏捷 BI、增強 BI 的過程。" 傳統 BI" 產品起源于上世紀八九十年代,代表性技術包括 SQL、OLAP 數據可視化等,用户的使用門檻非常高,能把 BI 用好的都是 DBA 和 MBA 的結合體,在一個企業内的占比不到 1%。
随後,數據可視化技術 VizQL 的出現,讓一部分懂 OLAP 數據模型,同時具備一定的數據思維和業務理解的分析師和業務部門的數據 BP 能夠用 " 敏捷 BI" 產品做自助分析,用户的滲透率大幅提升到 10% 左右。
緊接着機器學習、深度學習等 AI 技術,從學術界蔓延至工業界,咨詢機構 Gartner 把該階段的 BI 產品叫做 " 增強 BI",核心理念是用 AI 技術去增強 BI 產品的能力,業界開始嘗試用這些技術去進一步降低 BI 產品的使用門檻,催生了早期的檢索式 / 對話式 BI 產品。
帆軟對于 AI 的态度始終不温不火,此前也較少談及 AI,但據钛媒體 App 了解,帆軟内部團隊對 AI 做了一輪又一輪的驗證,尤其在 2019 年前後,國内外廠商紛紛推出 " 問答式 BI" 功能,帆軟也開始探索 " 問答式 BI" 產品化落地的可行性,成立了專項團隊做產品化嘗試,并推出 FineAI 進行小範圍驗證。
當時的 " 問答式 BI" 在技術上大都采用規則解析或規則解析 + 端到端(小)模型的方法來實現文本到 SQL 的轉化,技術上的限制導致問答的召回和精度不夠理想。并且由于端到端(小)模型的跨場景泛化能力不足,就需要針對特定場景不斷的增加語料,并重新訓練模型來提高精度和召回,從而導致實施成本變得難以接受。
如此,這就導致 " 問答式 BI" 會面臨意圖識别、查詢結果的精度和基于場景定制化開發、部署的成本之間不可調和的矛盾,并最終淪為一個擺設,實際用起來的少之又少,用户的滲透率并沒有得到大幅提升,因此帆軟終止了 " 問答式 BI" 產品的市場推廣。
大模型 BI,填補了一塊市場空白
直到大模型的到來,其跨任務、跨場景的泛化能力,讓業界看到了實現一個成熟、能落地的 " 問答式 BI" 產品的可行性。
" 大模型的泛化能力很強,不需要針對每個數據集做單獨訓練,同時内嵌了海量知識,包括各行各業的數據分析領網域知識,能夠幫用户把業務問題拆解為分析思路,很大程度上解決了過去小模型所不能解決用户側和技術側兩個核心問題。" 翁林君説。
回溯 BI 產品的發展歷史,會發現有一條清晰的主線,就是不斷的利用新技術降低數據分析門檻,使之有更大的閱聽人群體,和更廣泛的應用場景。
具體到 "AI For BI" 的落地場景,大體可以抽成兩大類。一類是嵌入到原有產品流程中,去提升搭建制作的效率。另一類是直接以對話為核心入口,去系統性地降低用户的使用門檻。
前者,帆軟研發了 "AI 小助手 ",具體包括公式生成、組件制作、數據編輯、看板美化和分析報告五個功能,後者,帆軟孵化了 " 對話式 BI" 產品 FineChatBI。
"AI 小助手确實能夠在某些場景下提升分析師的制作效率,但整體價值沒有通過降低數據消費門檻,讓更廣泛的業務用户能夠用起來的價值大。所以,今年我們會重點投入 FineChatBI,目标是讓更多的能夠直接發揮數據生產力價值的業務用户用起來。" 翁林君説。
從市場客户來看,BI 需求可以按照兩個維度劃分,一是用户數據分析能力,二是數據分析的復雜性,此前的 BI 產品主要瞄準了具備數據分析能力的復雜場景,如 FineBI,而一些一線人員所需要的 BI 場景,往往業務不復雜,但是用不起來專業的 BI 產品,此時 FineChatBI 就正好提供給這類用户。
" 兩類產品滿足客户不同場景的分析需求,有些業務人員不是分析師,也想做數據分析,使用 FineChatBI 入手快、效果好,另外一些分析師主要解決復雜的 BI 需求。" 翁林君表示
AI 要用得起來,不能只靠大模型
大模型本身并不是 BI 的優勢,在一個場景裏面用好大模型才是,這需要清晰的場景設計、豐富的數據準備、可靠的基座模型。
在大模型到來之前,前一代的 " 對話式 BI" 本質上是一個對話式 / 檢索式取數工具,它的價值僅僅是讓業務人員更容易的取到數據。新一代 " 對話式 BI" 一方面利用 Text2DSL 采用完全可控的方式取到可信的數據,另一方面,利用大模型 hypothesis testing 知識和分析思路生成能力補齊業務人員認知和能力上的差距。
" 這就是為什麼我們把產品定位成對話式業務分析工具,實現對話式的業務分析,讓業務人員能夠真正用起來。以可信查數為基礎能力,構建思路拆解、數據查詢、異常檢測、歸因分析、趨勢預測、報告生成等整個分析閉環。核心是要了解每種技術的邊界,把最合适的技術去解決正确的問題,而不是拿着錘子找釘子,啥都用大語言模型去解決。" 翁林君説。
大模型賽道越卷,對于帆軟這類做應用場景的公司越是利好。不同的大模型數據樣本不同,最後收斂的方向不一樣,不同的任務帆軟會使用不同的模型,開源模型也是一個很好的選擇,帆軟這類企業能夠很明确地定義出場景裏面的問題,然後能夠針對性地挑選模型,對應準備數據,從而優化整個任務。
" 雖然現在國内很多大模型都号稱已經追平了 GPT-4,但我們測試下來最好的模型還是 GPT-4,大部分場景我們會先用好的模型試驗這個場景能做到什麼程度,驗證成功以後,我們就會用開源模型結合數據訓練 ",翁林君如是表示。
在數據治理方面,不同于前幾年大而全的中台熱,帆軟采用以用帶建的方式做數據治理,大部分企業的中台建設跟不上需求變化,帆軟用 BI 的需求反向推動數據治理,并且提供了一系列數據治理工具,貫穿數據從治理到呈現的業務場景,端到端的驅動業務決策。
" 大模型對 BI 行業影響将持續在兩方面,其一,大模型作為一種技術紅利,可幫助解決傳統 BI 中難以解決的問題,同時降低數據分析門檻,使更多用户能夠參與其中。其二,大模型會滲透到數據全鏈路各個環節中,從數據采集、管理和使用等方面提升整體效率,從而實現 BI 行業全面更新。" 翁林君總結道。