今天小編分享的互聯網經驗:大模型的号角已在數據分析市場吹響,歡迎閲讀。
接上回,復旦大學大數據學院與高等學術研究院副院長、上海市數據科學重點實驗室副主任陽德青,上海市大數據股份有限公司高級產品經理、DAMA 中國認證首席數據官汪科科,以及來自觀遠數據、Datafocus、北極九章、思邁特 Smartbi 的演講嘉賓分别結合自己的行業經驗為大家分享了大模型在數據治理與數據分析行業的落地場景。
下半場,我們邀請到天津海量信息副總裁楊智炜、瀾碼科技創始人兼 CEO 周健、數勢科技 CTO 韓秀鋒、北極九章合夥人兼首席布道師沙海洲以及 DataFocus 創始人兼產品經理王碧波同台交流。當 AI 遇見 BI,二者将如何對話?以下是
圓桌摘錄,内容較長,建議收藏:
01 八仙過海,各顯神通
楊巍:今天現場成立最早的公司是天津海量信息,是一家處理非結構化數據起家的公司,請問你們是從什麼時候、因什麼機緣進入數據中台以及結構化數據的市場?
▲ 楊 巍
楊智炜:天津海量成立得比較早,1999 年就成立了,和百度算是同期。我們當時也做搜索引擎,不過是為企業級客户做,核心技術是中文分詞。該技術服務過騰訊、阿裏以及海外等多家企業。後來圍繞該技術衍生出很多服務應用,比如智能采集、智能審核等服務,但我們的技術底層始終圍繞大數據板塊。大數據平台最早是團隊在 2005 年前後開始搭建,一直到今天已經迭代到第五代。伴随着 AI 技術的出現,我們也試着将 AI 結合我們自身的大數據架構層層嵌入,來支撐我們一直在做的事情,能夠更智能化地為客户服務。
▲ 楊智炜
楊巍:台上企業成立第二久的是 DataFocus,成立于 2014 年。在你們公司網站上有一句話叫,太多的工程師、太多的企業日夜與數據庫打交道,他們甚至忘了 SQL 是一種極其小眾的語言。當下,大語言模型生成機器語言的能力應該説已經被證實了,請問王總您認為 DataFocus 的解決方案是暫時領先的、大模型更新後或将很好地寫出小眾的機器語言,還是説即使在目前大模型的架構下,在相對長的一段時間裏,你們都有不可替代的優勢?
王碧波:哈哈,這個問題非常直接,也感謝楊老師能夠看到我們很早之前寫的這樣一句話。我們對大模型的能力也有第一時間的感知,BERT、T5 模型的時候就已經關注了。我覺得這麼多年以來,幻覺是大模型技術根本性的問題,是很難消除的。假定説它沒有幻覺,它可能也就沒有創新能力了,就像是一體兩面,你不能指望它既有創造力,又什麼錯都不犯。總體來説,我們可以期待下一代模型準确率會繼續提高,幻覺現象會減弱,但要想讓它完全杜絕這個問題短期内是不可能的,所以目前來看我們的路線仍然是未來比較靠譜的。
▲ 王碧波
楊巍:好的,謝謝。時間來到 2018 年,北極九章成立了。北極九章最早成立的時候有一個口号,把增強型數據分析最早帶入中國。增強型分析聽起來也在講 AI 和數據分析的結合,所以我想請教一下,增強型數據分析和大模型驅動的數據分析的根本區别在哪裏?大模型技術的哪些部分可能是對之前增強型數據分析的颠覆,或是更好的技術實現?
沙海洲:2018 年那會兒大家都在卷敏捷 BI、dashboard,我們就已經想做這麼一件事情,但是沒有想好如何定義。然後我們在 Gartner 那邊遇到了 " 增強型分析 " 這個概念,于是就借用它引進中國。其實增強是一個泛化的概念,我們只是希望能夠整體改變大家現有的和數據互動的方式跟整個工作流。而我們所做的增強型分析也并不意味着和大模型數據分析泾渭分明,我們會把包括大模型在内的多種技術,根據它們适合的場景,作為產品的功能模塊,迭代到產品上,從效果上客户受益是我們的終極目的。
▲ 沙海洲
楊巍: Gartner 對 toB 的信息服務行業确實有很大影響,這次有好幾位參會的嘉賓網站上都直接引用了 Gartner 的某句話或某個概念。時間再後移兩年,數勢科技成立了。數勢科技的主要產品是指标體系,韓總能不能簡單介紹一下指标體系和 BI 是什麼關系、有什麼區别?
韓秀鋒:數勢科技是 2020 年成立的,創始團隊也都是百度和京東的背景。我個人是在 2023 年加入的,原先在百度做 AI 技術的場景落地,所以對 AI 技術產品化解決場景問題的領網域有比較多的經驗。數勢科技在做企業數字化轉型的過程中發現企業數據價值化的關鍵在于要讓數倉裏面的結構化和非結構化數據真正服務好企業各個場景的實踐。我們的產品也圍繞這個核心問題不斷地聚焦和收斂,最終選定了做企業數倉虛拟化的產品,在剛才的技術曲線裏面屬于 HeadlessBI(無頭 BI)的技術路徑。也就是説,通過技術化的思路,自下而上地把業務的場景化語言、領網域型語言與技術解耦,使得研發是研發,業務是業務。22 年底、23 年初,也被稱為大模型元年,我們看到了 agent,看到了數據價值和大模型結合的機會,于是進一步讓數據和價值普惠化,迭代了我們的產品。
▲ 韓秀鋒
楊巍:好的謝謝。又過了三年,瀾碼就成立了,可以説是大模型原生的企業。瀾碼的口号是人人都能設計自己的 AI Agent。今天除了周總之外,其他公司都是搞 BI,那麼請問 Agent 對 BI 究竟有什麼樣的作用?
周健:在企業服務行業裏,AI Agent 其實最早不叫 Agent。Gartner 在 2021 年提出,企業業務未來将發展為 Composable,即業務是可拆解的、可組裝的,并提出一個能力 "packaged business capabilities",即封裝好的業務能力。換言之,我們可以通過 RPA 調用不同的應用,可以通過數據庫中獲取數據,可以通過 BI 或者機器學習獲得洞察等等,這些能力組裝起來就能變成各種各樣的 Agent。Agent 可以算是一個新時代的軟體產物,但解決的并不是上一代系統與系統之間的連接,而是賦能人和系統之間的連接。在我們做編排和自動化的過程中,很重要的一環就是對需求端的理解。我們經常説只吃第三個包子飽不了,所以我們為了吃第三個包子,還是要把前面第一個可能是 RAG,第二個可能是數據分析,随後可能是和 API 相關的 func call 能力等等都吃到肚子裏。到了現在這個階段,我們覺得 Agent 已經可以和其他傳統 PAAS 包括 BI 廠商一起合作,共同服務用户,幫助用户編排他們想要完成的任務,BI 更着重解決需求理解這一側。
▲ 周健
02 大模型浪潮下的 BI 市場
楊巍:接下來我有幾個問題與大家一起讨論,每個問題想請兩位嘉賓來回答。首先想請北極九章和 Datafocus 的兩位結合你們業務落地時候的真實情況與我們分享一下,在大模型技術出現前後,BI 最終用户的角色和身份有沒有變化?
王碧波:大模型出來之後,用户明顯下沉,沒有太多技術基礎的人反而受益最大。原先他明白自己幹不了這些事,之前的做法可能是直接找 IT 人員幫我,如果 IT 做不了,那我幹脆就不幹了,所以有大量需求還沒有被釋放出來。現在當團隊引入這樣的產品後,門檻降低,業務人員就有機會慢慢參與這件事。
楊巍:那請問沙總,您覺得按照 Datafocus 這位嘉賓的説法,數據分析師這個職位會不會從體制中消失?
沙海洲:我覺得我們在座各位的目的都不是要幹掉現在的分析師,國内最大的問題是我沒有足夠多的分析師。數據分析師的概念大約十年前才在中國興起,截止目前總數是遠遠不夠的。當企業招不到足夠的數據分析從業者怎麼辦?我們覺得可以通過工具來彌補,讓普通的業務人員得到技術的賦能。
韓秀鋒:我想補充一個實際案例。我們最近和國内餐飲 top10 的品牌書亦燒仙草合作,雖然他們闡述數據的需求在整個場景裏優先級是比較高的,但幾乎所有的店長和區網域督導都不會使用傳統 BI 工具,總部只能通過巡店去看各門店的經營數據。後來接入我們的產品後,就很好地幫助他們這部分的數據價值落地了。所以在數字智能時代,數據的消費市場必然是在不斷擴大的。同時,數據分析師、數據工程師等數據的生產者其實也需要不斷把企業知識能力進一步加工,讓企業知識和數字人或是 Agent 相結合,與其説是替代,不如説是數據行業角色工作的内容和方式在轉變。
楊巍:謝謝補充,剛好下一個問題我也是想請教您和 Datafocus。Datafocus 説他們的方案可以極大地簡化指标體系,我想聽聽您對此的評價。
韓秀鋒:其實當下結合我們對客户的服務實踐來看,最具落地性的還是指标平台加 ChatBI 的模式。在數據消費環節,我們通過 ChatBI 的方式把原先數據使用的門檻降低,一次性互動即可完成數據生產。同時我們強調企業整個數據的模型構建與業務領網域知識全管理等等耦合在一起,構建過程與企業的復雜度、數據的量級都強相關,而且這個模型抽象化的質量也決定了後面它能不能迭代進化。因為數據治理或者數據積累很多都是越治越亂,需要不斷在新的平台上迭代。當然,各有各的路線選擇,路線也和企業具體的目标客户和群體行業相關。
楊巍:那我想請教王總,您覺得在數勢科技描述的數據非常復雜的情況下,你們的技術路線如何簡化他們的指标系統?
王碧波:其實我整體比較贊成剛才韓總的觀點,Datafocus 的產品目的也是從技術上簡化指标體系的構建。當然,市場上有許多企業大多數人對數據的要求都不明确,大家懶得提問或者壓根不知道該如何提問,這都是非常現實的問題,只不過 Datafocus 不做個性化定制的業務。
楊巍:我理解的王總的意思是指标體系既是一個真實的需求,也是一個很好的商業模式,我想接着請教海量科技和北極九章有關商業模式的問題。我看了兩位的官網,海量的網站上沒有產品中心這個板塊,只有應用中心,裏面介紹了很多場景和能力;北極九章相反,只有產品中心和客户實際的產品應用案例。所以我想請教二位,大模型驅動的 BI 在實際的商業模式中,產品化和定制化你們是如何取舍的?
楊智炜:我延續前面指标的話題來説,因為我們現在很多數字化工作也是圍繞企業的各項指标來實踐,我認為指标大致可以分為幾種類型,一種是計劃性指标,這部分是圍繞着 PDCA 模型,可以由企業按照計劃梳理出來的;第二種是突發性指标,這類指标圍繞着 OODA 模型,該類模型指标更多的是應對突發事件,我們工作的完備性;再有一類指标可以被稱為挑戰性指标,具有一定難度,需要考驗團隊的目标策略性。我們的業務展開正是基于這個邏輯。随着互聯網的發展,其實面對挑戰的是後兩者的指标,我們需要打造的是產品個性化,輸出即結果的服務。企業的核心不是產品形态的标準化,而是其模式的标準化,就像麥肯錫的方法論是其核心,運用該方法論可以為不同的企業進行多元化的咨詢服務。
楊巍:那請問北極九章目前有多大比例直接賣產品,有多少比例是做個性化的服務?
沙海洲:我們公司只做純產品,我們服務各個行業的大客户。我們認為雖然行業之間有各式各樣的區别,但是數據是可以極致抽象的,只要你的產品标準化程度足夠高,你就能夠幫助客户解決他們的痛點。因為我們觀察發現客户越來越理智,當需要用很高的成本解決 20 個需求和用極低的成本解決 19 個需求時,他們會選擇後者。當然,我們也會和一些產業夥伴合作,包括專門做數據中台、做指标平台的企業,由他們來負責幫助客户解決一些個性化定制的需求。
楊巍:那請問北極九章如何評價不做 BI 只做 Agent 的瀾碼科技?
沙海洲:我覺得特别好。其實我們也看到許多在百模大戰中走出來的公司都在做一些商業化的積極轉變。我們近期正在對接的某客户就提出過一個想法,説有沒有可能幫他們建立一個 AI 中台,用大模型的能力幫助他們在具體的業務場景下調用不同的小模型或應用,最終用大模型集中輸出,這也是大模型技術落地的一種形式,其實很接近 Agent。我們不建議只依賴某種特定的技術或者固定的一種產品。我個人也非常喜歡瀾碼這種走在技術前沿的公司,當然我們自己也在努力做走在技術前沿的公司。
楊巍:最後一個發言機會留給周總,瀾碼的 BI 要用别人的,你們準備怎麼與他們競争呢?
周健:為什麼要和他們競争呢?我前幾天和一家做指标的合作夥伴聊天,對方擔心説未來會不會不需要指标,不需要再做 ETL 數據倉庫了,給出一句指令就一勞永逸了,但我個人認為這種情況不太會發生。我們每個時代都有自己時代的 IT 基礎設施,會有越來越多新穎的東西。就像最初數據庫其實僅僅用于銀行和運營商的核心系統,是十幾年前谷歌帶進來的技術,所謂的大數據,後來我們才進一步開始分析用户行為數據等等。那其實今天大語言模型帶給我們最重要的也是處理非結構化數據的能力,我們的聊天記錄、零散的文本都得以被利用起來。不管是 SQL 還是 Hadoop 還是各種各樣的指标,BI 是利用數據的方法,我相信這是不會被替代的,但未來一定會有越來越多層面的東西,人應該被解放去做這些創新的事情。舉個最簡單的例子,我現在總算有一個 Agent 可以去計算我們公司的周報和銷售的周報,可以利用大模型去理解周報并幫助我進一步做數據分析,最後給到我一些銷售的線索。我們的計算會變得越來越便宜,越來越多的數據能夠被利用起來,能夠發揮越來越多的價值。人們應該去打黑神話悟空,而不是在 Excel 裏面做算術盤數據,這是我們的觀點。
活動最後的 happy hour 環節,叁伍拾科技,杭州量智數據科技,九地 AI以及人社部 AIGC 教材副主編、導師盧山也分别向現場觀眾介紹了自己在數據智能領網域的實踐和洞察,創業者和技術愛好者也在此環節展開了充分交流與展示。
本次沙龍由啓迪之星(上海)、小即是大創新夥伴聯合 CCF(上海)中國計算機學會主辦,由上海市女企業家協會科創專委會、上海數據集團、SMG 團委共同協辦,并得到來自亞馬遜雲科技雲創計劃、歐美同學會上海 AI 分會、S 創 Slush、復旦 mba 讀書會、钛媒體、億啓雲巢、SMG AI 研習社、北大青年 CEO 俱樂部、LSE 校友俱樂部、大連理工創業校友會、Datawhale、Llama 中文社區上海站、五角場高新園、長陽創谷 、segmentfault 、上海 AI 愛好者俱樂部 、橘子聯盟的大力支持。