今天小編分享的互聯網經驗:對話Kyligence:Be part of the Generative AI game,數據平台競技場指向“用數”,歡迎閱讀。
文|沈筱
編輯|王與桐
生成式 AI 技術正在推動數據平台廠商從 " 幕後 " 走到 " 台前 "。
無論是 Snowflake 聯合英偉達打出的「數據 + 人工智能算法 + 計算引擎」組合拳,還是 Databricks 喊出的在一個數據平台内實現「數據 + 模型 + 應用」三大功能的口号,無一不彰顯了從服務「管數」向服務「用數」邁進的野心。
在變化背後,雙方達成的微妙默契是,企業在利用大型語言模型構建和部署人工智能應用時,無須移動數據。換句話說,數據是大語言模型應用過程中最難的部分,對他們而言,最難的部分已經解決好了,基于數據訓練、微調模型,部署、運行模型應用都是捎帶手的事。盡管這一捎帶手,付出的是收購人工智能公司的真金白銀。
的确,正如 Databricks 的聯合創始人 Patrick Wendell 所言,在大模型百花齊放,可獲得性高而成本逐漸降低的當下,建模技術以及建模能力正在迅速商品化,模型本身是競争的必要不充分條件,數據才是人工智能戰略的核心。
而在生成式 AI 浪潮下,離客戶數據最近的數據平台廠商很難按兵不動。
在近期舉辦的 2023 用戶大會上,大數據分析和指标平台供應商「Kyligence」也發布了關于生成式 AI 的新布局——「工具 + 指标平台 + 引擎」。但區别于 Snowflake 和 Databricks 提供覆蓋大模型挑選、訓練、微調到應用部署的全鏈條,Kyligence 更多聚焦于領網域特定的生成式 AI 應用,即工具層。
會上,Kyligence 推出了基于⼀站式指标平台「Kyligence Zen」的生成式 AI 新產品「Kyligence Copilot」AI 數智助理(預覽版)。而支撐上述指标平台和應用的底層技術則是 Kyligence Enterprise OLAP(多維分析)引擎。
結合⼤語⾔模型能⼒,Kyligence Copilot 可以幫助用戶通過⾃然語⾔對話獲取指标,完成圍繞業務指标的分析和洞察,例如歸因分析、目标看板,并⽀持⾃動創建儀表盤。此外,Kyligence Copilot 還可以推送指标到 IM 群組、創建任務,整合圍繞指标的⼯作流程。
據介紹,Kyligence Copilot 目前支持 SaaS、本地化部署、嵌入式三類落地形式。同時,公司開發了「Byzer-LLM」工具箱,支持客戶基于通用大語言模型,利用專有數據形成的指标知識庫進行訓練、微調,生成企業的指标領網域模型。
伴随 Kyligence Copilot 的推出,Kyligence 的定位也朝着 " 用數 " 更進一步。Kyligence 聯合創始人兼 CEO 韓卿告訴 36 氪,生成式 AI 技術于公司最大的價值是,使 Kyligence 從一個技術公司,走向一個真正的管理軟體公司,以數據為基礎,從指标側構建、輸出企業經營管理體系,助力客戶精細化運營。
如 Kyligence 聯合創始人兼 CTO 李揚所言,Kyligence Enterprise 是面向 IT 專業人員的數據管理工具,Kyligence Zen 是可以面向業務人員的數據分析工具,而 Kyligence Copilot 填補了公司要實現 " 人人用數 " 目标所缺失的最後一塊拼圖。
這塊拼圖究竟如何發揮作用?從預覽版到真正用起來還有什麼挑戰,如何解決?以及,如何看待生成式 AI 浪潮下,大數據行業的發展趨勢?圍繞上述問題,在大會期間,36 氪和其他媒體與 Kyligence 聯合創始人兼 CEO 韓卿、聯合創始人兼 CTO 李揚進行了深入交流。
以下是交流實錄,經 36 氪編輯:
01 AI 數智助理——「人人用數」的最後一塊拼圖
Q:在開發 Copilot 時,Kyligence 主要考慮了哪些關鍵要素?
韓卿:第一是對行業特定領網域認知的深度。我們做了這麼多年數據倉庫、數據分析,其實非常理解這個行業的痛點在哪,低效的點在哪,哪些地方用到了大量人力。從這個角度,我們就是要基于對行業痛點的理解,找到可以利用 AI 技術在哪些點突破、創新。
第二是,產品需要一些差異化。我們在原有專業領網域的積累,相應的能力,并不是非常 general。讓大模型寫文章,随便寫首詩其實沒有差異化。我們今天發布的產品是建立在本身的積累之上,比如 OLAP 引擎和指标平台。到今天,我們通過 AI 的手段把過往積累的能力放大了。以前可能靠我們慢慢去研發,也在往用數的方向走,但現在有生成式 AI,是 10 倍、100 倍的爆發。
第三是專注。AI 出來之後所有人都想做一些嘗試和新的東西。我看到了太多的公司在大模型出來後,甚至連自己的商業模式,專注的東西全換掉了。我們做這麼多年企業服務學到的東西是,要把專業服務做好、做深、做專業,就得聚焦,不能什麼都做,不能今天什麼熱就做什麼。
我内部寫過一篇全員信,有三句話。第一,大模型 not our game,它本身不是我們領網域,也不是我們參與的地方;第二,要 be part of the game,參與進去;最後是define our own game,要找到自己的遊戲賽場。所以,我們開發的產品就是在大數據這個領網域,基于指标平台,把 AI 能力放進來,產生碰撞。
Q:怎麼找到公司自己的遊戲賽場?構想到開發出現在的 AI Copilot 預覽版,這半年時間主要做了哪些工作,最難的一步是什麼?
李揚:個人理解不一樣,比如做技術的會認為技術層面還好。現在回頭看比較困難的還是,技術、產品和業務的結合。
大家都知道語言模型是個好東西,但今時今刻考慮到投資回報,我用它做什麼,不用它做什麼,這個應該想清楚。比如用它做餐廳的點單系統,回報率和投入比起來明顯就不合适。
當想清楚用自然語言加上指标體系,可以讓管理精度有質的提升,以前只能管理到科室,現在可以管理到每一個業務人員。這兒感覺是有商機的,想清楚了投入進去以後,後面就都還好。
Q:當時是如何預判到這輪技術趨勢的?
韓卿:我們很難預判,但有所謂的願景,Kylin+intelligence,以 AI 的技術提升數據的使用、分析能力。前幾年我們可能更多關注利用機器學習做平台的優化、自動化,比如說 2019 年我們就推出了 AI 增強引擎,核心在于,凡是消耗人多的地方都用 AI 替換掉。
有這個願景,當新的 AI 技術出來的時候,換個詞我們叫 " 抓住機會 "。我的核心產品和關注的方向并沒有變。
抓住機會比預測更重要。
Q:公司層面來看,Copilot 這款產品對 Kyligence 而言,最大的價值體現在哪?
韓卿:最大的幫助是讓我們從一個技術公司,走向一個真正的管理軟體公司。
我以前提供的是工具,今天提供的是平台,甚至上面承載了一些管理方法論。這樣來看,大家的定位就不一樣了。這是我們的核心。我們一直想幹的事情其實是可以定義行業标準、行業未來,可以引領行業變化的趨勢。這個是創業公司或者在行業深耕的公司應該做的事情。
Q:具體來講,Copilot 在 Kyligence 強調 " 管理方法論 " 的戰略中扮演什麼角色?
韓卿:我們主張以 AI 變革組織運營與管理,分效率、經營、協同三個層面。一是提升數據分析的效率,來釋放所有人的潛力;二是通過 AI 賦能運營來釋放管理的潛力;三是通過 AI 加強協同,來釋放組織甚至組織與組織之間的潛力。Copilot 是中間很關鍵的一環。它背後 AI 技術發展帶來的人機互動方式的改變,讓我們對這三個問題的解決再上了一個台階。
李揚:Luke(韓卿)講的管理方法論,具體到現階段的實踐上就是 " 人人用數 "「工具 + 指标平台 + 引擎」框架,即 AI 助理(零門檻的數據工具)+ 指标體系(零門檻的數據語言)+ 合理成本(為成本優化數據引擎)。AI 助理是整個拼圖最晚來到的,但,是最關鍵的一個部分,通過自然語言聯通使用數據工具的最後一公裡。
完整的拼圖是,我們有每個人都能觸達的數據工具,可以使用統一的數據語言高效溝通,同時成本是低廉可控的,我的業務是有價值回報的。
02 湊齊拼圖,但無縫拼接尚需時日
Q:Kyligence 提出的 " 人人用數 " 的「工具 + 指标平台 + 引擎」框架,落地還有哪些難點?
李揚:這個框架現在還只是一個從技術或產品邏輯理論上比較通暢的狀态。從實際落地驗證的角度來說,還有很大的提升空間。
我們最終希望能達成的效果是,像 ERP 到來的時代那樣,把整個管理水平提升一個台階。參考 ERP 落地,對應到數據管理,應該是先在幾個典型的行業和頭部客戶裡,建立指标體系的模板,基于行業 know-how,我應該用什麼樣的數字化方法去管理這個領網域,還能用指标體系的方式沉澱下來。這份知識就是沉澱,還可以復制。SAP 的各類管理模塊可大規模復制,這就是一個成熟的形态。
今天顯然還在早期。相比于前一代技術,可以使能的個體變多了。之前是公司财務部,或者是運營部的一部分人用電子化系統,現在技術能力提升了,可以管理到末端,每個業務端。這個可能是下一步要做的。缺的一塊東西是,基于實踐的行業套路。
Q:具體地,Kyligence 服務的行業需要發展到什麼樣的狀态,才能支撐公司實現 " 人人用數 " 的目标?
李揚:可以用精益化制造打比方。所謂的精益制造,尤其是以德國企業為典型,能把整個從物料管理開始,到庫存再到制造的每一個環節很精确地量化,然後做供應鏈整體優化而非局部最優。這個可能就是一個成功的樣子。
也就是,從端到端每個環節都可以用數字化描述,每個環節、每個部門都可以用數字體系的方法去觀察,或者考評績效。
以這個為模板,可以看到,能做到這兒的行業其實還不多。尤其是過去,互聯網或者是做新行業的時候,總是先衝再說,先幹再謀求精細化、高質量發展。數字化管理也是最近提出來的,因為存量做完了,各種紅利吃完了,現在是要來考管理水平。
Q:所以從行業客戶的角度,客觀來看要用起來,目前困難或挑戰是什麼?
韓卿:第一個困難是模型層面,國產模型的成熟度還不夠。Open AI 的模型沒有辦法給到我們銀行客戶或者大客戶使用。
第二個困難是,要看這些想要用的客戶有沒有數據的積累,數據成熟度到哪段了。這個決定了能否用起來。比如,今天我們 Copilot 做得再好,但是你的數據沒用,那巧婦難為無米之炊。或者數據亂糟糟,我的 AI 工具再厲害也回答不出來問題。
所以會發現,數據基礎比較好的企業,會更快用起來,并且效果比較好。對我們的挑戰就在于大家都想追齊,這個時候怎麼幫助客戶把落地的問題解決好。
Q:數據準備不夠,國產化的模型成熟度不夠。這樣兩頭難的情況,怎麼解決?Kyligence 也提到了 " 邊使用、邊治理 " 的理念,有沒有想跟一些合作夥伴共同來做?
韓卿:" 邊使用、邊治理 " 是縱向來看,過去因為數據治理成本高,大量依賴人工,耗費專家腦力,但現在一是有了雲化,成本降低了,二是有了 AI,比如我們的 AI 增強引擎,可以支撐客戶在數據使用過程中建立、迭代模型。所以企業可以先買服務,邊使用、邊治理。
整個行業的角度來講不是 " 邊使用、邊治理 " 的問題,客戶是分層的。我們已經有客戶能合規地使用 Open AI,那我們就跟他合作,大家往前跑,模範先打出來。
整個行業,國家剛出台了一個《生成式人工智能服務管理暫行辦法》,我們認為比征求意見稿要寬松得多,這是好事情。因為有了這樣的規則,大家知道邊界在哪裡,有什麼問題是行業要解決的。
大模型本身這件事情不是我要解決的。我們現在關注的是用了大模型,怎麼把我們的東西做得非常好。然後随着不管是行業、政府,還是整個賽道的變化,逐步調整就好。今天所有的客戶到這裡,我也服務不起來,一點一點來挺好。
Q:模型層的問題不歸 Kyligence 解決,那麼要落地應用,如何解決模型幻覺、數據安全等實際的問題?
李揚:不準确是大家老擔心的問題,核心的邏輯是最好不要把關鍵回答問題的那一段交給一個純開放的大語言模型來做,而是引導到一個确定性的系統,比如我們的指标平台。
我們把回答問題的步驟拆解為四步,包括提問審查、指令理解、指令執行和數據解讀,可以在不同步驟中用幾個相對小的語言模型做特定能力的補償。
比如,安全問題。第一關就是審查提問是否合法合規,是否屬于工作範疇,如果不是,模型就不會回答;
第二步指令理解,需要明白自然語言對應到指标平台上具體的是什麼指令執行;
第三步指令執行,根據指令做出分析決策,比如歸因分析,或者把績效最差的銷售挑出來。這是最關鍵的需要解決胡說八道問題的環節。這個動作是在指标平台上面完成的,不是不确定的大語言模型在回答。
這裡我們的做法和其他廠商可能不同,沒有用 NLP to SQL,而是 NLP to DSL(Domain Specific Language),基于指标體系這個統一的數據語言,限定回答的自由度。
為什麼?to SQL,從自然語言直接映射到數據查詢,長期來看一定是正确的方向,但我們預判 SQL 的目标空間還是很復雜,靈活度非常大,要穩定收斂,短期裡面會有挑戰。
另外,在數據安全方面,SaaS 形态的方案是最容易和最方便驗證新技術的,但也是大家最有顧慮的一種落地方式。我們制定了嚴格的流程管控、審計和監控流。網絡和計算與公司的辦公網域完全隔離,數據存儲、計算資源也都是按照組織隔離的。同時,數據傳輸過程端到端完整加密。整個工作流程,我們有 SOC 2 Type Ⅱ 認證、ISO 9001/27001 認證等。
Q:所以不是 to SQL,而是 to DSL 也是出于快速落地的考量?
李揚:技術的進步需要有快速的閉環和迭代來完成。我們的策略就是先控制自然語言使用的自由度,把它限制在指标領網域的範圍裡,從而實現快速的商業落地,這樣企業就能從中受益。
通常如果回報周期越短,越是能快速帶來企業下一輪投入。因為有一個好的想法驗證出來果然有用,而且有可量化的價值,企業就會很願意做新一輪的投入。
現在美國 AI 炒得很熱,最近又有一些 AI 泡沫化這種擔憂出來。之所以有這樣的擔憂,一方面當然确實貴,另外一方面落地的速度不夠快。如果已經落地形成一輪閉環,有真金白銀的兌現,就談不上泡沫。
Q:提到投入產出,一分為二,公司自己的經濟賬怎麼算?對客戶來說考慮 ROI 是不是也需要有場景篩選的過程?
韓卿:對我們内部來說,創業公司永遠是把原來的事情做起來,以及跟做創新之間找到平衡。對我們來說投入還好。但目前很難說這筆賬到底怎麼樣。但我只知道一點,不做就落後,落後就死掉。一個創業公司如果固守成規,不往前走,那肯定出事情。
對客戶來說,是的。這也是為什麼今天出的還是預覽版。這個技術本身實在太新了,有太多的未知。第二個事情是,我們也希望通過預覽版,讓大家看到我有這樣的能力,找到一些數字化轉型的先鋒客戶,一起探索有什麼新的或者好的場景。
Q:Kyligence 目前用的什麼模型?對指标領網域應用而言,模型的能力差異體現在哪?
李揚:模型的能力差異主要體現在指令理解和數據解讀。我們的 Kyligence Copilot 預覽版目前支持可以合規使用 OpenAI 模型 API 的企業。本地化部署主要是 LLaMA 和 Falcon。我們測試的結果是,這兩個模型在指令理解能力方面大約是 GPT3.5 的 70%,具備落地應用的能力。當然我們也在積極測試其他的開源模型,也希望能夠和國内的大模型廠商開展合作。
Q:對不是最優結果,企業客戶接受嗎?
李揚:從企業接受度來說,只要比今天的那個人做得好就可以。人也會犯錯,聽領導的要求,也會有一定的理解偏差或者理解錯誤。
Q:算力方面,客戶能滿足使用 Copilot 的需求嗎?
李揚:出乎意料的好像還行。這個聊到是企業私有化部署的 IT 成本問題。初步應用起來,給領導管理層,夠他們用的 AI,或者說顯卡、計算資源,小幾十萬就夠了。如果要應用到整個公司幾萬人,可能大概就百萬規模的 IT 預算。
03 生成式 AI 已來,大數據領網域競争邊界模糊
Q:簡單來說,您認為大模型究竟為大數據領網域帶來了什麼變化?
韓卿:人機互動模式的變化會帶來使用數據的革命性變化,從過去以數據為中心做分析的方式變為以人為中心。
過去使用數據需要靠專業人士。我作為管理者想要看指标,就要委托一個人幫我做,可能是專業的程式員或工程師。整個互動模式是一層一層轉包的過程。有了 Copilot,就是一個效率放大器,決策效率會大幅提升。
我們一直在做的事情是把專業的、復雜的東西,逐漸變得平民化、簡單化。比如,OLAP 引擎是很專業的工具,只有金融等行業的大客戶才能用起來,但是指标平台大部分客戶是可以接受的。業務人員也能理解,當然它還是一個專業工具。如果變成 Copilot,幾乎每個人都可以用。
把復雜問題簡單化的過程,也是我們講的人機互動的革命。
Q:Kyligence 有一些 BI 的合作夥伴,指标平台跟 BI 是什麼關系?
李揚:嚴格來說 BI 是屬于我們認為的數據應用層,不是我們主要發力的地方,我們發力在平台和引擎,以及圍繞的一些指标的、有深度的能力方面。所以從定位來講,BI 是我們的合作夥伴,我們也并沒有打算取代掉 BI 的這個場景。
Q:有了大模型,未來 Kyligence 的 Copilot 產品和 BI 廠商發展的方向會不會越來越趨同?
李揚:應該會有一定重合,大家其實在解決同一個問題,只是在不同的層面工作。但如果問題對應的場景并不復雜,比如就是簡單看兩張報表,不需要引擎、平台、數據這樣的分層,可能會存在競争。
但如果我們把蛋糕做大,把人人用數的能力放大出來,把行業指标體系的可復制能力推開,真的能提高整個行業數智管理能力基線,就不會存在競争的問題了。做引擎的做引擎,做内核的做内核,做行業應用的做應用。
Q:未來終極的產品形态有沒有可能就只是人機互動的形式?
李揚:不會。并非所有的事光用語言表達就一定是最高效的。舉個例子,做一個儀表盤,要把圖畫得好看,字體大一點,橫軸加一個标注等等。如果要用語言把這個事說得很清楚,會特别費勁。反過來還是滑鼠點兩下更快。
所以人機互動不是零或者一的替代關系,只是多了一種渠道。有時候這種渠道是高效的,但有時候就不一定是必要的。
Q:海外的 Databricks、Snowflake 最近也有一些動作,Kyligence 有何不同,比如跟 Snowflake 相比?
李揚:從不同的角度,答案會不太一樣。從技術起源的角度很像,大家都是 OLAP 引擎。
從產品定位上,我們已經有一些差異。因為我們現在更多是通過指标平台能力作為出口,推廣我們的產品,更偏向業務。相當于往業務和應用層抬了一步,在產品角度不會直接和它形成對位競争。
當然最新動态很多,Snowflake 自己也收購了一些 AI 的公司。產品層面也許未來也是趨同,大家都在進步。
OLAP 的引擎能力投入我們也從來沒有停過。我們看到的是底層架構的東西,尤其是在國内,要被大家用起來是需要一個出口的,跟國外的模式不一樣。國外有點像偏科更容易過,把一件事情做到極致。國内希望你有一個價值閉環,說得清的東西。所以近兩年,針對國内市場我們做了把能力圈層往外擴的努力。
Q:像 Databricks、Snowflake 這樣收購生成式 AI 公司的做法,在國内可行嗎?
韓卿:通過收購快速補齊能力是科技公司常用的方法,尤其是在技術高速劇變的時候。我們對國内 AI 等公司不是很熟悉,很難給出準确的看法。這類 M&A 在美國很成熟,但在國内以收購模式做整合并且做的好的似乎還不多。從美國市場的實踐看,這應該是一個比較好的模式,只是可能需要更多的時間和探索。
Q:和國内友商相比,Kyligence 的差異化體現在哪?
李揚:行業裡其實做指标平台的并不少,中肯地說,在指标平台這個層面,相似大過于不同。
我們最大的技術差異點是在 OLAP 引擎層。配合上每一個人都來用數的前提,一是要支撐公司 5 萬人、10 萬人大家都來用這個數據,對引擎本身的性能,尤其是高并發下的穩定性有較高要求,同時成本也要合理。這兩個方面 Kyligence 有一定的優勢。面向成本優化,降低每一次查詢的成本,也是我們對引擎這款產品設定的持續發展方向。
另外,我們也在持續推進計算引擎的性能。去年 7 月我們聯合 Intel 在 Databricks Summit 上發布了 Gluten 的新技術,本質上就是把向量化的執行引擎植入到 Spark 中。我們的 Kyligence Turbo 就是一個向量化的 Spark 引擎技術,目前測試下來比标準版 Spark 引擎提速 2 倍以上。大概在今年 10-11 月開始,我們會和一些願意嘗鮮的頭部客戶,在真實生產環境中測試它的表現怎麼樣。