今天小編分享的科技經驗:數據中台走向沒落?數據編織能否取而代之?,歡迎閱讀。
數據中台已經走向沒落?
根據 Gartner 在 2024 年數據分析與人工智能技術成熟度曲線(中國版)中指出," 數據中台 " 落入泡沫破裂谷底期,并且,Gartner 還提出了 " 數據中台即将消亡 " 的論斷。
提出這樣的論斷,在于經過了十多年的發展,數據中台的弊端愈發明顯。從技術視角分析,數據中台是物理集中式架構,側重于物理化的統一歸集和數據搬運,而随着數據規模指數級增長,由于合規性、安全性等原因,數據中台難以應對 " 跨源異構 " 數據的整合,且建設數據中台,投資巨大,回報周期長,ROI 成為眾多企不得不考慮的問題。從業務視角分析,這種架構高度依賴于 ETL 專業團隊及相關工具,不僅在時效性和靈活性上,難以為前端業務決策和產品創新提供支持,對一些自服務的數據消費場景,也難以提供敏捷的數據交付。
因此,從實際應用角度出發,對于正實施數字化轉型戰略的大型企業,或者想要更快、成本更低落地數字應用的中小型,甚至是初創企業來說,數據中台在當下這樣的環境中,顯然已經不是更好的選擇。更靈活、更敏捷,也更低成本的數據編織架構開始受到關注。
什麼是數據編織?
數據編織(Data Fabric)不是一個產品而是一種設計理念,是利用 AI、機器學習和數據科學的功能,訪問數據或支持數據動态整合,以發現可用數據之間獨特的、與業務相關的關系。換句話說,現在的數據連接的架構設計還主要是 " 人找數據 ",而數據編織的設計核心是 " 數據找人 ",在合适的時間、将合适的數據推送給需要的人。
數據編織是一種全新的數據管理架構理念,其核心是通過優化跨源異構數據的發現與訪問,将可信數據以靈活且業務可理解的方式交付給所有相關數據消費者,讓數據消費者自助服務和高效協作,實現極致敏捷的數據交付。
與傳統數據中台架構相比,數據編織的關鍵突破是通過數據虛拟化技術,創建邏輯數據層,在單點邏輯集成了分散在不同系統中的數據,為數據消費者提供了一個統一的、抽象的、封裝的邏輯數據視圖,無需物理搬運數據即可實現數據的統一訪問與管理。
" 用戶通過這個邏輯視圖,可以查詢和操作存儲在異構數據源中的數據,把多個異構數據源當成一個同構數據源使用,無需關心數據的位置、類型和格式,最終實現類似數據中台的統一集中化的數據訪問和管理。"Aloudata 大應科技 CMO 劉靓告訴钛媒體 APP," 數據編織與數據中台最大的差異在于:無需事前物理集中數據,事中運維 ETL 任務,事後計存治理(零搬運、免運維、自治理),為企業數據體系建設和數據管理架構提供了一種全新的思路。"
另一方面,國際市場也看好數據編織架構的發展。根據全球行業分析師報告,全球數據編織市場從 2020 年的 11 億美元,到 2026 年将達到 37 億美元,增長超過 2 倍。在此前,Gartner 連續三年将數據編織(Data Fabric)列為 " 十大數據和分析技術趨勢 " 之一,更是在 2024 年的數據管理技術成熟度曲線裡大幅提升數據編織的成熟度,預測該技術在未來 2-5 年内會獲得廣泛應用。
在 Gartner 看來,數據編織是一種跨平台的數據整合的方式,它不僅可以集合所有業務用戶的信息,還具有靈活且彈性的特點,使得人們可以随時随地使用任何數據。
從應用上看,劉靓告訴钛媒體 APP,目前國際上對于數據編織架構的應用案例比較多,但是在國内市場,數據編織架構的應用仍處于發展的初期階段。
門檻更低,效率更高,哪些場景适合數據編織?
數據中台在國内已經有了多年的發展歷史。數據中台的概念最早由阿裡巴巴在 2014 年前後提出并開始實施。阿裡巴巴通過構建數據中台,解決了内部多個業務線數據孤島的問題,實現了數據的統一管理和高效利用。此後,數據中台的概念逐漸被廣泛認可和應用。
随着數據中台概念的普及,越來越多的企業認識到數據中台的重要性,紛紛開始布局數據中台建設。數據中台的建設和應用,推動了企業的數字化轉型,也為企業帶來了新的商業機會和競争優勢。
但在 Gartner 2024《創新洞察:數據基礎設施成為中國數據與分析生态系統的基石》報告中提出,純技術驅動的 " 大而全 " 的數據與分析平台(如數據中台)無法确保切實的商業回報,從而失去了利益相關者的支持。
究其原因,雖然單就國内市場而言,數據中台仍是大多數企業統一管理和交付數據,以數據驅動數字化轉型的重要選項,但其復雜的架構搭建,高昂的建設成本,以及持續的投入和較長的回報周期,讓企業開始思考和探尋新的數據架構。并且數據中台架構的運作,高度依賴于專業的 ETL 工程師及相關工具,需要人工進行復雜且繁瑣的數據加工處理,然後交付數據給到前端消費者,而這不僅難以及時響應越來越快的業務需求,對于自服務的場景,也存在一定的門檻。除此外,企業在使用數據中台的過程中,也會存在數據反復搬運的情況,而這種情況也導致了企業使用數據中台的成本不斷上升。
對此,西卡中國 BI 和數據負責人袁莺表示,數據中台主要提供統一的服務,其數據存儲模式主要是物理集中式的,相比之下,數據編織更多地提供虛拟化的邏輯集成方案,能夠在雲上、本地系統,以及多個存儲位置之間,構建統一的虛拟訪問層,不僅解決了數據遷移的問題,還有助于應對數據合規性的問題。
換言之,數據編織架構的出現,能夠讓企業以更低的成本,更快的速度,以及更好的合規性,實現全網域數據的整合集成,及時響應業務需求,賦能產品創新和業務決策等。
首先,從技術與業務場景的匹配度來說。企業一方面在強調 " 讓技術服務于業務 ",數據體系建設最簡單樸素的目标是 " 讓業務及時用上好數據 ";另一方面,企業應用技術的現狀又是 " 技術落後于業務 " 的,尤其是企業業務變化越來越快,技術的響應卻跟不上業務變化的節奏。數據中台 " 打固定靶 " 的開發模式顯然難以賦能業務靈活創新。在康明斯中國區首席架構師徐志蔚看來,數據編織最大的優勢在于,能夠推進自服務場景。" 就數據而言,業務部門本身是最了解數據的,如果業務部門無法直接獲取所需數據進行分析,則可能導致數據處理過程中的誤解與偏差。" 徐志蔚指出," 通過數據編織,企業可以将數據分析的能力給到業務,無需依賴 ETL 開發,即時獲取并充分利用數據價值。"
其次,從技術的組織就緒度來說。基于數據中台的解決方案存在眾多的產品供應商和服務實施商,很容易讓人誤以為數據體系建設等同于數據中台的一次性部署和不定期的數據代碼外包開發。而這種想法過于簡單了,簡化來看,數據開發和管理可以劃分為數據集成、數據加工和數據服務三大步驟,在這三個步驟中,企業不能單純的依靠供應商提供的項目管理服務,要想更好地應用數據中台服務業務,企業需要組建一支自己的數據團隊,以便更好地推動企業内部的數據變革,而這點對于大多數企業而言,是一筆不小的開支。
最後,在這個各行業都在追求降本增效的當下,很多企業的 CIO 都曾向钛媒體 APP 表示,企業在應用數字技術的時候,會将 ROI 放在比較靠前的位置考慮。而數據中台的建設理念通常強調了數據的 " 應存盡存 ",通過 ETL 将全網域數據進行物理集中存儲,并采用面向數據建模的方法構建數據中間層和采用面向業務建模的方法構建數據應用層,層與層之間以及層的内部都有相應的數據搬運和拷貝,存在數據快速膨脹的現象。這意味着數據中台建設成本不僅包括硬體相關的存算基礎設施,也包括一系列的數據開發與管理工具,還包括建模、開發、運維與管理的大量人力投入,前期 TCO(Total Cost of Ownership,總擁有成本)至少百萬元。
随着企業數智化的深入,數據源、數據類型、數據規模、數據需求在快速變化,數據鏈路和數據工程的復雜度在持續增加,任務運維和數據治理的工作量在指數級增長,數據體系的成本投入随之也水漲船高,成為 CIO 無法繞開的難題。Aloudata CEO 周衛林對此指出,數字化本身的目标是幫助企業降本增效,但是數據中台架構的大規模初始投資和持續投資卻讓數據體系本身成為了成本中心。
所以,通過數據編織,可以有效地解決企業數字化轉型過程中的效率、成本、組織、合規等各個方面的問題。而對于擁有充足資金和人才儲備的大型企業而言,建設數據中台當然可以一步到位,而且也可作為企業底層數字基礎,但數據編織能夠解決數據敏捷交付、跨網域合規使用等問題,可以與數據中台形成補充。袁莺表示:" 它們并非相互替代的關系,而是可以相互融合、互為補充。" 對于投資謹慎和人才儲備不足的數字化初階企業而言,應用數據編織顯然能讓他們以更低的成本,更快的速度上線業務,同時也可以滿足他們業務随時變化、調整的需求。
綜合來看,當企業選擇數據中台或是數據編織架構的時候,企業要考慮自身是否具備充足的資金、充足的數據人才儲備,以及業務變化速率的快慢,再進行選擇。劉靓告訴钛媒體 APP,對于企業而言,有三個場景比較适合數據編織架構。首先,就是不想耗費過多的人力、财力去建設數據中台,但又同時有着數字化轉型需求的企業,通常這些企業還擁有敏捷性的訴求。
其次,對于組織架構龐雜的大型企業,在開展多子公司數據湖倉跨網域,甚至是跨境聯合數據查詢的過程中,數據編織能夠在确保安全的前提下,提供快速整合多湖倉數據的能力,而就 Aloudata 觀察來看,目前這部分訴求比較大的企業主要集中在金融機構、能源與制造業和汽車行業。
最後,對于部分統一建設了數據中台的企業,能夠将數據編織作為數據中台的補充,用于滿足業務自助敏捷用數的場景。
三個評估維度、兩個關鍵指标,用好數據編織
" 相對于數據中台,在國内,真正将數據編織這一架構理念付諸實踐的企業仍屬罕見。" 劉靓認為,造成這一現象的原因在于眾多企業苦于缺乏清晰可參考的實踐方法論與價值評估框架。為此,國内 Data Fabric 架構理念的實踐者與引領者 Aloudata 日前正式發布了《數據編織價值評估指南》白皮書,提出了業界首個數據編織價值實現評估框架。
值得一提的是,這本白皮書的發布源自 Aloudata 多年的實踐。早些年,創始團隊親自操刀和參與了螞蟻集團的數據平台的建設和管理,在洞察到數據中台普遍存在的 ROI、難以支持敏捷用數及自服務場景、過度依賴 ETL 等問題後,提出了 "NoETL" 的創新理念,并由此自研了數據虛拟化技術,打造了國内首個邏輯數據編織平台 Aloudata AIR,積極推進在各行業的落地應用。" 與其他企業不同,我們不是因為先有了數據編織的概念,再去落地相關技術和產品,我們是從實踐中走來。事後看,我們的‘ NoETL ’理念與數據編織高度契合,也就自然成為數據編織架構理念的擁立者、實踐者和引領者。"Aloudata CEO 周衛林如是說。
在白皮書中,Aloudata 緊緊圍繞 " 讓業務及時用上好數據 " 這一點,提出了 " 提升數據交付效率 "、" 降低數據膨脹系數 "、" 減少數據管理成本 " 三個評估維度,并提供了 " 當天需求滿足率 " 和 " 當天數據動銷率 " 兩個關鍵指标,以幫助業務進行量化評估。
在提升數據交付效率方面,企業需要觀察,通過數據編織架構能否端到端地提升了從數據集成、整合到服務的交付效率,将數據需求的響應周期,從 " 周 " 縮短到 " 天 "。
在降低數據膨脹系數方面,企業需要評估,能否從機制設計上系統化地減少數據拷貝,節約存算資源,提升存算的有效性和經濟性," 對于企業來說,使用好數據編織架構的話,至少能夠節約 30% 的存算成本。" 劉靓指出。
在減少數據管理成本方面,企業需要評估,是否通過數據編織架構,簡化了系統技術概念,降低數據平台的應用門檻,并減少了日常運維成本,提升數據管理的自動化水平和增強數據平台的智能化能力," 在這方面,根據 Aloudata 觀察,應用好的企業,至少可以節省 70% 的數據管理成本。" 劉靓說。
與此同時,通過 " 當天需求滿足率 " 和 " 當天數據動銷率 " 兩個關鍵指标,企業還能夠對數據編織架構的應用效果進行量化評估。
在 Aloudata 看來,當天需求滿足率是站在業務方視角評估和感受數據平台能力和價值的唯一核心指标,也是數據產生業務價值的重要體現之一。" 通過觀測業務數據化運營需求的當天滿足率可以比較好地衡量一家企業的數據交付效率。" 劉靓如是說。
而數據動銷率則是對存算資源是否合理使用的量化指标—即當天有更新的數據在當天或未來段時間内(比如 30 天内)的使用率(有沒有下遊場景對數據產生訪問)。通常一個基于數據中台理念構建的數據平台,30 天内的數據動銷率不會超過 50% ——即有大量的存算資源用于數據的更新,但卻沒有產生使用,而是被浪費了。如果計算數據的動銷熱度,比如一次數據更新帶來三次以上的數據使用,稱為熱賣,那麼數據當日三次熱賣率會更低,通常低于 10%,數據當月三次熱賣率通常低于 30%。
劉靓表示,數智化程度越高的企業,比如偏互聯網性質的公司,這個比例會越低,因為業務變化快,有大量臨時性的、過期的數據更新沒有及時獲得清理。
通過三個維度,兩個指标,企業可以在使用數據編織架構的過程中,更好地掌握自身數字架構使用實現了真正的價值,從而更好地激發數據價值,賦能業務發展。
從應用上看,目前國内也已經有一些企業在數據編織應用方面產生了良好的 " 化學反應 ",以首創證券為例,初始階段,首創證券在構建數據倉庫時,面臨了人員短缺與 Hadoop 技術棧不熟悉的挑戰。傳統 Hadoop 數倉體系需要龐大的 ETL 開發團隊和深厚的技術積累,這對于僅有少量數據工程師的首創證券來說,無疑是一大難題。
而數據編織為首創證券提供了解題思路,通過 Aloudata AIR 邏輯數據編織平台,首創證券成功構建了一個邏輯數倉,将各業務系統的數據無縫連接。在 ODS 層實現邏輯連接後,DWD 層則用于沉澱數倉的歷史數據。這種分層策略不僅簡化了數倉結構,還實現了數據的按需加速與物化,大大提高了數據處理的靈活性。
首創證券的源頭數據庫多達一百多個,涉及幾萬張表。在傳統方案下,僅集成這些數據就可能產生成千上萬的任務,耗時費力。部署完成後,通過 Aloudata AIR,這些表在短短一天内就完成了集成。更值得一提的是,真正在明細層沉澱的物理表數量不到 100 張,大大降低了數據管理的復雜度。此外,報表的查詢響應率也顯著提升,一秒内響應率達到 95%。這得益于 DWD 層的數據加速與沉澱策略,以及應用層查詢的自動路由機制,确保了查詢的高效執行。(本文首發于钛媒體 APP,作者|張申宇,編輯丨蓋虹達)