今天小編分享的科學經驗:一座“超級工廠”:讓中國沒有流不通的數據,歡迎閱讀。
新春伊始,中國各個行業、領網域都在關注一個熱詞:新質生產力。
新質生產力代表着一種生產力的躍遷,意思是 " 以科技創新發揮主導作用的生產力 "。簡單來說,就是新興科技催生而來的颠覆性發展引擎。尤其在這個萬物互聯的數字時代,發展這種更具融合性、更體現革新内涵的生產力質态,是企業與行業的微觀訴求,同時也是地區與國家的宏觀訴求。
如何才能獲得新質生產力,是千行萬業共同面對的時代考題。
想要回答這道考題,就需要認識一個基本邏輯:生產力的迭代是人類文明發展的内生引擎,其來自對生產要素的有效激活,而新質生產力的來源,就要依靠對新型生產要素的激活。
提到新生產要素,一個關鍵詞将映入眼簾,這就是 " 數據要素 "。
與傳統生產活動消耗自然資源不同,數字經濟的發展消耗的是 " 數據要素 "。在 2019 年,相關政策明确指出了 " 健全勞動、資本、土地、知識、技術、管理、數據等生產要素由市場評價貢獻、按貢獻決定報酬的機制 ",标志着數據要素正式投入到中國經濟的產出與分配階段,成為繼勞動力、土地、資本、技術之後的 " 第五生產要素 "。
去年,國家數據局的成立受到全球矚目。随後在年底,國家數據局等 17 部門聯合印發了《" 數據要素 × " 三年行動計劃(2024 — 2026 年)》,明确開展 " 數據要素 × 科技創新 " 行動。探索激活數據要素價值、獲得新質生產力的方法,成為今年國民經濟與企業發展最重要的議題之一。
然而在實踐中,企業經常發現數據并不匮乏,缺乏的是管理、使用與流通。粗犷而富有生命力的數據散落在田野間蓄勢待發,但想讓它們形成數據資產、變成真實的生產力,還需要一座座現代化的 " 工廠 " 來完成。
2 月 20 日,伴随着萬千企業新春開工的音信,華為舉辦了 2024 數據存儲新春新品發布會。期間,華為率先發布了業界全新的數據湖解決方案。
這個解決方案,就是一座面向數據要素的超級工廠,它可以把大量原始數據進行智能加工,從而滿足數據產品的多樣化需求,解鎖了邁向數據資產化進程的層層桎梏,讓數據煥發出勃勃生機。
屬于中國大地的新質生產力從何而來?在這個 AI 技術喚醒每一比特數據的黃金年代,只要讓數據要素看得清、理得順、用得好、流通好,那麼千行萬業自然就有了蓬勃新生的信心與底氣。
從數據要素,到數據資產
最壯闊的時代機遇
近幾年,全球範圍内迎來了以 AI 大模型為代表的智能技術大爆發。智能的來源是對數據的洞察與學習,因此數據要素的價值正在經歷跨世代的更新,各行業都在爆發出巨大的數據要素紅利。
舉例來看,華為盤古大模型通過對超過 300PB 全球天氣歷史數據,以及近 10 年超過 70PB 的衛星降水歷史數據進行學習,實現了降雨預測準确率提升 20%,從而将實現在全國範圍内每年減少百億元的暴雨經濟損失。
某大型銀行,通過将 53 年内積累的超 100PB 數據,以及每天實時產生的 300TB 數據進行融合分析,實現了降低約 5% 的不良貸款率,每年減少直接損失約 5 億元。
這些數據要素帶來的直觀紅利,意味着巨大的產業機遇。這也讓數據要素開始向數據資產進行更新,成為企業核心資產的組成部分。同時我們知道,一種生產要素的資產化,要求其具備可量化、可估值、可流通的特性。但在數據要素的生產與流通實踐裡,企業還是需要大量面對諸如數據管理困難、認證授權復雜、流通安全難以保障等問題。
簡言之,高速成長的數據要素,正在成為這個時代機遇最大、價值提升最為迅猛的生產要素。數據資產化,是每家企業都必須關注的方向,而讓這一切機遇成真的前提,是掃清數據資產化進程中的挑戰。
只有數據無礙,企業無憂,數據要素才能真正變為數據資產。
從野蠻生長,到工業化體系
建立數據要素市場面臨的挑戰
為什麼提起數據資產化時,很多企業會覺得為時過早,或者障礙重重?
根據國家工業信息安全發展研究中心發布的數據,在 2022 年至 2025 年,中國數據要素市場復合增速将達到 28.99%,全國數據產量将達到 8.1ZB,位居全球第二。中國已經成為名副其實的 " 數據大國 ",但從數據大國到數據強國,是千行萬業普遍面臨着數據質量不高、流通機制不暢、應用潛力釋放不足等問題。
在企業的實踐中,很容易發現數據并不像土地、資金、技術專利等傳統生產要素那樣清晰和标準化。絕大多數產業數據,都是企業在生產實踐中自然形成的,從收集到加工、流通都處于野蠻生長狀态。具體表現為數據要素的權屬判斷更為復雜,聚集和歸檔非常困難,價值密度難有标準,甚至隐私洩露、數據錯用等問題可能會給企業帶來負面影響。将這些直觀的挑戰歸類整理,華為在發布會中提到,當前在建立數據要素市場體系過程中,主要需面對四大難點:
1. 數據看不清。
大中型企業、連鎖企業、跨國企業經常會面對分散在各地的海量數據。這些數據标準不一、格式多樣、源頭散落各地,從而導致企業事實上很難全盤縱覽整體性數據。與此同時,數據盤點依賴人工操作,導致盤點成本大、訛誤多,進一步加重了數據 " 看不清 " 的問題。
2. 數據理不順。
數據收集之後,需要整理分類。但目前大量企業的數據分類依賴人工,這就導致分類标準難以統一,數據容易變得雜亂無章。當前階段,中國企業數據分類依賴人工比例超過了 60%,在海量數據時代,提升數據分類自動化水平迫在眉睫。
3. 數據用不好。
在收集與分類之後,數據需要真正加工成數據產品才能發揮其價值。但在這個階段,企業往往面臨數據應用方式較為傳統,數據加工成本過大等問題。比如說,用自身數據訓練 AI 大模型是企業非常關注的領網域。但在 AI 訓練之前,需要大量時間進行數據清洗與标注,這個成本是很多企業難以承受的。
4. 數據流不動。
數據資產化的最後一環在于數據的高效流通。但在這個階段,企業一方面是 " 不敢流 ",需要承擔安全與合規方面的風險,一旦流通起來就可能面臨 " 隐私裸奔 " 的危機。另一方面是 " 流得慢 ",數據流通過程中所需的存、算、網等數字基礎設施開支也是擋在企業面前的一座大山。這導致很多企業在數據流通時,還在選擇快遞硬碟這種原始且不安全的方法。
這四大挑戰,關注到了數據從生成、管理到流通的每一個環節,可以說是所有企業都将面對的數據資產化難題。如何才能把千行萬業野蠻生長的數據,變成精密、可靠、标準化的工業品,是數據要素時代的核心考題。
為此,華為希望搭建一座 " 超級工廠 ",來幫助海量數據走向工業化的全新時代。
從千行萬業,到一座 " 超級工廠 "
華為數據湖解決方案
千行萬業,都需要加速數據資產化進程。這也意味着千行萬業的數據,也都需要這樣一座 " 超級工廠 "。它像流水線一樣完成原始數據的加工、盤點、分類,完成一站式處理,并且構建可靠的流通傳輸環境,讓數據要素從野蠻粗放走向清晰規整。
這座工廠,就是華為基于 GFS 打造的數據湖解決方案。GFS(Global File System)是指全局檔案系統,它作為整個方案的靈魂組件與驅動引擎,與上層的數據服務層和下層的數據存儲層協同,構築了一個完善而高效的數據編織層,以全局命名空間,幫助數據資產實現可視、可管、可用。
( 華為分布式存儲領網域總裁袁遠 )
具體而言,為了應對數據資產化進程中的四大挑戰,華為數據湖解決方案包含這樣一些技術創新特性:
首先,是數據資產一張圖。
華為數據湖解決方案可以實現跨地網域、跨站點、跨廠家的統一元數據納管,同時實現不同格式、協定的數據均無損地統一入湖。除此之外,為了應對遠數據掃描上報過程中的低效率、重人工問題,數據湖解決方案還能将增量數據在業務側無感知地實時更新,從而橫跨時間、空間的限制,幫助企業将所有數據盡收眼底。
某世界 500 強企業,需要面對來自全球超過 200 家子公司,130 多家全球代表處的數據匯總,導致經營報告變成了巨大工程。通過應用全局資產一張圖,這家公司将超過 100 萬張表格進行了高效地盤點、注冊,從而使月度報告生成時間從 18 天縮短為 3 天,年度報告生成時間從三周縮短至一周,大幅提升了經營決策效率,真正做到了全球數據一覽無遺。
其次,是智能數據目錄。
面對數據的整理、分類難題,華為數據湖解決方案提供智能數據目錄能力,從而實現自動化的數據标籤與聚合,滿足數據的高效檢索與呈現。從應用場景上看,智能數據目錄有兩類應用。一是進行數據合規的自動分級,對敏感數據、隐私信息進行自動識别。二是數據内容的自動分類,将數據按照業務需求進行智能的屬性化标籤處理。
某海外企業在進行 AI 質檢實踐中,就應用了智能數據目錄能力。通過自動化的數據标籤與數據處理,将需要數天完成的數據處理時長縮短到了 18 分鍾,相關伺服器數量也減少了一半,全方位提升了數據整理效率,降低了相關成本。
最後,是通過構建可信的數據交換空間,讓數據真正安全高效地流通。
華為數據湖解決方案提出了可信數據空間的概念。在這個空間裡,企業可以通過合法性認證、安全管控策略、全鏈路加解密、日志留痕等能力,實現數據的可信、可控和可追溯流轉,并支持第三方監管與運營,從而在數據流通雙方或者多方之間搭建了安全可信的數據要素通道。
針對數據流通效率低、成本高的問題,華為數據湖解決方案也提供了面向跨網域訪問的數據智能緩存能力,訪問任何地網域的數據都像訪問本地一樣高效。此外,在數據傳輸過程中提供 2:1 的無損壓縮能力,從而降低數據傳輸壓力,節省相關成本。
總之,華為數據湖解決方案這座為數據要素而生的 " 超級工廠 ",蘊含了針對數據資產化過程中每項挑戰的解題思路。
踏着數據資產化的腳步,一場引爆數字時代的熊熊烈火便至此燃燒起來,迸發出超乎想象的巨大能量。
從實踐,到未來
讓中國沒有流不通的數據
從當前階段企業的數據資產化實踐,到未來更廣闊的數據市場構建,可以看到華為數據湖解決方案将展現巨大的潛力,最終推動新質生產力在每個行業、每家企業中湧現出來。事實上,在當前的數據資產化實踐中,先行一步的數字化、智能化探索者們已從中獲益。
舉例來說,在某家大型銀行中,原本需要面對總行與分行之間、銀行同業之間缺乏安全、高效數據流通手段,導致業務上線慢,安全顧慮大的問題。
通過在總行、分行統一部署華為數據湖解決方案,該銀行實現了一系列數據要素的價值躍升。比如,通過可信數據空間與 GFS 的結合,銀行數據實現高效流通,并且全行數據使用違規的次數降低了 80%,再比如,通過全局數據可視、可管,這家銀行實現了全行一張圖,從而加速數據報表生產,并讓產品開發更加敏捷,新業務上線時間從 1 月縮短到 1 周。此外,通過 GFS 與華為 OceanStor 分布式存儲的結合,這家銀行在滿足多樣化業務負載、協定訴求的同時,通過熱、溫、冷數據智能分級實現了 TCO 下降 30%。
這一案例不僅對金融行業具有參考價值,對于各個行業的數據資產化來說,都有積極的借鑑意義。
而望向更遠的未來,華為将推動 open-GFS 開源計劃,面向夥伴及用戶開放包括異構接入框架、全局視圖管理以及數據流動引擎等核心能力,從而完成更貼近行業的數據流通能力、加速數據資產化進程,讓用戶免除後顧之憂。
如果說,農業時代比拼土地,工業時代比拼勞動力和資本,信息時代比拼技術,那麼未來企業邁出的每一個腳步、登上的每一層樓、跨過的每一座山峰,都嵌在那一次次數據湧動之中。誰能率先将數據納為生產要素,能從數據中汲取資產化價值,誰就能率先獲得智能時代的船票,激發出面向未來的新質生產力。
而這一切的開端與前提,是數據要素走進 " 工廠 "。
在這座工廠的宏偉藍圖裡,每一條歷史與實時數據都有其價值,每一個智能體都能被數據點燃。無垠的中國大地之上,将沒有流不通的數據。