一座“超級工廠”：讓中國沒有流不通的數據

今天小編分享的科學經驗：一座“超級工廠”：讓中國沒有流不通的數據，歡迎閲讀。

新春伊始，中國各個行業、領網域都在關注一個熱詞：新質生產力。

新質生產力代表着一種生產力的躍遷，意思是 " 以科技創新發揮主導作用的生產力 "。簡單來説，就是新興科技催生而來的颠覆性發展引擎。尤其在這個萬物互聯的數字時代，發展這種更具融合性、更體現革新内涵的生產力質态，是企業與行業的微觀訴求，同時也是地區與國家的宏觀訴求。

如何才能獲得新質生產力，是千行萬業共同面對的時代考題。

想要回答這道考題，就需要認識一個基本邏輯：生產力的迭代是人類文明發展的内生引擎，其來自對生產要素的有效激活，而新質生產力的來源，就要依靠對新型生產要素的激活。

提到新生產要素，一個關鍵詞将映入眼簾，這就是 " 數據要素 "。

與傳統生產活動消耗自然資源不同，數字經濟的發展消耗的是 " 數據要素 "。在 2019 年，相關政策明确指出了 " 健全勞動、資本、土地、知識、技術、管理、數據等生產要素由市場評價貢獻、按貢獻決定報酬的機制 "，标志着數據要素正式投入到中國經濟的產出與分配階段，成為繼勞動力、土地、資本、技術之後的 " 第五生產要素 "。

去年，國家數據局的成立受到全球矚目。随後在年底，國家數據局等 17 部門聯合印發了《" 數據要素 × " 三年行動計劃（2024 — 2026 年）》，明确開展 " 數據要素 × 科技創新 " 行動。探索激活數據要素價值、獲得新質生產力的方法，成為今年國民經濟與企業發展最重要的議題之一。

然而在實踐中，企業經常發現數據并不匮乏，缺乏的是管理、使用與流通。粗犷而富有生命力的數據散落在田野間蓄勢待發，但想讓它們形成數據資產、變成真實的生產力，還需要一座座現代化的 " 工廠 " 來完成。

2 月 20 日，伴随着萬千企業新春開工的音信，華為舉辦了 2024 數據存儲新春新品發布會。期間，華為率先發布了業界全新的數據湖解決方案。

這個解決方案，就是一座面向數據要素的超級工廠，它可以把大量原始數據進行智能加工，從而滿足數據產品的多樣化需求，解鎖了邁向數據資產化進程的層層桎梏，讓數據煥發出勃勃生機。

屬于中國大地的新質生產力從何而來？在這個 AI 技術喚醒每一比特數據的黃金年代，只要讓數據要素看得清、理得順、用得好、流通好，那麼千行萬業自然就有了蓬勃新生的信心與底氣。

從數據要素，到數據資產

最壯闊的時代機遇

近幾年，全球範圍内迎來了以 AI 大模型為代表的智能技術大爆發。智能的來源是對數據的洞察與學習，因此數據要素的價值正在經歷跨世代的更新，各行業都在爆發出巨大的數據要素紅利。

舉例來看，華為盤古大模型通過對超過 300PB 全球天氣歷史數據，以及近 10 年超過 70PB 的衞星降水歷史數據進行學習，實現了降雨預測準确率提升 20%，從而将實現在全國範圍内每年減少百億元的暴雨經濟損失。

某大型銀行，通過将 53 年内積累的超 100PB 數據，以及每天實時產生的 300TB 數據進行融合分析，實現了降低約 5% 的不良貸款率，每年減少直接損失約 5 億元。

這些數據要素帶來的直觀紅利，意味着巨大的產業機遇。這也讓數據要素開始向數據資產進行更新，成為企業核心資產的組成部分。同時我們知道，一種生產要素的資產化，要求其具備可量化、可估值、可流通的特性。但在數據要素的生產與流通實踐裏，企業還是需要大量面對諸如數據管理困難、認證授權復雜、流通安全難以保障等問題。

簡言之，高速成長的數據要素，正在成為這個時代機遇最大、價值提升最為迅猛的生產要素。數據資產化，是每家企業都必須關注的方向，而讓這一切機遇成真的前提，是掃清數據資產化進程中的挑戰。

只有數據無礙，企業無憂，數據要素才能真正變為數據資產。

從野蠻生長，到工業化體系

建立數據要素市場面臨的挑戰

為什麼提起數據資產化時，很多企業會覺得為時過早，或者障礙重重？

根據國家工業信息安全發展研究中心發布的數據，在 2022 年至 2025 年，中國數據要素市場復合增速将達到 28.99％，全國數據產量将達到 8.1ZB，位居全球第二。中國已經成為名副其實的 " 數據大國 "，但從數據大國到數據強國，是千行萬業普遍面臨着數據質量不高、流通機制不暢、應用潛力釋放不足等問題。

在企業的實踐中，很容易發現數據并不像土地、資金、技術專利等傳統生產要素那樣清晰和标準化。絕大多數產業數據，都是企業在生產實踐中自然形成的，從收集到加工、流通都處于野蠻生長狀态。具體表現為數據要素的權屬判斷更為復雜，聚集和歸檔非常困難，價值密度難有标準，甚至隐私泄露、數據錯用等問題可能會給企業帶來負面影響。将這些直觀的挑戰歸類整理，華為在發布會中提到，當前在建立數據要素市場體系過程中，主要需面對四大難點：

1. 數據看不清。

大中型企業、連鎖企業、跨國企業經常會面對分散在各地的海量數據。這些數據标準不一、格式多樣、源頭散落各地，從而導致企業事實上很難全盤縱覽整體性數據。與此同時，數據盤點依賴人工操作，導致盤點成本大、訛誤多，進一步加重了數據 " 看不清 " 的問題。

2. 數據理不順。

數據收集之後，需要整理分類。但目前大量企業的數據分類依賴人工，這就導致分類标準難以統一，數據容易變得雜亂無章。當前階段，中國企業數據分類依賴人工比例超過了 60%，在海量數據時代，提升數據分類自動化水平迫在眉睫。

3. 數據用不好。

在收集與分類之後，數據需要真正加工成數據產品才能發揮其價值。但在這個階段，企業往往面臨數據應用方式較為傳統，數據加工成本過大等問題。比如説，用自身數據訓練 AI 大模型是企業非常關注的領網域。但在 AI 訓練之前，需要大量時間進行數據清洗與标注，這個成本是很多企業難以承受的。

4. 數據流不動。

數據資產化的最後一環在于數據的高效流通。但在這個階段，企業一方面是 " 不敢流 "，需要承擔安全與合規方面的風險，一旦流通起來就可能面臨 " 隐私裸奔 " 的危機。另一方面是 " 流得慢 "，數據流通過程中所需的存、算、網等數字基礎設施開支也是擋在企業面前的一座大山。這導致很多企業在數據流通時，還在選擇快遞硬碟這種原始且不安全的方法。

這四大挑戰，關注到了數據從生成、管理到流通的每一個環節，可以説是所有企業都将面對的數據資產化難題。如何才能把千行萬業野蠻生長的數據，變成精密、可靠、标準化的工業品，是數據要素時代的核心考題。

為此，華為希望搭建一座 " 超級工廠 "，來幫助海量數據走向工業化的全新時代。

從千行萬業，到一座 " 超級工廠 "

華為數據湖解決方案

千行萬業，都需要加速數據資產化進程。這也意味着千行萬業的數據，也都需要這樣一座 " 超級工廠 "。它像流水線一樣完成原始數據的加工、盤點、分類，完成一站式處理，并且構建可靠的流通傳輸環境，讓數據要素從野蠻粗放走向清晰規整。

這座工廠，就是華為基于 GFS 打造的數據湖解決方案。GFS（Global File System）是指全局檔案系統，它作為整個方案的靈魂組件與驅動引擎，與上層的數據服務層和下層的數據存儲層協同，構築了一個完善而高效的數據編織層，以全局命名空間，幫助數據資產實現可視、可管、可用。

( 華為分布式存儲領網域總裁袁遠 )

具體而言，為了應對數據資產化進程中的四大挑戰，華為數據湖解決方案包含這樣一些技術創新特性：

首先，是數據資產一張圖。

華為數據湖解決方案可以實現跨地網域、跨站點、跨廠家的統一元數據納管，同時實現不同格式、協定的數據均無損地統一入湖。除此之外，為了應對遠數據掃描上報過程中的低效率、重人工問題，數據湖解決方案還能将增量數據在業務側無感知地實時更新，從而橫跨時間、空間的限制，幫助企業将所有數據盡收眼底。

某世界 500 強企業，需要面對來自全球超過 200 家子公司，130 多家全球代表處的數據匯總，導致經營報告變成了巨大工程。通過應用全局資產一張圖，這家公司将超過 100 萬張表格進行了高效地盤點、注冊，從而使月度報告生成時間從 18 天縮短為 3 天，年度報告生成時間從三周縮短至一周，大幅提升了經營決策效率，真正做到了全球數據一覽無遺。

其次，是智能數據目錄。

面對數據的整理、分類難題，華為數據湖解決方案提供智能數據目錄能力，從而實現自動化的數據标籤與聚合，滿足數據的高效檢索與呈現。從應用場景上看，智能數據目錄有兩類應用。一是進行數據合規的自動分級，對敏感數據、隐私信息進行自動識别。二是數據内容的自動分類，将數據按照業務需求進行智能的屬性化标籤處理。

某海外企業在進行 AI 質檢實踐中，就應用了智能數據目錄能力。通過自動化的數據标籤與數據處理，将需要數天完成的數據處理時長縮短到了 18 分鍾，相關伺服器數量也減少了一半，全方位提升了數據整理效率，降低了相關成本。

最後，是通過構建可信的數據交換空間，讓數據真正安全高效地流通。

華為數據湖解決方案提出了可信數據空間的概念。在這個空間裏，企業可以通過合法性認證、安全管控策略、全鏈路加解密、日志留痕等能力，實現數據的可信、可控和可追溯流轉，并支持第三方監管與運營，從而在數據流通雙方或者多方之間搭建了安全可信的數據要素通道。

針對數據流通效率低、成本高的問題，華為數據湖解決方案也提供了面向跨網域訪問的數據智能緩存能力，訪問任何地網域的數據都像訪問本地一樣高效。此外，在數據傳輸過程中提供 2:1 的無損壓縮能力，從而降低數據傳輸壓力，節省相關成本。

總之，華為數據湖解決方案這座為數據要素而生的 " 超級工廠 "，藴含了針對數據資產化過程中每項挑戰的解題思路。

踏着數據資產化的腳步，一場引爆數字時代的熊熊烈火便至此燃燒起來，迸發出超乎想象的巨大能量。

從實踐，到未來

讓中國沒有流不通的數據

從當前階段企業的數據資產化實踐，到未來更廣闊的數據市場構建，可以看到華為數據湖解決方案将展現巨大的潛力，最終推動新質生產力在每個行業、每家企業中湧現出來。事實上，在當前的數據資產化實踐中，先行一步的數字化、智能化探索者們已從中獲益。

舉例來説，在某家大型銀行中，原本需要面對總行與分行之間、銀行同業之間缺乏安全、高效數據流通手段，導致業務上線慢，安全顧慮大的問題。

通過在總行、分行統一部署華為數據湖解決方案，該銀行實現了一系列數據要素的價值躍升。比如，通過可信數據空間與 GFS 的結合，銀行數據實現高效流通，并且全行數據使用違規的次數降低了 80%，再比如，通過全局數據可視、可管，這家銀行實現了全行一張圖，從而加速數據報表生產，并讓產品開發更加敏捷，新業務上線時間從 1 月縮短到 1 周。此外，通過 GFS 與華為 OceanStor 分布式存儲的結合，這家銀行在滿足多樣化業務負載、協定訴求的同時，通過熱、温、冷數據智能分級實現了 TCO 下降 30%。

這一案例不僅對金融行業具有參考價值，對于各個行業的數據資產化來説，都有積極的借鑑意義。

而望向更遠的未來，華為将推動 open-GFS 開源計劃，面向夥伴及用户開放包括異構接入框架、全局視圖管理以及數據流動引擎等核心能力，從而完成更貼近行業的數據流通能力、加速數據資產化進程，讓用户免除後顧之憂。