今天小編分享的科技經驗:OceanBase CEO楊冰:人工智能時代,如何重構現代數據架構,歡迎閱讀。
9 月 11 日 -14 日,由钛媒體與 ITValue 共同主辦的 2024 ITValue Summit 數字價值年會在三亞舉行。此次峰會主題為 "Ready For AI",交流經驗教訓,交叉行業思考,推動創新交易,以創新場景為基礎,共同探索 AI 驅動下數字經濟時代的全新機遇,共同打造一場數字經濟時代的 AI 創新探索盛宴。
大會上,OceanBase CEO 楊冰以 " 人工智能時代,如何重構現代數據架構 " 的主題進行了分享。
楊冰表示,大數據和數據庫企業得益于互聯網與雲的機遇,迅速崛起,期間聚焦于解決分布式系統帶來的擴展性和復雜性挑戰。AI 時代,CIO 的關注點已不再局限于這一難題,而是聚焦于如何讓應用和業務實現更好的互動,如何挖掘數據價值,實現更精準洞察。從技術架構角度,其關鍵詞已從 " 分 " 切換到 " 合 ",是融合、統一。
以下為楊冰演講内容,經钛媒體整理:
各位嘉賓,大家上午好!非常開心钛媒體邀請我來數字價值年會跟大家交流。
我今天分享的主題是 " 人工智能時代,如何重構現代數據架構 "。如今,數字化已經不是一個新話題了,有些行業處在在深水區,有些行業則在加速進行數字化轉型。但今天在轉型過程中,加入了一個超級變量—— AI,AI 目前突破的形态是語言模型和多模态模型,它的發明改變的不僅僅是人和機器的互動方式。我有兩個點感觸特别深,第一,AI 對于整個物理世界的理解力得到了極大的增強。前段時間,聽說前谷歌 CEO 在斯坦福的演講很有意思,視頻很長我就先丢給了 AI 問它:Eric 聊了什麼?有哪些有意思的觀點?對此你怎麼看?幾秒鍾後就出來了結果。比如,我剛才出去接了一個電話,漏掉了一段關鍵分享的信息,我可以馬上問 AI,剛才我遺漏了什麼信息?這種理解力和效率結合各種場景,就會極大颠覆很多場景的數字化的實現方式,這是第一個感受。第二個感受是 AI 正在改變寫代碼的方式,特斯拉的 FSD 從 30 萬行代碼簡化成 3000 行,很多的程式邏輯被模型替代了,這代表着構建數字世界的方式正在深刻變化,AI 的能力不再是寫程式時候的一個外挂或者功能強大的函數,而是成為程式邏輯本身。這僅僅是很小的兩個點,AI 能力的突變正在深刻的改變着數字經濟發展的節奏。
在大的變革下,數據架構作為數字經濟底座,我們将會遇見很多挑戰。第一個挑戰,是數據量的通貨膨脹,現在億級的數據量已經是個普通體量了,很多業務線上化或者數據匯聚後者打通後,自然就到了這個量級。第二個挑戰,數據孤島和碎片化嚴重,現代應用需要用不同的數據模型來描述業務,比如關系模型,圖,時序,還有向量,底層用了一堆不同的數據存儲系統,但需要分析洞察的時候需要費很大的勁才能将其匯聚,對齊,很多時候這些數據是描述同一業務的不同側面。第三個挑戰就是數字化後對數據的分析需求會爆發,只将數據存在那裡是沒價值的,只有分析才能挖掘更大的價值,但要想分析的更準确更深刻,數據也需要融合,所以這兩個挑戰的相關性很強。第四個挑戰是數據的安全,越來越多數據被存在雲上,而且目前雲上的安全和容災也比較完善,但安全是個相對的概念,同一朵雲的安全是一套同構系統的相對安全,如果數據極為關鍵或者業務連續性要求極高,增加異構系統的備份是相對更安全的選擇。最後個挑戰,是 AI 快速發展帶來的挑戰,AI 會加速數據量增長的速度,也會帶來對數據使用的新要求,我後面會展開來講。
從架構層面的挑戰看,這幾年發展很快,在應用層已經分布式化了,在底層已經雲化,這兩層的戰争已經結束,形成了标準的模式。在 PaaS 層,上半場最大挑戰是在解決有狀态數據的分布式的問題,尤其是數據層的軟體更是如此。而随着 AI 入局的下半場,我認為主要的趨勢是讓系統具備 " 分 " 的能力的同時,消除 " 分 " 帶來的復雜性,尤其是讓數據能融合,架構能統一。
對于能應對這些挑戰的現代數據架構,全球領軍 IT 的的踐行者們有很多的共識,無論是老牌的 IBM 還是雲時代的領軍者 AWS,還是數據領網域持續領跑的當紅炸子雞 Snowflake,他們的觀點有很多的共識,比如應對數據孤島、跨雲部署、多模态數據的處理,對 AI/ML 的支持、數據的實時分析能力等等。Gartner 在今年的 Hype Cycle for Data Management 的報告中提到,全球最領先的數據管理軟體公司有四個特點:第一,必須在雲上;第二,其產品線中一定有領先的數據分析類產品,承接持續增強的分析需求;第三,支持多模态數據類型的存儲;最後是開源。作為 OLTP 方向的數據庫,我們也非常認同這幾個方向,站在數據庫的角度總結了五個點,前面幾個是比較共性的就不展開講了,稍微解釋下後面三個:多模融合是指,未來的數據存儲應該是同時支持關系模型,KV 模型,向量、地理位置、時序等不同的數據模型的一體化架構,避免數據的割裂和碎片;開放和靈活性是指對不同基礎設施的支持,架構開放解耦不綁定任何底座和硬體,支持異構的雲,也支持雲和 IDC 基礎設施長期并存的情況。SQL 和 AI 融合主要指 AI 能力在數據庫層的融合,會體現在 SQL 互動層,運維效率提升方面,後面會展開。
現代數據架構的演進也分上半場和下半場,上半場的主題是雲和分布式,中國能發展出一批優秀的數據庫公司,具備世界領先的能力,也得益于上半場中國在互聯網和雲計算方面的高速發展。雲的上半場,數據架構的核心問題是如何在解決數據分布式的情況下保持一致且成本最低;具備極強的彈性擴縮容能力,能做到不停機不打擾業務;在出現故障後又自動恢復确保業務不中斷;這些都是現代架構下數據庫的必答題。當年支付寶被挖斷光纜,倒逼我們實現了多地多活架構架構,雙十一的流量洪峰倒逼我們解決了極致彈性和高并發分布式事務問題,這是上半場解決 " 分 " 的創新,我認為上半場滿足了雲時代的需求,今天全面适應和擁抱 AI 時代數據架構應該走向何方?在下半場,分布式帶來的擴展性、成本、復雜性,已經不再是問題,從技術的架構角度來看就應該合并同類項,消除不必要的數據碎片和重復建設。未來的應用重點和 CIO 關注點不應該是分布式如何擴展,而是應該把精力放在關注在如何讓系統和客戶之間有更好的互動方式,應該放在如何把數據的價值挖掘出來,數據只有融合、交叉才會有更精準的洞察。我們現在從 " 分 " 慢慢走向 " 合 ",從產品、引擎、存儲架構上走向統一和融合。我旁邊放了一張圖,這是三代 SpaceX 的猛禽引擎的架構演進,從雜亂無章到極簡主義,工程的難度增加,但是簡單并不意味着弱小,V3 相比 V1 增加了 1000 多噸的推力。我們如何在復雜場景下,讓 AI 更好地用融合的數據給上層應用提供價值,同時屏蔽復雜度,這是所有數據庫公司發展的必然趨勢。
接下去給大家分享幾個一體化數據架構的場景,一個是交易和分析的融合,這種場景有三種場景的情況,一種是實時報表,一天後的報表可以一小時内就看到,但在線庫支持交易和離線庫支持報表已經有兩套體系了,是不是還需要為小時級的報表再建第三套數據?另一種情況是在零售行業中,同一套進銷存的系統白天支持交易,晚上盤點分析庫存,銀行裡白天交易晚上跑批的場景也是類似的,在很多場景裡僅僅是在不同的時段支持不同的負載,但表結構和數據集是同一套,為此往往需要搭建兩套數據存儲和一套數據同步系統,是否能讓架構變得更簡單?最後一種情況是一邊在線上做實時交易,一邊做營銷,兩種負載同時進行,如何根據交易的情況分析洞察,給用戶最精準的優惠券。實時風控也類似,能不能通過實時分析對幾分鍾之前的交易特征做出反應,更新風控模型識别出新的風險。在這些場景中,如何把多套體系并到一套裡,提供更實時性更高,成本更節約,效率更高的數據架構方案,這正是 OceanBase 在做的。除了多負載外,多模态的融合也是類似的。KV 模型是最常見的數據模型,HBase 裡大寬表和 Redis 裡的 KV 緩存應用極為廣泛,這些場景往往是受制于原來 TP 庫的一些限制,復制了一份數據出去,做緩存加速或者是多維數據的存儲和分析,如今在 TP 分布式數據庫在同一個底座上可以通過增加一個接口就能實現一樣的效果,省去了增加一個數據庫的成本開銷和復雜度開銷簡化了技術棧,而且數據會更一致,更實時。當然,即便是單獨用于 KV 場景,在部署和運維上也是更加簡單的。
另一個場景是在融入 AI 的能力下,能融合更多類型的數據進行智能查詢。AI 與 SQL 結合主要是兩個方面,一個是 AI for DB,一個是 DB for AI,前者是指在 AI 的助力下,運維和 SQL 查詢是否能更智能,在這 LLM 出來後有了更多的探索空間,比如結合 AI 的智能提示和優化,如何在 SQL 的編輯器中更高效的寫出優雅,精準的 SQL 語句,如何結合很多診斷分析的知識、決策模型和數據來在 SQL 的問題診斷中給出更準确的問題分析,甚至如何用 AI 來做資源管理,這些都是目前我們在探索的,這個今天不展開。另一個方向是看數據庫能為 AI 的場景做什麼?現在最流行的就是向量數據庫,是 AI 時代最關鍵的數據存儲,是将物理世界轉化成數字世界多維度描述的數據模型,這種模式非常适合計算機認知、對比和計算,尤其對非結構化的影像、視頻、音頻數據,因為 AI 能力的提升,使得對這些數據的理解的準确性極大的提升,從而反過來促進越來越多場景會融入向量數據。相比于傳統的結構化數據的描述和處理,向量模型的描述并非精确,也更多用于非結構化數據的存儲,但有時候這種描述更符合與人類的互動的習慣,比如這東西看起來不錯,看起來很像,更多人喜歡……這些都不是精确的描述。有了這種能力,很多的業務的場景以及跟人的互動會變得更加自然,更能結合結構化的精确的信息和非結構化的模糊的描述來表達和處理數據。我們來看這樣一個場景:查詢離我最近的,評分四分以上的奶茶店中評價最好的,且價格實惠近期熱賣的奶茶。離我最近是 GIS 信息,一種地理位置的結構化描述,而 " 評價最好 " 可能會是一個非常綜合的數據匯總出來的結果,可能有文本,有客戶上傳的視頻和圖片,也有結構化的打分,還能還會有語音評價,可以将這些信息做向量化處理做一個綜合的評價;價格實惠且熱賣這些就是實時的銷量分析和庫存查詢了,是典型的 OLTP 的範疇。這樣一個場景往往需要 2~3 種存儲系統相互配合,但今天我們可以通過一種存儲系統就搞定,這是我們在分布式的底座上加入更多的能力,甚至加入向量化的能力帶來的結果。而目前向量的存儲将越來越廣泛的應用在 AI Native 的場景中,而且往往是需要跟其它結構化的存儲配合使用才能有更大的價值。OceanBase 通過插件化的機制将螞蟻内部在人臉支付和安全風控下孵化出來的向量庫 VSAG 融入到了分布式數據庫的存儲引擎中,達到了強強聯合的效果。一方面 OceanBase 的底座本身對于存在這種數據量較大的數據有很大的性價比優勢和擴展性優勢,而這個向量類庫的算法也是在螞蟻自身的海量業務場景打磨的產物,跟 OceanBase 在雙十一打磨一樣,經受了苛刻且持續的打磨。這裡暫時先不展開介紹了,我們會在下個月的發布會中正式發布這個能力,敬請期待,這個類庫本身是獨立發展且開源的,大家如果感興趣可以下載來研究。
還有一種一體化體現在異構基礎設施上靈活部署的多雲原生能力。上雲是一個明确的方向,雲原生也是上雲後架構層面上的最佳實踐,雲的本質是資源的池化和超賣,而雲原生架構的本質是如何充分利用池化資源的基礎件:計算、存儲、網絡來構建上層應用,而不只是用了個容量固定的虛機。而多雲原生的本質是在遵循雲原生架構的基礎上,做到底座異構性、無關性,以及用戶對開發者體驗的一致性。我們正在跟一個全球知名的快消品客戶合作,他們有上千家門店都運行在一朵雲上運行,但今天的業務要求更高,也許這幾千家門店碰到極端的情況下,有可能停服,這是企業無法接受的。但即便是雲出了問題,應該是局部區網域,如果在異構的朵雲上建了 10:1 的容災集群,确保一個雲出問題時可以很快切換到另一個雲上,确保一個雲單獨的機房出問題時,1/10 的流量承接得住。OceanBase 在這方面可以平滑無感的幫助大家解決這樣的問題。在整個架構上,如何做到一體化,對上對下對于整個應用,提供現代化架構的能力,這是确定性的方向,也是這種多雲原生架構的數據底座提供的價值。我們相信,多雲原生一體化數據庫 必将助力更多企業構建現代數據架構,解決更多的實際需求。
這裡,快速分享幾個我們正在做的案例。我們在金融、政企方向有大量的客戶累計。對于 OceanBase 來說,過去十年在互聯網的高速發展,得以在這個大的命題下,生長出一個新的底座。今天這些場景,是幫我們把上半場打磨出來的技術,做成一個商業產品的好機會。這不僅是數據架構中最為關鍵的場景,也是人們生活中最關鍵的場景。OceanBase 本身的高性能、高可用和穩定性可以很好的支撐銀行、運營商等行業的核心場景,但如何讓這些傳統的架構比較平滑的遷移到新的底座,我們做了大量的工作,在對 Oracle、MySQL 的兼容,遷移和并跑的體系上打造了完善的能力。目前有近百家銀行和大量的頭部保險、證券公司的系統遷移到了 OceanBase 上,資產超萬億的銀行已經超過了 20 家,超過 1/3 的機構已經或者正在開始用 OceanBase 來更新他們的核心系統。在運營商行業,我們支持的幾個大的省份已經覆蓋了全國 3/5 的客戶了。很多政企和金融客戶沒有想到的是,OceanBase 這種新的架構,不僅提升了擴展性和可靠性,還通過高性價比的壓縮技術、多租戶技術等使得新架構下計算和存儲的硬體成本反而更低,整體 TCO 下降 20%~30%,存儲成本下降 60%~70%。比如交行在從大機和 DB2 遷移到雲和分布式數據庫的過程中,整個擴展性得到極大的提升,具備按需線性擴容的能力,更從容的應對日常的小型業務的大促,也讓每日的批處理作業從十幾個小時縮短到 1~2 個小時,通過分布式架構充分發揮出系統的并行能力。在走進千行百業的過程中,我們觀察到一個現象,在數字化轉型的上半場,大家都在復制互聯網架構,互聯網技術很好,但比較百花齊放,每一種技術都能在特定場景很好的解決特定問題,但整體能配合協調好并不是件容易的事情,需要投入不少的人力和精力。但互聯網的規模效應使得這樣的投入變得可能,其 ROI 也值得為此投入一個不小的 Infra 團隊來開發和維護這些技術,甚至可以外溢孵化出像雲計算平台,數據庫這樣的底層技術產品。但在其它行業落地的時候,這些技術的復雜度帶來的成本和效率上的問題會變得尤為顯性化,使用這些技術紅利的同時也承受着它的復雜度和多樣化,雲計算通過 Service 的方式解決了一部分,而在數據層我們也逐步意識到用一體化化的數據架構來抵消這種復雜度會是一個正确的方向。我們開始嘗試用一體化的方式,既在解決上半場由于 " 分 " 帶來的問題,屏蔽掉 " 分 " 的復雜度,保留分布式帶來的技術紅利。同時也為企業迎戰數字化下半場做好準備,讓數據有機的 " 融合 " 在一起,讓數據的管理更簡單,洞察更高效,為 DATA+AI 時代更好的挖掘數據的價值,提供一個更高效的底座。
OceanBase 非常幸運,趕上了時代發展的紅利。而數據庫的發展在經歷由 " 合 " 到 " 分 ",再由 " 分 " 到 " 合 " 的演進過程。過去十年,第一個階段數據架構面臨的問題更多體現在 " 多 " 和 " 分 " 兩個關鍵字上,比如說場景多、數據多、引擎多,我們通過分布式解決這些問題。在計算架構上有流、有批。在數據存儲上有多樣化的數據,但復雜度非常高,尤其是在 AI 時代,深度的處理和高效處理這些數據的代價是比較高的。同時,對于千行百業來說駕馭和管理的成本也比較高,所以自然而然架構就慢慢的走向了 " 合 " 的過程。在 AI 新時代上,體現出兩個關鍵詞,一個詞是 " 融合 ",前面的這些數據結構已經穩定了,哪一種最适合描述物理世界的什麼場景,優劣勢是什麼,都有非常豐富的最佳實踐了,但如何在一個底座上解決大部分的問題,這是新的命題。在計算架構上,無論是流還是批,這些處理的範式已經比較成熟,但流批一體甚至是融入圖計算後的一體化計算框架如何實現,哪一種方式效果最好,還是一個在持續探索和迭代的命題。但無論是存儲還是計算,都在往一體化的方向發展,這就是最大的共性,是分久必合的趨勢。第二個詞是 AI,AI 提升了計算機對數據的理解力,擴展了能夠處理的數據類型,極大增強了數據的處理效率。這三個方面在非結構化數據上尤為明顯,比如圖片、視頻、聲音,而這些也是物理世界轉換到數字世界最快最原始的方式,一但這些數據能被快速處理和挖掘價值,數字化的進程會進入快進模式。而 AI 能力的加持和這些需求的爆發,會進一步促進計算架構和數據架構走向一體化。未來,如何讓一體化架構更優雅、更簡單,是我們這些數據服務商不斷探索的命題。而如何在融合一體化的架構之上,更好地用 AI 賦能的方式,挖掘數據的價值,并賦能業務,是每一位企業家和 CIO 們,都要思考和解決的大命題。