今天小編分享的科學經驗:7天開發一個AI Agent應用!秘密武器:一體化數據庫,歡迎閱讀。
幾個工程師、一個星期,就能做一個 AI Agent 應用了。
效果 be like ——
能理解用戶復雜長命令,推薦符合要求的奶茶店。
推薦兩公裡内、評分 4.5 以上、人均消費 25 元以内幹淨衛生的奶茶店。
要知道,這背後需要它能分析處理不同模态的數據,比如文本、地理信息、影像等。
放在以前,構建這樣的 AI 應用需要多個不同的數據庫,還需要配備經驗豐富且規模較大團隊來管理復雜技術棧。
如今,能如此輕松搞定,多虧了背後的一體化數據庫OceanBase。
最新發布會上,OceanBase 推出首個面向實時分析處理場景的 GA 版本:4.3.3 版本。
不僅推出全新向量檢索功能,實現SQL+AI 一體化,還進一步增強多模态數據處理能力。
感覺方方面面都是為 AI 時代做好了準備啊。
為啥能這麼說?
從最新發布的新能力看起。
首個面向實時分析的 GA 版本
此次 OceanBase 4.3.3 核心更新的能力主要有 3 方面:
AP 場景性能提升
多模态數據支持
向量檢索與索引
首先,OceanBase 4.3.3 版本更新了對復雜數據類型處理能力。
新增 Array 類型,這意味着數據庫可以直接存儲、查詢和操作數組數據。并對 Roaringbitmap 類型數據的計算性能進行了優化,意味着數據庫能夠更高效地處理和操作大型集合數據。
其次,OceanBase 4.3.3 在向量融合查詢的關鍵能力上帶來提升,推出全新向量檢索能力,支持向量數據類型和向量索引,并基于向量索引提供強大搜索能力。
用戶可通過 SQL 及 Python SDK 等方式靈活調用 OceanBase 的向量檢索能力。
如今,在通用數據庫中集成向量插件已經成為一種趨勢,這種方式能夠直接復用通用數據已有功能和生态。
OceanBase 與螞蟻集團聯合開發了向量索引庫,這個索引庫已經在螞蟻集團大量業務場景中得到驗證(如生物識别、企業内部知識庫等),性能成熟。
現場跑分結果顯示,該向量庫在 960 維的 GIST 數據集上表現出色,在 ANN Benmarks 測試中性能遠超其他算法,排名第一。
特别是在 90% 以上的召回率區間,查詢性能(QPS)相比此前最優算法 glass 提升 100%,相比基線算法 hnswlib 提升 300%。
該向量引擎深度融合了 OceanBase 的存儲引擎和 SQL 引擎,實現SQL+AI 一體化。能夠在一條 SQL 語句中實現标量、向量、空間地理等混合查詢。
比如 " 望小京 "demo 中,用戶給的提示詞為 " 推薦兩公裡内、評分 4.5 以上、人均消費 25 元以内幹淨衛生的奶茶店 "。這背後涉及到處理文本、影像和地理位置等不同類型的數據,需要更強大的數據分析和查詢能力。
最後,OceanBase 4.3.3 還針對 AP(分析處理)場景進行大幅性能優化,尤其是在海量數據分析時,能夠提供更短的響應時間和更高的吞吐能力。
TPC-H 1T 場景提升 64%
TPC-DS 1T 場景提升 36%
ClickBench hot- run 提升 49%
cold-run 性能提升 149%
同時大幅完善了實時 AP 功能,包括支持列存副本、物化視圖、外表集成、快速導入導出等。
實現滿足 TP 和 AP 負載的物理資源強隔離,可确保系統在處理事務型負載時,不受分析型負載的影響,特别是在實時數據分析和決策場景中,能夠保持系統的高性能與穩定性。
在易用性方面也做了更新,通過提供 AP 參數版本,用戶可以針對不同場景選擇特定模板,不需要再單獨配置參數。并增強了 AP 場景中對 SQL 診斷能力的支持。
總結來看,OceanBase 4.3.3 在基礎分布式能力上,帶來更強性能、向量多模融合、融入 AI 技術棧。
也就是将 AI 與數據庫進一步融合。
這并不難理解,AI 應用 /AI Agent 大勢所在,各類應用智能化更新改造,底層數據庫必須緊随趨勢更新。
不過在這之中,OceanBase 還反復提到了一個關鍵詞——一體化。
它不僅是 OceanBase 的自身特性,如今也逐漸成為行業擁抱 AI 時代的一個優解。
Why?
更快推動 AI 應用大規模落地
對于數據庫的發展,行業内逐漸達成一些共識。
AI 能力大幅提升,導致全球 80% 以上的非結構化數據被激活,背後的挖掘分析需求井噴,在這一新變化下,數據處理面臨更大規模、更多模态、實時性更強以及數據碎片和數據孤島問題。
這些變化給數據庫提出了諸多新的發展需求。
最首要的便是,分布式數據庫成為一種大趨勢。
華東師範大學數據學院院長、CCF 數據庫專委會常委錢衛寧提出,互聯網時代數據走向了開放環境,在數據是分布式的時代裡,數據庫也需要是分布式的。
分布式數據庫可以讓多台伺服器協同作業,完成單台伺服器無法處理的任務,尤其是高并發或者大數據量的任務。
除此之外,随着 AI、雲計算等技術發展,數據庫還呈現出以下特點。
第一,雲計算的普及推動了雲數據庫的快速發展。雲數據庫提供按需擴展、高可用性和成本效益。
第二,大數據和非結構化數據需求增加,多模态是一種趨勢,NoSQL 數據庫(如 MongoDB、Cassandra、Redis、Couchbase)越來越受到歡迎。NoSQL 數據庫提供了更好的擴展性和靈活性,适用于存儲和處理各種數據類型,如文檔、鍵值對、圖數據等。
第三,HTAP 數據庫成為熱點,甚至是主流數據庫的一項基礎能力。這類數據庫能夠同時處理事務性和分析性工作負載,滿足了企業實時數據處理和分析的需求。
第四,開源也是一大趨勢。開源數據庫(如 PostgreSQL、MySQL、MariaDB)憑借其社區驅動的發展模式、強大的功能和靈活的部署方式,成為企業和開發者的熱門選擇。
不過來到實際落地層面,盡管數據、數據庫在變得更加多元復雜,但是企業用戶總還是希望能只用一套系統來解決不同工作負載。
比如能同時在事務處理(如支付、訂單等高頻交易場景)和復雜的實時分析查詢,這背後需要 TP+AP 結合。
以及 AI 與多模查詢能力的融合,如 Rockset 和 Oracle 這樣的數據庫系統通過 hybrid search 融合查詢技術,将 SQL 查詢與向量化查詢相結合,使得數據處理能夠同時包含文本、結構化數據和向量數據等不同類型。
方方面面影響下,一體化設計逐漸成為被市場青睐的路線。
以 MongoDB 和 Oracle 為代表的數據庫廠商正在各自推動一體化數據庫的發展。國家工業信息安全發展研究中心等共同編制的《分布式數據庫發展趨勢研究報告》中也表示,分布式數據架構的設計正在走向一體化。
在這之中,OceanBase 的一體化理念非常鮮明。它包括:
一體化產品:多工作負載(TP+AP)、多模(SQL+NoSQL)、向量(SQL+AI)。
一體化引擎:一體化存儲,一體化事務,一體化 SQL。
一體化架構:包括單機分布式一體化與多雲原生。
OceanBase 介紹,這種一體化的思路是随着客戶需求不斷發展而來。
首先在底層架構設計上,單機分布式一體化與多雲原生并存,可以滿足大中小企業的不同需求。OceanBase 已經和目前主流雲廠商均達成合作,實現公有雲 " 多雲共生 ",同時也提供專有雲、混合雲等不同部署環境,保證一致體驗。
其次随着數據庫場景不斷變化,從傳統場景到泛互聯網場景,OceanBase 從 TP 到 TP+AP,逐漸走向多工作負載一體化。
比如在第一階段 OLTP+,會浮現出山東移動這類客戶的需求,他們主要關注復雜查詢場景,需要增強業務處理效率。
第二階段浮現出了海底撈這類用戶的需求。海底撈本來使用兩個系統分别處理 OLTP 和 OLAP,這導致 OLTP 和 OLAP 之間存在數據延遲,沒法保證數據一致性,還需要兩份數據兩份成本。OceanBase 能将其整合,不僅使整體成本降低,還能提升原本的 AP 性能。
第三階段還會浮現出實時營銷等場景,對實時 AP 提出更多要求。
以及在實際推廣中,OceanBase 發現越來越多客戶将 OceanBase 既應用在 KV 存儲場景,也應用在 NoSQL 場景,或者替換 HBase、Redis 等。因為 OceanBase 能夠解決各個場景中很多棘手問題,比如對于 NoSQL 而言,最大的挑戰在于數據規模,分布式架構可以很好解決數據擴展的問題。
因此,順應用戶需求,OceanBase 在不斷增加對多種數據類型的支持,實現多模一體化。
最後,來到 AI 時代。"AI for DB,DB for AI" 成為共識。
AI 應用大規模落地的前提是大模型技術能夠在各行各業低成本易用。
數據庫的發展經驗可以為 AI 應用推廣提供參考。比如在數據庫中引入向量插件,實現 SQL+AI,能夠大幅簡化原有 AI 技術棧,讓打造 AI Agent 的門檻驟降。
最後總結來看,以 OceanBase 為代表的一體化數據庫不僅能為企業提供更更好的數據底座,而且方方面面都滿足 AI 應用發展的需求。它總體呈現出這些特點:
第一,高效的數據處理和分析。
支持 HTAP,能夠在同一個系統中同時處理事務性(OLTP)和分析性(OLAP)負載。企業可以實時地對交易數據進行分析,而不需要等待數據的同步和轉移,從而加快決策速度和響應時間。
實時分析,可以在數據生成的同時進行分析,确保數據的時效性,這對于實時推薦、風控、監控等 AI 應用至關重要。
第二,簡化的數據管理。
一體化數據庫能夠确保數據的一致性和完整性,因為事務處理和分析處理在同一個系統内完成,避免了數據同步和轉換過程中可能出現的延遲和錯誤。
通過将多種數據類型(如關系型數據、文檔數據、向量數據等)集成在一個系統中,一體化數據庫簡化了數據存儲和管理。企業不需要維護多個數據庫系統,減少了數據孤島問題和運維復雜性。
第三,靈活性和擴展性。
一體化數據庫支持多模态數據處理,能夠處理和分析結構化、半結構化和非結構化數據。這種靈活性使企業可以在一個平台上處理不同類型的數據,滿足各種業務需求。
一體化數據庫可以在公有雲、私有雲和本地數據中心的混合環境中部署,支持異構環境下的數據管理和應用。這使企業能夠根據業務需求靈活選擇和調整部署方案。
第四,簡化 AI 應用構建。
AI 應用通常需要進行高效的向量檢索和相似性搜索。一體化數據庫通過深度集成向量引擎,支持快速向量化計算和相似度查詢,提升 AI 應用的性能。
一體化數據庫能夠将數據存儲和 AI 模型緊密結合,支持復雜的 AI 工作負載。這種集成減少了數據傳輸的延遲,提高了模型訓練和推理的效率。
第五,降低成本和復雜性。
一體化數據庫減少了企業需要維護的數據庫系統數量,簡化了技術棧,降低了系統集成和運維的復雜性。
通過優化資源利用和減少多系統間的數據同步和轉換,一體化數據庫降低了總體擁有成本,提高了投資回報率。
AI 時代,Data is Power。
李飛飛當初笃定做 ImageNet,背後的核心邏輯就在于,她相信 AI 改變世界,數據是最簡單最直接的方式。
如今,AI 應用落地趨勢已經開啟。數據作為生產要素,在 AI 時代已是水電般的存在。
而一體化數據庫正在為數據更充分靈活高效應用提供新思路。
據了解,一體化數據庫 OceanBase 将成為螞蟻集團的 AI 數據底座,為一系列 AI 時代新應用 " 支小寶 "、" 螞小财 " 以及支付寶百寶箱智能體開發平台的數據管理提供支持。
一體化正在成為數據庫發展歷程中,一個旗幟鮮明的方向。
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>