今天小編分享的科技經驗:AI 時代,這家公司想做一個免費數據庫,歡迎閱讀。
數據可能是大模型驅動下,最先走向商業落地的領網域之一。過去一個月,不少行業人士認為,随着算力成本的降低、開源模型的進步、以及模型部署服務的滲透,數據可能是軟體公司利用大模型做出差異化,最重要的因素。
數據庫領網域的領頭羊 Snowflake 和 Databricks 均在各自的大會上,描繪了大模型 + 數據的理想前景——現在由數據工程師和數據科學家才能取數、用數的場景,未來人人可得。
盡管實現這一圖景還需要很多技術、工程、場景上的探索,但數據是大模型時代絕對的主角。相應地,承載數據調度的數據庫也會迎來新一輪變革。
日前,國内數據庫廠商 PingCAP 在用戶峰會上,分享了關于 AI 時代數據庫的新思考。
「如果為全世界所有的開發者提供一個免費的數據庫,那數據庫架構應該是什麼樣的?」
五年前,PingCAP 的兩位聯合創始人劉奇和黃東旭的結論是:「這起碼要是個雲原生的架構,否則沒有辦法應對不同用戶各種各樣的彈性、各種各樣的需求。」
現在,黃東旭表示,「這個經典架構搬到雲上想要支撐這個需求,PingCAP 得賠死了。」當 AI 正在改寫軟體行業時,PingCAP 推出了新一代架構的數據庫—— TiDB Serverless。
劉奇認為,TiDB Serverless 從架構上更系統地做到 AI ready,當「算算分離、存存分離、存算分離,這個時候非常容易引入 AI」。
AI 時代的數據庫架構
作為軟體公司,劉奇對這波「AI 重塑軟體」有兩個直接體感——一個是代碼,還有一個是數據。
峰會上,他用一個「驚人」的數字來闡述 AI 變革——過去七個月,GitHub 上新增的原代碼已經有超過 46% 由 AI 生成。「也就是說,如果從軟體開發效率的角度去看,AI 已經完成了差不多一半的人類的工作,這是短短過去七個月的時間發生的事情」。
在 AI 時代到來之前,要先編程把各種各樣的輔助工具編出來,再運行。但在今天,沒有寫一行代碼,只提了個要求,就有結果了。數據消費的門檻變得極低,可以預見,數據将呈十倍、百倍規模的增長,這會對數據庫帶來巨大的挑戰。
劉奇在峰會上分享數據庫領網域的變化 | 圖片來源:PingCAP
對此,PingCAP 創始人兼 CEO 劉奇認為,團隊于四年前開始預研、到現在正式商用的 TiDB Serverless 數據庫,可以從架構上滿足 AI 帶來的新需求。
TiDB Serverless 數據庫架構簡化了應用的開發,讓客戶不必再花時間在數據庫上,把復雜的事情交給 PingCAP 的系統自動化處理,而把自己的時間精力投資在業務創新上。過去,PingCAP 從解決 MySQL 分庫分表問題,到 HTAP 架構、雲原生,再到 TiDB Serverless 數據庫,都是這一理念的延伸。
PingCAP 聯合創始人兼 CTO 黃東旭,在峰會的「年度保留節目」——「下一代數據庫」主題演講上進一步拆解了 TiDB Serverless 數據庫的由來。
他認為,無論技術世界如何變化,穩定性、性能、高可用、易用性與工具生态,永遠都是用戶對數據庫的重要關注點。并且,下一代數據庫還面臨着新的要求和挑戰:
除了極致的性能支持海量數據外,性能的可預測性成為關注焦點;
線性開發體驗,數據庫擴縮容對應用透明;
高效的成本控制,可以零成本起步(Scale-to-Zero);
多租戶支持成為新常态,不僅要實現隔離,還要實現數據的共享。
為此,在重新設計 TiDB Serverless 的時候,PingCAP 定下了一個規範:「我們應該做的是數據庫的服務化,而不是服務化的數據庫。」
黃東旭介紹,8 年前一開始設計 TiDB 數據庫時,他看到的東西就是一台台具體的伺服器、CPU、内存、磁盤,基于這些東西來構造 TiDB,但是現在到 Serverless 版本的數據庫,重新再去設計系統時,他看到的已經不是這些 CPU、磁盤、伺服器,而是雲上的服務,EC2 虛拟機、對象存儲、甚至是雲廠商的 RDS(關系型數據庫)——他想在新的雲原生的工程哲學裡充分利用雲的基礎設施,這也是 TiDB Serverless 能把成本推到當前的極限水平的核心原因。
掀開最新一代數據庫 TiDB Serverless 的引擎蓋,裡面大概有三個新的東西:
換了新的雲原生的引擎 CSE(Cloud-native Storage Engine)架構;
在 TiDB 引入了邏輯上的 Key Space;
Resource Control 以及 RU 的概念,從上到下做全局流控。從而實現了無需資源規劃、秒級啟動、0 元起步、按使用付費、極致彈性的數據庫服務。
過去幾個月的時間裡,TiDB Serverless beta 版已經擁有超過 1 萬個活躍的集群。
小模型服務企業場景
PingCAP 副總裁劉松認為,數據庫正經歷着從雲原生數據庫到 Serverless 數據庫,再到擁抱 AI,将 AI 與數據庫進行融合的大方向。TiDB Serverless 數據庫作為 PingCAP 全新一代的架構,可以和 HTAP、AI 融合,成為三位一體的創新。
這些技術融合之後,下一步要看 AI 和數據庫融合怎麼才能提升數據庫的處理能力、分析能力。
對于 AI 對數據庫帶來的變革,劉奇認為,AI 跟數據庫應用的結合有更多的層面。最廣為熟知的場景是用自然語言與數據庫互動,就自動完成了數據分析的工作。
但是,還有其他中間和底層的環節,并且這些環節很多時候跟大模型無關。比如,可以用數據訓練一個小 AI 模型,來預測用戶 workload(工作負載)的變化,用戶會感覺:數據好像本來就在這,分析速度非常快。他說:「之前跑的一個 workload,我們現在快了幾十倍,結果看起來也是對的,突然有這麼大的改變,會讓人覺得難以置信」。
小模型正在發揮着超出預期的價值,這似乎有點反常。事實上,自 ChatGPT 以來,讓 B 端企業用戶再次為AI驚喜的是大模型的通用能力,可以解決根據小模型一個場景一個場景訓練的「項目制」工程。
對于小模型的通用性,劉奇認為,當訓練參數達到 120 億、160 億的時候,模型的知識豐富度已經很高了。而且,過去一段時間,小模型訓練也很充分,起步的訓練量在 1TB 的 Token,這樣訓練出來的結果至少是高中大學生的水平,再進到不同的行業做一些專有訓練,其實也具備比較強的通用性。但調用 OpenAI 的 API,特别是 GPT-4 非常貴,以現在的成本沒有辦法做到人人可用。
另外,模型怎麼跟互聯網結合,讓它能變得更加通用,現在這一技術也相對比較成熟。
比如要完成一個任務,允許模型使用工具(包括上網搜索關鍵詞),經過幾次的反復也能完成工作。「大模型也許不必裝那麼多知識,關鍵是推理能力到什麼程度,剩下的可以依據推理能力把任務完成。」小模型推理能力的進步,是衡量可用性的重要因素。
他認為,有一些目前還沒有開源、訓練量沒那麼大,已經證明了推理能力可以顯著改變,甚至可以超過 GPT-3.5。盡管不是全領網域,是在某一方面,或者某幾方面已經做到了。
更重要的是,用企業安全合規的标準來運維,小模型往往是更好的選擇,它會更加專用。「如果把 AI 植入到各個環節,很多地方的應用都是專用的小的模型,它的速度需要很快做出預測;同時需要考慮到用戶本身數據的安全合規,用戶也不允許你把數據發出去給一個大模型,我的數據必須在我自己的地方」。
對于外界關心的 PingCAP 會接入哪家大模型,劉奇再次強調了小模型,尤其是開源小模型的價值。他說,如果超過千億的參數是大模型,那麼現在有大量數百億參數的小模型進步速度非常快,超出了所有人的預期。
「當初誰也沒有想到能夠在短短的半年時間就有模型敢出來和 OpenAI 叫板,小模型想達到相對接近的能力需要多少年,現在我們發現至少有非常強的信心,一年之内就可以看到開源的小模型能夠做到這一點,同時能更好的滿足用戶對于數據的要求,因為你數據不用出我們的服務,就能做到端到端的合規。」
從「算算分離、存存分離、存算分離」的 TiDB Serverless 架構,再到小模型的選擇,PingCap 做出了實踐其 AI 時代數據庫服務商轉型的重要一步。當數據量成倍增長時,「服務化 + 數據庫」的邏輯,顯然已經成為數據平台們的共識。