向量數據庫這杯“啤酒”與“泡沫”

今天小編分享的科學經驗：向量數據庫這杯“啤酒”與“泡沫”，歡迎閲讀。

就像啤酒注定要有泡沫，每一場淘金熱都不缺被捧上了時代風口的人。

大模型這一波熱潮中，向量數據庫就是那個幸運兒。

一方面，技術層面并沒有太大突破。向量數據庫并不是一種特别新的數據庫技術，在 AI 領網域已經應用了七八年，谷歌在 2015 年就宣布使用 RankBrain 語義檢索來處理搜索任務。相比 N 家的卡、液冷的算、全光的網、更新的存，向量數據庫在技術方面并沒有特别亮眼的突破。

而另一方面，向量數據庫的投資熱潮又特别旺盛。在上半年成了創業公司、雲計算廠商、老牌數據庫公司，以及投資人們 " 群起而攻之 " 的風口，Pinecone、Chroma 和 Weviate 等向量數據庫初創公司都獲得了融資，有的融資額高達上億美元。這在全球經濟不明朗的投資形勢下，還是非常亮眼的成績。

不同于 GPU 卡那樣短期内需求堅挺、供不應求，加上摩爾定律的約束，即使有泡沫，也是鐵做的。也不同于存算網這類 " 新基建 "，長期投入的戰略價值，得到了廟堂和民間的一致重視。

向量數據庫，更多是作為一種 AI 基礎技術和產品，開始為大眾所知曉。

僅憑這樣，就在投資市場上一飛衝天，多少有點讓人不安。加上最近，大訓模型的熱度開始降温，ChatGPT 訪問量下降，更多大模型已經到地裏田間礦井 " 幹活兒 " 去了。

不禁讓人好奇，随着大模型的風口下沉，向量數據庫的投資概念還能飛多久，會不會倏忽而來，倏忽而去，留下喝了 " 一嘴泡沫 " 的公司和投資人，在風中凌亂呢？

我們就來好好品一品，這一杯啤酒和泡沫。

技術的啤酒

訓大模型、用大模型，離不開一系列 AI 基礎設施，所以，作為基礎設施之一的向量數據庫，确實有點東西。引入向量數據庫，是能喝到真材實料的 " 啤酒 " 的。

這就有必要先説説這個技術本身。

數據庫不用多説，是必不可少的 IT 基礎設施，用于存儲和查詢各種數據，可以看作是數據的 " 硬碟 "。那麼，向量數據庫就是更适合 AI 體質的 " 硬碟 "，有幾個特質來説明這一點：

1. 必要性。

向量數據庫，顧名思義就是專門用于存儲和管理向量數據。作為一種數據結構，每個向量都包含多個維度，每個維度代表不同的特征或屬性，比如影像的顏色、文本詞匯的出現頻率等。而 AI 算法，要從影像、音頻和文本等海量的非結構化數據中學習，提取出以向量為表示形式的 " 特征 "，以便模型能夠理解和處理。因此，向量數據庫比傳統的關系型數據庫，更适合 AI 應用。

2. 高效率。

每個元素都有一個索引，便于訪問或修改數值。基于此，向量數據庫可以通過将分組和索引，快速找到與給定查詢最接近的嵌入，實現高效的相似性搜索，同時減少存儲和計算成本。

相比傳統單機插件式數據庫，向量數據庫的檢索規模可以提升十倍，支持百萬級每秒查詢（QPS）的峰值能力，同時延遲控制在毫秒級。

想象一下，如果沒有高效的搜索技術支持，一個大語言模型動辄數十億、上百億參數，只能處理有限數量的輸入數據，無法搜索更大的數據庫，那麼在 AIGC、搜索、廣告推薦算法等任務的性能表現就會受限。

一個公開數據是，通過使用雲向量數據庫，QQ 音樂人均聽歌時長提升 3.2%；騰訊視頻有效曝光人均時長提升 1.74%；QQ 浏覽器成本降低 37.9%，這些數據的變化就在于檢索效率、運行穩定性、運營效率、推薦算法等有了較大的提升。

3. 需求大。

随着產業智能化的加速，以及大模型和其他 AI 應用的爆發，各行各業的 AI 用例不斷增多，由此帶來了洶湧的數據洪潮和存算任務，向量數據庫嵌入向量的長度不受限制，具有良好的擴展性，可以根據 AI 用例和模型而變化，更好地處理大規模數據集。

而且，向量數據庫可以拓展大模型的時間邊界和空間邊界，讓大模型在訓練完成後，也可以訪問向量數據庫的最新信息，了解最近發生的事情。

總的來説，向量數據庫就是更适合 AI 體質的數據庫，在 AI 任務上效果拔群，在機器學習領網域中日益流行。

那麼問題來了，一些在 AI 領網域積澱已久的科技大廠，如谷歌、微軟、Mate 以及 BAT 等大廠，都有向量數據庫的技術積累，也都可以向外輸出相關能力和產品。此外，一些基于開源技術的數據庫創業公司，如 Pinecone、Weaviate、Odrant、Chroma 近年來打開了市場知名度。

可以説，市場上并不缺乏向量數據庫的產品和解決方案。那麼 2023 年，這杯技術啤酒，是怎麼咕嘟咕嘟冒出泡沫的呢？

浪潮之巅的泡沫

向量數據庫的市場現狀，説是 " 從 0 到 1"，并不為過。

首先，大眾市場的認知度才剛剛打開。

此前，向量數據庫更多是 AI 企業在使用，今年才開始為大眾所熟知，這離不開一些 AI 相關企業的推波助瀾。今年 3 月的 NVIDIA GTC 大會上，黃仁勳首次提及向量數據庫，強調向量數據庫對大語言模型的重要性。

不是所有企業都有能力自建大模型所需要的基礎設施，通過 MaaS（模型即服務）業務來訓練應用大模型是更靈活的選擇，這就要求雲廠商提供全棧基礎設施。

百度、京東、騰訊、華為等，都在自家的大模型完整基礎設施中，提到了向量數據庫。目前，雲廠商的 MaaS 業務才剛剛開始走向市場，大模型的產業落地不是一蹴而就的，向量數據庫的接受度和規模究竟有多大，還是個未知數。

第二，向量數據庫的技術，還沒經歷 " 卷生卷死 " 的迭代。

Pinecone 是閉源的領跑者，其他競争者要麼是開源的，比如 Weviate，要麼是巨頭，包括頭部雲廠商和甲骨文、IBM 等老牌數據庫廠商，開始構建 AI 數據庫的產品和解決方案。

大廠扎堆競技，這意味着，如果技術沒有大的突破，就會陷入高密度的同質化競争，從藍海快速進入紅海。而如果技術有颠覆式變革，很多技術壁壘不高、客户認知不強的新入局創業者，很難跟開源生态或技術巨頭 PK，容易被大浪淘沙。

最後，向量數據庫的成本，還沒有降到 " 可規模復制 " 的程度。

無論是自建向量數據庫，還是通過 MaaS 服務接入，都還達不到 " 付費可用 " 的程度。一般來説，企業需要先将非結構化的私密數據進行向量化，產生一個向量的矩陣，再存儲到向量數據庫裏，來供大模型學習和檢索。這個過程涉及到大量的工程化，會耗費企業許多開發人員、時間成本。

這就需要雲廠商或數據庫廠商，提供全鏈路的工具，來幫助企業完成整個數據向量化、大模型接入的工作，以及減少後續運維的難度。比如 Pinecone 就憑借良好的開箱即用的產品體驗，獲得了非常大的增長，B 輪估值達到 7.5 億美元。

谷歌雲、騰訊雲、京東雲等也都基于内部應用的多年積累，推出了一系列面向外部的工具、框架和應用。但只是邁出了從無到有的第一步，真正成熟還需要讓各家 " 卷起來 "。

可以看到，現在這個階段，熱捧向量數據庫，确實有 AIGC、大模型、雲服務等多方面的現實需求，但從 " 概念普及 " 到 " 真正可用 " 之間，還有不短的距離。這之間的地帶，就是泡沫生長的地方。

江湖路遠，風高浪急，沒有想清楚的創業公司或行業用户，還是别貿然 " 帶資進組 " 了。

啜飲時代的精釀

如果你是數據庫廠商，或者是着急布局大模型和 AI 應用的企業，希望早點将啤酒喝到嘴裏，怎麼辦呢？

笃定遠一點的未來，有些賽道的泡沫比例是相對少的，需求格外旺盛。

市場方面，國產化替代是不錯的選擇。

科技博弈背景下，加上我國數據庫產業的日益繁榮和技術突破，金融、電信、能源、交通等關鍵基礎行業的企業，在數據庫選型時，都開始傾向于國產，以保障數據的穩定性和安全性。

國外廠商在向量數據庫上有着更早的探索和積累，國產數據庫要補齊短板是需要時間的。

目前，BATH 這類實力較強的國內科技企業，沉澱了向量數據庫的核心自主技術，與其合作研發和定制化開發，針對某些具體場景，提供特定優化的向量數據庫產品，加入國產化替代的賽道是成本更低、風險更可控、市場需求明确的選擇。

策略方面，加入雲生态不要獨行。

鑑于向量數據庫的商業化前景還不明朗，有業内人士表示，與其投資新的向量數據庫項目，還不如關注現有數據庫中，有哪些加上向量引擎可以變得更加強大。

雲數據庫就是其中之一，上雲用數賦智是大勢所趨，很多政企客户往往會選擇公有雲或行業雲來滿足其業務需求，将數據遷移到雲上，對雲數據庫的關注度和接受度上升。

騰訊雲、華為雲等大型雲廠商，具有較高的品牌認知度和市場接受度，具有雲原生、AI 原生的技術棧和產品體系，經歷了海量場景的淬煉和深度優化，和這類雲生态一起掘金向量數據庫，是更穩妥的方式。

和 AI、大模型一樣，向量數據庫要品出味道，離不開時間的窖藏和醖釀。是在大訓模型的熱度下降後，像泡沫一樣湮滅，還是作為啤酒精釀沉澱下去，等待成為下一代數字基礎設施的剛需，被行業客户所啜飲，是留給數據庫玩家和買家的選擇題。