今天小編分享的科學經驗:向量數據庫這杯“啤酒”與“泡沫”,歡迎閱讀。
就像啤酒注定要有泡沫,每一場淘金熱都不缺被捧上了時代風口的人。
大模型這一波熱潮中,向量數據庫就是那個幸運兒。
一方面,技術層面并沒有太大突破。向量數據庫并不是一種特别新的數據庫技術,在 AI 領網域已經應用了七八年,谷歌在 2015 年就宣布使用 RankBrain 語義檢索來處理搜索任務。相比 N 家的卡、液冷的算、全光的網、更新的存,向量數據庫在技術方面并沒有特别亮眼的突破。
而另一方面,向量數據庫的投資熱潮又特别旺盛。在上半年成了創業公司、雲計算廠商、老牌數據庫公司,以及投資人們 " 群起而攻之 " 的風口,Pinecone、Chroma 和 Weviate 等向量數據庫初創公司都獲得了融資,有的融資額高達上億美元。這在全球經濟不明朗的投資形勢下,還是非常亮眼的成績。
不同于 GPU 卡那樣短期内需求堅挺、供不應求,加上摩爾定律的約束,即使有泡沫,也是鐵做的。也不同于存算網這類 " 新基建 ",長期投入的戰略價值,得到了廟堂和民間的一致重視。
向量數據庫,更多是作為一種 AI 基礎技術和產品,開始為大眾所知曉。
僅憑這樣,就在投資市場上一飛衝天,多少有點讓人不安。加上最近,大訓模型的熱度開始降溫,ChatGPT 訪問量下降,更多大模型已經到地裡田間礦井 " 幹活兒 " 去了。
不禁讓人好奇,随着大模型的風口下沉,向量數據庫的投資概念還能飛多久,會不會倏忽而來,倏忽而去,留下喝了 " 一嘴泡沫 " 的公司和投資人,在風中凌亂呢?
我們就來好好品一品,這一杯啤酒和泡沫。
技術的啤酒
訓大模型、用大模型,離不開一系列 AI 基礎設施,所以,作為基礎設施之一的向量數據庫,确實有點東西。引入向量數據庫,是能喝到真材實料的 " 啤酒 " 的。
這就有必要先說說這個技術本身。
數據庫不用多說,是必不可少的 IT 基礎設施,用于存儲和查詢各種數據,可以看作是數據的 " 硬碟 "。那麼,向量數據庫就是更适合 AI 體質的 " 硬碟 ",有幾個特質來說明這一點:
1. 必要性。
向量數據庫,顧名思義就是專門用于存儲和管理向量數據。作為一種數據結構,每個向量都包含多個維度,每個維度代表不同的特征或屬性,比如影像的顏色、文本詞匯的出現頻率等。而 AI 算法,要從影像、音頻和文本等海量的非結構化數據中學習,提取出以向量為表示形式的 " 特征 ",以便模型能夠理解和處理。因此,向量數據庫比傳統的關系型數據庫,更适合 AI 應用。
2. 高效率。
每個元素都有一個索引,便于訪問或修改數值。基于此,向量數據庫可以通過将分組和索引,快速找到與給定查詢最接近的嵌入,實現高效的相似性搜索,同時減少存儲和計算成本。
相比傳統單機插件式數據庫,向量數據庫的檢索規模可以提升十倍,支持百萬級每秒查詢(QPS)的峰值能力,同時延遲控制在毫秒級。
想象一下,如果沒有高效的搜索技術支持,一個大語言模型動辄數十億、上百億參數,只能處理有限數量的輸入數據,無法搜索更大的數據庫,那麼在 AIGC、搜索、廣告推薦算法等任務的性能表現就會受限。
一個公開數據是,通過使用雲向量數據庫,QQ 音樂人均聽歌時長提升 3.2%;騰訊視頻有效曝光人均時長提升 1.74%;QQ 浏覽器成本降低 37.9%,這些數據的變化就在于檢索效率、運行穩定性、運營效率、推薦算法等有了較大的提升。
3. 需求大。
随着產業智能化的加速,以及大模型和其他 AI 應用的爆發,各行各業的 AI 用例不斷增多,由此帶來了洶湧的數據洪潮和存算任務,向量數據庫嵌入向量的長度不受限制,具有良好的擴展性,可以根據 AI 用例和模型而變化,更好地處理大規模數據集。
而且,向量數據庫可以拓展大模型的時間邊界和空間邊界,讓大模型在訓練完成後,也可以訪問向量數據庫的最新信息,了解最近發生的事情。
總的來說,向量數據庫就是更适合 AI 體質的數據庫,在 AI 任務上效果拔群,在機器學習領網域中日益流行。
那麼問題來了,一些在 AI 領網域積澱已久的科技大廠,如谷歌、微軟、Mate 以及 BAT 等大廠,都有向量數據庫的技術積累,也都可以向外輸出相關能力和產品。此外,一些基于開源技術的數據庫創業公司,如 Pinecone、Weaviate、Odrant、Chroma 近年來打開了市場知名度。
可以說,市場上并不缺乏向量數據庫的產品和解決方案。那麼 2023 年,這杯技術啤酒,是怎麼咕嘟咕嘟冒出泡沫的呢?
浪潮之巅的泡沫
向量數據庫的市場現狀,說是 " 從 0 到 1",并不為過。
首先,大眾市場的認知度才剛剛打開。
此前,向量數據庫更多是 AI 企業在使用,今年才開始為大眾所熟知,這離不開一些 AI 相關企業的推波助瀾。今年 3 月的 NVIDIA GTC 大會上,黃仁勳首次提及向量數據庫,強調向量數據庫對大語言模型的重要性。
不是所有企業都有能力自建大模型所需要的基礎設施,通過 MaaS(模型即服務)業務來訓練應用大模型是更靈活的選擇,這就要求雲廠商提供全棧基礎設施。
百度、京東、騰訊、華為等,都在自家的大模型完整基礎設施中,提到了向量數據庫。目前,雲廠商的 MaaS 業務才剛剛開始走向市場,大模型的產業落地不是一蹴而就的,向量數據庫的接受度和規模究竟有多大,還是個未知數。
第二,向量數據庫的技術,還沒經歷 " 卷生卷死 " 的迭代。
Pinecone 是閉源的領跑者,其他競争者要麼是開源的,比如 Weviate,要麼是巨頭,包括頭部雲廠商和甲骨文、IBM 等老牌數據庫廠商,開始構建 AI 數據庫的產品和解決方案。
大廠扎堆競技,這意味着,如果技術沒有大的突破,就會陷入高密度的同質化競争,從藍海快速進入紅海。而如果技術有颠覆式變革,很多技術壁壘不高、客戶認知不強的新入局創業者,很難跟開源生态或技術巨頭 PK,容易被大浪淘沙。
最後,向量數據庫的成本,還沒有降到 " 可規模復制 " 的程度。
無論是自建向量數據庫,還是通過 MaaS 服務接入,都還達不到 " 付費可用 " 的程度。一般來說,企業需要先将非結構化的私密數據進行向量化,產生一個向量的矩陣,再存儲到向量數據庫裡,來供大模型學習和檢索。這個過程涉及到大量的工程化,會耗費企業許多開發人員、時間成本。
這就需要雲廠商或數據庫廠商,提供全鏈路的工具,來幫助企業完成整個數據向量化、大模型接入的工作,以及減少後續運維的難度。比如 Pinecone 就憑借良好的開箱即用的產品體驗,獲得了非常大的增長,B 輪估值達到 7.5 億美元。
谷歌雲、騰訊雲、京東雲等也都基于内部應用的多年積累,推出了一系列面向外部的工具、框架和應用。但只是邁出了從無到有的第一步,真正成熟還需要讓各家 " 卷起來 "。
可以看到,現在這個階段,熱捧向量數據庫,确實有 AIGC、大模型、雲服務等多方面的現實需求,但從 " 概念普及 " 到 " 真正可用 " 之間,還有不短的距離。這之間的地帶,就是泡沫生長的地方。
江湖路遠,風高浪急,沒有想清楚的創業公司或行業用戶,還是别貿然 " 帶資進組 " 了。
啜飲時代的精釀
如果你是數據庫廠商,或者是着急布局大模型和 AI 應用的企業,希望早點将啤酒喝到嘴裡,怎麼辦呢?
笃定遠一點的未來,有些賽道的泡沫比例是相對少的,需求格外旺盛。
市場方面,國產化替代是不錯的選擇。
科技博弈背景下,加上我國數據庫產業的日益繁榮和技術突破,金融、電信、能源、交通等關鍵基礎行業的企業,在數據庫選型時,都開始傾向于國產,以保障數據的穩定性和安全性。
國外廠商在向量數據庫上有着更早的探索和積累,國產數據庫要補齊短板是需要時間的。
目前,BATH 這類實力較強的國內科技企業,沉澱了向量數據庫的核心自主技術,與其合作研發和定制化開發,針對某些具體場景,提供特定優化的向量數據庫產品,加入國產化替代的賽道是成本更低、風險更可控、市場需求明确的選擇。
策略方面,加入雲生态不要獨行。
鑑于向量數據庫的商業化前景還不明朗,有業内人士表示,與其投資新的向量數據庫項目,還不如關注現有數據庫中,有哪些加上向量引擎可以變得更加強大。
雲數據庫就是其中之一,上雲用數賦智是大勢所趨,很多政企客戶往往會選擇公有雲或行業雲來滿足其業務需求,将數據遷移到雲上,對雲數據庫的關注度和接受度上升。
騰訊雲、華為雲等大型雲廠商,具有較高的品牌認知度和市場接受度,具有雲原生、AI 原生的技術棧和產品體系,經歷了海量場景的淬煉和深度優化,和這類雲生态一起掘金向量數據庫,是更穩妥的方式。
和 AI、大模型一樣,向量數據庫要品出味道,離不開時間的窖藏和醞釀。是在大訓模型的熱度下降後,像泡沫一樣湮滅,還是作為啤酒精釀沉澱下去,等待成為下一代數字基礎設施的剛需,被行業客戶所啜飲,是留給數據庫玩家和買家的選擇題。
>