向量數據庫王冠易主！零一萬物新成果登頂權威榜單，比前SOTA領先最高286%

今天小編分享的科學經驗：向量數據庫王冠易主！零一萬物新成果登頂權威榜單，比前SOTA領先最高286%，歡迎閱讀。

向量數據庫排行榜的頭号交椅，再次易主——

來自零一萬物最新研發的高性能向量數據庫笛卡爾（Descartes），登頂權威測評榜單。

在此之前，榜單裡六個數據集的榜首分屬于兩家廠商，而笛卡爾的包攬結束了這種 " 分庭抗禮 " 的局面，成為了大一統的 " 新王 "。

在權威的 ANN-Benchmark 榜單中（GitHub 4.4k 星），笛卡爾直接包攬了六個數據集的第一名。

而且新前兩名的差距也被大幅拉開——相比比前 SOTA，笛卡爾的成績最高提升了 286%。

那麼，笛卡爾在測試中到底交出了怎樣的答卷呢？

包攬權威榜單六項第一

笛卡爾登上的 ANN-Benchmarks 榜單，包含了六大測試數據集，可以展示不同算法在不同數據集下的表現。

而笛卡爾參與全部六個數據集評測，它們主要考察在不同召回下的查詢性能。

結果，笛卡爾（圖中右上紅色曲線）在這六個數據集的評測中，都取得了最好成績。

下圖為對數坐标系，橫坐标代表召回，縱坐标代表 QPS（每秒處理的請求數），越往右上角意味着算法性能越好。

而 " 吞吐量 QPS" 是衡量信息檢索系統（例如搜索引擎或數據庫）查詢處理能力的重要指标。

在原榜單 TOP1 基礎上，零一萬物笛卡爾向量數據庫實現了顯著性能提升，部分數據集上的性能提升超過 2 倍以上，在 gist-960-euclidean 數據集維度更大幅領先榜單原 TOP1 286%。

那麼，在笛卡爾優異表現的背後，采用了哪些技術呢？

采用全棧向量技術增強性能

在零一萬物團隊看來，增強向量檢索能力，就是在解決兩個問題，一是減少考察的候選集，二是降低單個向量計算的復雜度。

針對其中第一個問題，零一萬物又采用了兩大策略來解決。

首先是采用全導航圖技術，構建全局多層縮略圖，實現圖上坐标系導航，既能保證精度，又能裁剪大量無關向量，解決了哈希、KD-Tree、VP-Tree 等傳統方式導航效果不夠精确、裁剪力度不夠的問題。

另一方面，是零一萬物自研的自适應鄰居選擇策略。

它突破了以往僅依賴真實 top-k 或固定邊選擇策略的局限，使每個節點可以根據自身及鄰居的分布特征，動态地選取最佳鄰居邊。

這種方式可以更快收斂接近目标向量，從而讓 RAG 向量檢索性能提高 15%-30%。

而針對第二個問題，零一萬物采取的是兩級量化方案，從而降低計算復雜度。

同時，利用列式存儲充分利用 SIMD 的并發能力，進一步發揮硬體能力，相比傳統 PQ 查表，性能還能大幅提升到 2-3 倍。

除此之外，零一萬物還有索引結構優化、連通性保障等全棧向量技術方案提高笛卡爾向量數據庫的性能。

最終，笛卡爾的檢索精度超過了 99%，而千萬級數據庫響應時間僅為毫秒量級。

零一萬物表示，笛卡爾向量數據庫将用在近期即将正式亮相的 AI 產品中，未來也将結合工具提供給開發者。

大模型重要的基礎設施

事實上，以笛卡爾為代表，向量數據庫在整個大模型行業中，本就是一項熱門技術。

它是檢索增強生成（RAG）技術的核心，用來存儲、管理、查詢和檢索向量化的非結構化數據。

換言之，也就是大模型形成 " 長期記憶 " 的關鍵，因此也被稱為 " 大模型的海馬體 "。

除了記憶能力，向量數據庫還解決了大模型實時信息更新的問題，還能提高推理效率并降低幻覺，同時在隐私數據不能用于訓練時擔任信息傳遞載體……

作為大模型基礎設施，無論是在大廠還是初創公司，向量數據庫都是一個熱門的研究方向。

Google、微軟、Meta 等傳統互聯網大廠，都相繼在其雲服務平台中推出了自己的相關產品。

初創公司方面，Zilliz、Pinecone、Weaviate、Qdrant 等公司也是異軍突起。

比如成立于上海的 Zilliz，其所研發的向量數據庫在笛卡爾出現之前就是 ANN-Benchmark 榜上的王者。

阿裡雲、騰訊雲、微軟 Azure、亞馬遜 AWS 等國内外知名雲服務廠商，都部署了 Zilliz 的產品。

而除了產業界，向量數據庫在投資人眼中同樣具有重要地位。

比如前面提到的 Zilliz，總計融資金額就已經超過了 1.1 億美元。

OpenAI 的向量數據庫合作方 Pinecone，成立至今一共完成四輪融資，總金額更是達到了 1.38 億美元。

而像 Weaviate、Qdrant 等小一些的創業公司，融資金額也都達到了數千萬美元。

總之，随着大模型發展進入白熱化階段，零一萬物在這時加入這場競争，向量數據庫之後格局會如何變化？值得期待。