今天小編分享的互聯網經驗:對話騰訊雲羅雲:AI Native的向量數據庫迎來視窗期,未來會出現“1+N”的新模式,歡迎閱讀。
作者 | 吳思瑾、王與桐
自從 AI 大模型時代轟轟烈烈到來,沉寂多年的向量數據庫再度獲得市場和資本的關注。
向量數據庫通過把數據向量化然後進行存儲和查詢,能解決大模型預訓練成本高、沒有 " 長期記憶 "、知識更新不足、提示詞工程復雜等問題,突破大模型在時間和空間上的限制,加速大模型落地行業場景。
36 氪也在近期對向量數據庫領網域進行過梳理。
向量數據庫 Mapping 速覽 -36 氪整理
不難發現,這些全球知名的數據庫中,既有創業公司,也有大廠的產品。在國内,騰訊走在了大廠前列。8 月 1 日,騰訊雲向量數據庫(Tencent Cloud VectorDB)正式上線公測。騰訊雲數據庫表示,該數據庫不僅能為大模型提供外部知識庫,提高大模型回答的準确性,還可廣泛應用于推薦系統、文本影像檢索、自然語言處理等 AI 領網域。騰訊雲向量數據庫是國内首個從接入層、計算層、到存儲層提供全生命周期 AI 化的向量數據庫。
來源:騰訊
在產品公測當天,36 氪對話了騰訊雲數據庫副總經理羅雲,從向量數據庫行業發展、海内外競争格局、技術和商業路線選擇等角度,進行了探讨。
以下為對話全文,經 36 氪編輯整理,Enjoy:
01 談行業發展:全球向量數據庫的發展,都與 AI 所處階段密不可分
36 氪:騰訊雲在 2019 年開始孵化向量數據庫,當時行業裡對向量數據庫的看法是什麼,為什麼你們會選擇在這個時間點做這件事?
羅雲:向量數據庫的發展不是一蹴而就的,它有個孕育過程。
早在 2012 年時,深度神經網絡的發展日益成熟,包括騰訊集團在内的從業者開始發現萬事萬物都可以用向量來表達;
到了 2015 年至 2016 年間,Google 和微軟開始發布一些标志性的 paper;
随着 2017 年 Facebook 開源了他們的 Faiss 框架,這成為向量數據庫的裡程碑事件之一;
2019 年,市面上開始陸續出現一些獨立的向量數據庫和基于 Faiss 發展起來的向量數據庫,騰訊雲也是這時候開始入場;
到了 2022 年底,ChatGPT 突然火爆,原來狹義的人工智能開始受到各行各業關注;
2023 年,大家開始思考自己所在的行業是否有 AI Native 的機會——基于 AI 重構現有的應用。
因為向量數據庫可以處理非結構化數據,正好迎合了當下 AI 時代的發展需求,于是一波又一波的熱錢就開始進來。騰訊雲則是将過去 4 年中積累的向量數據庫底座搬至雲上進行售賣。
8 月 1 日,騰訊雲向量數據庫正式開啟公測。
36 氪:從 2019 年至今,不少投資人曾對向量數據庫表示 " 看不準、不太理解 ",您認為他們的疑惑在哪,現在有變化嗎?
羅雲:早年的向量數據庫使用場景受限,因此營收天花板并不高。
随着 2023 年 ChatGPT 的火爆,大家都看到了 AGI 希望的曙光。作為 AI 的基礎設施之一,向量數據庫覆蓋面就大了很多,天花板也随之提高。
這從今年 3-4 月份海外向量數據庫的融資情況就可見一斑——投資熱度升溫明顯——其實并不是說向量數據庫本身發生了多大變化,而是時代背景發生了變化。
36 氪:在 2019 年熱鬧一陣後,向量數據庫似乎進入了不溫不火的階段。在過去四年裡,行業裡出現過哪些關于向量數據庫的質疑聲?
羅雲:質疑聲主要集中在是否有必要存在獨立的向量數據庫。
過去幾年,向量數據庫主要服務于 " 搜廣推 " 三大領網域,現在随着 AI 的普及和發展,向量數據庫也開始向各行各業輻射,慢慢的原來用于離線型分析場景的數據庫,開始向線上轉變,與 C 端流量的關聯性也更強。
向量數據庫的計算特點是非常消耗 CPU 的計算内存;如果将向量數據庫的工作負載單獨出來,會更利于後期的單獨擴容和成本管理。
現在越來越多的業内人士開始發現,此前在傳統數據庫上增加插件式的向量檢索引擎很難解決向量計算對 CPU 擴展能力的要求。
待未來 AI 發展成熟之後,我個人的判斷是企業會出現 "1+N" 的數據庫模式,"1" 是向量數據庫,用來托管企業對于向量的計算和檢索需求,"N" 是企業原有的各類數據庫,這對企業在成本管理和人才招聘等方面都是相對最優選。
36 氪:今年 3、4 月份海外很多數據庫廠商獲得了比較大額的融資,也因此國内資本對這一領網域關注度加深。為什麼向量數據庫的投資熱度是自外而内?海内外的 AI Native 環境有哪些不同?
羅雲:向量數據庫是随着大模型起來的,海外的大模型發展得比國内早,所以投資熱度是由外及内的。
至于海内外的市場環境有哪些不同,我自己的看法是要需要換一個角度來看這個問題——海内外雲計算所處的階段不同。
向量數據庫也好,傳統數據庫也好,都是開發者應用的重要一環,是剛需的產品,但客觀來說海外獨立數據庫廠商的經營情況好于國内,這也是海内外雲計算所處階段不同的一種表現。
目前國内的雲計算還處于企業主正在将業務從非雲環境搬上雲的階段。在中國的文化和企業背景下,CEO、CTO 們在選型數據庫產品時,更看重數據的隐私性、安全性、服務的可持續性和數據的兜底能力。因此他們希望能由一家雲計算廠商配置好包括計算、存儲、網絡、數據庫在内的所有組件,所以當企業完成上雲之後,就很難會考慮再選購其他廠商的數據庫產品。這是國内遇到的主要挑戰。
海外市場更偏技術本位,如果獨立的向量數據庫產品技術更好,企業主的嘗試意願就會很強,他們會選擇和雲廠商提供的配套裝務結合起來使用。
36 氪:這種差異導致向量數據庫在市場推廣過程中會面臨哪些挑戰?
羅雲:從騰訊雲的角度來說,我們還蠻慶幸的,俗話說機會往往留給有準備的人,我們恰好就是這樣。
騰訊雲從 2019 年起就開始積累向量數據庫的經驗,現在是把過往積累的經驗產品化和變現;此外,騰訊雲本身的服務體系,包括售前、售後和尾保類服務都已經形成了一些口碑,所以整體來說我們還蠻有信心的。
36 氪:向量數據庫的使用成本和傳統數據庫相比有何不同?
羅雲:現在行業中的向量數據庫分性能型和存儲型。
以性能型為例,單 QPS 每月約一元錢左右,與常規的 MySQL 數據庫相比,這個成本高了一兩個數量級。也就是說,向量數據庫服務一個 C 端用戶一次查詢的成本會貴很多。
騰訊雲向量數據庫希望給用戶和傳統數據庫類似的付費體驗,因此選擇了和對方類似的付費模式——預購資源,這是第一步。
第二步是随着 AI 的成熟,騰訊雲向量數據庫也将集合更多的 AI 能力或者 AI 領網域的上下遊生态能力。比如客戶現在要處理一段大的 pdf 或 doc,它需要先做分段,之後再進行數據的向量化,騰訊雲團隊希望能将 AI native 的能力集成進向量數據庫,當有了這部分能力後,我們會在數據庫中售賣相關的 GPU 資源,客戶也可以買固定的 GPU 資源,有了這些資源,客戶就可以比較方便地一站式完成之前它在外部買 GPU 做分段的事情。
所以未來我們的付費模式會偏向于計算、預購加存儲節點,後面還會在產品形态中增加一些 GPU 的售賣能力。
36 氪:在您看來,下一步向量數據庫行業的發展趨勢和競争格局會怎樣?
羅雲:向量數據庫的發展可能會分三個階段。
階段一是向量數據庫滿足基本的使用功能,包括技術指标、功能算法、檢索時延達到标準、滿足高可用标準,SDK、API 以向量數據庫的方式來設計。
階段二是當業務量上來之後,企業會更關注單 QPS 成本,也就是說每次 C 端調用可能會消耗的數據庫資源大小,由于其與企業成本密切相關,會直接影響客戶選型,所以是下一步向量數據庫各廠商之間重點比拼的地方。
階段三是當客戶已經用起來之後,大家會開始關注其研發效能的提升,也就是之前提到的 AI native 化;向量數據庫是否可以與 AI 的算法和計算能力相結合,讓企業主或開發者盡可能投入最少的資源在數據庫中。
在這三個階段中,大概會抽成兩派,一是獨立的向量數據庫公司;二是插件式的向量數據庫工具。
在階段一時,大家都可以滿足向量數據庫的功能性;當階段二要去追求單 QPS 成本時,插件式的向量數據庫工具會面臨更多的挑戰;所以我個人會比較堅定的看好獨立向量數據庫的未來,如果要把一個事情做得足夠好,投入專門的人力物力是非常有必要的;在階段三,獨立的向量數據庫會需要一些 AI 能力的加持,這時會考驗各家廠商在 AI 能力上的積累和原有業務對向量數據庫補充的能力,最終形成競争差異化。
02 談國内格局:向量數據庫會成為雲廠商的增量業務,存在視窗期
36 氪:當下國内向量數據庫行業的競争格局是怎樣的?
羅雲:目前通信院正在制定向量數據庫的團體标準,我在一次偶然的機會上了解到可能不少國内知名大廠和早期創業公司都已經開始關注或正在開發相關產品,總數約三四十家左右。
在現有的解決方案中,部分團隊是在現有傳統數據庫基礎上疊加向量的能力,但是慢慢的大家也發現這部分能力如果工作負載越來越高,投入也就越來越大,所以大家都在摸索向量數據庫的下一步技術發展方向。
36 氪:目前的市場環境,對于國内雲廠商來說,會帶來改變現有競争格局的機會嗎?
羅雲:數據庫產品本身是很難脫離雲服務來單獨售賣的。正常來說,一家企業想要做遷移,把整體或部分搬站至某一個雲廠商的情況是存在的。但向量數據庫這塊會有一點差别,向量數據庫更多的是一個增量的生意。雖然國内的雲計算廠商都在提雲計算已經進入一個更加激烈的競争階段,大家都在争搶彼此的市場份額,但向量數據庫往往對應的是新業務,所以只要我們給企業主提供足夠好的產品、數據背書和大廠背書,當企業在騰訊雲上架設起新業務,後續的遷移和搬站成本就會相對較低,所以向量數據庫相比其他的數據庫產品具備一定的時間優勢。當向量數據庫行業發展成熟後,就又變成了存量生意。
36 氪:這個視窗期是多久?
羅雲:從現在的情況來看可能是在未來一到兩個季度内,但随着下半年 GPU 等資源到位和行業大模型逐漸成熟,視窗期會變短。
36 氪:在技術、資金和客戶資源上雲計算廠商确實有明顯優勢,如果視窗期這麼短,那假如現在還有創業公司想要入局開發獨立的向量數據庫,是否就沒有什麼機會了?
羅雲:一些線下的私有雲廠商可能在某一些垂直行業有自己的服務、口碑積累,細分市場的向量數據庫是很好的方向;此外,新創業公司從 day1 開始就面向全球化市場也是不錯的選擇。
創業公司也面臨諸多挑戰:首先是產品大規模運營的穩定性;其次是其本身資質對于數據隐私背書的挑戰性,舉例來說,可能會有企業主擔憂他們現在在有融資的情況下做的挺好,但後續萬一沒融資進來就會經營困難波及企業自身。
36 氪:您如何衡量國内向量數據庫的市場規模?
羅雲:目前向量數據庫行業還處于圍繞各行各業 AI Native 化的早期發展階段,可見的收入規模并不大。
着眼未來,我有兩個角度的預估。
一是宏觀角度的數據規模,向量數據庫面向的是非結構化數據,它包含了音頻、視頻、圖片和人類自然語言文本;有數據顯示,非結構化數據占企業生成的新數據比例達 80%,未來每個應用都基于向量數據庫和 AI 進行研發體系重構的話,它會成為數據庫領網域裡 top 級的產品類型,如果類比傳統數據庫的話,向量數據庫的市場規模上限可能會接近當下主流數據庫 MySQL。
二是我們接觸的客戶的微觀層面,通過預估對方的向量數據庫的成本,我們發現其一個月的成本規模約等于 NoSQL 中頭部數據庫 Redis 的收入規模,所以我認為向量數據庫在不久的将來就會達到 NoSQL 中頭部數據庫的收入規模。
03 談路線選擇:從 " 搜廣推 ",走向各行各業
36 氪:向量數據庫分開源和閉源,兩者的發展路徑和商業化路徑都不太相同,您認為哪種更容易獲得成功?
羅雲:從以終為始的角度來看,不管是開源產品還是閉源產品,最終目的都是要商業化,開源或閉源只是商業化過程中觸達目标用戶的路徑。
以開源的廠商為例,他們通過 github 等平台向目标用戶傳達產品的技術成熟度,通過技術的極客精神吸引開源開發者過來。海外的閉源企業代表,它和 OpenAI 走得很近,在 AI 領網域裡面也有很深的洞察,在它的站點上面有非常多 AI 行業的資料,AI 開發者不僅能在其平台學習向量知識,還能學習到其他 AI 知識。從他倆的路徑可以看出,大家只是選擇了自己擅長冷啟動的觸達用戶的方式。
一開始選擇開源或閉源與企業創始人的背景和所輻射的資源有關,與商業化成功與否無直接關系。
以騰訊雲為例,我們有很成熟的銷售體系,過往也積累了非常多的客戶資源,所以只要做好產品,就很容易開始商業化。
36 氪:也就是說初創公司更适合開源,而成熟型公司更适合閉源?
羅雲:從結果上來看可能是這樣,但其實因果關系可能是颠倒過來的。小公司不是因為選擇了開源而容易成功,而是它可能沒有更好的觸達用戶的渠道,所以開源也行是當下最好的選擇。
36 氪:向量數據庫成本高昂,目前我們會通過哪些方式來緩解這方面的壓力?
羅雲:其實向量數據庫它本身技術的底子還是數據庫本身的架構,我們去定義數據庫它其實解決了兩個問題,第一個問題是如何低成本的去存儲數據,第二個問題如何高效的把存儲的數據檢索出來。向量數據庫它也是一樣的,只是說目前我們看到它在檢索這一側其實它的成本會非常的高昂。
目前業界有幾種做法:
第一是在算法的層面,去優化現在用的比較多的 Faiss 的算法,包含 HNSW 的算法,讓算法變得更快。
第二個優化方式結合算法本身,把 GPU 更好的并行起來,通過用 GPU 計算的方式讓它的成本變得更低。
第三個是,我們會用雲上的一些各種資源的調度體系,用更廉價的,或者說更合适的雲資源去把底層算力的成本去做更好的補充,這樣成本自然而然就會變得更低。
但是短期我們的判斷是,大家不會有數量級的差異,所以更多還是比拼應用性,如何和雲的資源體系結合,讓客戶用得更穩,能讓單價成本有個 20%、30% 的提升。
36 氪:向量數據庫最先在 " 搜廣推 " 場景中落地,但這個領網域的企業其實大都具備自研向量數據庫或基于開源向量數據庫自研的能力,且他們會更傾向于私有化部署,這是否意味着向量數據庫的客戶其實更多會來自中小企業?
羅雲:目标客戶不一定更多來自中小企業,因為剛才提到的這些大企業如果要自研向量數據庫的話,投入可能比產出還要高,假如向量數據庫不能成為對方的核心收入來源,那選擇第三方專業向量數據庫會是更具性價比的選擇。長期來看,社會會有合理的分工,專業的人做專業的事。
對于他們私有化部署的需求,騰訊雲向量數據庫完全可以支持,且在穩定性、安全性等方面我們均更有優勢。
36 氪:有些大企業本身也是大模型的構建者,他們對于向量數據庫的需求和模型應用層企業對向量數據庫的需求有什麼不同?
羅雲:模型構建者通常會把向量數據庫用在以下幾個場景。
首先是數據清洗聚類階段,我們都知道如果訓練模型時數據質量不好,會導致最後訓練出來的模型回答結果不夠精準,如果用于訓練的數據重復太多,訓練的效率也會變差。向量數據庫的相似性搜索可以很好的優化這些問題。
當模型在為用戶服務時,用戶可能會問到時效性很強的事件,而這些事件模型的訓練成本太高了,如果他們搭配向量數據庫來進行搜索增強,那麼模型就會先從向量數據庫中檢索最近的知識與大模型匹配,通過兩者結合的方式給到用戶不錯的回答。
其次,如果這個模型已經開始為企業主提供服務,那麼企業主也會把向量數據庫作為大模型的補充。以在線文檔軟體為例,如果客戶在這裡進行文檔編寫,其實數據還是數據客戶自己的,在線文檔沒辦法把這些數據用于第三方模型訓練,所以通常會将這部分數據通過緩存的方式緩存到本地的某個數據庫中,當客戶要來整理文檔紀要時,就可以通過向量數據庫進行初步篩選,再交由大模型生成結果推理。
總結來說,向量數據庫會被用于加速訓練提升大模型的時效性;通過在外部外挂一個向量數據庫幫助客戶更好的整理數據,以輸入、互動的方式提供給大模型再做最終的結果推理。
這兩種使用場景讓向量數據庫從原先的 " 搜廣推 ",在 AI 的陪伴下走向了各行各業。
36 氪:為什麼現在大家要把向量化技術和向量數據庫分開做,這兩項技術合在一起不是更能提升用戶體驗嗎?
羅雲:我認為這是有一個發展的階段,不同場景的方案也有适應度的問題。在向量檢索裡,很重要的一環就是分段模型的好與壞。通俗解釋,用戶體驗涉及到的一次端到端的搜索準确率、召回率由幾個事情影響:
一是分段模型的成熟度,就是怎麼把一部分非結構化文本、音頻變成一個向量,這個模型會比較重要。
二是在向量數據庫裡面,Ann 的搜索算法也很重要。
騰訊雲向量數據庫現在在做的就是把這部分分段模型放在向量數據庫中區,但它的挑戰性在于每家的數據不同,分段模型沒法一下做到大而廣之。在騰訊内部有很多比如圖片類的分段模型、音樂類的分段模型和文本類的分段模型,我們會結合騰訊集團的内部積累,将其内置到我們的向量數據庫中來,但是這個行業非常特殊,大家都有自己的素材,所以大家也會有自己的預訓練去打造分段模型的方式,這兩者是相互配合的關系。
當我們把它沉澱到向量數據庫裡後,用戶開發它自己的 AI 應用會變得很快,但是想讓分段模型效果足夠好,需要更多的積累。未來,向量數據庫會承載更多角色。
36 氪:因此各家向量數據庫,會在此形成差異化?
羅雲:是的,目前大家都在往這方面靠,友商也會集成一些外部的分段模型,比如此前沒有積累的獨立數據庫廠商,會集成 OpenAI 的分段算法;騰訊則因為本身在 PCG 的業務線就是偏泛互聯網的業務模型,所以有比較多的積累,我們會把更貼近業務實踐的分段模型產品化,為客戶提供增量價值。
36 氪:各家雲計算廠商的基因不同,未來大家都做向量數據庫的話,彼此目标客群會有什麼不同嗎?
羅雲:向量數據庫的核心還是一個标品,提供标準的 API、SDK,能力也是标準的,服務的行業也是廣泛适用的。
雖然各家雲計算廠商可能會有各自擅長的領網域,但首先大家都會先把自己擅長的領網域做好,再去看是否可以将向量數據庫作為拳頭產品吸引其他行業的客戶。
36 氪:向量數據庫在騰訊雲產品體系中的定位是什麼?
羅雲:騰訊雲向量數據庫的定位是成為這一波各行各業随着 AI native 化成長起來的企業的剛需品,我們判斷在未來很長一段時間内,對行業開發者來說都會是 "1+N" 的模式,"1" 是向量數據庫,"N" 是之前的多個數據庫。