今天小编分享的科学经验:向量数据库这杯“啤酒”与“泡沫”,欢迎阅读。
就像啤酒注定要有泡沫,每一场淘金热都不缺被捧上了时代风口的人。
大模型这一波热潮中,向量数据库就是那个幸运儿。
一方面,技术层面并没有太大突破。向量数据库并不是一种特别新的数据库技术,在 AI 领網域已经应用了七八年,谷歌在 2015 年就宣布使用 RankBrain 语义检索来处理搜索任务。相比 N 家的卡、液冷的算、全光的网、更新的存,向量数据库在技术方面并没有特别亮眼的突破。
而另一方面,向量数据库的投资热潮又特别旺盛。在上半年成了创业公司、云计算厂商、老牌数据库公司,以及投资人们 " 群起而攻之 " 的风口,Pinecone、Chroma 和 Weviate 等向量数据库初创公司都获得了融资,有的融资额高达上亿美元。这在全球经济不明朗的投资形势下,还是非常亮眼的成绩。
不同于 GPU 卡那样短期内需求坚挺、供不应求,加上摩尔定律的约束,即使有泡沫,也是铁做的。也不同于存算网这类 " 新基建 ",长期投入的战略价值,得到了庙堂和民间的一致重视。
向量数据库,更多是作为一种 AI 基础技术和产品,开始为大众所知晓。
仅凭这样,就在投资市场上一飞冲天,多少有点让人不安。加上最近,大训模型的热度开始降温,ChatGPT 访问量下降,更多大模型已经到地里田间矿井 " 干活儿 " 去了。
不禁让人好奇,随着大模型的风口下沉,向量数据库的投资概念还能飞多久,会不会倏忽而来,倏忽而去,留下喝了 " 一嘴泡沫 " 的公司和投资人,在风中凌乱呢?
我们就来好好品一品,这一杯啤酒和泡沫。
技术的啤酒
训大模型、用大模型,离不开一系列 AI 基础设施,所以,作为基础设施之一的向量数据库,确实有点东西。引入向量数据库,是能喝到真材实料的 " 啤酒 " 的。
这就有必要先说说这个技术本身。
数据库不用多说,是必不可少的 IT 基础设施,用于存储和查询各种数据,可以看作是数据的 " 硬碟 "。那么,向量数据库就是更适合 AI 体质的 " 硬碟 ",有几个特质来说明这一点:
1. 必要性。
向量数据库,顾名思义就是专门用于存储和管理向量数据。作为一种数据结构,每个向量都包含多个维度,每个维度代表不同的特征或属性,比如影像的颜色、文本词汇的出现频率等。而 AI 算法,要从影像、音频和文本等海量的非结构化数据中学习,提取出以向量为表示形式的 " 特征 ",以便模型能够理解和处理。因此,向量数据库比传统的关系型数据库,更适合 AI 应用。
2. 高效率。
每个元素都有一个索引,便于访问或修改数值。基于此,向量数据库可以通过将分组和索引,快速找到与给定查询最接近的嵌入,实现高效的相似性搜索,同时减少存储和计算成本。
相比传统单机插件式数据库,向量数据库的检索规模可以提升十倍,支持百万级每秒查询(QPS)的峰值能力,同时延迟控制在毫秒级。
想象一下,如果没有高效的搜索技术支持,一个大语言模型动辄数十亿、上百亿参数,只能处理有限数量的输入数据,无法搜索更大的数据库,那么在 AIGC、搜索、广告推荐算法等任务的性能表现就会受限。
一个公开数据是,通过使用云向量数据库,QQ 音乐人均听歌时长提升 3.2%;腾讯视频有效曝光人均时长提升 1.74%;QQ 浏览器成本降低 37.9%,这些数据的变化就在于检索效率、运行稳定性、运营效率、推荐算法等有了较大的提升。
3. 需求大。
随着产业智能化的加速,以及大模型和其他 AI 应用的爆发,各行各业的 AI 用例不断增多,由此带来了汹涌的数据洪潮和存算任务,向量数据库嵌入向量的长度不受限制,具有良好的扩展性,可以根据 AI 用例和模型而变化,更好地处理大规模数据集。
而且,向量数据库可以拓展大模型的时间边界和空间边界,让大模型在训练完成后,也可以访问向量数据库的最新信息,了解最近发生的事情。
总的来说,向量数据库就是更适合 AI 体质的数据库,在 AI 任务上效果拔群,在机器学习领網域中日益流行。
那么问题来了,一些在 AI 领網域积淀已久的科技大厂,如谷歌、微软、Mate 以及 BAT 等大厂,都有向量数据库的技术积累,也都可以向外输出相关能力和产品。此外,一些基于开源技术的数据库创业公司,如 Pinecone、Weaviate、Odrant、Chroma 近年来打开了市场知名度。
可以说,市场上并不缺乏向量数据库的产品和解决方案。那么 2023 年,这杯技术啤酒,是怎么咕嘟咕嘟冒出泡沫的呢?
浪潮之巅的泡沫
向量数据库的市场现状,说是 " 从 0 到 1",并不为过。
首先,大众市场的认知度才刚刚打开。
此前,向量数据库更多是 AI 企业在使用,今年才开始为大众所熟知,这离不开一些 AI 相关企业的推波助澜。今年 3 月的 NVIDIA GTC 大会上,黄仁勋首次提及向量数据库,强调向量数据库对大语言模型的重要性。
不是所有企业都有能力自建大模型所需要的基础设施,通过 MaaS(模型即服务)业务来训练应用大模型是更灵活的选择,这就要求云厂商提供全栈基础设施。
百度、京东、腾讯、华为等,都在自家的大模型完整基础设施中,提到了向量数据库。目前,云厂商的 MaaS 业务才刚刚开始走向市场,大模型的产业落地不是一蹴而就的,向量数据库的接受度和规模究竟有多大,还是个未知数。
第二,向量数据库的技术,还没经历 " 卷生卷死 " 的迭代。
Pinecone 是闭源的领跑者,其他竞争者要么是开源的,比如 Weviate,要么是巨头,包括头部云厂商和甲骨文、IBM 等老牌数据库厂商,开始构建 AI 数据库的产品和解决方案。
大厂扎堆竞技,这意味着,如果技术没有大的突破,就会陷入高密度的同质化竞争,从蓝海快速进入红海。而如果技术有颠覆式变革,很多技术壁垒不高、客户认知不强的新入局创业者,很难跟开源生态或技术巨头 PK,容易被大浪淘沙。
最后,向量数据库的成本,还没有降到 " 可规模复制 " 的程度。
无论是自建向量数据库,还是通过 MaaS 服务接入,都还达不到 " 付费可用 " 的程度。一般来说,企业需要先将非结构化的私密数据进行向量化,产生一个向量的矩阵,再存储到向量数据库里,来供大模型学习和检索。这个过程涉及到大量的工程化,会耗费企业许多开发人员、时间成本。
这就需要云厂商或数据库厂商,提供全链路的工具,来帮助企业完成整个数据向量化、大模型接入的工作,以及减少后续运维的难度。比如 Pinecone 就凭借良好的开箱即用的产品体验,获得了非常大的增长,B 轮估值达到 7.5 亿美元。
谷歌云、腾讯云、京东云等也都基于内部应用的多年积累,推出了一系列面向外部的工具、框架和应用。但只是迈出了从无到有的第一步,真正成熟还需要让各家 " 卷起来 "。
可以看到,现在这个阶段,热捧向量数据库,确实有 AIGC、大模型、云服务等多方面的现实需求,但从 " 概念普及 " 到 " 真正可用 " 之间,还有不短的距离。这之间的地带,就是泡沫生长的地方。
江湖路远,风高浪急,没有想清楚的创业公司或行业用户,还是别贸然 " 带资进组 " 了。
啜饮时代的精酿
如果你是数据库厂商,或者是着急布局大模型和 AI 应用的企业,希望早点将啤酒喝到嘴里,怎么办呢?
笃定远一点的未来,有些赛道的泡沫比例是相对少的,需求格外旺盛。
市场方面,国产化替代是不错的选择。
科技博弈背景下,加上我国数据库产业的日益繁荣和技术突破,金融、电信、能源、交通等关键基础行业的企业,在数据库选型时,都开始倾向于国产,以保障数据的稳定性和安全性。
国外厂商在向量数据库上有着更早的探索和积累,国产数据库要补齐短板是需要时间的。
目前,BATH 这类实力较强的国內科技企业,沉淀了向量数据库的核心自主技术,与其合作研发和定制化开发,针对某些具体场景,提供特定优化的向量数据库产品,加入国产化替代的赛道是成本更低、风险更可控、市场需求明确的选择。
策略方面,加入云生态不要独行。
鉴于向量数据库的商业化前景还不明朗,有业内人士表示,与其投资新的向量数据库项目,还不如关注现有数据库中,有哪些加上向量引擎可以变得更加强大。
云数据库就是其中之一,上云用数赋智是大势所趋,很多政企客户往往会选择公有云或行业云来满足其业务需求,将数据迁移到云上,对云数据库的关注度和接受度上升。
腾讯云、华为云等大型云厂商,具有较高的品牌认知度和市场接受度,具有云原生、AI 原生的技术栈和产品体系,经历了海量场景的淬炼和深度优化,和这类云生态一起掘金向量数据库,是更稳妥的方式。
和 AI、大模型一样,向量数据库要品出味道,离不开时间的窖藏和酝酿。是在大训模型的热度下降后,像泡沫一样湮灭,还是作为啤酒精酿沉淀下去,等待成为下一代数字基础设施的刚需,被行业客户所啜饮,是留给数据库玩家和买家的选择题。
>