今天小编分享的科学经验:7天开发一个AI Agent应用!秘密武器:一体化数据库,欢迎阅读。
几个工程师、一个星期,就能做一个 AI Agent 应用了。
效果 be like ——
能理解用户复杂长命令,推荐符合要求的奶茶店。
推荐两公里内、评分 4.5 以上、人均消费 25 元以内干净卫生的奶茶店。
要知道,这背后需要它能分析处理不同模态的数据,比如文本、地理信息、影像等。
放在以前,构建这样的 AI 应用需要多个不同的数据库,还需要配备经验丰富且规模较大团队来管理复杂技术栈。
如今,能如此轻松搞定,多亏了背后的一体化数据库OceanBase。
最新发布会上,OceanBase 推出首个面向实时分析处理场景的 GA 版本:4.3.3 版本。
不仅推出全新向量检索功能,实现SQL+AI 一体化,还进一步增强多模态数据处理能力。
感觉方方面面都是为 AI 时代做好了准备啊。
为啥能这么说?
从最新发布的新能力看起。
首个面向实时分析的 GA 版本
此次 OceanBase 4.3.3 核心更新的能力主要有 3 方面:
AP 场景性能提升
多模态数据支持
向量检索与索引
首先,OceanBase 4.3.3 版本更新了对复杂数据类型处理能力。
新增 Array 类型,这意味着数据库可以直接存储、查询和操作数组数据。并对 Roaringbitmap 类型数据的计算性能进行了优化,意味着数据库能够更高效地处理和操作大型集合数据。
其次,OceanBase 4.3.3 在向量融合查询的关键能力上带来提升,推出全新向量检索能力,支持向量数据类型和向量索引,并基于向量索引提供强大搜索能力。
用户可通过 SQL 及 Python SDK 等方式灵活调用 OceanBase 的向量检索能力。
如今,在通用数据库中集成向量插件已经成为一种趋势,这种方式能够直接复用通用数据已有功能和生态。
OceanBase 与蚂蚁集团联合开发了向量索引库,这个索引库已经在蚂蚁集团大量业务场景中得到验证(如生物识别、企业内部知识库等),性能成熟。
现场跑分结果显示,该向量库在 960 维的 GIST 数据集上表现出色,在 ANN Benmarks 测试中性能远超其他算法,排名第一。
特别是在 90% 以上的召回率区间,查询性能(QPS)相比此前最优算法 glass 提升 100%,相比基线算法 hnswlib 提升 300%。
该向量引擎深度融合了 OceanBase 的存储引擎和 SQL 引擎,实现SQL+AI 一体化。能够在一条 SQL 语句中实现标量、向量、空间地理等混合查询。
比如 " 望小京 "demo 中,用户给的提示词为 " 推荐两公里内、评分 4.5 以上、人均消费 25 元以内干净卫生的奶茶店 "。这背后涉及到处理文本、影像和地理位置等不同类型的数据,需要更强大的数据分析和查询能力。
最后,OceanBase 4.3.3 还针对 AP(分析处理)场景进行大幅性能优化,尤其是在海量数据分析时,能够提供更短的响应时间和更高的吞吐能力。
TPC-H 1T 场景提升 64%
TPC-DS 1T 场景提升 36%
ClickBench hot- run 提升 49%
cold-run 性能提升 149%
同时大幅完善了实时 AP 功能,包括支持列存副本、物化视图、外表集成、快速导入导出等。
实现满足 TP 和 AP 负载的物理资源强隔离,可确保系统在处理事务型负载时,不受分析型负载的影响,特别是在实时数据分析和决策场景中,能够保持系统的高性能与稳定性。
在易用性方面也做了更新,通过提供 AP 参数版本,用户可以针对不同场景选择特定模板,不需要再单独配置参数。并增强了 AP 场景中对 SQL 诊断能力的支持。
总结来看,OceanBase 4.3.3 在基础分布式能力上,带来更强性能、向量多模融合、融入 AI 技术栈。
也就是将 AI 与数据库进一步融合。
这并不难理解,AI 应用 /AI Agent 大势所在,各类应用智能化更新改造,底层数据库必须紧随趋势更新。
不过在这之中,OceanBase 还反复提到了一个关键词——一体化。
它不仅是 OceanBase 的自身特性,如今也逐渐成为行业拥抱 AI 时代的一个优解。
Why?
更快推动 AI 应用大规模落地
对于数据库的发展,行业内逐渐达成一些共识。
AI 能力大幅提升,导致全球 80% 以上的非结构化数据被激活,背后的挖掘分析需求井喷,在这一新变化下,数据处理面临更大规模、更多模态、实时性更强以及数据碎片和数据孤岛问题。
这些变化给数据库提出了诸多新的发展需求。
最首要的便是,分布式数据库成为一种大趋势。
华东师范大学数据学院院长、CCF 数据库专委会常委钱卫宁提出,互联网时代数据走向了开放环境,在数据是分布式的时代里,数据库也需要是分布式的。
分布式数据库可以让多台伺服器协同作业,完成单台伺服器无法处理的任务,尤其是高并发或者大数据量的任务。
除此之外,随着 AI、云计算等技术发展,数据库还呈现出以下特点。
第一,云计算的普及推动了云数据库的快速发展。云数据库提供按需扩展、高可用性和成本效益。
第二,大数据和非结构化数据需求增加,多模态是一种趋势,NoSQL 数据库(如 MongoDB、Cassandra、Redis、Couchbase)越来越受到欢迎。NoSQL 数据库提供了更好的扩展性和灵活性,适用于存储和处理各种数据类型,如文档、键值对、图数据等。
第三,HTAP 数据库成为热点,甚至是主流数据库的一项基础能力。这类数据库能够同时处理事务性和分析性工作负载,满足了企业实时数据处理和分析的需求。
第四,开源也是一大趋势。开源数据库(如 PostgreSQL、MySQL、MariaDB)凭借其社区驱动的发展模式、强大的功能和灵活的部署方式,成为企业和开发者的热门选择。
不过来到实际落地层面,尽管数据、数据库在变得更加多元复杂,但是企业用户总还是希望能只用一套系统来解决不同工作负载。
比如能同时在事务处理(如支付、订单等高频交易场景)和复杂的实时分析查询,这背后需要 TP+AP 结合。
以及 AI 与多模查询能力的融合,如 Rockset 和 Oracle 这样的数据库系统通过 hybrid search 融合查询技术,将 SQL 查询与向量化查询相结合,使得数据处理能够同时包含文本、结构化数据和向量数据等不同类型。
方方面面影响下,一体化设计逐渐成为被市场青睐的路线。
以 MongoDB 和 Oracle 为代表的数据库厂商正在各自推动一体化数据库的发展。国家工业信息安全发展研究中心等共同编制的《分布式数据库发展趋势研究报告》中也表示,分布式数据架构的设计正在走向一体化。
在这之中,OceanBase 的一体化理念非常鲜明。它包括:
一体化产品:多工作负载(TP+AP)、多模(SQL+NoSQL)、向量(SQL+AI)。
一体化引擎:一体化存储,一体化事务,一体化 SQL。
一体化架构:包括单机分布式一体化与多云原生。
OceanBase 介绍,这种一体化的思路是随着客户需求不断发展而来。
首先在底层架构设计上,单机分布式一体化与多云原生并存,可以满足大中小企业的不同需求。OceanBase 已经和目前主流云厂商均达成合作,实现公有云 " 多云共生 ",同时也提供专有云、混合云等不同部署环境,保证一致体验。
其次随着数据库场景不断变化,从传统场景到泛互联网场景,OceanBase 从 TP 到 TP+AP,逐渐走向多工作负载一体化。
比如在第一阶段 OLTP+,会浮现出山东移动这类客户的需求,他们主要关注复杂查询场景,需要增强业务处理效率。
第二阶段浮现出了海底捞这类用户的需求。海底捞本来使用两个系统分别处理 OLTP 和 OLAP,这导致 OLTP 和 OLAP 之间存在数据延迟,没法保证数据一致性,还需要两份数据两份成本。OceanBase 能将其整合,不仅使整体成本降低,还能提升原本的 AP 性能。
第三阶段还会浮现出实时营销等场景,对实时 AP 提出更多要求。
以及在实际推广中,OceanBase 发现越来越多客户将 OceanBase 既应用在 KV 存储场景,也应用在 NoSQL 场景,或者替换 HBase、Redis 等。因为 OceanBase 能够解决各个场景中很多棘手问题,比如对于 NoSQL 而言,最大的挑战在于数据规模,分布式架构可以很好解决数据扩展的问题。
因此,顺应用户需求,OceanBase 在不断增加对多种数据类型的支持,实现多模一体化。
最后,来到 AI 时代。"AI for DB,DB for AI" 成为共识。
AI 应用大规模落地的前提是大模型技术能够在各行各业低成本易用。
数据库的发展经验可以为 AI 应用推广提供参考。比如在数据库中引入向量插件,实现 SQL+AI,能够大幅简化原有 AI 技术栈,让打造 AI Agent 的门槛骤降。
最后总结来看,以 OceanBase 为代表的一体化数据库不仅能为企业提供更更好的数据底座,而且方方面面都满足 AI 应用发展的需求。它总体呈现出这些特点:
第一,高效的数据处理和分析。
支持 HTAP,能够在同一个系统中同时处理事务性(OLTP)和分析性(OLAP)负载。企业可以实时地对交易数据进行分析,而不需要等待数据的同步和转移,从而加快决策速度和响应时间。
实时分析,可以在数据生成的同时进行分析,确保数据的时效性,这对于实时推荐、风控、监控等 AI 应用至关重要。
第二,简化的数据管理。
一体化数据库能够确保数据的一致性和完整性,因为事务处理和分析处理在同一个系统内完成,避免了数据同步和转换过程中可能出现的延迟和错误。
通过将多种数据类型(如关系型数据、文档数据、向量数据等)集成在一个系统中,一体化数据库简化了数据存储和管理。企业不需要维护多个数据库系统,减少了数据孤岛问题和运维复杂性。
第三,灵活性和扩展性。
一体化数据库支持多模态数据处理,能够处理和分析结构化、半结构化和非结构化数据。这种灵活性使企业可以在一个平台上处理不同类型的数据,满足各种业务需求。
一体化数据库可以在公有云、私有云和本地数据中心的混合环境中部署,支持异构环境下的数据管理和应用。这使企业能够根据业务需求灵活选择和调整部署方案。
第四,简化 AI 应用构建。
AI 应用通常需要进行高效的向量检索和相似性搜索。一体化数据库通过深度集成向量引擎,支持快速向量化计算和相似度查询,提升 AI 应用的性能。
一体化数据库能够将数据存储和 AI 模型紧密结合,支持复杂的 AI 工作负载。这种集成减少了数据传输的延迟,提高了模型训练和推理的效率。
第五,降低成本和复杂性。
一体化数据库减少了企业需要维护的数据库系统数量,简化了技术栈,降低了系统集成和运维的复杂性。
通过优化资源利用和减少多系统间的数据同步和转换,一体化数据库降低了总体拥有成本,提高了投资回报率。
AI 时代,Data is Power。
李飞飞当初笃定做 ImageNet,背后的核心逻辑就在于,她相信 AI 改变世界,数据是最简单最直接的方式。
如今,AI 应用落地趋势已经开启。数据作为生产要素,在 AI 时代已是水电般的存在。
而一体化数据库正在为数据更充分灵活高效应用提供新思路。
据了解,一体化数据库 OceanBase 将成为蚂蚁集团的 AI 数据底座,为一系列 AI 时代新应用 " 支小宝 "、" 蚂小财 " 以及支付宝百宝箱智能体开发平台的数据管理提供支持。
一体化正在成为数据库发展历程中,一个旗帜鲜明的方向。
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>