今天小编分享的互联网经验:李开复创立的零一万物宣称,自研向量数据库领先原榜单第一名的286%,欢迎阅读。
钛媒体 App 3 月 11 日消息,李开复博士创立的零一万物宣布,公司成功研发出基于全导航图的新型向量数据库 " 笛卡尔(Descartes)",并已包揽权威榜单 ANN-Benchmarks 6 项数据集评测第一名。
零一万物表示,在国际权威评测平台 ANN-Benchmarks 离线测试中,零一万物笛卡尔向量数据库比之前榜单上同业第一名有显著性能提升,部分数据集上的性能提升甚至超过 2 倍以上,在 gist-960-euclidean 数据集维度更大幅领先榜单原 TOP1 286%。
零一万物强调,笛卡尔向量数据库将应用于公司即将正式发布的 AI 产品中,未来还将结合工具提供给广大开发者。
据悉,零一万物(01.AI)成立于 2023 年 5 月 16 日,致力于打造全新的 AI 2.0 平台与 AI-first 生产力应用的全球化公司,由创新工场董事长兼 CEO 李开复博士亲自挂帅,担任零一万物 CEO。
2023 年中关村论坛上,李开复就对钛媒体 App 等表示,以 GPT-4 等大模型为代表的生成式 AI 热度在全球蔓延,意味着 AI 2.0 时代已经到来,它将带来比移动互联网时代大十倍的机会,穿透各行各业极大地提振生产力。" 我们预测,全新的 AI 2.0 平台将能有效帮助提升人类生产力,创造巨大的经济价值及社会价值。"
2023 年 11 月,零一万物发布首款研发的最强开源 AI 大模型系列 "Yi",包括 Yi-6B(数据参数量为 60 亿)、Yi-34B(340 亿)两款,均是双语(英文 / 中文)、支持开源。
其中,Yi-34B 模型在多项评测基准中全球领跑,基于超强 Infra 下模型训练成本实测下降 40%,模拟千亿规模训练成本可下降多达 50%,并以更小模型尺寸的基准结果超过 LLaMA2-34B/70B、Falcon-180B 等大尺寸开源模型,以及百川智能(王小川创立)的 Baichuan2-13B。
" 随着团队到位,2023 年 6、7 月份开始写第一行代码,短短四个月做了非常自豪的产品。我们是‘不鸣则已,一鸣惊人’。所以‘一鸣惊人’之后,如果我们过半年甚至过一年回头看,今天对我们来说只是刚刚开始,我们还会不断的去开发、推动、宣布更多令人惊艳的成果。" 李开复当时表示。
此次公布的向量数据库,又被称为 AI 时代的信息检索技术,是检索增强生成(RAG)内核技术之一。随着大模型为代表的 AI 2.0 时代到来,图片、视频、自然语言等多模态的非结构化数据量陡增。区别于传统数据库,向量数据库专门用来存储、管理、查询和检索向量化的非结构化数据,而 ChatGPT 模型进一步强化了向量数据库的作用。
截至目前,Google、微软、Met 等大厂的相关向量大模型产品先后问世,Zilliz、Pinecone、Weaviate、Qdrant 等创业公司也异军突起。2023 年,OpenAI 的向量数据库合作方 Pinecone 完成了 B 轮 1.38 亿美元融资,国内初创企业 Fabarta ArcNeural 也完成了上亿元 Pre-A 轮融资。
如今,李开复带领的团队也自主研发出全新的向量数据库。
具体来说,零一万物笛卡尔主要聚焦于高性能向量数据库,采用领先的全导航图技术、首创自适应邻居选择策略等新功能,以及采用了两级量化方案增强 RAG,在处理复杂查询、提高检索效率、优化数据存储方面相比业界拥有显著的比较优势。另外,零一万物还采用索引结构优化、连通性保障等全栈向量技术方案,从而提高笛卡尔向量数据库的性能。
以电商推荐场景为例。上架商品数量可能千万级,每个商品可以由一个向量表达,即使库中向量数不算很大,如果电商用户基数非常庞大,高峰时每秒用户请求数非常大,可能达到几十万甚至上百万的吞吐量 QPS(每秒内处理的请求数),使用高性能向量数据库可以有效提升电商场景里面搜索、广告业务的推荐效果,促进销售额增长。
零一万物表示,笛卡尔拥有超高精度、超高性能两个优点:一、超高精度,基于多层缩略图和坐标系实现层间导航和图上方位导航,以及图连通性保障,实现精度大于 99%,相同性能下,精度大幅领先业内水平;二、超高性能,高效的边选择和裁剪技术,千万数据库 ms(秒级)响应。
该公司指出,在两级量化降低计算复杂方面,相比传统 PQ 查表,笛卡尔向量数据库的性能得到大幅提升到 2-3 倍;目标向量层面,笛卡尔让 RAG 向量检索性能提高 15%-30%,从而帮助企业客户构建私網域知识库、智能客服系统;在自动驾驶领網域,使用高性能向量数据库可来加速自动驾驶模型训练等。
基准测试层面,在 glove-25-angular、glove-100-angular、sift-128-euclidean、nytimes-256-angular、fashion-mnist-784-euclidean、gist-960-euclidean 六大数据集中,零一万物笛卡尔向量数据库在 6 项数据集评测中都处于最高位。
零一万物强调,笛卡尔向量数据库是团队基于 RAG 的初步尝试,将在近期发布的 AI 生产力产品中得到有效应用。未来各家大模型优化到一定程度后,向量数据库的能力可能决定各家大模型的天花板。零一万物后续会持续专注研发和分享,为用户带来更好的技术和体验。
" 零一万物的数据处理管线、算法研究、实验平台、GPU 资源和 AI Infra 都已经准备好,我们的动作会越来越快 "。李开复表示,零一万物希望有更多的开发者使用 Yi 系列模型,打造自己场景中的 "ChatGPT",引领下一代前沿创新和商业模型,探索走向通用 AI 时代。
钛媒体 App 了解到,零一万物即将推出基于 AI 2.0 的超级应用产品。
(本文首发钛媒体 App,作者|林志佳)