文本、图像、音视频等海量的非结构化数据占数据总量不断上升,预计2025年,将达到八成以上。这些数据由于结构不统一,所以在计算机中通常以向量形式进行特征提取后,再进行存储、计算、应用。为了解决海量数据场景下,向量的存储、计算问题,向量数据库应运而生,其通过数据算法和计算机工程,将向量特征进行分组和索引,以实现高效的相似性搜索。《数据库发展研究报告(2023年)》显示,向量数据库作为12个数据库技术发展趋势之一,其使用场景十分广泛,包括但不限于支撑文本翻译、产品推荐、语义搜索、图像搜索、视频推荐、异常检测、欺诈检测、人脸识别等应用。
近日,在中国信通院首批“可信数据库”向量数据库产品测试中,腾讯云计算(北京)有限责任公司(简称:腾讯云)向量数据库Tencent Cloud VectorDB产品顺利完成首个向量数据库产品基础能力测试。测试过程依据标准在基本功能、运维管理、安全性 、兼容性、扩展性、高可用以及工具生态七大能力域的相关要求。测试结果表明,该产品在向量数据库的功能完备性、易用性、通用性等方面均符合标准要求。
《向量数据库技术要求》是中国信通院云计算与大数据研究所依托中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)和中国信通院数据库应用创新实验室(CAICT DBL),联合超过50家企业专家参与编制的技术标准,腾讯云为核心参编单位之一。其包含基本功能、运维管理、安全性 、兼容性、扩展性、高可用以及工具生态七大能力域共47个测试项,其中分为27个必选项和20个可选项。作为业内首个向量数据库技术标准,可为向量数据库的研发、测试以及选型提供参考。
腾讯云向量数据库简介
腾讯云向量数据库(Tencent Cloud VectorDB)是腾讯自研的、源自腾讯内部多年运营积累的分布式向量数据库。目前,该数据库被广泛应用于大模型的训练、推理和知识库补充等场景。
·10亿级单索引规模支持相比单机插件式索引规模提升10倍
·一站式向量检索方案 Embedding+检索集成方案,数据嵌入AI效率提升10倍
·集团大规模运营积累:日均处理万亿次请求,现网运营可用性指标达到99.99%
腾讯云向量数据库(Tencent Cloud VectorDB)重新定义了AI Native的开发范式。比如,在接入层,支持自然语言文本的输入,同时采用“标量+向量”的查询方式,支持全内存索引,最高支持每秒百万的查询量(QPS);在计算层,AI Native开发范式能实现全量数据AI计算,一站式解决企业在搭建私域知识库时的文本切分(segment)、向量化(embedding)等难题;在存储层,腾讯云向量数据库支持数据智能存储分布,助力企业存储成本降低50%。
1、在模型训练阶段,通过向量化的方式,为数据进行分类
在许多人工智能和机器学习任务中,数据需要转换为向量形式,以便模型能够理解和处理。在自然语言处理任务中,文本数据可以通过词嵌入(word embedding)等方法转换为向量。向量数据库可以存储这些向量表示,为大模型提供可用的知识和信息。
向量数据库具有高效的查询和相似性搜索能力,这使得大模型可以快速地从数据库中检索相关的知识和信息。例如,在问答系统中,大模型可以根据输入问题的向量表示,在向量数据库中查找与问题相关的答案或信息。向量数据库还可以作为大模型训练过程中的数据来源。在训练过程中,大模型需要从数据库中抽取大量的向量数据进行学习。向量数据库的高效查询能力可以加速训练过程,提高模型的学习效率。
2、在线推理阶段,能够为大模型提供外部知识库,并保障实时更新
大模型的存储空间有限,目前的大模型都是预训练模型,对于训练截止日之后发生的事情一无所知。向量数据库可以通过存储最新信息后给大模型访问来弥补这点不足。此外,通过向量数据的本地存储,向量数据库能够协助解决目前企业界最担忧的大模型泄露隐私的问题。向量数据库还自带多模态功能。对于模型搜索后的结果,也具备实时保存和更新的功能。
3、腾讯云向量数据库提供SaaS接入服务
算法和模型无法突破数据在时空纬度的限制,LLM+外部知识库是必然的架构,在相似性检索方案中,向量检索是目前成熟和有效的方案。腾讯云向量数据库(Tencent Cloud VectorDB)源自腾讯内部技术沉淀,日均处理向量检索千亿次。同时,支持标量+向量的混合检索方式,具有高性能、大容量等特点,支持全内存索引。腾讯云向量数据库提供一站式向量检索集成方案,数据接入AI效率提升10倍。让企业原先花一个月时间才能搞定的大模型接入,缩短到三天时间。
腾讯云向量数据库基于腾讯集团每日处理千亿次检索的向量引擎(OLAMA),经过腾讯内部海量场景的实践,数据接入AI的效率也比传统方案提升10倍,运行稳定性高达99.99%,目前已经应用在了腾讯视频、QQ浏览器、QQ音乐等30多款国民级产品中。