本笔记本将带您了解一个简单的流程,该流程下载一些数据,嵌入数据,然后使用精选的向量数据库对其进行索引和搜索。对于希望安全地存储和搜索我们的嵌入及其自身数据以支持生产用例(如聊天机器人、主题建模等)的客户而言,这是一个常见的需求。
什么是向量数据库
向量数据库是一种用于存储、管理和搜索嵌入向量的数据库。近年来,由于人工智能在解决涉及自然语言、图像识别和其他非结构化数据形式的用例方面的效率不断提高,使用嵌入将非结构化数据(文本、音频、视频等)编码为向量以供机器学习模型使用的情况呈爆炸式增长。向量数据库已成为企业交付和扩展这些用例的有效解决方案。
为什么使用向量数据库
向量数据库使企业能够利用我们在本仓库中分享的许多嵌入用例(例如,问答、聊天机器人和推荐服务),并在安全、可扩展的环境中使用它们。我们的许多客户都在小规模上使用嵌入来解决他们的问题,但性能和安全性阻碍了他们投入生产——我们认为向量数据库是解决这个问题的关键组件,在本指南中,我们将介绍嵌入文本数据、将其存储在向量数据库中以及将其用于语义搜索的基础知识。
演示流程
演示流程如下
- 设置:导入软件包并设置任何必需的变量
- 加载数据:加载数据集并使用 OpenAI 嵌入对其进行嵌入
- Redis
- 设置:设置 Redis-Py 客户端。有关更多详细信息,请访问此处
- 索引数据:在所有可用字段上创建用于向量搜索和混合搜索(向量 + 全文搜索)的搜索索引。
- 搜索数据:运行一些示例查询,并考虑各种目标。
运行完本笔记本后,您应该对如何设置和使用向量数据库有一个基本的了解,并且可以继续进行更复杂的用例,从而利用我们的嵌入。