本 notebook 将引导您完成一个简单的流程,以下载一些数据,嵌入数据,然后使用一系列向量数据库对其进行索引和搜索。对于希望安全地存储和搜索我们的嵌入及其自身数据,以支持生产用例(如聊天机器人、主题建模等)的客户来说,这是一个常见的需求。
什么是向量数据库
向量数据库是一种用于存储、管理和搜索嵌入向量的数据库。近年来,由于人工智能在解决涉及自然语言、图像识别和其他非结构化数据形式的用例方面的有效性日益提高,使用嵌入将非结构化数据(文本、音频、视频等)编码为向量以供机器学习模型使用的情况呈爆炸式增长。向量数据库已成为企业交付和扩展这些用例的有效解决方案。
为什么使用向量数据库
向量数据库使企业能够采用我们在本仓库中分享的许多嵌入用例(例如,问答、聊天机器人和推荐服务),并在安全、可扩展的环境中使用它们。我们的许多客户都在小规模上使用嵌入来解决他们的问题,但性能和安全性阻碍了他们投入生产——我们认为向量数据库是解决这个问题的关键组成部分,在本指南中,我们将介绍嵌入文本数据、将其存储在向量数据库中以及将其用于语义搜索的基础知识。
演示流程
演示流程如下:
- 设置:导入包并设置任何必需的变量
- 加载数据:加载数据集并使用 OpenAI 嵌入对其进行嵌入
- Qdrant
- 设置:在这里,我们将设置 Qdrant 的 Python 客户端。有关更多详细信息,请访问此处
- 索引数据:我们将创建一个集合,其中包含标题和内容的向量
- 搜索数据:我们将运行一些搜索以确认它是否有效
一旦您运行完本 notebook,您应该对如何设置和使用向量数据库有一个基本的了解,并且可以继续进行更复杂的用例,使用我们的嵌入。