本笔记本将带您了解一个简单的流程,以下载一些数据、嵌入数据,然后使用精选的向量数据库对其进行索引和搜索。对于希望存储和搜索我们的嵌入以及他们自己的数据(在安全环境中)以支持生产用例(例如聊天机器人、主题建模等)的客户来说,这是一个常见的需求。
什么是向量数据库
向量数据库是一种用于存储、管理和搜索嵌入向量的数据库。近年来,由于人工智能在解决涉及自然语言、图像识别和其他非结构化数据形式的用例方面的有效性不断提高,使用嵌入将非结构化数据(文本、音频、视频等)编码为向量以供机器学习模型使用的情况呈爆炸式增长。向量数据库已成为企业交付和扩展这些用例的有效解决方案。
为什么使用向量数据库
向量数据库使企业能够采用我们在本仓库中分享的许多嵌入用例(例如,问答、聊天机器人和推荐服务),并在安全、可扩展的环境中使用它们。我们的许多客户都使用嵌入来解决他们小规模的问题,但性能和安全性阻碍了他们投入生产——我们认为向量数据库是解决这个问题的关键组件,在本指南中,我们将介绍嵌入文本数据、将其存储在向量数据库中以及将其用于语义搜索的基础知识。
演示流程
演示流程如下:
- 设置:导入包并设置任何必需的变量
- 加载数据:加载数据集并使用 OpenAI 嵌入对其进行嵌入
- Pinecone
- 设置:在这里,我们将为 Pinecone 设置 Python 客户端。有关更多详细信息,请访问此处
- 索引数据:我们将为标题和内容创建具有命名空间的索引
- 搜索数据:我们将使用搜索查询测试两个命名空间,以确认它是否有效
运行完本笔记本后,您应该对如何设置和使用向量数据库有一个基本的了解,并且可以继续进行更复杂的用例,从而利用我们的嵌入。