本 notebook 将引导您完成一个简单的流程,即下载一些数据,对其进行嵌入 (embedding),然后使用一系列向量数据库对其进行索引和搜索。对于希望在安全环境中存储和搜索我们的 embeddings 以及他们自己的数据,以支持生产用例(如聊天机器人、主题建模等)的客户来说,这是一个常见的需求。
什么是向量数据库
向量数据库是一种用于存储、管理和搜索 embedding 向量的数据库。近年来,由于人工智能在解决涉及自然语言、图像识别和其他非结构化数据形式的用例方面的有效性不断提高,使用 embeddings 将非结构化数据(文本、音频、视频等)编码为向量以供机器学习模型使用的情况呈爆炸式增长。向量数据库已成为企业交付和扩展这些用例的有效解决方案。
为什么使用向量数据库
向量数据库使企业能够采用我们在本仓库中分享的许多 embeddings 用例(例如,问答、聊天机器人和推荐服务),并在安全、可扩展的环境中使用它们。我们的许多客户都在小规模上使用 embeddings 解决他们的问题,但性能和安全性阻碍了他们投入生产——我们认为向量数据库是解决这个问题的关键组成部分,在本指南中,我们将介绍嵌入文本数据、将其存储在向量数据库中以及将其用于语义搜索的基础知识。
演示流程
演示流程如下
- 设置:导入包并设置任何必需的变量
- 加载数据:加载数据集并使用 OpenAI embeddings 对其进行嵌入
- MyScale
- 设置:设置 MyScale Python 客户端。有关更多详细信息,请访问此处
- 索引数据:我们将创建一个表并为 content 建立索引。
- 搜索数据:运行一些示例查询,并考虑各种目标。
一旦您运行完本 notebook,您应该对如何设置和使用向量数据库有一个基本的了解,并且可以继续进行更复杂的用例,从而利用我们的 embeddings。