嵌入文本，当文本长度超过模型最大上下文长度时

OpenAI 的嵌入模型无法嵌入超过最大长度的文本。最大长度因模型而异，并以tokens（而非字符串长度）衡量。如果您不熟悉 token 化，请查看如何使用 tiktoken 计数 tokens。

此 notebook 展示了如何处理长度超过模型最大上下文长度的文本。我们将演示如何使用 text-embedding-3-small 的嵌入，但相同的想法可以应用于其他模型和任务。要了解有关嵌入的更多信息，请查看OpenAI 嵌入指南。

1. 模型上下文长度

首先，我们选择模型并定义一个函数以从 API 获取嵌入。

from openai import OpenAI import os import openai from tenacity import retry, wait_random_exponential, stop_after_attempt, retry_if_not_exception_type client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY", "<your OpenAI API key if not set as env var>")) EMBEDDING_MODEL = 'text-embedding-3-small' EMBEDDING_CTX_LENGTH = 8191 EMBEDDING_ENCODING = 'cl100k_base' # let's make sure to not retry on an invalid request, because that is what we want to demonstrate @retry(wait=wait_random_exponential(min=1, max=20), stop=stop_after_attempt(6), retry=retry_if_not_exception_type(openai.BadRequestError)) def get_embedding(text_or_tokens, model=EMBEDDING_MODEL): return client.embeddings.create(input=text_or_tokens, model=model).data[0].embedding

text-embedding-3-small 模型具有 8191 个 tokens 的上下文长度，使用 cl100k_base 编码，我们可以看到超出此限制会导致错误。

Error code: 400 - {'error': {'message': "This model's maximum context length is 8192 tokens, however you requested 10001 tokens (10001 in your prompt; 0 for the completion). Please reduce your prompt; or completion length.", 'type': 'invalid_request_error', 'param': None, 'code': None}}

显然，我们希望避免这些错误，尤其是在以编程方式处理大量嵌入时。然而，我们仍然可能面临长度超过最大上下文长度的文本。下面我们描述并提供处理这些较长文本的主要方法的方案：（1）简单地将文本截断到最大允许长度，以及（2）分块文本并分别嵌入每个块。

1. 截断输入文本

最简单的解决方案是将输入文本截断到最大允许长度。由于上下文长度以 tokens 衡量，我们必须先对文本进行 token 化，然后再进行截断。API 接受文本或 tokens 形式的输入，因此只要您注意使用适当的编码，就不需要将 tokens 转换回字符串形式。以下是这样一个截断函数的示例。

import tiktoken def truncate_text_tokens(text, encoding_name=EMBEDDING_ENCODING, max_tokens=EMBEDDING_CTX_LENGTH): """Truncate a string to have `max_tokens` according to the given encoding.""" encoding = tiktoken.get_encoding(encoding_name) return encoding.encode(text)[:max_tokens]

我们之前的示例现在可以正常工作，没有错误。

2. 分块输入文本

虽然截断有效，但丢弃潜在的相关文本是一个明显的缺点。另一种方法是将输入文本分成块，然后单独嵌入每个块。然后，我们可以单独使用块嵌入，或以某种方式组合它们，例如平均（按每个块的大小加权）。

我们将从Python 自己的 cookbook 中获取一个函数，该函数将序列分解成块。

from itertools import islice def batched(iterable, n): """Batch data into tuples of length n. The last batch may be shorter.""" # batched('ABCDEFG', 3) --> ABC DEF G if n < 1: raise ValueError('n must be at least one') it = iter(iterable) while (batch := tuple(islice(it, n))): yield batch

现在我们定义一个函数，该函数将字符串编码为 tokens，然后将其分解成块。

def chunked_tokens(text, encoding_name, chunk_length): encoding = tiktoken.get_encoding(encoding_name) tokens = encoding.encode(text) chunks_iterator = batched(tokens, chunk_length) yield from chunks_iterator

最后，我们可以编写一个函数，该函数可以安全地处理嵌入请求，即使输入文本的长度超过最大上下文长度，方法是将输入 tokens 分块并单独嵌入每个块。可以将 average 标志设置为 True 以返回块嵌入的加权平均值，或设置为 False 以仅返回未修改的块嵌入列表。

import numpy as np def len_safe_get_embedding(text, model=EMBEDDING_MODEL, max_tokens=EMBEDDING_CTX_LENGTH, encoding_name=EMBEDDING_ENCODING, average=True): chunk_embeddings = [] chunk_lens = [] for chunk in chunked_tokens(text, encoding_name=encoding_name, chunk_length=max_tokens): chunk_embeddings.append(get_embedding(chunk, model=model)) chunk_lens.append(len(chunk)) if average: chunk_embeddings = np.average(chunk_embeddings, axis=0, weights=chunk_lens) chunk_embeddings = chunk_embeddings / np.linalg.norm(chunk_embeddings) # normalizes length to 1 chunk_embeddings = chunk_embeddings.tolist() return chunk_embeddings

再一次，我们现在可以处理长输入文本了。

average_embedding_vector = len_safe_get_embedding(long_text, average=True) chunks_embedding_vectors = len_safe_get_embedding(long_text, average=False) print(f"Setting average=True gives us a single {len(average_embedding_vector)}-dimensional embedding vector for our long text.") print(f"Setting average=False gives us {len(chunks_embedding_vectors)} embedding vectors, one for each of the chunks.")

在某些情况下，在段落边界或句子边界上拆分块可能更有意义，以帮助保留文本的含义。