OpenAI 的音频转录 API 有一个可选参数,称为 prompt
。
prompt 旨在帮助拼接多个音频片段。通过提交先前片段的转录文本作为 prompt,Whisper 模型可以使用该上下文来更好地理解语音并保持一致的写作风格。
但是,prompt 不需要是来自先前音频片段的真实转录文本。可以提交虚构的 prompt 来引导模型使用特定的拼写或风格。
本笔记本分享了两种使用虚构 prompt 来引导模型输出的技术
- 转录生成:GPT 可以将指令转换为虚构的转录文本,供 Whisper 模仿。
- 拼写指南:拼写指南可以告诉模型如何拼写人名、产品名、公司名等。
这些技术并非特别可靠,但在某些情况下可能有用。
与 GPT prompt 的比较
prompt Whisper 与 prompt GPT 不同。例如,如果您提交类似“以 Markdown 格式格式化列表”的指令,模型将不会遵守,因为它遵循 prompt 的风格,而不是其中包含的任何指令。
此外,prompt 仅限于 224 个 tokens。如果 prompt 长度超过 224 个 tokens,则只会考虑 prompt 的最后 224 个 tokens;所有之前的 tokens 将被静默忽略。使用的分词器是 多语言 Whisper 分词器。
为了获得良好的结果,请制作能够体现您期望风格的示例。