人们正在编写很棒的工具和论文,以改进 GPT 的输出。以下是我们看到的一些很酷的工具和论文
提示库和工具(按字母顺序排列)
- Arthur Shield:一款付费产品,用于检测毒性、幻觉、提示注入等。
- Baserun:一款付费产品,用于测试、调试和监控基于 LLM 的应用程序
- Chainlit:一个用于制作聊天机器人界面的 Python 库。
- Embedchain:一个用于管理和同步非结构化数据与 LLM 的 Python 库。
- FLAML(用于自动化机器学习和调优的快速库):一个 Python 库,用于自动化选择模型、超参数和其他可调选项。
- Guidance:微软推出的一个方便的 Python 库,它使用 Handlebars 模板来交错生成、提示和逻辑控制。
- Haystack:开源 LLM 编排框架,用于在 Python 中构建可定制的、生产就绪的 LLM 应用程序。
- HoneyHive:一个用于评估、调试和监控 LLM 应用程序的企业平台。
- LangChain:一个流行的 Python/JavaScript 库,用于链接语言模型提示序列。
- LiteLLM:一个最小的 Python 库,用于以一致的格式调用 LLM API。
- LlamaIndex:一个用于使用数据增强 LLM 应用程序的 Python 库。
- LLMOps 数据库:关于公司如何在生产环境中实际部署 LLM 的数据库。
- LMQL:一种用于 LLM 交互的编程语言,支持类型提示、控制流、约束和工具。
- OpenAI Evals:一个开源库,用于评估语言模型和提示的任务性能。
- Outlines:一个 Python 库,提供特定领域的语言来简化提示和约束生成。
- Parea AI:一个用于调试、测试和监控 LLM 应用程序的平台。
- Portkey:一个平台,为 LLM 应用程序提供可观测性、模型管理、评估和安全性。
- Promptify:一个小型 Python 库,用于使用语言模型执行 NLP 任务。
- PromptPerfect:一款付费产品,用于测试和改进提示。
- Prompttools:开源 Python 工具,用于测试和评估模型、向量数据库和提示。
- Scale Spellbook:一款付费产品,用于构建、比较和交付语言模型应用程序。
- Semantic Kernel:微软推出的一个 Python/C#/Java 库,支持提示模板、函数链、向量化内存和智能规划。
- Vellum:一个付费 AI 产品开发平台,用于试验、评估和部署高级 LLM 应用程序。
- Weights & Biases:一款付费产品,用于跟踪模型训练和提示工程实验。
- YiVal:一个开源 GenAI-Ops 工具,用于使用可定制的数据集、评估方法和演化策略来调整和评估提示、检索配置和模型参数。
提示指南
- Brex 的提示工程指南:Brex 对语言模型和提示工程的介绍。
- learnprompting.org:提示工程入门课程。
- Lil'Log 提示工程:一位 OpenAI 研究员对提示工程文献的回顾(截至 2023 年 3 月)。
- OpenAI 食谱:提高可靠性的技术:对提示语言模型技术的稍有过时(2022 年 9 月)的回顾。
- promptingguide.ai:一个演示了许多技术的提示工程指南。
- Xavi Amatriain 的提示工程 101 入门 和 201 高级提示工程:对提示工程的基本但有主见的介绍,以及随后包含许多高级方法的集合,从 CoT 开始。
视频课程
- Andrew Ng 的 DeepLearning.AI:面向开发人员的提示工程速成课程。
- Andrej Karpathy 的 Let's build GPT:深入探讨 GPT 底层的机器学习。
- DAIR.AI 的提示工程:关于各种提示工程技术的一小时视频。
- 关于 Assistants API 的 Scrimba 课程:关于 Assistants API 的 30 分钟互动课程。
- LinkedIn 课程:提示工程入门:如何与 AI 对话:提示工程的简短视频介绍
关于改进推理的高级提示的论文
- 思维链提示引发大型语言模型的推理 (2022):使用少样本提示要求模型逐步思考可以提高其推理能力。PaLM 在数学应用题 (GSM8K) 上的得分从 18% 提高到 57%。
- 自洽性提高语言模型中思维链推理的性能 (2022):从多个输出中投票可以进一步提高准确性。对 40 个输出进行投票使 PaLM 在数学应用题上的得分进一步提高,从 57% 提高到 74%,
code-davinci-002
的得分从 60% 提高到 78%。 - 思维树:使用大型语言模型进行深思熟虑的问题解决 (2023):在逐步推理树上搜索比在思维链上投票更有帮助。它提高了
GPT-4
在创意写作和填字游戏中的得分。 - 语言模型是零样本推理器 (2022):告诉指令跟随模型逐步思考可以提高其推理能力。它将
text-davinci-002
在数学应用题 (GSM8K) 上的得分从 13% 提高到 41%。 - 大型语言模型是人类水平的提示工程师 (2023):在可能的提示中自动搜索发现了一个提示,该提示将数学应用题 (GSM8K) 的得分提高到 43%,比语言模型是零样本推理器中的人类编写的提示高出 2 个百分点。
- Reprompting:通过 Gibbs 采样进行自动化思维链提示推断 (2023):在可能的思维链提示中自动搜索将 ChatGPT 在一些基准测试中的得分提高了 0-20 个百分点。
- 使用大型语言模型进行忠实推理 (2022):可以通过结合以下内容的系统来改进推理:由替代选择和推理提示生成的思维链、选择何时停止选择-推理循环的暂停模型、搜索多个推理路径的值函数以及有助于避免幻觉的句子标签。
- STaR:通过推理引导推理 (2022):思维链推理可以通过微调融入模型。对于具有答案键的任务,示例思维链可以由语言模型生成。
- ReAct:语言模型中协同推理和行动 (2023):对于具有工具或环境的任务,如果预先规定在推理步骤(思考要做什么)和行动(从工具或环境获取信息)之间交替,则思维链效果更好。
- Reflexion:具有动态记忆和自我反思的自主代理 (2023):使用先前失败的记忆重试任务可以提高后续表现。
- Demonstrate-Search-Predict:组合检索和语言模型以进行知识密集型 NLP (2023):通过“检索然后阅读”知识增强的模型可以通过多跳搜索得到改进。
- 通过多智能体辩论提高语言模型的真实性和推理能力 (2023):在几个 ChatGPT 代理之间进行几轮辩论可以提高各种基准测试的得分。数学应用题得分从 77% 提高到 85%。