来自网络的<0xE7><0x9B><0关联资源 | OpenAI 食谱

人们正在编写很棒的工具和论文，以改进 GPT 的输出。以下是我们看到的一些很酷的工具和论文

提示库和工具（按字母顺序排列）

Arthur Shield：一款付费产品，用于检测毒性、幻觉、提示注入等。
Baserun：一款付费产品，用于测试、调试和监控基于 LLM 的应用程序
Chainlit：一个用于制作聊天机器人界面的 Python 库。
Embedchain：一个用于管理和同步非结构化数据与 LLM 的 Python 库。
FLAML（用于自动化机器学习和调优的快速库）：一个 Python 库，用于自动化选择模型、超参数和其他可调选项。
Guidance：微软推出的一个方便的 Python 库，它使用 Handlebars 模板来交错生成、提示和逻辑控制。
Haystack：开源 LLM 编排框架，用于在 Python 中构建可定制的、生产就绪的 LLM 应用程序。
HoneyHive：一个用于评估、调试和监控 LLM 应用程序的企业平台。
LangChain：一个流行的 Python/JavaScript 库，用于链接语言模型提示序列。
LiteLLM：一个最小的 Python 库，用于以一致的格式调用 LLM API。
LlamaIndex：一个用于使用数据增强 LLM 应用程序的 Python 库。
LLMOps 数据库：关于公司如何在生产环境中实际部署 LLM 的数据库。
LMQL：一种用于 LLM 交互的编程语言，支持类型提示、控制流、约束和工具。
OpenAI Evals：一个开源库，用于评估语言模型和提示的任务性能。
Outlines：一个 Python 库，提供特定领域的语言来简化提示和约束生成。
Parea AI：一个用于调试、测试和监控 LLM 应用程序的平台。
Portkey：一个平台，为 LLM 应用程序提供可观测性、模型管理、评估和安全性。
Promptify：一个小型 Python 库，用于使用语言模型执行 NLP 任务。
PromptPerfect：一款付费产品，用于测试和改进提示。
Prompttools：开源 Python 工具，用于测试和评估模型、向量数据库和提示。
Scale Spellbook：一款付费产品，用于构建、比较和交付语言模型应用程序。
Semantic Kernel：微软推出的一个 Python/C#/Java 库，支持提示模板、函数链、向量化内存和智能规划。
Vellum：一个付费 AI 产品开发平台，用于试验、评估和部署高级 LLM 应用程序。
Weights & Biases：一款付费产品，用于跟踪模型训练和提示工程实验。
YiVal：一个开源 GenAI-Ops 工具，用于使用可定制的数据集、评估方法和演化策略来调整和评估提示、检索配置和模型参数。

提示指南

Brex 的提示工程指南：Brex 对语言模型和提示工程的介绍。
learnprompting.org：提示工程入门课程。
Lil'Log 提示工程：一位 OpenAI 研究员对提示工程文献的回顾（截至 2023 年 3 月）。
OpenAI 食谱：提高可靠性的技术：对提示语言模型技术的稍有过时（2022 年 9 月）的回顾。
promptingguide.ai：一个演示了许多技术的提示工程指南。
Xavi Amatriain 的提示工程 101 入门和 201 高级提示工程：对提示工程的基本但有主见的介绍，以及随后包含许多高级方法的集合，从 CoT 开始。

视频课程

Andrew Ng 的 DeepLearning.AI：面向开发人员的提示工程速成课程。
Andrej Karpathy 的 Let's build GPT：深入探讨 GPT 底层的机器学习。
DAIR.AI 的提示工程：关于各种提示工程技术的一小时视频。
关于 Assistants API 的 Scrimba 课程：关于 Assistants API 的 30 分钟互动课程。
LinkedIn 课程：提示工程入门：如何与 AI 对话：提示工程的简短视频介绍

关于改进推理的高级提示的论文

思维链提示引发大型语言模型的推理 (2022)：使用少样本提示要求模型逐步思考可以提高其推理能力。PaLM 在数学应用题 (GSM8K) 上的得分从 18% 提高到 57%。
自洽性提高语言模型中思维链推理的性能 (2022)：从多个输出中投票可以进一步提高准确性。对 40 个输出进行投票使 PaLM 在数学应用题上的得分进一步提高，从 57% 提高到 74%，code-davinci-002 的得分从 60% 提高到 78%。
思维树：使用大型语言模型进行深思熟虑的问题解决 (2023)：在逐步推理树上搜索比在思维链上投票更有帮助。它提高了 GPT-4 在创意写作和填字游戏中的得分。
语言模型是零样本推理器 (2022)：告诉指令跟随模型逐步思考可以提高其推理能力。它将 text-davinci-002 在数学应用题 (GSM8K) 上的得分从 13% 提高到 41%。
大型语言模型是人类水平的提示工程师 (2023)：在可能的提示中自动搜索发现了一个提示，该提示将数学应用题 (GSM8K) 的得分提高到 43%，比语言模型是零样本推理器中的人类编写的提示高出 2 个百分点。
Reprompting：通过 Gibbs 采样进行自动化思维链提示推断 (2023)：在可能的思维链提示中自动搜索将 ChatGPT 在一些基准测试中的得分提高了 0-20 个百分点。
使用大型语言模型进行忠实推理 (2022)：可以通过结合以下内容的系统来改进推理：由替代选择和推理提示生成的思维链、选择何时停止选择-推理循环的暂停模型、搜索多个推理路径的值函数以及有助于避免幻觉的句子标签。
STaR：通过推理引导推理 (2022)：思维链推理可以通过微调融入模型。对于具有答案键的任务，示例思维链可以由语言模型生成。
ReAct：语言模型中协同推理和行动 (2023)：对于具有工具或环境的任务，如果预先规定在推理步骤（思考要做什么）和行动（从工具或环境获取信息）之间交替，则思维链效果更好。
Reflexion：具有动态记忆和自我反思的自主代理 (2023)：使用先前失败的记忆重试任务可以提高后续表现。
Demonstrate-Search-Predict：组合检索和语言模型以进行知识密集型 NLP (2023)：通过“检索然后阅读”知识增强的模型可以通过多跳搜索得到改进。
通过多智能体辩论提高语言模型的真实性和推理能力 (2023)：在几个 ChatGPT 代理之间进行几轮辩论可以提高各种基准测试的得分。数学应用题得分从 77% 提高到 85%。