文章

构建高效智能体:Anthropic 实践指南 [译]

构建高效智能体:Anthropic 实践指南 [译]

构建高效智能体

过去一年,我们与数十个团队合作,帮助他们在不同行业构建大语言模型(LLM)智能体。我们发现,最成功的实现并非依赖复杂的框架或专门的库,而是采用简单、可组合的模式。

本文将分享我们从客户合作和自身智能体开发中获得的经验,为开发者提供构建高效智能体的实用建议。

什么是智能体?

「智能体」可以有多种定义。一些客户将智能体定义为能够长期独立运行、使用各种工具完成复杂任务的完全自主系统。另一些则用这个术语描述遵循预定工作流程的更具规范性的实现。在 Anthropic,我们将所有这些变体都归类为「智能系统」,但在架构上区分「工作流」和「智能体」:

  • 「工作流」是通过预定义的代码路径来编排 LLM 和工具的系统。
  • 「智能体」则是 LLM 能够动态指导自身流程和工具使用的系统,可以自主控制任务完成方式。

下文将详细探讨这两种智能系统。在附录 1「智能体实践」中,我们描述了客户在使用这些系统时发现特别有价值的两个领域。

何时使用(或不使用)智能体

在构建 LLM 应用时,我们建议寻找最简单的解决方案,只有在必要时才增加复杂性。这可能意味着完全不构建智能系统。智能系统通常会用延迟和成本换取更好的任务性能,你需要考虑这种权衡是否有意义。

当需要更复杂的系统时,工作流为定义明确的任务提供可预测性和一致性,而智能体则在需要灵活性和模型驱动决策的场景下是更好的选择。然而,对于许多应用来说,通过检索和上下文示例优化单个 LLM 调用通常就足够了。

何时以及如何使用框架

市面上有许多框架可以简化智能系统的实现,包括:

  • LangChain 的「LangGraph」
  • 亚马逊 Bedrock 的「AI 智能体框架」
  • 「Rivet」,一个拖放式 GUI LLM 工作流构建器
  • 「Vellum」,另一个用于构建和测试复杂工作流的 GUI 工具

这些框架通过简化标准的底层任务(如调用 LLM、定义和解析工具、链接调用等)使入门变得容易。但它们往往会创建额外的抽象层,掩盖底层提示和响应,使调试变得更困难。它们也可能在简单设置就足够的情况下诱使人添加复杂性。

我们建议开发者直接使用 LLM API:许多模式只需几行代码就能实现。如果你使用框架,请确保理解底层代码。对底层内容的错误假设是客户常见的错误来源。

可以查看我们的「cookbook」获取一些示例实现。

构建模块、工作流和智能体

在本节中,我们将探讨我们在生产环境中看到的智能系统常见模式。我们将从基础构建模块「增强型 LLM」开始,逐步增加复杂性,从简单的组合工作流到自主智能体。

构建模块:增强型 LLM

智能系统的基本构建模块是经过检索、工具和记忆等功能增强的 LLM。我们当前的模型可以主动使用这些功能,生成自己的搜索查询、选择合适的工具,并决定保留哪些信息。

增强型 LLM

我们建议关注实现的两个关键方面:根据具体用例定制这些功能,并确保它们为 LLM 提供简单、文档完善的接口。虽然实现这些增强功能有多种方式,但一种方法是通过我们最近发布的「模型上下文协议」,该协议允许开发者通过简单的「客户端实现」与不断发展的第三方工具生态系统集成。

在本文的剩余部分,我们将假设每个 LLM 调用都能访问这些增强功能。

工作流:提示链

提示链将任务分解为一系列步骤,每个 LLM 调用处理上一个调用的输出。你可以在任何中间步骤添加程序检查(见下图中的「门」),以确保流程仍在正轨上。

提示链工作流

何时使用此工作流:这种工作流非常适合可以轻松清晰地分解为固定子任务的情况。主要目标是通过让每个 LLM 调用成为更容易的任务来用延迟换取更高的准确性。

提示链有用的示例:

  • 生成营销文案,然后将其翻译成其他语言。
  • 写文档大纲,检查大纲是否符合特定标准,然后根据大纲写文档。

工作流:路由

路由对输入进行分类并将其引导到专门的后续任务。这种工作流允许关注点分离,并构建更专门的提示。如果没有这种工作流,为一种输入优化可能会影响其他输入的性能。

路由工作流

何时使用此工作流:路由适用于存在不同类别且最好分别处理的复杂任务,同时分类可以由 LLM 或更传统的分类模型/算法准确处理。

路由有用的示例:

  • 将不同类型的客户服务查询(一般问题、退款请求、技术支持)引导到不同的下游流程、提示和工具。
  • 将简单/常见问题路由到 Claude 3.5 Haiku 等较小的模型,将困难/不寻常的问题路由到 Claude 3.5 Sonnet 等更强大的模型,以优化成本和速度。

工作流:并行化

LLM 有时可以同时处理任务,其输出通过程序聚合。这种工作流「并行化」有两个关键变体:

  • 「分段」:将任务分解为并行运行的独立子任务。
  • 「投票」:多次运行相同任务以获得不同输出。

并行化工作流

何时使用此工作流:当分割的子任务可以并行化以提高速度,或需要多个视角或尝试以获得更高置信度结果时,并行化是有效的。对于具有多个考虑因素的复杂任务,LLM 通常在每个考虑因素由单独的 LLM 调用处理时表现更好,因为这允许对每个特定方面进行集中注意。

并行化有用的示例:

  • 「分段」:
    • 实现防护,其中一个模型实例处理用户查询,而另一个筛查不当内容或请求。这种方式比让同一个 LLM 调用同时处理防护和核心响应表现更好。
    • 用于评估 LLM 性能的自动化评估,其中每个 LLM 调用评估模型在给定提示上的不同性能方面。
  • 「投票」:
    • 审查代码中的漏洞,多个提示进行审查并在发现问题时标记。
    • 评估给定内容是否不当,多个提示评估不同方面或需要不同投票阈值来平衡误报和漏报。

工作流:协调器-工作者

在协调器-工作者工作流中,一个中心 LLM 动态分解任务、将其委托给工作者 LLM,并综合他们的结果。

协调器-工作者工作流

何时使用此工作流:这种工作流非常适合无法预测所需子任务的复杂任务(例如,在编码中,需要更改的文件数量和每个文件中的更改性质可能取决于任务)。虽然在拓扑上与并行化类似,但关键区别在于其灵活性 —— 子任务不是预定义的,而是由协调器根据具体输入确定的。

协调器-工作者有用的示例:

  • 每次对多个文件进行复杂更改的编码产品。
  • 涉及从多个来源收集和分析信息以寻找可能相关信息的搜索任务。

工作流:评估者-优化者

在评估者-优化者工作流中,一个 LLM 调用生成响应,而另一个在循环中提供评估和反馈。

评估者-优化者工作流

何时使用此工作流:当我们有明确的评估标准,且迭代改进能提供可衡量的价值时,这种工作流特别有效。判断是否适合的两个标志是:首先,当人类表达他们的反馈时,LLM 响应可以明显改进;其次,LLM 可以提供这样的反馈。这类似于人类作者在创作精炼文档时可能经历的迭代写作过程。

评估者-优化者有用的示例:

  • 文学翻译,其中有些细微差别翻译 LLM 可能最初没有捕捉到,但评估者 LLM 可以提供有用的批评。
  • 需要多轮搜索和分析才能收集全面信息的复杂搜索任务,评估者决定是否需要进一步搜索。

智能体

随着 LLM 在关键能力上的成熟 —— 理解复杂输入、进行推理和规划、可靠使用工具以及从错误中恢复 —— 智能体正在生产中涌现。智能体通过用户的命令或互动讨论开始工作。一旦任务明确,智能体就会独立规划和运作,必要时回到用户寻求更多信息或判断。在执行过程中,智能体必须在每一步从环境中获得「基本事实」(如工具调用结果或代码执行)来评估其进展。智能体可以在检查点或遇到障碍时暂停以获取人类反馈。任务通常在完成时终止,但也常包括停止条件(如最大迭代次数)以保持控制。

智能体可以处理复杂任务,但它们的实现通常很简单。它们通常只是基于环境反馈在循环中使用工具的 LLM。因此,清晰周到地设计工具集及其文档至关重要。我们在附录 2「工具的提示工程」中详细介绍了工具开发的最佳实践。

自主智能体

何时使用智能体:智能体可用于难以或无法预测所需步骤数量,且无法硬编码固定路径的开放性问题。LLM 可能需要运行多轮,你必须对其决策有一定信任。智能体的自主性使其非常适合在可信环境中扩展任务。

智能体的自主性意味着更高的成本,以及可能的错误累积。我们建议在沙箱环境中进行广泛测试,并设置适当的防护措施。

智能体有用的示例:

以下示例来自我们自己的实现:

  • 一个用于解决「SWE-bench 任务」的编码智能体,这些任务涉及根据任务描述对多个文件进行编辑;
  • 我们的「计算机使用参考实现」,其中 Claude 使用计算机完成任务。

编码智能体的高层流程

组合和定制这些模式

这些构建模块并非规定性的。它们是开发者可以根据不同用例塑造和组合的常见模式。与任何 LLM 功能一样,成功的关键在于衡量性能并迭代实现。再次强调:只有在明显改善结果时才考虑增加复杂性。

总结

在 LLM 领域取得成功并非关乎构建最复杂的系统,而是构建适合你需求的「正确」系统。从简单提示开始,通过全面评估优化它们,仅在更简单的解决方案不足时才添加多步骤智能系统。

在实现智能体时,我们尽量遵循三个核心原则:

  1. 保持智能体设计的「简单性」。
  2. 通过明确展示智能体的规划步骤来确保「透明性」。
  3. 通过全面的文档和测试来精心设计你的智能体-计算机接口(ACI)。

框架可以帮助你快速入门,但在转向生产时不要犹豫减少抽象层并使用基本组件构建。遵循这些原则,你可以创建不仅强大而且可靠、可维护,并且能获得用户信任的智能体。

致谢

由 Erik Schluntz 和 Barry Zhang 撰写。本文借鉴了我们在 Anthropic 构建智能体的经验,以及客户分享的宝贵见解,我们对此深表感谢。

附录 1:智能体实践

我们与客户的合作揭示了 AI 智能体的两个特别有前景的应用,这些应用展示了上述模式的实际价值。这两个应用都说明了智能体在同时需要对话和行动、具有明确成功标准、启用反馈循环,并整合有意义的人类监督的任务中如何增加最大价值。

A. 客户支持

客户支持将熟悉的聊天机器人界面与通过工具集成实现的增强功能相结合。这非常适合更开放的智能体,因为:

  • 支持交互自然遵循对话流程,同时需要访问外部信息和行动;
  • 可以集成工具来获取客户数据、订单历史和知识库文章;
  • 可以通过程序处理发放退款或更新工单等操作;以及
  • 可以通过用户定义的解决方案清晰衡量成功。

几家公司通过基于使用的定价模型展示了这种方法的可行性,即仅对成功解决的案例收费,显示了他们对智能体效能的信心。

B. 编码智能体

软件开发领域在 LLM 功能方面展现了显著潜力,从代码补全发展到自主问题解决。智能体特别有效,因为:

  • 代码解决方案可以通过自动化测试验证;
  • 智能体可以使用测试结果作为反馈来迭代解决方案;
  • 问题空间定义明确且结构化;以及
  • 可以客观衡量输出质量。

在我们自己的实现中,智能体现在可以仅基于 pull request 描述来解决「SWE-bench Verified」基准测试中的真实 GitHub 问题。然而,虽然自动化测试有助于验证功能,但人工审查对于确保解决方案符合更广泛的系统要求仍然至关重要。

附录 2:工具的提示工程

无论你构建哪种智能系统,工具都可能是智能体的重要组成部分。「工具」使 Claude 能够通过在我们的 API 中指定其确切结构和定义来与外部服务和 API 交互。当 Claude 响应时,如果它计划调用工具,它会在 API 响应中包含「工具使用块」。工具定义和规范应该得到与整体提示同等的提示工程关注。在这个简短的附录中,我们描述如何为工具进行提示工程。

通常有几种方式可以指定相同的操作。例如,你可以通过编写差异或重写整个文件来指定文件编辑。对于结构化输出,你可以在 markdown 或 JSON 内返回代码。在软件工程中,这些差异是表面的,可以无损地从一种转换为另一种。然而,某些格式对 LLM 来说比其他格式更难写入。编写差异需要在写入新代码之前知道块头中要更改的行数。在 JSON 中编写代码(与 markdown 相比)需要额外转义换行符和引号。

我们对决定工具格式的建议如下:

  • 给模型足够的词元来「思考」,避免陷入死角。
  • 保持格式接近模型在互联网上自然出现的文本。
  • 确保没有格式「开销」,比如必须保持数千行代码的准确计数,或对它写入的任何代码进行字符串转义。

一个经验法则是思考在人机界面(HCI)上投入了多少努力,并计划在创建良好的「智能体-计算机界面」(ACI)上投入同样多的努力。以下是一些如何做到这一点的建议:

  • 设身处地为模型着想。基于描述和参数,使用这个工具是否显而易见,还是需要仔细思考?如果是后者,那么对模型来说可能也是如此。一个好的工具定义通常包括使用示例、边缘情况、输入格式要求,以及与其他工具的明确界限。
  • 如何改变参数名称或描述使事情更明显?想象这是为团队中的初级开发人员写一个很棒的文档字符串。这在使用多个相似工具时尤其重要。
  • 测试模型如何使用你的工具:在我们的「workbench」中运行多个示例输入,看看模型会犯什么错误,然后迭代。
  • 对你的工具进行「防错」。更改参数,使其更难出错。

在构建我们的「SWE-bench」智能体时,我们实际上花在优化工具上的时间比花在整体提示上的时间更多。例如,我们发现模型在智能体移出根目录后使用相对文件路径的工具时会出错。为了修复这个问题,我们更改了工具,始终要求使用绝对文件路径 —— 我们发现模型完美地使用了这种方法。



原文作者:Erik Schluntz、Barry Zhang
原文链接:https://www.anthropic.com/research/building-effective-agents

本文由作者按照 CC BY 4.0 进行授权