Agent领域问题（一）【AI整理】

2025-08-04 / agent llm 面试

核心问题：五种常见Agent设计模式的区分与应用

我们先逐一拆解您提到的五种模式：ReAct、CodeAct、Agentic RAG、Self-Reflection、Multi-Agent Planner。

1. ReAct (Reason + Act)

核心思想: 将语言模型（LLM）的推理能力和行动能力交织在一起。它模仿了人类“思考一下，做一步，再看看结果，再思考...”的解决问题方式。
运行范式: Thought -> Action -> Observation -> Thought ...
- Thought: LLM 自我思考，决定下一步该做什么。
- Action: 调用一个外部工具（如搜索引擎、计算器、API）。
- Observation: 获取工具返回的结果。
本质差异: 这是最基础、最经典的Agent模式。它的核心是让LLM成为一个调度器，通过不断调用工具来与外部世界交互，弥补自身知识截止和计算能力不足的短板。它与其他模式的关系是基础与上层建筑的关系。
适用场景:
- 事实问答: "今天天气怎么样？" -> Action: search("北京天气")
- 简单的信息整合: "苹果公司的CEO是谁？他多大了？" -> 需要多次搜索并整合信息。
- API驱动的任务: "帮我在日历上创建一个明天下午3点的会议。" -> Action: calendar_api.create_event(...)
总结: ReAct是Agent的“Hello, World!”，是构建更复杂模式的基础。它适合目标明确、步骤相对简单、可以通过工具直接完成的任务。

2. CodeAct (Code + Act)

核心思想: ReAct的特定但超级强化版本，其唯一的 Action就是生成和执行代码（通常是Python）。
运行范式: Thought -> Action(Generate Code) -> Observation(Execution Result) -> Thought ...
本质差异: 相对于ReAct可以使用多种简单工具，CodeAct只使用“代码解释器”这一个万能工具。代码的表达能力远超简单的API调用，可以处理复杂的逻辑、数据转换、文件操作和算法。这让Agent的能力从“调度员”跃升为“程序员”。
适用场景:
- 复杂数据分析: "分析这份CSV文件，计算第二列的平均值和标准差，并绘制一个直方图。"
- 文件操作与内容生成: "读取这个目录下的所有.txt文件，提取其中包含‘invoice’的行，并写入一个新的JSON文件。"
- 任何需要精确逻辑和计算的任务: "求解一个三元一次方程组。"
总结: 当任务需要复杂的逻辑、状态维持、精确计算或数据处理时，CodeAct是远比ReAct更优越的选择。它将任务的“执行”部分完全交给了稳定、可靠的代码解释器。

3. Agentic RAG (增强的检索与生成)

核心思想: 将RAG（检索增强生成）从一个被动的“检索-生成”流水线，升级为一个主动的、迭代的知识探索过程。Agent会主动决定何时检索、检索什么、以及如何利用检索到的信息。
运行范式: Initial Question -> Thought(Need more info?) -> Action(Formulate Query & Retrieve) -> Observation(Docs) -> Thought(Is this enough? Synthesize or Refine Query?) -> ... -> Final Answer
本质差异:
- 传统RAG: Query -> Retrieve -> Stuff into Context -> Generate，这是一个单向、固定的流程。
- Agentic RAG: Agent是核心，RAG是它使用的一个工具。它可以迭代检索（发现第一批文档不满足要求后，生成新的、更精确的查询再次检索）、并行检索（同时从多个知识库或用多种方式检索）、在检索结果上进行推理（比如判断信息是否矛盾）。
适用场景:
- 复杂研究性问题: "比较一下CRISPR-Cas9和Prime Editing在基因编辑效率和脱靶效应上的优缺点，并引用相关论文。" 这需要多次、多角度的检索和信息整合。
- 开放域对话: 用户的问题模糊不清，需要Agent通过检索来澄清和探索。
- 需要深度整合知识库的任务: "根据我们的内部文档，为新员工制定一个为期一周的入职培训计划。" 这需要检索多个文档（公司介绍、产品手册、安全规定）并进行规划。
总结: 当单一的、简单的检索不足以回答问题，需要对信息进行探索、筛选和深度整合时，Agentic RAG是最佳选择。

4. Self-Reflection (自我反思/修正)

核心思想: 在Agent的执行链路中增加一个**“反思”和“修正”**的环节。Agent会生成一个初步结果，然后由另一个（或同一个）LLM调用来评估这个结果，并提出改进建议，再根据建议进行修改。
运行范式: Generate Draft -> Reflect & Critique -> Refine based on Critique -> Final Output
本质差异: 它为Agent链路增加了一个反馈循环（Feedback Loop）。与ReAct的 Action-Observation循环不同，Self-Reflection的循环是关于提升自身生成内容的质量，而不是与外部世界交互。它可以与任何生成内容的模式（如ReAct, CodeAct）结合。
适用场景:
- 内容创作: 写一篇文章、一封邮件、一段代码。初稿可能存在问题，通过反思可以优化文笔、修正逻辑错误。
- 复杂规划: 生成一个项目计划后，反思“这个计划是否考虑了所有风险？时间安排是否合理？”
- 减少幻觉: 在生成答案后，反思“我生成的这个答案是否有事实依据？是否回答了用户的核心问题？”
总结: 当输出质量至关重要，且一次性生成的结果难以完美时，引入Self-Reflection模式可以显著提升最终结果的可靠性和质量。

5. Multi-Agent Planner (多智能体规划)

核心思想: 分而治之。将一个宏大、复杂的任务分解成多个子任务，分配给不同角色（能力不同）的Agent来协同完成。通常会有一个“规划者”或“经理”Agent负责任务分解和协调。
运行范式: User Request -> Planner Agent(Decompose Task & Assign) -> [Specialist Agent 1(Executes Sub-task), Specialist Agent 2(Executes Sub-task), ...] -> Planner Agent(Synthesize Results & Review) -> Final Output
本质差异: 核心是任务分解和角色协同。它从单兵作战变成了团队协作。每个Agent可以有自己独立的模式（例如，一个分析师Agent可能是CodeAct，一个研究员Agent可能是Agentic RAG）。
适用场景:
- 端到端的复杂项目: "为我写一份关于自动驾驶汽车市场的商业分析报告。" 这需要：研究员Agent（Agentic RAG）收集数据、分析师Agent（CodeAct）分析数据并生成图表、作家Agent（Self-Reflection）将所有内容整合成报告。
- 模拟复杂系统: 模拟一个市场环境，其中有消费者Agent、生产者Agent、监管者Agent，观察它们的互动。
- 需要多种专业能力的软件开发: "开发一个简单的网站，前端用React，后端用Node.js。" 可以有一个前端Agent和一个后端Agent。
总结: 适用于极其复杂、需要多种不同技能、可以被清晰分解为多个独立步骤的宏大任务。

表格总结：本质差异与适用场景

设计模式	本质差异	适用场景
ReAct	LLM作为工具调度器，通过“思考-行动-观察”循环与外部交互。	目标明确、步骤简单的API调用、事实查询任务。
CodeAct	LLM作为程序员，只使用“代码解释器”这一个万能工具。	复杂数据分析、精确计算、文件处理、任何代码能高效解决的任务。
Agentic RAG	LLM作为主动研究员，迭代式、策略性地使用检索工具。	复杂研究性问题、需要深度整合知识库、答案不明确的探索性任务。
Self-Reflection	为Agent增加质量反馈循环，通过自我批判和修正来提升输出质量。	内容创作、复杂规划、需要高可靠性和低幻觉的场景。
Multi-Agent Planner	任务分解与团队协作，将大任务分配给不同角色的Agent协同完成。	极其复杂、需要多种专业能力、可清晰分解的宏大项目。

实践经验、错误选型与核心区别

在实际项目中做过切换？有没有踩过坑？

当然，这是非常常见的。举一个我“见过”的典型案例：

任务: 创建一个能自动生成市场分析报告的Agent。

初版选型 (踩坑): 单一的ReAct Agent。
- 想法: 让Agent通过搜索API（search("... a ...")）收集信息，然后直接生成报告。
- 踩坑结果: 报告质量极差。Agent要么陷入无尽的搜索循环，要么只基于几条搜索结果就草草下结论，充满了事实错误和逻辑断裂。它无法处理数字（如计算市场增长率），也无法整合来自多个来源的矛盾信息。
- 原因: ReAct太“平”了，它每一步的视野都很短，缺乏对任务的宏观规划和对信息进行深度处理的能力。
改进与切换:
1. 引入CodeAct: 为了解决数据分析和计算问题，我们将一个专门的 Data Analyst角色切换为CodeAct模式。现在它可以接收原始数据（如CSV文件或JSON），运行Python脚本进行统计分析和图表生成。这是一个巨大的进步。
2. 引入Agentic RAG: 为了解决信息收集质量问题，我们将 Researcher角色升级为Agentic RAG模式。它不再是简单搜索，而是会先生成一个研究大纲（"我需要找市场规模、主要玩家、增长趋势、技术壁垒..."），然后针对每个点进行多轮、深入的检索，并初步整合信息。
3. 引入Self-Reflection: 为了提升最终报告的文笔和逻辑，我们在 Writer Agent生成初稿后，增加了一个 Editor角色（或让 Writer自我反思），它会检查报告的流畅性、一致性和是否有遗漏。
4. 最终架构: 演变成了Multi-Agent Planner模式。一个 Manager Agent接收用户请求，将任务分解为“研究”、“分析”和“写作”，分别交给 Researcher(Agentic RAG), Analyst(CodeAct), 和 Writer(with Self-Reflection)三个专业Agent，最后由 Manager整合最终报告。

这个演进过程清晰地展示了，单一模式往往无法应对复杂需求，真正的解决方案通常是多种模式的有机结合。

AutoGPT-style 与 Planner-style 的核心区别？

这是一个非常好的问题，触及了Agent架构的两种哲学。

AutoGPT-style (更像ReAct的持续循环):
- 核心驱动: 记忆（Memory）和持续的、线性的任务队列。
- 工作方式: 它有一个目标，然后基于这个目标和过去的行动历史（记忆），决定下一个行动是什么。完成一个行动后，把结果存入记忆，然后再次循环。它没有一个预先制定的完整计划。
- 比喻: > 像一个探索者在迷雾中行走。他只知道大致的方向（最终目标），但每一步都是根据脚下的情况和刚走过的路来决定的。它是自下而上、机会主义的。
- 优点: 灵活，适应性强，能应对未知情况。
- 缺点: 容易陷入循环、偏离主题、效率低下，因为缺乏宏观规划。
Planner-style (如Multi-Agent Planner中的规划者):
- 核心驱动: 预先规划（Upfront Planning）。
- 工作方式: 接收到任务后，第一步不是执行，而是分解。它会生成一个详细的、有步骤的计划（Plan），这个计划可以是线性的，也可以是图（DAG）。然后，一个或多个执行者（Executor）Agent会严格按照这个计划去执行。
- 比喻: > 像一个建筑师和施工队。建筑师先画好完整的蓝图（Plan），然后施工队按照蓝图一步步施工。它是自顶向下、结构化的。
- 优点: 结构清晰、任务可控、效率高、不容易偏离目标。
- 缺点: 灵活性差，如果最初的计划有缺陷，或者外部环境发生剧变，整个系统可能难以适应。

核心区别: AutoGPT是“先做再想下一步”，而Planner是“先想好所有步，再开始做”。现代的复杂Agent系统通常会结合两者，比如有一个宏观的Planner，但在执行每个具体步骤时，允许Executor Agent具有一定的自主性（类似AutoGPT的循环）。

Reflective Agent 模式会对链路结构带来怎样的影响？

Reflective Agent模式对链路结构的影响是根本性的：

从“线性链”到“循环图”:
- 无反思: Input -> Process -> Output。这是一条直线，数据单向流动。
- 有反思: Input -> Process (Generate Draft) -> Reflect (Critique) -> Process (Refine) -> Output。这就形成了一个环路（Loop）。数据流不再是单向的，而是会回流进行迭代优化。
增加延迟（Latency）但提升质量: 引入反思环节，意味着至少需要多一次（甚至多次）LLM调用。这必然会增加整个任务的完成时间。这是一个经典的速度与质量的权衡。对于需要即时响应的聊天机器人，过度反思是不可接受的；但对于生成一篇高质量文章或一段健壮的代码，这种延迟是完全值得的。
复杂的状态管理: 在简单的线性链中，你只需要管理当前的状态。但在反思环路中，你需要同时管理**草稿（Draft）、批判意见（Critique）、修改历史（Revision History）**等多个状态。这对系统的工程实现提出了更高的要求。
成本增加: 每次反思和修改都是一次LLM调用，会直接增加API的使用成本。因此需要设计明智的策略，决定何时启动反思以及迭代多少次后停止。

总而言之，引入反思模式，是以增加系统复杂度、延迟和成本为代价，来换取输出结果质量和可靠性的显著提升。它迫使Agent的开发者从设计简单的“流水线”转向设计更复杂的“迭代优化系统”。

标题：Agent领域问题（一）【AI整理】
作者：gitsilence
地址：https://blog.lacknb.cn/articles/2025/08/04/1754268350524.html