什么是 Agent？与大模型有什么本质不同？

💡 核心一句话

AI Agent 本质上是一个能够基于目标，自主感知环境、进行规划决策、调用工具执行，并根据结果持续反馈调整的智能系统。

📋 面试场景还原

👔 面试官：说说你理解的 AI Agent 是什么？

🙋 我：Agent 就是给大模型加了插件，比如 ChatGPT 的插件功能，让它能联网搜索、调用 API 啥的。

👔 面试官：插件是 Agent？那 ChatGPT 开了搜索功能就是 Agent 了？你说的只是工具调用，跟 Agent 差远了。

🙋 我：那 Agent 就是能调用工具的大模型？

👔 面试官：还是工具调用。Agent 最核心的是什么？你有没有提到「自主」两个字？自主规划、多步执行、感知结果再调整，这才是 Agent 的闭环。

答好这道题，抓住核心词就行：「自主感知+规划决策+工具调用+反馈闭环」。

📝 详细解析

一、普通大模型的三大局限

要理解 Agent，得先弄清楚普通大模型的瓶颈在哪里。

直接调用 GPT 的 chat 接口，它本质上是个「问答机器」：给一个输入，返回一个输出，然后就结束了。它不会主动做任何事，也不知道自己上一步做了什么、下一步该做什么。这三个局限环环相扣：

局限	具体表现	类比
知识被冻结	训练数据有截止日期，无法获取实时信息	一个人毕业后再不看新闻，只能讲课本知识
不能行动	本质是文本生成器，能写邮件但无法「发送」	只会动嘴，没有手脚
没有持续状态	每次调用之间完全失忆，除非手动传上下文	每次对话都从零开始，没有跨任务记忆

三个局限加在一起，意味着普通 LLM 只能做「一问一答」的事情。稍微复杂一点、需要多步骤协作的任务，它就完全无能为力了。

二、Agent 的运作闭环

Agent 有一个核心的运作闭环：

感知 → 规划 → 行动 → 再感知（循环）

给它一个目标，比如「帮我调研竞品然后整理成报告」，它不是直接输出一段文字了事，而是：

拆解任务：我要搜索哪些关键词、访问哪些网站、怎么组织内容
逐步执行：一步一步去做
结果反馈：每一步的结果反馈回来，指导下一步怎么走

这种能力背后，有三件核心的事在支撑。

三、Agent 的三大核心能力

能力一：工具调用（Tool Use）

工具调用是让 Agent 从「说话」变成「做事」的关键。

重要区分：不是模型自己执行工具，而是模型「告诉你该调什么」，你的代码去真正执行，结果再反馈给模型。模型始终只是大脑，不是手脚。

工具调用的意义在于，它一次性突破了上面说的三个局限：

知识被冻结？接上搜索引擎，获取实时信息。
不能行动？接上邮件 API、代码执行器，真正做事。

示例：给 Agent 配置「查天气」和「发邮件」两个工具

# 工具定义就像「技能说明书」——只描述能力，不包含执行逻辑
tools = [
    {
        "name": "get_weather",
        "description": "获取指定城市的当前天气",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "城市名称"}
            },
            "required": ["city"]
        }
    },
    {
        "name": "send_email",
        "description": "发送邮件给指定收件人",
        "parameters": {
            "type": "object",
            "properties": {
                "to": {"type": "string"},
                "subject": {"type": "string"},
                "body": {"type": "string"}
            },
            "required": ["to", "subject", "body"]
        }
    }
]

# 告诉 Agent："帮我查一下北京天气，然后发邮件给 boss@company.com"
# Agent 自主分两步执行：
# 第一步：调用 get_weather(city="北京") → 返回 "晴天 15°C"
# 第二步：调用 send_email(to="boss@company.com", subject="今日天气", body="北京今天晴天 15°C")

核心思想：工具定义里没有一行执行逻辑，只有名字、描述、所需参数。模型读这份「说明书」，决定调哪个工具、参数填什么，以 JSON 格式输出决策，真正执行的是你的代码。这就是「决策与执行分离」。

能力二：记忆机制（Memory）

传统 LLM 每次对话都是「失忆」的。Agent 系统通常设计两层记忆：

记忆类型	作用	存储方式
短期记忆	保存当前任务的中间状态（搜索结果、计算结果等），保证任务执行连贯	上下文窗口
长期记忆	保存跨任务信息（用户偏好、历史操作记录等）	向量数据库（语义检索）

有了这两层记忆，Agent 执行复杂任务时才能保持连贯性，不会「走着走着忘了目标是什么」。

能力三：多步推理与自我纠错

这是 Agent 区别于简单自动化脚本的关键，也是它最像「人」的地方。

某一步失败了，不会直接崩掉，而是感知失败、分析原因、换方式重试
关键词 A 没搜到有用信息，自动换关键词 B 重搜
API 报错了，读报错信息，调整参数后重新调用
完成某步后会回头审视：结果和预期一致吗？要不要调整后续计划？

这种「边做边反思」的能力，让 Agent 在面对复杂、不确定的任务时，表现远比死板的自动化流程好得多。

四、一句话总结本质区别

	普通大模型	Agent
输入输出模式	一问一答，被动响应	接收目标，自主规划多步执行
行动能力	只能生成文字	能通过工具调用真实行动
记忆	每次调用相互独立	具备短期 + 长期记忆
容错能力	无，出错即终止	能感知失败并自动重试调整

本质区别：从生成文字，到执行任务。

五、为什么 Agent 最近爆发

Agent 的概念很早就有了，但三个关键条件最近才同时成熟：

大模型能力跨过「能用」门槛：从 GPT-4、Claude 3 这代开始，模型的推理能力和指令遵循能力有了质的飞跃，能真正「读懂」复杂指令并做出合理的多步决策。
工具调用协议标准化：OpenAI 2023 年推出 Function Calling，让模型以结构化 JSON 格式输出工具调用请求，各家模型厂商迅速跟进，大幅降低了接入成本。
配套生态完善：LangChain、LlamaIndex 等框架降低了开发门槛，向量数据库解决了长期记忆存储问题，可调用的工具 API 越来越丰富。

三个条件凑齐，Agent 才从论文概念变成了真正可落地的工程实践。

六、Agent 生态的最新趋势

Agent 生态快速发展后，两个核心问题浮出水面：Agent 怎么统一管理工具？Agent 怎么和另一个 Agent 协作？ 这催生了两个重要的标准协议。

MCP（Model Context Protocol，模型上下文协议）

Anthropic 在 2024 年底提出，可以理解为 Agent 工具世界的「USB-C 接口」。

解决的问题：没有 MCP 之前，M 个 Agent 框架 × N 个工具 = M×N 套适配代码，工程成本极高。

解决方式：定义标准 JSON-RPC 协议。工具提供方按标准暴露能力（成为 MCP Server），任何支持 MCP 的 Agent（内置 MCP Client）都能直接发现和调用，无需额外适配代码。

MCP 架构三层：

Host（AI 应用，如 Claude Desktop、Cursor）
  └── Client（负责与 MCP Server 建立连接、管理通信）
        └── Server（真正暴露工具能力的服务）

2025 年 12 月，Anthropic 将 MCP 捐给 Linux 基金会旗下的 Agentic AI Foundation（AAIF），由 Anthropic、Block、OpenAI 共同创立，Google、Microsoft、AWS 等均表示支持，目前已有数千个公开 MCP Server 可用。

A2A（Agent2Agent，Agent 间通信协议）

Google 在 2025 年 4 月推出，解决的是 「Agent 怎么和另一个 Agent 协作」 的问题。

核心设计是 Agent Card（名片）：每个 Agent 都有一张名片，写明它能做什么、正在做什么、需要什么输入，其他 Agent 读了这张名片就知道如何协作。

2025 年 6 月，Google 将 A2A 捐给 Linux 基金会维护，SAP、Salesforce、ServiceNow 等大厂相继接入。

两个协议的关系

协议	解决的问题	类比
MCP	Agent 与工具之间的连接	让每个 Agent 能方便地「伸手拿工具」
A2A	Agent 与 Agent 之间的通信	让不同 Agent 能方便地「互相说话合作」

两者互补，未来 Agent 生态大概率是两个协议并存、各管一层的格局。

🎯 面试作答模板

回答「什么是 Agent」这道题，务必覆盖以下三点，并点出一个容易混淆的地方：

✅ 三个必答点

自主规划能力：给它一个复杂目标，它能自己拆解成多步，而不是等你逐条指令
能行动：通过工具调用与外部世界真实交互，不只是生成文字
执行闭环：每步的结果反馈回来指导下一步，感知 → 规划 → 行动 → 再感知

⚠️ 一个容易混淆的点

模型本身只是「大脑」，工具的真正执行是你的代码，模型只负责决策。工具调用是 Agent 能力的一部分，但 Agent ≠ 工具调用。

❌ 三个常见误区

把 Agent 等同于「插件」或「工具调用」
只提「能调工具」，没有点出「自主性」
忽略执行闭环，没有提感知 → 规划 → 行动 → 再感知这个循环