什么是 Agent?与大模型有什么本质不同?
💡 核心一句话
AI Agent 本质上是一个能够基于目标,自主感知环境、进行规划决策、调用工具执行,并根据结果持续反馈调整的智能系统。
📋 面试场景还原
👔 面试官:说说你理解的 AI Agent 是什么?
🙋 我:Agent 就是给大模型加了插件,比如 ChatGPT 的插件功能,让它能联网搜索、调用 API 啥的。
👔 面试官:插件是 Agent?那 ChatGPT 开了搜索功能就是 Agent 了?你说的只是工具调用,跟 Agent 差远了。
🙋 我:那 Agent 就是能调用工具的大模型?
👔 面试官:还是工具调用。Agent 最核心的是什么?你有没有提到「自主」两个字?自主规划、多步执行、感知结果再调整,这才是 Agent 的闭环。
答好这道题,抓住核心词就行:「自主感知+规划决策+工具调用+反馈闭环」。
📝 详细解析
一、普通大模型的三大局限
要理解 Agent,得先弄清楚普通大模型的瓶颈在哪里。
直接调用 GPT 的 chat 接口,它本质上是个「问答机器」:给一个输入,返回一个输出,然后就结束了。它不会主动做任何事,也不知道自己上一步做了什么、下一步该做什么。这三个局限环环相扣:
| 局限 | 具体表现 | 类比 |
|---|---|---|
| 知识被冻结 | 训练数据有截止日期,无法获取实时信息 | 一个人毕业后再不看新闻,只能讲课本知识 |
| 不能行动 | 本质是文本生成器,能写邮件但无法「发送」 | 只会动嘴,没有手脚 |
| 没有持续状态 | 每次调用之间完全失忆,除非手动传上下文 | 每次对话都从零开始,没有跨任务记忆 |

三个局限加在一起,意味着普通 LLM 只能做「一问一答」的事情。稍微复杂一点、需要多步骤协作的任务,它就完全无能为力了。

二、Agent 的运作闭环
Agent 有一个核心的运作闭环:
感知 → 规划 → 行动 → 再感知(循环)

给它一个目标,比如「帮我调研竞品然后整理成报告」,它不是直接输出一段文字了事,而是:
- 拆解任务:我要搜索哪些关键词、访问哪些网站、怎么组织内容
- 逐步执行:一步一步去做
- 结果反馈:每一步的结果反馈回来,指导下一步怎么走
这种能力背后,有三件核心的事在支撑。

三、Agent 的三大核心能力
能力一:工具调用(Tool Use)
工具调用是让 Agent 从「说话」变成「做事」的关键。
重要区分:不是模型自己执行工具,而是模型「告诉你该调什么」,你的代码去真正执行,结果再反馈给模型。模型始终只是大脑,不是手脚。
工具调用的意义在于,它一次性突破了上面说的三个局限:
- 知识被冻结?接上搜索引擎,获取实时信息。
- 不能行动?接上邮件 API、代码执行器,真正做事。
示例:给 Agent 配置「查天气」和「发邮件」两个工具
# 工具定义就像「技能说明书」——只描述能力,不包含执行逻辑
tools = [
{
"name": "get_weather",
"description": "获取指定城市的当前天气",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "城市名称"}
},
"required": ["city"]
}
},
{
"name": "send_email",
"description": "发送邮件给指定收件人",
"parameters": {
"type": "object",
"properties": {
"to": {"type": "string"},
"subject": {"type": "string"},
"body": {"type": "string"}
},
"required": ["to", "subject", "body"]
}
}
]
# 告诉 Agent:"帮我查一下北京天气,然后发邮件给 boss@company.com"
# Agent 自主分两步执行:
# 第一步:调用 get_weather(city="北京") → 返回 "晴天 15°C"
# 第二步:调用 send_email(to="boss@company.com", subject="今日天气", body="北京今天晴天 15°C")
核心思想:工具定义里没有一行执行逻辑,只有名字、描述、所需参数。模型读这份「说明书」,决定调哪个工具、参数填什么,以 JSON 格式输出决策,真正执行的是你的代码。这就是「决策与执行分离」。

能力二:记忆机制(Memory)
传统 LLM 每次对话都是「失忆」的。Agent 系统通常设计两层记忆:

| 记忆类型 | 作用 | 存储方式 |
|---|---|---|
| 短期记忆 | 保存当前任务的中间状态(搜索结果、计算结果等),保证任务执行连贯 | 上下文窗口 |
| 长期记忆 | 保存跨任务信息(用户偏好、历史操作记录等) | 向量数据库(语义检索) |
有了这两层记忆,Agent 执行复杂任务时才能保持连贯性,不会「走着走着忘了目标是什么」。
能力三:多步推理与自我纠错
这是 Agent 区别于简单自动化脚本的关键,也是它最像「人」的地方。
- 某一步失败了,不会直接崩掉,而是感知失败、分析原因、换方式重试
- 关键词 A 没搜到有用信息,自动换关键词 B 重搜
- API 报错了,读报错信息,调整参数后重新调用
- 完成某步后会回头审视:结果和预期一致吗?要不要调整后续计划?
这种「边做边反思」的能力,让 Agent 在面对复杂、不确定的任务时,表现远比死板的自动化流程好得多。
四、一句话总结本质区别
| 普通大模型 | Agent | |
|---|---|---|
| 输入输出模式 | 一问一答,被动响应 | 接收目标,自主规划多步执行 |
| 行动能力 | 只能生成文字 | 能通过工具调用真实行动 |
| 记忆 | 每次调用相互独立 | 具备短期 + 长期记忆 |
| 容错能力 | 无,出错即终止 | 能感知失败并自动重试调整 |
本质区别:从生成文字,到执行任务。

五、为什么 Agent 在 2024-2025 年才爆发?
Agent 的概念很早就有了,但三个关键条件最近才同时成熟:
-
大模型能力跨过「能用」门槛:从 GPT-4、Claude 3 这代开始,模型的推理能力和指令遵循能力有了质的飞跃,能真正「读懂」复杂指令并做出合理的多步决策。
-
工具调用协议标准化:OpenAI 2023 年推出 Function Calling,让模型以结构化 JSON 格式输出工具调用请求,各家模型厂商迅速跟进,大幅降低了接入成本。
-
配套生态完善:LangChain、LlamaIndex 等框架降低了开发门槛,向量数据库解决了长期记忆存储问题,可调用的工具 API 越来越丰富。
三个条件凑齐,Agent 才从论文概念变成了真正可落地的工程实践。
六、Agent 生态的最新趋势:MCP 与 A2A
Agent 生态快速发展后,两个核心问题浮出水面:Agent 怎么统一管理工具?Agent 怎么和另一个 Agent 协作? 这催生了两个重要的标准协议。
MCP(Model Context Protocol,模型上下文协议)
Anthropic 在 2024 年底提出,可以理解为 Agent 工具世界的「USB-C 接口」。
解决的问题:没有 MCP 之前,M 个 Agent 框架 × N 个工具 = M×N 套适配代码,工程成本极高。
解决方式:定义标准 JSON-RPC 协议。工具提供方按标准暴露能力(成为 MCP Server),任何支持 MCP 的 Agent(内置 MCP Client)都能直接发现和调用,无需额外适配代码。
MCP 架构三层:
Host(AI 应用,如 Claude Desktop、Cursor)
└── Client(负责与 MCP Server 建立连接、管理通信)
└── Server(真正暴露工具能力的服务)

2025 年 12 月,Anthropic 将 MCP 捐给 Linux 基金会旗下的 Agentic AI Foundation(AAIF),由 Anthropic、Block、OpenAI 共同创立,Google、Microsoft、AWS 等均表示支持,目前已有数千个公开 MCP Server 可用。
A2A(Agent2Agent,Agent 间通信协议)
Google 在 2025 年 4 月推出,解决的是 「Agent 怎么和另一个 Agent 协作」 的问题。
核心设计是 Agent Card(名片):每个 Agent 都有一张名片,写明它能做什么、正在做什么、需要什么输入,其他 Agent 读了这张名片就知道如何协作。
2025 年 6 月,Google 将 A2A 捐给 Linux 基金会维护,SAP、Salesforce、ServiceNow 等大厂相继接入。
两个协议的关系
| 协议 | 解决的问题 | 类比 |
|---|---|---|
| MCP | Agent 与工具之间的连接 | 让每个 Agent 能方便地「伸手拿工具」 |
| A2A | Agent 与 Agent 之间的通信 | 让不同 Agent 能方便地「互相说话合作」 |
两者互补,未来 Agent 生态大概率是两个协议并存、各管一层的格局。

🎯 面试作答模板
回答「什么是 Agent」这道题,务必覆盖以下三点,并点出一个容易混淆的地方:
✅ 三个必答点
- 自主规划能力:给它一个复杂目标,它能自己拆解成多步,而不是等你逐条指令
- 能行动:通过工具调用与外部世界真实交互,不只是生成文字
- 执行闭环:每步的结果反馈回来指导下一步,感知 → 规划 → 行动 → 再感知
⚠️ 一个容易混淆的点
模型本身只是「大脑」,工具的真正执行是你的代码,模型只负责决策。工具调用是 Agent 能力的一部分,但 Agent ≠ 工具调用。
❌ 三个常见误区
- 把 Agent 等同于「插件」或「工具调用」
- 只提「能调工具」,没有点出「自主性」
- 忽略执行闭环,没有提感知 → 规划 → 行动 → 再感知这个循环
◆AI Assistant
◆Comments (0)
Sign in to leave a comment
No comments yet. Be the first to comment!