> victor
← Back to Interview
#Agent#AI

什么是 Agent?与大模型有什么本质不同?

2026-05-23·13 min read·--- views

💡 核心一句话

AI Agent 本质上是一个能够基于目标,自主感知环境、进行规划决策、调用工具执行,并根据结果持续反馈调整的智能系统。


📋 面试场景还原

👔 面试官:说说你理解的 AI Agent 是什么?

🙋 :Agent 就是给大模型加了插件,比如 ChatGPT 的插件功能,让它能联网搜索、调用 API 啥的。

👔 面试官:插件是 Agent?那 ChatGPT 开了搜索功能就是 Agent 了?你说的只是工具调用,跟 Agent 差远了。

🙋 :那 Agent 就是能调用工具的大模型?

👔 面试官:还是工具调用。Agent 最核心的是什么?你有没有提到「自主」两个字?自主规划、多步执行、感知结果再调整,这才是 Agent 的闭环。

答好这道题,抓住核心词就行:「自主感知+规划决策+工具调用+反馈闭环」。


📝 详细解析

一、普通大模型的三大局限

要理解 Agent,得先弄清楚普通大模型的瓶颈在哪里。

直接调用 GPT 的 chat 接口,它本质上是个「问答机器」:给一个输入,返回一个输出,然后就结束了。它不会主动做任何事,也不知道自己上一步做了什么、下一步该做什么。这三个局限环环相扣:

局限具体表现类比
知识被冻结训练数据有截止日期,无法获取实时信息一个人毕业后再不看新闻,只能讲课本知识
不能行动本质是文本生成器,能写邮件但无法「发送」只会动嘴,没有手脚
没有持续状态每次调用之间完全失忆,除非手动传上下文每次对话都从零开始,没有跨任务记忆

普通大模型局限性示意图

三个局限加在一起,意味着普通 LLM 只能做「一问一答」的事情。稍微复杂一点、需要多步骤协作的任务,它就完全无能为力了。

多步骤任务能力对比


二、Agent 的运作闭环

Agent 有一个核心的运作闭环:

感知 → 规划 → 行动 → 再感知(循环)

Agent 运作闭环

给它一个目标,比如「帮我调研竞品然后整理成报告」,它不是直接输出一段文字了事,而是:

  1. 拆解任务:我要搜索哪些关键词、访问哪些网站、怎么组织内容
  2. 逐步执行:一步一步去做
  3. 结果反馈:每一步的结果反馈回来,指导下一步怎么走

这种能力背后,有三件核心的事在支撑。

Agent 三大核心能力


三、Agent 的三大核心能力

能力一:工具调用(Tool Use)

工具调用是让 Agent 从「说话」变成「做事」的关键。

重要区分:不是模型自己执行工具,而是模型「告诉你该调什么」,你的代码去真正执行,结果再反馈给模型。模型始终只是大脑,不是手脚。

工具调用的意义在于,它一次性突破了上面说的三个局限:

  • 知识被冻结?接上搜索引擎,获取实时信息。
  • 不能行动?接上邮件 API、代码执行器,真正做事。

示例:给 Agent 配置「查天气」和「发邮件」两个工具

# 工具定义就像「技能说明书」——只描述能力,不包含执行逻辑
tools = [
    {
        "name": "get_weather",
        "description": "获取指定城市的当前天气",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "城市名称"}
            },
            "required": ["city"]
        }
    },
    {
        "name": "send_email",
        "description": "发送邮件给指定收件人",
        "parameters": {
            "type": "object",
            "properties": {
                "to": {"type": "string"},
                "subject": {"type": "string"},
                "body": {"type": "string"}
            },
            "required": ["to", "subject", "body"]
        }
    }
]

# 告诉 Agent:"帮我查一下北京天气,然后发邮件给 boss@company.com"
# Agent 自主分两步执行:
# 第一步:调用 get_weather(city="北京") → 返回 "晴天 15°C"
# 第二步:调用 send_email(to="boss@company.com", subject="今日天气", body="北京今天晴天 15°C")

核心思想:工具定义里没有一行执行逻辑,只有名字、描述、所需参数。模型读这份「说明书」,决定调哪个工具、参数填什么,以 JSON 格式输出决策,真正执行的是你的代码。这就是「决策与执行分离」。

工具调用流程图


能力二:记忆机制(Memory)

传统 LLM 每次对话都是「失忆」的。Agent 系统通常设计两层记忆

Agent 记忆机制

记忆类型作用存储方式
短期记忆保存当前任务的中间状态(搜索结果、计算结果等),保证任务执行连贯上下文窗口
长期记忆保存跨任务信息(用户偏好、历史操作记录等)向量数据库(语义检索)

有了这两层记忆,Agent 执行复杂任务时才能保持连贯性,不会「走着走着忘了目标是什么」。


能力三:多步推理与自我纠错

这是 Agent 区别于简单自动化脚本的关键,也是它最像「人」的地方。

  • 某一步失败了,不会直接崩掉,而是感知失败、分析原因、换方式重试
  • 关键词 A 没搜到有用信息,自动换关键词 B 重搜
  • API 报错了,读报错信息,调整参数后重新调用
  • 完成某步后会回头审视:结果和预期一致吗?要不要调整后续计划?

这种「边做边反思」的能力,让 Agent 在面对复杂、不确定的任务时,表现远比死板的自动化流程好得多。


四、一句话总结本质区别

普通大模型Agent
输入输出模式一问一答,被动响应接收目标,自主规划多步执行
行动能力只能生成文字能通过工具调用真实行动
记忆每次调用相互独立具备短期 + 长期记忆
容错能力无,出错即终止能感知失败并自动重试调整

本质区别:从生成文字,到执行任务。

普通 LLM vs Agent 对比


五、为什么 Agent 在 2024-2025 年才爆发?

Agent 的概念很早就有了,但三个关键条件最近才同时成熟:

  1. 大模型能力跨过「能用」门槛:从 GPT-4、Claude 3 这代开始,模型的推理能力和指令遵循能力有了质的飞跃,能真正「读懂」复杂指令并做出合理的多步决策。

  2. 工具调用协议标准化:OpenAI 2023 年推出 Function Calling,让模型以结构化 JSON 格式输出工具调用请求,各家模型厂商迅速跟进,大幅降低了接入成本。

  3. 配套生态完善:LangChain、LlamaIndex 等框架降低了开发门槛,向量数据库解决了长期记忆存储问题,可调用的工具 API 越来越丰富。

三个条件凑齐,Agent 才从论文概念变成了真正可落地的工程实践。


六、Agent 生态的最新趋势:MCP 与 A2A

Agent 生态快速发展后,两个核心问题浮出水面:Agent 怎么统一管理工具?Agent 怎么和另一个 Agent 协作? 这催生了两个重要的标准协议。

MCP(Model Context Protocol,模型上下文协议)

Anthropic 在 2024 年底提出,可以理解为 Agent 工具世界的「USB-C 接口」

解决的问题:没有 MCP 之前,M 个 Agent 框架 × N 个工具 = M×N 套适配代码,工程成本极高。

解决方式:定义标准 JSON-RPC 协议。工具提供方按标准暴露能力(成为 MCP Server),任何支持 MCP 的 Agent(内置 MCP Client)都能直接发现和调用,无需额外适配代码。

MCP 架构三层

Host(AI 应用,如 Claude Desktop、Cursor)
  └── Client(负责与 MCP Server 建立连接、管理通信)
        └── Server(真正暴露工具能力的服务)

MCP 架构示意图

2025 年 12 月,Anthropic 将 MCP 捐给 Linux 基金会旗下的 Agentic AI Foundation(AAIF),由 Anthropic、Block、OpenAI 共同创立,Google、Microsoft、AWS 等均表示支持,目前已有数千个公开 MCP Server 可用。

A2A(Agent2Agent,Agent 间通信协议)

Google 在 2025 年 4 月推出,解决的是 「Agent 怎么和另一个 Agent 协作」 的问题。

核心设计是 Agent Card(名片):每个 Agent 都有一张名片,写明它能做什么、正在做什么、需要什么输入,其他 Agent 读了这张名片就知道如何协作。

2025 年 6 月,Google 将 A2A 捐给 Linux 基金会维护,SAP、Salesforce、ServiceNow 等大厂相继接入。

两个协议的关系

协议解决的问题类比
MCPAgent 与工具之间的连接让每个 Agent 能方便地「伸手拿工具」
A2AAgent 与 Agent 之间的通信让不同 Agent 能方便地「互相说话合作」

两者互补,未来 Agent 生态大概率是两个协议并存、各管一层的格局。

MCP 与 A2A 生态关系


🎯 面试作答模板

回答「什么是 Agent」这道题,务必覆盖以下三点,并点出一个容易混淆的地方:

✅ 三个必答点

  1. 自主规划能力:给它一个复杂目标,它能自己拆解成多步,而不是等你逐条指令
  2. 能行动:通过工具调用与外部世界真实交互,不只是生成文字
  3. 执行闭环:每步的结果反馈回来指导下一步,感知 → 规划 → 行动 → 再感知

⚠️ 一个容易混淆的点

模型本身只是「大脑」,工具的真正执行是你的代码,模型只负责决策。工具调用是 Agent 能力的一部分,但 Agent ≠ 工具调用。

❌ 三个常见误区

  • 把 Agent 等同于「插件」或「工具调用」
  • 只提「能调工具」,没有点出「自主性」
  • 忽略执行闭环,没有提感知 → 规划 → 行动 → 再感知这个循环

AI Assistant

Comments (0)

Sign in to leave a comment

No comments yet. Be the first to comment!