返回 基础认知

Basics

什么是 AI 智能体(Agent)?从旁观者变成行动派

大模型(LLM)与智能体(Agent)的核心区别在哪里?结合感知、认知与行动框架,全面解析智能体的本质与能力飞跃。

AI Agent大语言模型
什么是 AI 智能体(Agent)?从旁观者变成行动派 封面图

自从 ChatGPT 出现后,大语言模型(LLM)极大地改变了我们获取知识的方式。但 LLM 的本质依然是一个被动回答问题的文本生成器。 要让 AI 从一个**“被动的聊天机器人”进化为一个“能主动帮你把事办好的外包员工”**,我们就需要引入 AI 智能体(AI Agent) 的概念。

1. 什么是智能体(AI Agent)?

专业定义: AI Agent(智能体)是一种能够感知环境、进行自主决策并采取行动以实现特定目标的计算机系统。在当前的技术语境下,它通常以大语言模型(LLM)作为中央处理大脑,并结合各种外部工具和记忆模块来与现实世界交互。

大白话比喻: 如果把大语言模型(LLM)比作一个拥有惊人智商、读完人类所有书籍但被锁在一个黑箱子里的“超级大脑”; 那么 Agent 就是给这个大脑接上了**“眼睛耳朵(感知)”、“日记本(记忆)”与“手脚(工具)”**。它不仅能回答你“明天去北京怎么带衣服”,还能直接打开浏览器帮你查好明天的天气,并最终自己登录携程帮你订好机票。

漫画:聊天机器人与真正的 Agent 对比

2. Agent 的核心三角架构(感知、认知、行动)

根据主流的 Agent 架构理论,一个真正的智能体必须具备以下三大闭环能力:

👁️ 第一环:感知(Perception)

Agent 必须能够获取其所处环境的状态或外部信息。

  • 纯数字 Agent:感知能力表现为读取用户的 Prompt 文本、读取 API 接口返回的 JSON 报错、或者通过视觉编码器(Vision Encoder)读取一张网页截图。
  • 具身智能 Agent(Embodied Agent):感知能力可以通过物理摄像头看路标,通过麦克风听声音。

🧠 第二环:认知与推理(Cognition / Reasoning)

这是 Agent 系统的核心大脑,也就是 大模型(LLM) 所在的位置。 接收到感知数据后,LLM 需要对信息进行分析、任务规划和决策。

  • 它需要思考:“用户让我查机票,但我不知道现在的时间,我得先去调用系统时间接口查一下今天是几号”。这种拆解和决策过程,就是 Agent 区别于普通脚本脚本的“智能”所在。

🦾 第三环:行动(Action)

决策做好后,Agent 必须能够真实地改变或影响外部环境。 在工程实现上,这被称为 Tool Calling(工具调用)Function Calling(函数调用)

  • 它可以通过调用 Search_Web_API 去谷歌检索资料。
  • 也可以通过调用 Send_Email_API 真实地发出一封带附件的邮件。

漫画:现代 AI Agent 具备大脑、手眼工具的高级执行力形态

3. 大模型(LLM)与智能体(Agent)的直接对比

为了让你更直观地理解,我们可以对比一下两者的行为差异:

维度大语言模型 (LLM)全功能智能体 (AI Agent)
工作模式互动式(你问一句,它答一句)自治式(你丢个大目标,它自己分解成多步去干)
知识边界仅限于训练截断日期前的数据可以实时调用搜索、数据库获取最新信息
执行能力纯文本生成(输出文字或代码)可以调用外部 API、读写文件、操作软件界面
记忆能力仅限当前对话上下文窗口拥有长期记忆库与状态保持能力

漫画:Agent 在思考、行动与观察这三个环节中不断循环推进任务

总结

正如著名的 AI 学者吴恩达(Andrew Ng)所指出:“基于 GPT-3.5 构建的 Agent 工作流算法,其在应用任务上的表现甚至能超越原生 GPT-4 的直接零样本输出(Zero-shot)。”

理解了 Agent,你就拿到了 AI 下半场的门票——大模型(LLM)只是提供智力算力的引擎,而在业务中负责攻城拔寨、跑通全链路执行闭环的,一定是精心架构的 Agent 系统。

继续阅读

继续沿着这条知识路径往下读

返回 基础认知

基础认知

RAG 还是 Agentic RAG?一文读懂它们的本质区别

传统 RAG 像一个按菜谱做菜的厨师,你给什么食材他就做什么菜,不会变通。而 Agentic RAG 像一个会思考的大厨,会品尝、调整、甚至临时去菜市场补买调料。同样是 RAG,它们解决问题的方式有天壤之别。

继续阅读

基础认知

Agentic RAG 工作流:LLM 自己做主,不再死板执行

传统 RAG 是固定流水线,Agentic RAG 则给大模型装上了「大脑」——它会自己决定查什么、怎么查、查几次。本文用生活化比喻帮你彻底理解这种新一代检索增强生成架构。

继续阅读