返回 基础认知

Basics

大语言模型:智能体的「大脑」是如何炼成的

从 GPT-1 到 GPT-4 的演进揭示了大模型能力的本质,也回答了为什么 LLM 能成为 AI Agent 的核心。从 Scaling Law 到 RLHF,从 CoT 到工具使用,一文拆解支撑智能体决策的底层逻辑。

LLM大语言模型
大语言模型:智能体的「大脑」是如何炼成的 封面图

如果要选一个技术概念最能代表 2023 年之后的 AI 发展,大语言模型(LLM)一定排在最前面。

以 ChatGPT、GPT-4 为代表的 LLM 之所以震撼世界,不只是因为它们”会说话”,而是因为它们首次展示了一个通用模型能够以统一方式解决多种复杂任务。对于 AI Agent(智能体)来说,LLM 就是那个核心的”大脑”——理解用户意图、制定执行计划、调用外部工具、输出结构化决策,都离不开这个大脑的能力。

《大语言模型》这本书系统梳理了 LLM 从学术积累到工程爆发的完整技术脉络。本文不从论文复现的角度出发,而是从 Agent 开发者的视角,提取那些直接影响智能体设计决策的核心认知。

一、GPT 系列的四次关键迭代

理解 LLM,绕不开 GPT 系列的技术演进。每一次迭代,都对应着对”语言模型应该怎么做”这一根本问题的重新回答。

GPT-1(2018):确立预训练范式

2017 年 Google 提出 Transformer 之后,OpenAI 迅速意识到这个架构的潜力。GPT-1 干了件事:在大规模无标注文本上做预训练,再用下游任务数据微调。这套”预训练 + 微调”范式成了之后所有语言模型的基准框架。

但 GPT-1 参数规模只有 1.17 亿,和同时期的 BERT-Large 相当,下游任务效果也不如后者。预训练范式的威力还没显现。

GPT-2(2019):通用任务解决的野望

GPT-2 把参数规模推到了 15 亿,并在论文里说了一句后来被反复引用的话:语言模型应该是一个通用任务解决器——给一个任务,不需要微调,直接用自然语言描述输入和输出,模型就能推理出答案。

这个想法在当时有点超前。GPT-2 在很多任务上的表现距离微调模型仍有差距。但它定下了一个方向:扩大规模能带来通用性

GPT-3(2020):上下文学习,突破微调限制

GPT-3 做到了 1750 亿参数,是 GPT-2 的一百倍。更重要的是,它提出了**上下文学习(In-Context Learning,ICL)**的概念:

不给模型看示例,直接在 prompt 里写几个”输入-输出”的示例,模型就能学会这个任务的模式,并泛化到新的输入上。

用户:把以下句子翻译成英文
示例:你好 → Hello
示例:今天天气很好 → The weather is nice today
问题:我想喝咖啡

不需要微调,不需要更新权重,只靠 prompt 里的几个例子,模型就能推理出正确翻译。

ICL 是 Agent 系统的基石之一。Agent 的工作方式,本质上就是通过自然语言描述任务、给出示例、引导模型自主推理——这套模式在 GPT-3 论文里就已经成型了。

GPT-4(2023):多模态、可预测扩展、安全对齐

GPT-4 带来了几个关键升级:

  • 多模态输入:不只是文字,图像也能理解
  • 可预测扩展机制:用小模型可靠地预测大模型性能,降低训练试错成本
  • RLHF 对齐:经过六个月的安全对齐迭代,在有害内容拦截上显著优于前代

GPT-4 首次证明了一个模型可以在多种复杂任务(编程、法律、推理、创意写作)上达到人类专家水平,而不需要针对每个任务单独训练。这是 Agent 架构能够成立的底层前提。

二、Scaling Law:规模为什么是关键变量

GPT 系列背后有一条暗线:规模的扩大不只是让模型”记住更多”,而是会系统性改变模型的能力边界

OpenAI 在 2020 年发表的 Scaling Law 论文揭示了一个定量关系:模型性能(用交叉熵损失衡量)与模型参数量 N、训练数据量 D、计算量 C 之间存在幂律关系——这三个变量只要按比例扩大,性能就能可预测地提升。

这意味着什么?能力不是靠算法突变获得的,而是靠资源投入换来的。 GPT-3 的突破性表现,不需要发明新架构,只需要把参数量从 15 亿拉到 1750 亿、把训练数据从几十 B 词元拉到 3000 亿词元。

Scaling Law 对 Agent 开发者的直接启示是:选模型的时候,参数规模仍然是硬指标。 很多复杂推理能力(如多步规划、长程上下文追踪)只有当模型规模超过某个临界点才会涌现,小模型再怎么提示工程也补不上。

三、涌现能力:Agent 依赖的底层能力

Scaling Law 解释的是”量变”,但真正让 Agent 可行的,是”质变”——也就是涌现能力(Emergent Abilities)

当模型规模突破某个临界点后,会突然出现一些小型模型完全没有的能力。这种”突然涌现”的现象,催生了 Agent 系统最依赖的几项核心能力:

1. 上下文学习(ICL)

即前面提到的,给几个示例就能推理新任务。这是 Agent 能够”零样本规划”的基础——不需要重新训练,Agent 只要在 prompt 里描述清楚任务和规则,模型就能执行。

2. 指令遵循(Instruction Following)

模型能够理解自然语言指令,并按指令执行操作。这是 Agent 调用工具、多步规划的认知前提。指令遵循能力的获得需要指令微调(SFT)——在大规模”指令-响应”数据上做有监督训练,让模型学会”你说这个,我就做这个”。

3. 思维链推理(Chain-of-Thought,CoT)

对于复杂问题(大步计算、多跳推理),模型可以通过”分步思考”显著提升正确率。CoT 能力不是显式教出来的,而是模型规模扩大后自然涌现的。

在 Agent 系统里,CoT 通常和 ReAct(Reasoning + Acting)框架配合使用:模型一边推理下一步该做什么,一边调用工具执行,观察结果,再推理下一步——形成”思考-行动-观察”的循环。

关于 CoT、ReAct、ToT 三种推理框架的详细对比,可以参考《规划与推理:CoT、ReAct、ToT 三种推理模式全面解析》这篇。

四、数据工程:高质量数据才是护城河

Scaling Law 告诉我们规模重要,但 2023 年之后行业意识到:规模不是唯一的,数据的质量和配比同样关键

DeepMind 的 Chinchilla(2022)提出,在同等算力预算下,GPT-3 明显”训练不足”——它用了 300B 词元训练 175B 参数,但按最优比例应该用 1.4T 词元训练 70B 参数。数据规模和参数规模应该等比扩展。

更值得关注的是数据质量的影响。微软的 Phi-1 模型(1.3B 参数)用了经过精心筛选和 GPT-3.5 合成的”教科书级”数据训练,在 HumanEval 代码评测上达到了 50.6% 的 pass@1 准确率——远超同规模模型,甚至逼近大它十倍的模型。

这个结论对 Agent 开发者的启发是:垂直领域 Agent 的核心竞争力,很大程度上取决于你是否拥有高质量的领域数据和指令微调数据,而不是你选了什么基础模型。

五、RLHF:对齐是部署的前提

大模型能力很强,但直接部署会出问题:生成有害内容、编造虚假信息(“幻觉”)、对用户指令做出有害响应。

OpenAI 的解决方案是基于人类反馈的强化学习(RLHF),分三步:

  1. 收集偏好数据:让标注员对同一问题的多个回答排序
  2. 训练奖励模型:用偏好数据学习什么是”好答案”
  3. PPO 强化学习:用奖励模型指导语言模型输出符合人类价值观

对齐的目标是”3H”标准:

  • Helpfulness(有用):答案确实能帮到用户
  • Honesty(诚实):不编造信息,不虚构引用
  • Harmlessness(无害):不生成有害、歧视、危险内容

对于 Agent 开发者来说,RLHF 的意义在于:模型出厂就带了一层安全护栏,这让你可以在上层专注于任务逻辑,而不需要从零处理所有安全问题。当然,RLHF 不是银弹——幻觉问题、对抗攻击仍需要 Agent 层面做额外处理。

六、工具使用:Agent 区别于聊天机器人的核心能力

大语言模型的能力止于”文本生成”。它不知道今天的天气,不会计算复杂算式,查不了最新股价。这些限制让它无法直接成为可靠的 Agent。

工具学习(Tool Learning) 解决了这个问题。

GPT-4 的插件机制(Plugins)和 Function Calling,让模型能够:

  • 理解用户意图,判断需要调用什么工具
  • 按指定格式生成工具调用指令
  • 接收工具返回结果,整合进回答
用户:北京今天适合跑步吗?

LLM(Agent大脑):
Thought:北京天气会影响跑步体验,需要查一下天气
Action:weather_tool[{"city": "北京"}]
Observation:今天晴,18-25°C,PM2.5=35,空气质量良好
Thought:天气很好,适合跑步
Final Response:北京今天天气晴朗,气温18-25°C,空气质量良好,非常适合跑步!

这个”思考-工具调用-观察结果-整合回答”的过程,就是 ReAct 框架在 Agent 中的实际运作方式。

工具使用能力从根本上扩展了 LLM 的能力边界——从”文本生成器”变成”能操控真实世界的智能代理”。这是 AI Agent 和聊天机器人的本质区别。

七、长上下文与注意力机制

Agent 经常需要处理很长的任务历史(比如多轮对话、复杂文档分析)。传统 Transformer 的注意力计算量随序列长度平方增长,处理长文本时成本极高。

近年来的关键技术进步包括:

  • RoPE 位置编码:让模型能够自然处理长达 128K token 的上下文(如 GPT-4 Turbo)
  • 分组查询注意力(GQA):减少注意力计算量的同时保持效果
  • 滑动窗口注意力:对长文本用局部注意力近似全局注意力,降低计算复杂度
  • 混合专家模型(MoE):如 Mixtral 8×7B,每个 token 只激活 12.9B 参数,但总参数量达 46.7B,大幅降低推理成本

对 Agent 开发者来说,上下文窗口直接决定了你能在 prompt 里塞多少背景信息、工具描述和示例。上下文窗口越大,Agent 能处理的复杂任务就越长、越丰富。

八、Agent 开发者需要记住的八个结论

基于以上内容,梳理出对 Agent 开发最关键的认知:

  1. 模型规模是涌现能力的前提。很多复杂推理能力(CoT、多步规划)只有大模型才稳定涌现,不要在小模型上过度依赖提示工程。
  2. 上下文学习是 Agent 零样本规划的基础。好的 prompt 设计(示例、格式、指令清晰度)直接决定 Agent 任务效果。
  3. 数据质量是垂直 Agent 的护城河。基础模型开源后,差异化竞争点在高质量领域数据和指令微调。
  4. RLHF 让模型出厂就有安全底线。但 Agent 层面仍需做异常处理和对抗防护。
  5. 工具学习是 Agent 的能力边界。能调用的工具数量和质量,直接决定 Agent 能做的事。
  6. CoT + ReAct 是 Agent 推理的标准模式。复杂任务用分步推理+工具调用,而不是一步到位生成答案。
  7. 长上下文是复杂 Agent 任务的支撑。选模型时上下文窗口长度是需要重点评估的参数。
  8. 工具使用能力需要专门的微调。通用 LLM 的工具调用能力通常不如经过工具微调的版本(如 GPT-4 的 Function Calling vs 基础 GPT-4)。

一句话总结

大语言模型是 AI Agent 的认知引擎:Scaling Law 提供了能力可预测扩展的路径,上下文学习和思维链推理提供了零样本规划和复杂推理的认知基础,RLHF 和工具学习则分别解决了安全底线和能力边界问题。理解这些底层逻辑,比追逐新模型新论文更重要。


参考书籍:《大语言模型》,赵鑫、李军毅、周昆、唐天一、文继荣 著,2024

继续阅读

继续沿着这条知识路径往下读

返回 基础认知

基础认知

RAG 还是 Agentic RAG?一文读懂它们的本质区别

传统 RAG 像一个按菜谱做菜的厨师,你给什么食材他就做什么菜,不会变通。而 Agentic RAG 像一个会思考的大厨,会品尝、调整、甚至临时去菜市场补买调料。同样是 RAG,它们解决问题的方式有天壤之别。

继续阅读

基础认知

Agentic RAG 工作流:LLM 自己做主,不再死板执行

传统 RAG 是固定流水线,Agentic RAG 则给大模型装上了「大脑」——它会自己决定查什么、怎么查、查几次。本文用生活化比喻帮你彻底理解这种新一代检索增强生成架构。

继续阅读