返回 基础认知

Basics

规划与推理:CoT、ReAct、ToT 三大推理框架深入解析

为什么大模型直接作答准确率低下?剖析 Chain-of-Thought(思维链)、ReAct(推理与行动)和 Tree-of-Thoughts(思维树)背后的核心算法思想。

推理规划
规划与推理:CoT、ReAct、ToT 三大推理框架深入解析 封面图

如果你直接抛给大语言模型(LLM)一个复杂且涉及长程逻辑的数学组合题,它的内部机制由于倾向于极速进行高概率单向文本生成,极易跳过中间依赖直接强词夺理得出一个充满幻觉的错误答案。

推理框架(Reasoning Framework)技术的核心工程学理念就是改变这种直觉响应模式:强制大模型进行中间步骤的拆解演算。 用大白话来讲,就是按住心急的 AI,强逼着它:“你先别急着报答案,把你解题的脑回路和演算步骤,老老实实在黑板上一行行写下来给我看!”

当前业界最核心的三个骨干推理框架,分别是 CoTReActToT

1. CoT:Chain-of-Thought(思维链推导)

专业定义: Chain-of-Thought 系列技术旨在迫使大模型在给出最终确定性答案之前,显式地生成一系列中间级别的推理步骤(intermediate reasoning steps)。它可以作为 Zero-Shot(如附带一句“Let’s think step by step”)来触发内隐计算过程,被证明在算数、常识和符号逻辑验证中具有革命性的效果增益。

大白话比喻:像小学生做数学题一样写草稿。 以前你问 AI:5个苹果给妹妹2个,妈妈又给你买10个桔子,你有几个苹果?急性子的 AI 会凑数字得出 13 个。 用了 CoT,模型的心智大变,内心强制独白(Thought):

  1. 刚才有 5 个苹果,给了妹妹 2 个,剩下 5 - 2 = 3 个。
  2. 妈妈塞的 10 个是桔子,不能算进苹果的数里。
  3. 最终回答(Final Answer):所以最终答案是 3 个苹果。

漫画:机器人摸着脑袋上的天线,头上冒出分步计算的气泡

2. ReAct:Reasoning + Acting(边推理边外部行动)

专业定义: ReAct 是使得真正意义上的 Agent 成为可能的基石论文(Yao et al., 2022)。它将 CoT 纯文本语料思考与大模型的外部行动执行交织在一起。通过标准化的 Thought -> Action -> Observation (观察环境反馈) 闭环回路,使得模型不仅可以进行演绎计算,且具备了依靠外部 API 即时试错验证信息真伪的工程可能。

大白话比喻:能动手找线索就别光在那儿靠脑门猜。 如果 CoT 只是在考场里靠死脑筋做题,那 ReAct 则是赋予大模型长出了手臂去翻书的权力。 比如你问:“2024 年巴黎奥运会 100 米冠军跑了多少秒?”

  1. Thought(内心思考):这个问题我记忆库里没有新鲜的数据,我必须掏出手机搜一下。
  2. Action(执行外部动作):触发并调用 Search_Google_API["2024年巴黎奥运会男子百米决赛成绩"]
  3. Observation(截获外部观察):收到 Google 传回来的真实网页片段内容。
  4. Thought(再次思考推理):很好,拿到了确切数据可以进行语言组织反馈了。

3. ToT:Tree-of-Thoughts(思维树分叉规划)

专业定义: ToT 将传统的自回归单线推理扩展成了更加严谨复杂的树状图图搜索算法体系(如 DFS/BFS 与启发式评估)。模型可以在处理每一个节点(node)的局部思维时,刻意自我繁衍出多条候选的解决路径假设。然后,模型使用一个内部评估器(Evaluator)对不同的分支进行价值打分(Value Score),保留最优解的同时支持及时错误回溯(Backtracking)。

大白话比喻:会议室里的白板头脑风暴并试演多种可能性。 有时候在起草商业策划等完全开放且无标准答案的主观宏大命题时,线性推导无法奏效。ToT 就像让机器人在会议室里面对巨大白板,同时展开多种不同结局的构思推演:

  • 机器人先在白板上画出【分支A:做高端昂贵客单价路线】与【分支B:下沉市场廉价薄利路线】。
  • 顺着【分支A】,推算发现成本太高兜不住(打个红叉 ❌,回退死胡同死区)。
  • 转向尝试顺着【分支B】演练,发现营收合理且可行(打个绿勾 ✅,继续向下展开战略)。

漫画:机器人在一张巨大的树状思维导图前摸着下巴沉思

总结:AI 到底要怎么选?

在面对真实复杂的全自动执行链路时,不要盲目去卷最高级的 ToT,而是量力而行根据算力资源匹配最佳推理方式:

  • CoT(思维链式推理):适合纯代码转换推理与数字逻辑推算。消耗最低,极速反馈。
  • ReAct(外部交互式试探):适合必须接入 ERP 系统、实时联网查汇率或调用工具库完成脏活累活的客服与交易助理机器人。
  • ToT(多分支战略推演网):适合不考虑 Token 预算消耗的科学论证、大型悬疑剧本开发和大宗商业决策方案比对。极度昂贵,响应漫长,但质量拔群。

继续阅读

继续沿着这条知识路径往下读

返回 基础认知

基础认知

RAG 还是 Agentic RAG?一文读懂它们的本质区别

传统 RAG 像一个按菜谱做菜的厨师,你给什么食材他就做什么菜,不会变通。而 Agentic RAG 像一个会思考的大厨,会品尝、调整、甚至临时去菜市场补买调料。同样是 RAG,它们解决问题的方式有天壤之别。

继续阅读

基础认知

Agentic RAG 工作流:LLM 自己做主,不再死板执行

传统 RAG 是固定流水线,Agentic RAG 则给大模型装上了「大脑」——它会自己决定查什么、怎么查、查几次。本文用生活化比喻帮你彻底理解这种新一代检索增强生成架构。

继续阅读