田渊栋与Russell团队，证明Transformer在训练中自然学会叠加推理

对于大型语言模型而言，生成更长、更复杂的推理链，往往意味着巨大的计算成本。为了解决这一难题，田渊栋团队在 2024 年提出的「连续思维链」 (Coconut) 提供了一种全新的范式，它将推理轨迹保留在连续的隐空间中，而非离散的文字符号。现在，他们与 Stuart Russell 团队的最新合作研究则从理论上回答了一个核心问题：这种高效的推理范式是如何在训练中自发产生的？答案指向了一种关键机制——叠加的涌现。

大型语言模型（LLM）在许多复杂任务上展现出了强大的推理能力，尤其是在引入思维链（CoT）之后。然而，长思维链在复杂任务中的推理成本极高，因此，近期有不少研究在尝试寻找更高效的测试时扩展方法，以期望更高效地提升模型的推理能力。

一种前景较为可观的方法是田渊栋团队在 2024 年提出的「连续思维链」（Chain-of-Continuous-Thought，简称 Coconut）。与传统的 CoT 不同，连续思维链是将模型的推理轨迹保存在连续隐空间中，而非回投到离散的 token 空间。这种做法不仅在理论上具有多项优势，在实验中也带来了显著性能提升。参阅我们之前的报道《田渊栋团队论文火了！连续思维链优于 CoT，打开 LLM 推理新范式》。

然而，若要让连续思维链更高效、更稳定地扩展到更复杂的推理任务，就必须更深入地理解它的内部机制。

该团队 2025 年的研究《Reasoning by superposition: A theoretical perspective on chain of continuous thought》已从理论上指出，连续思维链的一个关键优势在于它能使模型在叠加（superposition）状态下进行推理：当模型面对多个可能的推理路径而无法确定哪一个是正确时，它可以在连续空间中并行地保留所有可能的路径，而不像离散 token 那样必须选择单一路径。

具体来说，该研究将一类推理任务抽象为有向图可达性（a directed graph reachability）问题 —— 即判断从给定起点节点能否到达目标节点。

田渊栋与Russell团队，证明Transformer在训练中自然学会叠加推理

田渊栋与Russell团队，证明Transformer在训练中自然学会叠加推理

每日新闻更多>>

技术圈子更多>>

展会信息更多>>

聚焦热点更多>>

知识分享更多>>

品牌解读更多>>