首页看点啥逃离Scaling Law的魔咒：接替Transformer的下一代推理范式循环架构全景拆解

逃离Scaling Law的魔咒：接替Transformer的下一代推理范式循环架构全景拆解

2026-06-30 0

大家好，我是赛博解生酱。在当前的人工智能浪潮中，基于Transformer架构的大语言模型（LLMs）无疑是绝对的霸主。通过“更大参数规模、更多训练数据、更长上下文窗口”的暴力美学，Scaling Laws（缩放定律）在过去几年中缔造了无数神话。

逃离Scaling Law的魔咒：接替Transformer的下一代推理范式「循环架构」全景拆解

然而，当行业开始向通用人工智能（AGI）发起最后的冲锋时，标准深度Transformer的底层物理与算法瓶颈正日益凸显。在这一背景下，学术界与工业界的目光开始从无休止的“堆料”，转向一种古老而又崭新的范式——循环架构（Recurrent Architectures / Looped Transformers）。

本文将基于最新的前沿调研，深入技术硬核视角，全景拆解循环网络架构的发展机理、关键流派，并探讨其是否真正具备取代Transformer的潜力。

忘掉无休止的“堆叠层数”吧。

一、为什么要改变？Transformer面临的“三座大山”

在回答循环架构为何重新崛起之前，我们必须先剖析传统自回归Transformer在处理复杂推理任务时的致命缺陷：

●标记错误累积与计算带宽受限：大模型高度依赖显式的链式思考（CoT）来解决复杂问题。但这条由离散Token组成的单向逻辑链极其脆弱，单个Token的生成失误就可能导致满盘皆输。此外，并非所有高维度的抽象逻辑都能被无损压缩为一维的自然语言，强制的“语言化”严重限制了模型的内部计算带宽。

●计算深度与参数量的“硬绑定”：传统模型中，100层的计算深度意味着必须在显存中实实在在地塞入100套独立的权重参数。这不仅带来了极其高昂的内存开销与部署成本，也意味着面对多步迭代的复杂难题时，计算会因为预设层数的耗尽而被迫中止。

●单向计算图的拓扑局限：面对需要频繁回溯、试错和深层分支探索的约束性问题（如极端数独或迷宫路径），Transformer基于统计概率的单向模式匹配机制往往力不从心。

二、破局核心：循环架构超越Transformer的底层逻辑

要理解循环架构的必然性，必须先看清标准 Transformer 在数学上的本质。

一个经典的 Transformer 残差块，其前向传播过程可以写为：

在应用数学视角下，这本质上是对一个常微分方程（ODE）的前向欧拉（Forward Euler）数值积分，且其积分步长被固化为。

这意味着，100 层的计算深度就必须在显存中实实在在地存储 100 套完全独立的参数。一旦面对需要几百步甚至上千步复杂推演的强约束算法任务（如极端数独、复杂图论求解或 ARC-AGI 逻辑），静态的模型层数就会在瞬间耗尽，计算被迫终止。

与传统大模型“无限堆叠独特网络层”的思路截然相反，循环架构的核心哲学是：在连续的隐空间（Latent Space）中，反复应用一套完全共享权重的网络模块。

这里的参数在所有迭代步之间完全共享。计算深度不再是一个由物理显存决定的超参数，而变成了可以在推理时自由调节的动态“旋钮”。增加循环次数，本质上就是用更精细的步长（如）去逼近同一个高维相空间的积分流形结果。这种看似简单的结构改变，带来了四个维度的范式跃迁：

1.参数与深度的彻底解耦：计算深度不再是静态的模型超参数，而是运行时的动态旋钮。这意味着只有700万参数的极小模型（如TRM），也能通过增加循环次数获得理论上无限的有效推理深度，从而在复杂基准上匹敌数十亿参数的庞然大物。

2.升维打击：从离散文本到连续隐空间推理：模型将密集的思考过程藏于高维连续的隐空间中，隐状态在多轮循环中被无缝修正与推翻。由于省去了输出中间文本的步骤，模型保留了更丰富的概率分布信息，推理鲁棒性得到指数级跃升。

3.自适应计算时间（ACT）：循环拓扑天然等效于状态机与迭代算法。面对简单问题，模型可经过少量循环后“提前退出”；面对ARC-AGI这类极端复杂逻辑，模型会自动分配更多迭代次数以加深思考。

4.ODE视角的数值积分逼近：标准Transformer的残差连接本质上是常微分方程（ODE）步长为1的前向欧拉积分。将该残差层循环执行次，数学上等效于使用的精细步长进行高精度微调，从而更精确地捕捉复杂隐变量演化轨迹。

三、循环网络的几种类型

根据底层拓扑与训练目标的不同，当前学术界的前沿探索主要分为以下几大阵营：

流派分类	典型模型代表	核心机理与突破
确定性隐空间递归	HRM, TRM, AIR	采用时间序列更新与深层监督机制。以极小参数量打破固定深度限制，实现深层结构化逻辑推演。
概率生成与多轨迹搜索	PTRM, GRAM, DRM	引入隐状态高斯噪声连续注入与扩散反向去噪。避免轨迹陷入局部死胡同，实现“宽度维度”的算力扩展与并行多解探索。
大规模预训练循环模型	HRM-Text, Ouro, LoopFormer	发明MagicNorm梯度控制与时间步长条件化技术。解决深层循环的梯度爆炸，成功实现十亿级别参数的从零预训练。
动力学稳定与定点吸引子	Attractor Models, STARS	利用隐式微分求解不动点，引入雅可比谱半径正则化（JSRR）。从数学根基上解决无限深度推理带来的混沌发散问题。
稀疏路由与免训练混合	Hyperloop, LoopMoE	结合MoE动态路由或对已冻结的大模型进行ODE子步逼近复用。在边缘受限环境或零训练成本下唤醒隐藏推理能力。

1. 确定性隐空间递归（Deterministic Latent Recursive Models）

这一流派主要专注于确定性的符号逻辑求解，其目标是通过共享层在多轮隐式循环后，将信号精准地导入唯一的最优解轨迹。

以微型递归模型 TRM (Tiny Recursive Model) 为代表，它在连续的高维隐空间（Latent Space）内执行试错与多轮细化。由于不再被迫将中间思维离散化为可读的自然语言 Token，模型得以保留更高的信息带宽与多重假设的概率分布。

为了解决循环网络在训练时面临的时间反向传播（BPTT）截断误差与记忆管理难题，TRM 引入了深层监督（Deep Supervision）机制。其损失函数表达为所有循环步输出的加权组合：

其中为输出投影头，为真实标签，是随循环步数变化的权重。这种机制使得一个仅有 700 万参数的紧凑网络，在无需任何外部思维链（CoT）显式引导的情况下，展现出了惊人的分布外（OOD）泛化能力。

而在 AIR (Asymmetric Input Recurrence) 架构中，研究者更进一步，在完全共享权重的单一非线性网络中，通过不对称输入注入强行诱导出了功能分化：

其中为指示函数，为编码后的外部输入。当系统执行局部细节计算时（）注入输入信号；而在执行高级抽象更新时阻断注入。这种极微小的结构非对称性，使物理参数完全共享的模型在相空间中自发产生了“草稿本”与“战略提案库”的功能隔离。

2. 概率生成与多轨迹搜索（Probabilistic & Multi-Trajectory Models）

确定性递归模型有一个致命弱点：一旦隐状态在早期循环中落入次优的局部解盆地，单纯增加循环深度只会让系统在错误的方向上越陷越深。

为了解决路径依赖，PTRM (Probabilistic TRM) 在推理时的每一步深层递归中主动施加随机微扰：

这种极微量的高斯噪声允许系统在相空间中打破僵局，同时分支并探索数十条平行的思维轨迹。通过复用内置的奖励头进行并行筛选与剪枝，PTRM 实现了无需重新训练的“测试时宽度扩展（Width Scaling）”。

更完备的理论框架来自于 GRAM，它将递归推理直接建模为一个摊销变分推断（Amortized Variational Inference）驱动的随机转移过程：

而 DRM (Denoising Recursion Models) 则直接融合了条件扩散模型的数学范式，其逆向递推过程为：

通过在训练期对目标输出施加逐步增加的噪声破坏，迫使共享网络在多个递归去噪步骤中提供由易到难的课程学习轨迹。这种设计不仅彻底消除了对长视距中间监督信号的依赖，还显著缓解了传统循环结构常见的梯度降级问题。

3. 大规模预训练循环语言模型（Large-Scale Pretrained Looped LMs）

将循环架构从孤立的符号逻辑任务推向通用语言模型的十亿甚至万亿 Token 预训练，最大的暗礁在于自然语言极高的分布方差会导致隐状态在深层循环中发生数学震荡。

为了压制深层激活方差的激增，HRM-Text 引入了一项名为 MagicNorm 的核心归一化技术。它巧妙利用了前向与反向传播的时间不对称性：

在内部使用 PreNorm 保证反向传播时梯度畅通无阻，而在模块整体输出端强加 PostNorm 以前向压制激活方差。这种机制让 HRM-Text 成功实现了十亿级参数在通用开放域文本上的稳定预训练。

另一个长期困扰循环模型的痛点是超出训练分布的“表征崩溃”——如果模型在训练时仅仅将动态方程展开了固定的次，在测试时如果强制其循环次（），其内部隐状态表征往往会失控并退化成无意义的噪声。

LoopFormer 提出的捷径一致性（Shortcut-Consistency）训练协议给出了优雅的解法。它在每一轮循环中显式地将当前时间步和积分步长作为条件注入输入，并设计了如下约束损失：

其中是一个轻量级的条件投影函数。该损失函数强制较短的粗略轨迹在经过时间条件化映射后，必须与全长深度轨迹的最终表示精确对齐。这确保了用户可以在推理时根据算力预算自由指定循环深度（弹性深度），彻底消除了表征崩溃的隐患。

4. 动力学稳定与定点吸引子（Dynamical Stability & Fixed-Point Attractor Models）

从物理视角来看，将网络“有限展开指定层数”依然是一种工程妥协。最纯粹的循环范式，应当直接诉诸于非线性动力系统理论中的不动点（Fixed Point）求解。

Attractor Models (定点吸引子模型) 将推理过程完全交给了高维相空间内的收敛动力学。系统通过骨干网络生成一个初始嵌入后，吸引子模块开始迭代，直到隐状态满足不动点方程：

在训练此类模型时，如果继续使用时间反向传播（BPTT），显存将随着收敛步数呈线性急剧增长。Attractor Models 巧妙地利用了隐式微分（Implicit Differentiation）技术，直接绕过对中间迭代轨迹的追踪，其核心权重梯度公式为：

这使得训练期的显存消耗相对于有效计算深度降低到了恒定常数（）。同时，模型在优化过程中还会触发“均衡内化（Equilibrium Internalization）”现象——骨干网络给出的初始预测会逐渐被拉向目标吸引子的平衡点邻域，从而在大幅缩减推理步数的情况下依旧维持极高的鲁棒性。

然而，要保证系统在无限次的物理循环中不发生混沌发散，必须对系统的稳定性边界施加严密的数学约束。

根据李雅普诺夫线性化定理（Lyapunov Linearization Theorem），非线性动力系统的局部渐近稳定性完全取决于其雅可比矩阵（Jacobian Matrix）的谱半径。STARS 框架为此引入了雅可比谱半径正则化 (JSRR) 目标：

其中表示矩阵的最大特征值（谱半径），为安全裕度。通过结合单步幂迭代（Power Iteration）与雅可比向量积（JVP），STARS 在规避昂贵的全特征值计算的同时，强制将谱半径约束在单位圆内。每一次循环迭代，都在严格的数学法则下对潜在的不确定性进行持续的“挤压”与“过滤”，这正是循环网络能够在超长视距扩展中免于崩溃的物理根源。

5. 稀疏路由与免训练复用（Training-Free Looped Transformers）

除了从零训练全新的循环模型，业界最近还诞生了一种极其迷人的工程巧思：不进行任何微调、不更改任何架构，直接在推理期通过高阶数值积分器来“唤醒”现有冻结大模型（如 Qwen 系列）的循环推理能力。

Training-Free Looped 范式再度回归了 ODE 的视角。既然标准的预范数 Transformer 块是对前向欧拉积分的粗糙逼近，那么简单的块级复用必然会因为截断误差引发严重的性能退化。

如果我们改用高阶数值积分（如 Runge-Kutta 2阶或4阶方法）来控制阻尼，其前向展开步便可以改写为：

这种方法以零训练成本的代价，通过更精准地控制隐状态流形的演化轨迹，成功在推理期唤醒了冻结大模型的潜在常识推理与学科答题能力，为受限边缘端的部署开辟了一条全新的路径。

四、终局思辨：接替还是融合？

脱离实验室环境，我们必须客观审视循环架构在工业落地中的优劣。

绝对的降维打击能力：

●极致的端侧部署经济性： 1.4B参数的Ouro模型能达到4B标准模型的表现，极简的参数印迹在边缘计算和移动端极具战略价值。

●原生支持测试期算力扩展（Test-Time Compute）：与单纯依靠拉长提示词导致KV Cache迅速撑爆内存墙的传统大模型不同，循环架构将多步深思收敛在隐向量内，外部上下文窗口占用始终保持恒定。

难以逾越的工程挑战：

●深层不稳定性与训练开销：将同一算子重复上百次极易导致梯度消失或激活方差失控（即梯度爆炸）。必须依靠截断时间反向传播（TBPTT）或隐式微分求解，这导致其训练显存或时间开销难以匹敌Transformer的高并行吞吐量。

●表征崩溃（Representation Collapse）：若模型训练时展开16次，测试时强制循环50次，隐状态往往会发生漂移并退化为噪声，这仍是学术界亟待攻克的顽疾。

●极端的黑盒化：相比于能输出可读思维链的传统模型，循环网络的内部试错过程是一团不可读的高维稠密向量。这让排错与逻辑调试几乎无从下手。

循环架构会彻底终结 Transformer 吗？

从底层算子视角来看，无论是极致精简的 TRM 还是应用隐式微分的 Attractor Models，其内部负责高维表征提取的核心算子，依然坚固地依赖于自注意力（Self-Attention）机制与门控线性单元（SwiGLU）。

因此，循环架构绝非对 Transformer 的全盘否定，而是对其宏观连接层级与拓扑结构的历史性重构。

纯粹且单一的循环架构在短期内难以完全替代包含海量常识记忆与宽泛世界知识的传统万亿参数巨型模型，因为参数量本身带来的暴力知识容量优势依然是无可替代的物理法则。在可预见的未来，纯粹的单一循环架构难以完全替代万亿参数规模的通用知识大模型，因为海量常识和宽泛知识记忆依然需要依靠庞大的参数容量来承载。

但在通往 AGI 的图谱中，下一代超大语言模型系统极有可能向着一种高度仿生的“脑启发混合架构”演变：

●系统 1（直觉匹配）：由一个非循环的、拥有千亿参数的浅层 Transformer 负责快速的模式识别和世界知识检索。

●系统 2（深思推演）：一旦遇到棘手的逻辑矛盾、高级数学求解或强约束的 Agent 规划任务，系统 1 会将高度压缩的概念令牌抛入一个参数极小（可能仅几亿）但循环深度极深、具备严格动力学稳定保障的循环核心中，进行长达数千步的连续隐空间沙盘演练与分支假设试错。

将空间层面的参数堆叠，转化为时间维度上的深度复用。这不仅是深度学习模型冲破智力天花板的必经之路，也是这场架构变革最底层的数学引力所在。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2026-06-28，如有侵权请联系[email protected] 删除

郑重声明：本站发布内容宗旨在传播更多信息，仅提供查阅，与本站立场无关，不拥有所有权，不承担相关法律责任。不具有任何效益，仅供参考。如果需要专业知识建议，请咨询相关专业人士。如有侵权请联系邮箱。一经查实，立即删除！

喜欢(0)

对称不定分解（Bunch-Kaufman）：为何 Cholesky 不够用

一个开源的AI Agent开发框架：10K star：太省事了！