大语言模型下强化学习奖励机制的探索与发展历程-人工智能技术与咨询

大语言模型下强化学习奖励机制的探索与发展历程

2025-07-29 17:42:32282浏览

源自：塔罗荟

在人工智能领域，大语言模型（LLM）的推理能力提升一直是研究的热点和难点，传统的强化学习方法依赖外部验证器提供奖励信号（RLVR或RLHF），这在数学和代码等结构化领域取得了明显效果，但在通用领域却面临诸多挑战。同时，不管是通过合成高质量推理数据SFT为RL的冷启动做准备还是持续的对奖励建模过程进行优化迭代亦或通过构造复杂的外部真实环境验证反馈机制，看起来都将面临unscalable的挑战，且也会面临关于“奖励”本身在其内涵分布、多元性、真实性、整体性等多方面复杂性挑战。

近日，我们看到清华大学和新加坡国立大学联合发布的《RLPR: EXTRAPOLATING RLVR TO GENERAL DOMAINS WITHOUT VERIFIERS》论文所提出了RLPR框架，创新性地优先着眼模型内部即直接利用大语言模型自身生成正确答案的内在概率分布特性作为奖励信号，一定程度摆脱了对外部验证器的依赖，为通用领域的推理能力提升开辟了新路径。

这一创新思想与此前向大家介绍并分析过的：来自清华的TTRL「Test-Time RL」、谷歌DeepMind 的苏格拉底学习「Boundless Socratic Learning」、Sakana AI的RLT「Reinforcement Learning Teachers of Test Time Scaling」以及来自UC Berkeley的RLIF（Reinforcement Learning from Internal Feedback）等方法形成了一定类比和有益互补，因此，本文将借机RLPR，简单剖析并讨论相关上述众多RL without R的核心思想以及为什么是work的假设，并结合其他相关方法进行多维度的对比分析。

让我们先来从RLPR入手看看...

RLPR内在prob-to-reward转换下的参考奖励强化

RLPR的关键创新在于认识到大语言模型自回归下的联合概率建模本身的next token predict形式与参考答案内在的概率差异分布可直接反映其对推理过程的自我评价。这一洞察改变了传统更多依赖外部验证器的强化学习范式（RLVR），将奖励信号的生成从外部验证转向模型内部生成。具体方法上，RLPR计算了参考答案在模型中的逐词解码概率，并将其作为奖励信号，通过最大化预期奖励来优化训练。这种方法不仅简化了奖励信号的获取流程，还使得模型能够更好地应对通用领域中自由形式答案的多样性和复杂性。

例如，在数学问题中，传统的基于规则的验证器可以通过符号计算准确判断答案的正确性。但在通用领域，如涉及多学科知识的开放性问题，答案可能具有多种合理表述形式，且语言的自然多样性使得规则验证器难以覆盖所有情况。而RLPR则深入到模型内部视角以探寻其自身的概率分布的方法建立评估机制，从而实现能够对不同表述形式的答案形式和质量进行更通用自然的合理评估，也为部分正确答案提供了合理的奖励，从而更有效且细粒度地引导模型的推理过程并保持一定的稳定性。

在算法细节与创新策略上，RLPR引入了两项关键策略以优化其概率奖励机制：奖励去偏和标准差过滤。奖励去偏通过计算直接解码参考答案的概率作为基础分数，并将其与生成答案的概率相减，从而消除由于问题本身或参考答案特性导致的奖励偏差。标准差过滤则基于奖励值的标准差动态筛选训练样本。低标准差的样本通常表示模型在这些样本上已经能够稳定地生成高质量或低质量的答案，继续训练的边际收益较低。通过剔除这些样本，RLPR 能够专注于那些模型尚存在较大不确定性、具有更高提升潜力的样本，从而实现自适应的课程学习机制，提升训练效率和最终性能。

另外，RLPR的核心思想亦反映了当前对强化奖励机制更深刻的理解：强化学习下的复杂推理奖励与策略优化不仅仅是对外部规则和知识的一味依赖与遵循，同时存在于在模型内部的隐状态概率认知压缩机制也存在的更广泛的可探索和利用的空间。通过将奖励信号的生成从外部验证转向模型内部的内在概率评估，RLPR某种程度上也开启了模型推理的内生自省（当然这也绝非RLPR首次提出，如早先来自UC Berkeley的RLIF亦是应用了一种在概率维度更彻底的自省机制），这种转变使得模型能够更加自主地学习和优化推理过程，不再依赖于外部验证器对最终答案的简单正确或错误判断，而是基于自身过程性分布对答案合理性的综合评估来进行学习。

在论文中，研究团队给出了一个具体示例：当模型在输出 o2 中错误地把选项 A 排在了第二位时，可以观察到参考答案在第二个正确选项位置上的生成概率出现了显著下降。这一现象清晰地表明，PR 能够精准捕捉模型对于自身推理质量的判断，并且与模型推理的正确性表现出高度相关性。

比如推广到实际应用上，在处理涉及多学科知识交叉的复杂问题时，模型需要综合运用不同领域的知识进行推理。RLPR的内在概率奖励机制能够捕捉到模型在推理过程中的细微进步，即使最终答案尚未完全正确，只要推理过程中的某些步骤与正确答案更接近、或推理过程中所采用的思维过程和方法更贴合于某种深层次的逻辑自洽、亦或由于充分的利用了先前预训练下基础模型的常识性知识或碎片化泛化能力，使得模型获得相应的奖励，从而激励其继续优化推理策略。这种内生驱动的推理能力提升方式，更符合人类学习和推理的认知规律，也为模型在更广泛的通用领域应用奠定了基础。

RLIF：从外部监督到内在反馈

而RLIF（Reinforcement Learning from Internal Feedback）则更进一步，完全摒弃了对外部监督的依赖（RLPR方法在某种程度上还是要依赖于参考答案的概率分布），转而利用模型自身的内在反馈作为奖励信号。其中的INTUITOR方法作为RLIF的一种实现，使用模型的自我确定性（self-certainty）作为唯一的内在奖励信号。其方法动机在于，大语言模型在面对不熟悉的问题或缺乏足够知识时，往往会表现出较低的自信度，而较高的自信度通常与答案的正确性相关。通过优化模型的自我确定性，INTUITOR鼓励模型迭代地“继承”和“细化”其推理路径，直到对输出结果更加自信。

同样，在数学问题中，模型可能最初对某个复杂问题的解答缺乏信心，表现为较低的自我确定性。通过不断地生成候选答案并评估其自我确定性，模型逐渐利用基础模型的更广泛的泛化分布习得生成更详细的推理步骤，从而提高对最终答案的信心。这种方法不仅提高了模型在特定任务上的性能，还增强了其在未见过的领域中的泛化能力。

在算法创新上，INTUITOR采用自确定性作为奖励信号，该信号定义为模型输出分布与均匀分布之间的平均 KL散度。这种方法与基于熵的奖励信号不同，它更倾向于模式寻求（mode-seeking），而不是模式覆盖（mode-covering）。这使得模型在生成答案时更倾向于追求更高的确定性，而不是简单地增加最可能输出的概率。通过这种方式，INTUITOR鼓励模型生成更详细、更具说服力的推理步骤，从而提高答案的质量和可信度。

这种「自我确定性」本身用来衡量模型在生成过程中自信程度的。具体来说，它是模型在生成序列中每一步预测的概率分布与均匀分布之间的KL散度的平均值，KL(P ‖ Q)散度是衡量两个概率分布差异的工具。KL衡量用分布Q来近似分布P会损失多少信息。

在INTUITOR中，其衡量的是模型预测分布p与均匀分布U的差异KL(U ‖ p) 。如果模型预测分布p很平坦，接近均匀分布U，那么KL(U ‖ p)就比较小，如果模型预测分布p很尖锐，远离均匀分布U，那么KL(U ‖ p)就比较大。所以，KL(U ‖ p)越大，代表模型的预测分布越尖锐，模型越确定或自信，而最终生成轨迹与答案的自我确定性就是把生成序列中每一步的KL(U ‖ p)值加起来取平均。

接下来，NTUITOR将上述计算出的自我确定性加平均得分直接作为RLIF目标函数中的内在奖励信号，并使用了GRPO (Group Relative Policy Optimization) 算法来进行策略优化，计算每个oi输出的自我确定性奖励相对于组内其他输出的相对优势 (advantage)，并用来指导策略的更新。如果一个输出的自我确定性高于组内平均水平，它的优势函数就是正的，策略更新时就会增加生成类似输出的概率；如果低于平均水平，优势函数是负的，就会减少生成概率。

在最终的效果上，仅用自我确定性奖励的INTUITOR模型，域内推理能力与有监督GRPO相当；在域外泛化能力上，INTUITOR在代码生成等跨域任务反而显著优于 GRPO，具更强通用性；相比于GRPO，其能以更低指令遵循能力模型减少乱码、输出更连贯；同时，在诸如初始训练效率、结构化长链推理模式涌现、Rewards Hack削弱等方面，INTUITOR均表现显著。

到这里，相信也有不少人会对INTUITOR所展现出的「自我确定性」的有效性存在一些困惑甚至质疑：Why？

从原论文中，我们得到了一些基于现象的推测，如：

内在一致性与预测确定性：模型在生成序列过程中展现出高水平的自我确定性，表明其对每一步的预测均具有高度置信度。这种持续的预测锐度（sharpness）可归因于生成过程内在的高度一致性与逻辑连贯性。一个结构混乱、逻辑断裂的生成过程难以支撑模型在每一步对后续标记（token）做出高度确定的预测。因此，优化模型的预测确定性，本质上是强化其生成内在逻辑顺畅、语义自洽序列的能力。

在探索与利用方面：当解决复杂问题时，模型可能面临多条潜在生成路径（如不同的推理链条或代码实现方案）。部分路径初始看似可行，但随着生成推进可能出现逻辑断裂，导致预测确定性显著降低；而另一些路径虽需更多中间步骤，却因逻辑连贯性更强，最终呈现「渐进式收敛」的高确定性结果。INTUITOR 通过强化高自我确定性的奖励机制，引导模型优先选择并巩固具备稳健性（robustness）的生成路径。

过程导向的确定性评估机制：与传统的二元结果奖励机制不同，自我确定性指标是基于生成序列的全过程进行计算的。这种评估方式要求模型在每一个生成步骤都维持较高的预测确定性，从而将优化重点从单一结果正确性转向整体生成过程的质量控制。这种过程导向的激励机制更有利于模型发展稳健的推理能力，进而提升其在未见长过程数据上的泛化性能。

认知科学视角下的自我确定性解释：该机制与人类学习过程中的元认知监测（metacognitive monitoring）具有显著相似性。比如人类个体处于连贯的思考状态时，会表现出较高的信心水平；而在逻辑混乱时则产生不确定性信号。而自我确定性优化实质上是在计算模型中复现这种基于内在评估的自我调节学习机制，以在某种先验指引下完成复杂任务的探索。

但我想这些解释还是更多停留在表象的解释或猜测，未形成更有说服力且完备的理论，比如在内在置信奖励信号的普适性方面，是否在所有任务上都有效吗？对于需要极具创造性、发散性思维或涉及多种在域外新领域试错探索后而形成的可利用模式任务，仅仅追求模型先天的「确定性」是否足够，甚至可能带来限制？同时，这种「自信」的确定性是否会受到模型幻觉的影响而表现出错误自信或盲目乐观？我想未来对于模型内部状态基于概率分布或其它信号复杂机制下的奖励利用仍会有更多深层次可探索发掘的空间。

因此在这里，我也尝试抛出一些自己的思考和假设：

整体上，以模型在生成序列过程中的高水平自我确定性为目标去进行策略优化的大方向上是相对明确的，因为我们未来不太可能将一个不太“自信”且“飘忽不定”的模型投入到复杂生产任务或严谨的科学探索当中来。

那么在利用内部奖励信号上，我们可能要在纵向深度上尽可能的去规避虚假自信所带来的虚假奖励状态分布信号（内部概率的或者其它的模型外部封闭域的奖励转化机制）；在横向广度上，则去尽可能多的通过各种采样形式促使模型进行更广泛空间的探索与利用。

因此如何通过上述在“纵向深度”与“横向广度”上通过模型内概率分布或最小化领域内的某种信号自反馈机制来实现可扩展的全局策略迭代将作为突破重点。

大家可以尝试想象一下，当我们面对一个稍微超出我们一点认知范围但经过一系列持续思考探索并能够有一定概率得到解的复杂问题来说，通常在思考或推理之初，我们对接下来的推理步骤确定性并不很高（这里可能也要考虑所采用的不同的推理模式，比如在跨领域下的探索尝试性逐步泛化迁移模式，与之相对应的具备强逻辑的因果链条推理模式...），而随着step by step的逐步推理，当经历了中间采样推理过程中的持续多步确定性逻辑推演后，在接下来的后推理步骤下，也许通常会有较大概率展现出确定性更高的联合概率分布。

反观更多的推理错误路径采样，在初始模型尝试对空间探索之初的推理阶段可能表现出一定的盲目自信（概率较高），而在接下来的step by step推理过程中由于某种原因在接近最终答案的过程中出现了困境而导致推理失败（均匀分布下的低概率），意味着整条探索推理路径在一定概率下最初几个步骤是盲目自信的，当然这不完全，更多情况下可能需要我们结合每一步token predict隐含的多元属性综合判断其概率置信的真实性或虚假性，比如“熵·Entropy”，熵能一定程度的辅助我们判断中间各推理环节的过程复杂度或挑战，甚至可精准定位上述所说不同“推理模式”，以此更好的判断并评估整体推理概率分布下所折射出的部分事实与优劣。

因此未来我们可以持续在“纵向深度”上通过从模型内隐状态概率分布维度出发，通过精细化分析、加工并转换构建为高效的多元化奖励机制，在“横向广度”上去尽可能的多元化的采样以实现对广泛未知领域的探索，同时合理的引入外部环境奖励机制，进一步通过RL探索更广阔、更隐秘的复杂推理空间。

比如简单粗暴的，对于生成采样的一段长推理步骤，基于模型内概率分布的优势估计可被定义为对头部推理轨迹概率分布相对均匀分布KL散度的权重下调，针对尾部推理轨迹在计算与均匀分布KL散度权重则上调，以促进模型向生成“更自信且正确”的推理响应轨迹方向优化，当然这只是一个非常拍脑袋的举例，更完备的优势估计函数设计可能要如上述段落所述，融合诸多变量因素以考量。

再比如结合RLPR和RLIF之间的优劣互补性，将它们结合起来，利用RLPR的概率奖励机制确保答案的准确性，同时借助RLIF的自我确定性奖励信号优化推理过程的可解释性和详细程度。例如，在处理复杂的数学问题时，可以先使用RLPR对模型进行训练，确保其能够生成准确的答案。随后，引入RLIF对模型进行微调，鼓励其生成更详细的推理步骤，从而提高答案的可信度和可解释性。

最后，回到文章开头所提及的另外三篇论文：

来自清华的TTRL「Test-Time RL」、谷歌DeepMind 的苏格拉底学习「Boundless Socratic Learning」以及来自Sakana AI的RLT「Reinforcement Learning Teachers of Test Time Scaling」。

对应“模型内概率分布奖励信号（RLPR&RLIF）与上述几种模型显式生成提示下自奖励反馈的类比与互补”

先来看看TTRL（Test-Time RL），该方法强调在测试时通过模型自身生成多个答案，并通过“投票”选出共识答案作为奖励信号驱动学习。与之相比，RLPR的核心在于强化反馈过程直接利用模型的内在概率分布信号作为奖励信号。这种差异反映了两种不同的强化学习思路，但均降低了对外部环境验证奖励的依赖，且TTRL本质是也是一种模型内封闭域下的自演进强化过程。

从应用场景来看，TTRL在需要实时推理和快速适应新问题的场景中具有一定优势，因为它能够在测试时动态调整答案生成策略，而反观RLPR个人体会则更适合于大规模的离线训练场景，通过充分挖掘训练数据所隐含的潜力，提升模型在各类推理任务中的整体性能。例如，在处理复杂的多步骤推理问题时，RLPR训练得到的模型可能表现出更强的稳定性，因为其推理策略已经在训练过程中经过了充分优化了。

关于之前TTRL相关论述文章，感兴趣的大伙可参考如下链接：

从清华的Test-Time RL到Socratic Learning：尝试探索RL自监督框架下模型推理范式演进的机制与内涵

而对于谷歌DeepMind的苏格拉底学习（BLSL）方法强调模型在无边界环境中的自我探索和学习能力。模型通过与环境的交互不断提出问题和回答，从而提升自身的推理和学习能力。从学习模式来看，BLSL更注重模型的自主探索能力，鼓励模型在未知环境中进行试错和学习，但仍未明确设定外部奖励机制。

这种BLSL探索精神有助于模型发现新的知识和推理路径，但在训练初期可能导致学习效率较低，因为模型需要花费大量时间进行无目标的探索。对比RLPR或RLIF则通过内在概率奖励机制，在一定程度上平衡了探索与利用的关系，并利用模型已有的知识作为奖励信号的基础，某种形式上引导模型优先探索与已有知识相关的推理路径（正确性&确定性），相信未来将它们结合，可以带来更好优的训练效率以及更稳定的结果。

关于之前Boundless Socratic Learning相关论述文章，感兴趣的大伙可参考如下链接：

谷歌DeepMind提出苏格拉底式自主递归增强学习

最后对于最近刚刚发布的RLT方法，我想与TTRL和BLSL类似，其整体上均可视为“模型显式生成提示下的自奖励反馈”范式，将其与“模型内概率分布奖励信号（RLPR&RLIF）”范式相结合将会存在一定的互补性。在我的上一篇文章中有过详细论述，感兴趣的大伙可以跳转参考，这里不在赘述：

RLT「Reinforcement Learning Teachers」：另一种模型间自演化方法｜强化学习之教师传道受业解惑