363050.com

10步优化超越强化学习仅需1条未标注开云体育数据!后训练强势破局

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

10步优化超越强化学习仅需1条未标注开云体育数据!后训练强势破局

  【新智元导读】无监督的熵最小化(EM)方法仅需一条未标注数据和约10步优化,就能显著提升大模型在推理任务上的表现,甚至超越依赖大量数据和复杂奖励机制的强化学习(RL)。EM通过优化模型的预测分布,增强其对正确答案的置信度,为大模型后训练提供了一种更高效简洁的新思路。

  在具备强大的通用性能之后,当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」,比如数学问题、分析物理现象或是构建编程逻辑。

  要想达到更高的性能,除了海量文本的预训练之外,往往还需要进一步的后训练。

  主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)。

  虽然基于RL的微调可以显著提升模型性能,但其十分依赖大规模、高质量的标注数据,其训练效果也取决于开发人员设计的复杂奖励函数,需要专家知识来最大化优势信号并防止模型「奖励作弊」。

  此外,许多常用的RL算法(如PPO)需要额外的奖励模型,不仅增加了算法复杂性,多训练步骤和漫长的采样过程也会大幅提升计算开销。

  最近,Ubiquant研究团队提出一项LLM后训练的突破性研究,用13,440组大模型训练实验对比证明了一件事:

  使用使用无监督方法「单样本熵最小化」(One-shot Entropy Minimization, 简称One-shot EM),仅需一条未标注样本和约10步优化,即可在推理任务上达到甚至超越依赖成千上万条数据和精心设计的奖励机制的RL方法的效果。

  EM的核心理念是无需任何标注数据或外部监督来训练模型,仅依赖模型自身预测分布的熵(entropy)进行优化。

  其有效性基于一个关键假设和一个简单直觉:如果一个模型本身足够有能力,那么当它对其预测结果更「自信」时,也更有可能是正确的。

  具体来说,EM训练模型将其概率质量更多地集中在其最自信的输出上,即正确答案通常比错误答案具有更低的熵值。

  通过优化目标来降低模型生成序列的熵,EM可以促使模型变得更加「自信」,从而强化其在预训练阶段已经获得的能力。

  研究人员在论文中深入分析了one-shot EM的有效性,发现其与强化学习具有相似的核心特性,但从logits偏移角度来看,其对模型行为的引导方向相反。

  广泛实验表明,「温度」是影响EM训练和推理表现的关键因素,且在推理阶段与强化学习呈现相反趋势。

  给定一个输入提示x(例如一个问题或问题描述),模型根据其当前策略自回归地生成一个响应序列 y=(y1,y2,…,yT),其中T是生成序列的长度。核心思想是通过在每一步生成时最小化标记级别的熵,来减少模型对其自身预测的不确定性。

  简单而言,该损失函数鼓励模型提高对自身预测的信心,无需依赖外部监督信号或奖励函数。

  由于其完全依赖于模型本身而非外部信号,和预训练目标完全兼容,在有效简化优化过程的同时可能带来潜在对于模型内一致性的破坏。

  熵最小化(EM)的成功依赖于「模型的预测不确定性」可以作为「有意义的训练信号」。

  研究人员采用了一种基于「模型表现方差」的样本筛选方法,来选择更具有信息量的输入提示:通过计算模型多次生成结果的准确性方差,挑选模型表现不稳定的样本进行训练。

  这种方差量化了模型对给定输入的预测不一致性:低方差意味着要么对正确性有高度信心(接近完美的成功),要么对失败有高度信心(完全错误)。

  相反,表现方差大的样本更能有效驱动模型降低熵值、明确决策边界,这也是为何只用一条高质量样本,就能快速推动模型的推理性能。

  研究人员在多个数学推理任务上测试了熵最小化(EM)的效果,结果显示,仅一条样本、10步训练,EM方法即大幅提高了Qwen2.5-Math-7B的性能:

  即使只使用一个样本和极少的训练步骤(仅仅10步),EM方法极大地缩小了Qwen2.5-Math-7B与Prime-Zero-7B和RLVR-GRPO等先进的基于RL的模型之间的差距。

  特别是在AMC23基准测试中,经过EM增强的Qwen2.5-Math-7B达到了具有竞争力的70.3分,逼近领先的RL模型这些结果清晰地表明,熵最小化(EM),尽管比典型的强化学习方法更简单、数据效率更高,但在增强基础语言模型在数学推理任务上的性能方面,具有巨大的潜力。

  那么为什么熵最小化能这么有效果呢?熵在模型的训练和推理过程中起到什么样的作用呢?

  大型语言模型在生成每个token时,会先产生一组未经归一化的分数Logits,随后通过Softmax函数转换为概率分布,决定了下一个token的选择。

  因此,Logits的分布形态直接反映了模型对其预测的「置信度」和对不同token的偏好。

  通过对模型Logits分布的深入分析发现,熵最小化(EM)和强化学习(RL)对模型内部置信度的影响方向截然相反。

  研究表明,经过EM训练的模型,其Logits分布会显著地向右偏移,意味着模型在生成过程中,会反复强化自身的预测置信度。

  模型将更多的概率质量集中在少数它认为「确定」的token上,使得原本高概率的区域进一步向高分区间扩展。

  在生成和采样时,这种向右的Logits偏移是有益的,增加了高概率的候选token数量,扩展了模型能够遵循的「高概率路径」,从而潜在地增强了模型的整体生成能力。

  实验中,EM 训练后的模型在评估时表现出与采样温度的相反趋势:随着温度升高,性能下降。

  可以用贪婪解码(即总是选择概率最高的token)来解释——EM训练将概率质量高度集中在少数确定性token上,贪婪解码在这种分布下变得非常有效。

  研究人员推测,这是受到训练过程中「真实」(ground-truth)信号的影响。

  RL通过外部奖励函数来调整模型的行为,会惩罚那些模型预测概率很高但与地面真实不符的token

  通过对这些高概率但不正确的token进行降权(reranking),RL降低了其排序位置,从而导致整体Logits分布向左偏移。

  RL训练后,即使经过reranking,这些原本低概率的token往往只占据概率分布中的中间位置,需要更高的采样温度才能被选中。

  因此,RL训练的模型表现出与EM相反的趋势:性能随着采样温度的升高而提升。

  虽然RL的目标是提升模型性能,但其导致的Logits左移被认为对大型语言模型的生成过程有害,减少了采样时的高概率路径数量,可能会削弱模型的整体性能。

  Logits偏移的差异,可以通过分析Logits分布的偏度(Skewness)进行量化。

  EM训练显著提高了Logits分布的偏度,呈现右偏;而RL训练则显著降低了偏度,甚至导致左偏。

  即使在EM后再进行RL训练,Logits分布的偏度也会从EM后的高值有所下降,遵循RL的趋势,其差异和塑造了EM和RL完全不同的推理采样策略。

  在评估阶段,随着采样温度的升高,EM模型在四个数学推理基准测试上的平均表现持续下降。

  EM 更像是一个分布塑造工具(distribution shaping tool),通过强化模型自身的内在一致性来提升置信度,从而重塑了现有知识的分布。

  训练初期,EM训练损失迅速下降,模型的数学推理性能也随之提升然而,大约在训练进行到10步左右时,模型的性能达到了顶峰。

  令人意外的是,即使EM训练损失继续下降,模型的数学推理性能反而开始下降。

  这种「过度自信」现象可能是由于持续的EM训练过度放大了模型在推理过程中对其自身生成 token 的置信度。

  持续的EM训练可能会过度强化模型已有的先验偏差,导致输出结果过度集中于狭窄、过度自信的 token 分布,从而加剧算法偏差并导致输出显著偏离正确路径,最终损害了模型的实际推理性能。

  经过EM训练的模型在四个数学推理基准上的平均性能随着生成温度的升高总体呈现上升趋势。

  平均性能的最大值最初增加,随后在温度约为0.5时开始下降。较高的温度带来更好的平均推理能力,而适中的温度(如0.5)则导致更大的性能波动,从而为更高的峰值性能创造了机会。

  EM训练同时展现出显著的随机性,即便设置完全相同,四个数学推理基准测试的平均得分也会因种子不同而相差高达两倍。

  研究人员在多个不同的基础模型上评估了one-shot EM的效果,结果表明,仅通过单个样本和极少的训练步数,EM 能够持续且显著地提升这些模型在数学推理基准测试上的性能。

  然而,当应用于已经过大量RL广泛微调的模型(如 SimpleRL-Zoo)时,One-shot EM反而可能导致性能下降,与在RL之后应用EM可能锁定狭窄、过度自信的输出模式并损害性能的发现一致。

  EM的核心优势在于其极高的效率和对数据的极低需求,研究发现,One-shotEM实际上比 Multi-shotEM表现出更好的性能和更强的泛化能力。

  尽管Multi-shot使用了更多的样本,但One-shot EM通过单个样本实现了更稳定和细致的优化,有效减少了样本偏差并缩小了输出方差,进一步强化了EM在数据极度稀缺场景下的吸引力。

  熵最小化(EM)可以作为现有后训练范式的有力补充甚至起点,将EM应用在RL之前能够带来有效增益,使其成为RL的有效「启用基础」。

  EM通过其独特的Logits右偏移效应提升模型的自信度,增强模型的推理能力,并可能促进后续RL训练的更快收敛和更稳定优化。

  One-shot EM的成功,不仅在于其惊人的数据和计算效率,还在于它为LLM后训练提供了一种完全无监督的、可落地的替代方案,不需要人工标注数据,不需要构建复杂的奖励模型,极大地降低了后训练的门槛和成本。

  One-shot EM虽然高效,但也伴随超参数敏感性和一定的训练不稳定性。

  未来的工作需要探索早停标准或自适应调度机制,以及减少训练的随机性,以进一步稳定和提升EM的效果。

  EM在数学推理任务上表现出色,但能否泛化到对话、摘要、代码生成等其他领域,还需要进一步的实验验证。

  同时,当前EM在Token级别操作,未来的研究可以探索在序列或语义单元上应用结构化熵,或引入任务特定先验知识和自适应熵正则化,以释放更多潜力。

  EM作为一种分布塑造工具,与SFT、RLHF等现有后训练技术概念上正交。

  研究发现,在RL之前应用EM可以带来有益的对数分布偏移,未来的工作可以系统地研究不同的EM与RL结合的时间表、课程策略及其相互作用,探索构建更强大混合方法的可能性。

  EM甚至可以作为SFT或RLHF过程中的一种正则化策略,或作为现有模型的「信心压缩」层。

  研究结果暗示,EM通过强化高概率推理路径来增强模型的置信度,表明EM可能是一种轻量级的信心校准方法。未来的研究需要开发更精确的评估协议来量化EM的校准效应,深入理解其背后的机制。

Copyright © 2012-2025 开云体育公司 版权所有 非商用版本