更新时间:2025-05-18 04:55作者:佚名
尽管大型模型增强了推理能力,但他们经常“思考太多”,回答简单的问题却是漫长而复杂的。莱斯大学的中国研究人员提出了有效推理的概念,并探索了如何帮助LLM竞标告别,以“过度思考”并提高推理效率。

LLM的推理能力得到了显着增强,但是,这种“超级大脑”也有自己的麻烦。
有时,答案是一个大圆圈,推理过程是漫长而复杂的。尽管可以得出正确的答案,但它会消耗大量时间和计算资源。
例如,如果您问它“多少2 plus 3等于3”,它可能始于数字的概念和添加原则,并且要说这将影响实际应用的效率非常重要。
赖斯大学的中国研究人员提出了“有效推理”的概念,以更快,更简洁地给出答案,同时确保答案是准确的。
纸张链接:https://arxiv.org/abs/2503.16419
项目链接:https://github.com/eclipsess/awesome-forked-reasoning-llms
接下来,我们将深入探讨LLM的有效推理,并帮助他们告别“过度思考”。
不要让模型“思考太多”,而要朝着有效的推理迈进。 LLM通过思维链(COT)提示等技术在复杂的推理任务中表现出色。
COT就像在模型上安装“思考引擎”,允许其逐步推断出来并清楚地显示推理过程。
但是,这种出色的性能需要大量计算资源。
LLM经常经历“过度思考”,产生长而冗余的推理内容,增加延迟和资源消耗。
本文重点介绍了如何在改善或维护模型性能的同时优化推理过程,这对于有限的计算资源的实际场景非常重要。
研究人员已经解决了处理“过度思考”并实现有效推理的技术手段:
基于模型的有效推理:即考虑将模型优化为更简洁的推理模型,或直接训练有效的推理模型。基于推理输出:旨在动态减少推理期间的推理步骤和长度。基于输入提示:根据输入提示的属性提高推理效率(例如难度或长度控制)。此外,研究人员还引入了使用有效数据来训练推理模型,探索小型模型的推理能力,并讨论了评估方法和基准。
当LLM了解“过度思考”会产生一个漫长而不必要的推理过程时,就会发生“过度思考”的现象。
当回答简单的问题“更大,0.9或0.11”时,这两个模型DeepSeek-R1和QWQ-32B给出的答案非常详细。
它可能从十进制的原理开始,分析小数点之后的每个数字,然后尝试使用各种方法对其进行验证,例如将其转换为分数或在数字轴上表示它,最后给出答案。
尽管答案是正确的,但推理过程是漫长而冗长的,并且会消耗大量时间和计算资源。
DeepSeek-R1:好的,我必须判断哪个更大,0.9或0.11。它们都是小数,但是小数点后的数字数量不同。我首先考虑每个小数的含义。 0.9是十分之九,因为小数点后的第一个数字是十。等等,我将以不同的方式确认它,然后尝试将它们转换为百分比.为了确保正确,我将在数字行上注明。还有其他验证方法吗?看来您可以使用减法.或.我确定答案是0.9。 (616个单词,19秒)
QWQ-32B:找出哪个更大,0.9或0.11。它们是小数,比较一点?我记得十进制比较的规则. 0.9小数点后有1位数字,而0.11有2位数字。我应该调整写作方法.不,我再次检查,看看是否有问题。另一种思考的方法.最终答案是0.9更大。 (602个单词,42秒)
从这个示例中,我们可以看到“过度思考”的几个特征:回答简单的问题,这两个模型都写了600多个字。推理过程中有许多重复和冗余验证方法。
推理内容的时间越长,处理它所需的时间就越多。该模型将反复怀疑其自己的推理过程。
在资源有限的环境或需要实时响应的诸如自动驾驶和智能互动助手之类的应用程序方案中,“过度思考”引起的效率低下的问题将特别突出。
有三类有效的推理方法可以实现有效的推理,例如基于模型的有效推理,结果的优化以及对输入提示的有效推断。
基于模型的推理的有效方法是在RL中包括长度奖励,并指导其产生简洁的推理。
过去,在训练模型时,我们主要关注答案是否正确以及格式是否标准化。现在,研究人员添加了新的“评估指标” ——推断长度。
就像老师不仅要求学生回答正确的问题一样,而且还要求答案过程简洁明了。
奖励功能通常看起来像这样:
其中,用于调整奖励功能中长度惩罚的重量。 r_length是根据推理响应的长度设置的罚款项。计算方法如下:
为了获得更多的奖励,该模型将尝试尽可能少地使用令牌,同时确保答案是准确的。
使用可变长度的COT数据进行监督和微调也是提高推理效率的有效方法。
这就像为模型提供不同困难和长度的“锻炼问题”,从而使其能够灵活地对各种情况做出反应。
培训数据中有完整和详细的推理链以及短有效的推理路径。
通过这些示例,该模型可以学会采用更简洁,更有效的推理模型,而无需降低准确性。
微调模型时,您可以使用诸如lora之类的标准微调方法来调整较小范围内的模型参数。您还可以使用逐渐的微调来允许模型缓慢适应新的思维节奏并逐渐提高推理效率。
从推理输出的角度优化推理输出并简化思维过程,研究人员试图通过创新的方式来压缩推理步骤,以使模型的“思考过程”更加精简。
这些方法不会更改模型参数并直接优化推理输出的结果。
潜在的推理技术可以将推理步骤压缩为更精简的表达式,并且该图显示了以更有效格式编码的多种潜在推理方法:
椰子:在训练过程中,逐渐减少推理内容的长部分。 CODI:使用自供应来压缩推理内容。 CCOT:压缩COT推断为潜在表示。 SoftCot:借助小型辅助模型,将潜在思维投入大型模型。这些方法通常使用嵌入功能将冗长的推理内容映射到更紧凑的空间中,该空间由公式表示:
E_COMPACT是一种压缩推理表示,F是学*的转换函数。
除了利用潜在表示外,推理过程中推论策略的动态调整也是提高效率的关键。
动态推理基于每个问题的特定情况,根据需要生成推理步骤。图中引入了两种典型的技术。
就奖励指导而言,据推测,最佳的N解码算法被拒绝优化。在生成多个响应的过程中,根据奖励模型的评估,低质量的输出被及时丢弃,并减少了不必要的计算开销。
当面对复杂的问题时,它将首先产生大量可能的推理路径,然后迅速消除那些没有希望的路径,并且只保留了继续推断的高质量路径,从而*提高了推理效率。
这两种技术的核心思想是根据问题的复杂性灵活调整推理深度,并将其表示为:
在输入提示的帮助下,从输入提示的角度巧妙地指导思考,并使模型推理效率更高。
长度约束提示很简单且实用。它直接要求模型控制提示中的推理长度,例如“使用不超过10个令牌来回答以下问题”。
COD方法允许模型在踏上推理时只能保留每个思维步骤的最小草稿,最多使用五个单词。
例如,当回答数学问题时,该模型不再详细列出每个步骤的派生过程,而是使用一些简洁的单词来总结关键想法。这样,在确保准确性的同时,*降低了令牌的使用。
不同的任务具有不同的难度和推理要求不同的要求。
因此,基于输入提示的属性的推理路由也是提高效率的策略。
Routellm训练一个查询路由器,该路由器根据问题的复杂性将查询分配给适当的模型。
简单的问题留给了快速速度但较弱的推理功能的模型,而复杂的问题则留给具有更强推理功能的模型。这可以使不同模型的优势充分发挥作用,并提高整体推理效率。
自我REF方法允许LLM根据其自身的不确定性评分来决定是否有必要路由更强大的模型。
如果模型不确定自己的答案,它将自动从更强大的模型寻求帮助并减少不必要的推理步骤。
除上述方向外,研究人员还对数据,模型和评估进行了深入的探索,以进一步提高LLM的推理效率。
随着数据和更多的数据,许多研究发现,培训数据的质量和结构对模型的有效推理能力有很大的影响。
通过仔细选择和组织培训数据,即使数据量很小,该模型也可以表现良好。
数据多样性:将模型暴露于各种推理模式和问题类型。数据质量:选择高质量样本,而不仅仅是追求大量样本。推理结构:清楚地教导模型逐步推理,而不是直观的推理。豪华轿车打破了传统概念,不再追求数据的数量,而是专注于质量。
它将在难度,多功能性和知识多样性方面选择高质量的问题,然后将它们与合理的结构和严格的验证解决方案相匹配。
借助这些经过精心选择的817个样品,由豪华轿车训练的模型可以超过接受超过100,000个样品训练的模型。不是很强大吗?
S2R注入LLM具有验证和自我校正的能力,就像雇用私人教练一样。
它首先在精心选择的数据集中微调模型,以允许该模型最初具有这些功能,然后通过RL进一步改进。
仅使用了3100个初始化样本,并且在推理任务中S2R微调模型的性能比许多经过大量长COT蒸馏数据训练的模型更好。
尽管小型模型的“反击道路”非常有能力,但它对计算资源也有很高的要求,并且在某些情况下,资源有限的情况下有点不满意。
目前,小语言模型(SLM)有其工作地点。
但是,为了使SLM在有限的资源下具有强大的推理能力,它必须给它一些“特殊培训”。
知识蒸馏是提高SLM推理能力的重要方法。简而言之,这是将LLM的智慧传递给SLM。
混合蒸馏就像将不同的“智力本质”混合在一起。有些将长长和短的婴儿床推理示例混合在一起,而另一些则结合了婴儿床和锅(思想计划),以使SLM吸收更全面的知识。
反事实蒸馏就像为SLM创建一些假设的情况。通过专门研究原始问题,它会生成多视图COT,从而允许SLM从不同角度学*知识。
还有反馈驱动的蒸馏技术,它将不断优化蒸馏数据集,例如为SLM提供越来越准确的学*材料。
此外,某些方法还将检测和检索机制集成到蒸馏过程中,或者让模型根据蒸馏过程中的任务动态调整推理策略,这有助于SLM更好地学*LLM的推理能力。
评估评估有效推理的推理能力需要全面考虑准确性和推理效率:
精度:查看最终答案是否正确。效率:代币的使用量,所花费的时间以及消耗的计算资源。在实际评估过程中,效率指标通常首先标准化,然后与精度指标相结合以形成全面指标:
奖励推理的正确性和简单性。
SYS2Bench涵盖了多个领域的任务,例如算术,逻辑,常识,算法和计划,并使用11个不同的数据集对LLM进行全面测试。
通过此测试,发现仅在推理过程中增加计算资源,模型在所有任务中都不能很好地执行,并且提高LLM的推理能力需要多种方法的组合。
还有一些研究专门研究了不同的推理策略对模型性能的影响,以及测试时间缩放(TTS)策略与模型性能之间的关系。
也有特殊的评估方法来思考LLM。
研究人员开发了一个评估框架,可以深入分析模型的推理过程,并找到分析瘫痪,异常行为和过早放弃等模式。
他们提出了“过度思考分数”,就像健康指标一样。分数越高,过度思考模型的问题就越严重,任务绩效越好。
通过选择低思考得分低的解决方案,可以将模型性能提高30,同时将计算开销降低43。
参考https://www.alphaxiv.org/overview/2503.16419
本文来自作者:Yingzhi的微信公共帐户“ Xinzhiyuan”,由36KR出版并授权。