基于可验证奖励的强化学习(RLVR)在训练工具使用大语言模型(LLMs)方面显示出潜力,然而现有方法大多忽视了显式推理奖励在增强推理和工具利用方面的潜力。此外,简单地结合推理和结果奖励可能导致性能次优,或与主要优化目标冲突。