方法
数据问题的reward models
ORM
对于一个问题,采样一些输出。根据答案的正确与否来分配label进行交叉熵损失训练。
PRM
其中 r s i r_{si} rsi是每个推理步骤的打分,相比ORM,PRM会提供更详细可靠的信息。但是标注价格是昂贵的。
该方法定义
这一标准源于推理过程的主要目标,推理过程本质上是一种认知过程,帮助人类或智能体达到有充分依据的结果。因此,一个有可能推断出有充分依据的结果的步骤可以被认为是一个很好的推理步骤。与ORM类似,这个定义也引入了一定程度的噪声。然而,我们发现,有效地训练一个好的PRM是有益的。
受蒙托卡罗树搜索 的启发,将推理步骤的质量定义为其推断出正确答案的潜力。
为了量化和估计给定推理步骤 s i s_i si的潜力,如图所示,用“完成器”来完成此步骤的 N 个后续推理过程: ( s i + 1 , j , ⋅ ⋅ ⋅ , s K j , j , a j ) {(s_{i+1, j}, ··· , s_{K_j, j}, a_j)} (si+1,j,⋅⋅⋅,sKj,j,aj),其中 a j a_j aj和 K j K_j Kj 分别是解码后的答案和第 j 个最终解决方案的总步骤数。然后,根据所有解码答案的正确性 A = a j A = {a_j} A=aj来估计此步骤的潜力。
用两种方法来估计步骤 si 的质量 ysi,硬估计(HE)和软估计(SE)。HE 假设一个推理步骤只要能够得出正确答案 a∗,就是好的:
SE 将步骤的质量视为其达到正确答案的频率:
一旦收集了每个步骤的标签,就可以使用交叉熵损失来训练 PRM。总之,自动流程注释框架将步骤的质量定义为其推断出正确答案并通过完成和估计获得每个步骤标签的潜力。
RANKING FOR VERIFICATION
按照 (Lightman et al., 2023) 的方法,用所有步骤中的最低分数来表示 PRM 分配的解决方案最终分数。还按照 (Li et al., 2023b) 的方法探索自洽模型和奖励模型的组合。在此背景下,首先根据最终答案将解决方案分为不同的组。然后,计算每个组的总分。正式来说,基于 N 个候选解决方案的最终预测答案是:
在实现 PRM 后,用强化学习来训练 LLM。逐步实施近端策略优化 (PPO)。此方法不同于传统的将 PPO 与 ORM 结合使用的策略,后者仅在响应结束时提供奖励。相反,逐步 PPO 在每个推理步骤结束时提供奖励。
实验
一个case: 第二个答案存在一个错误,但是ORM score比Math-SHEPHERD分数更高一些。
使用的solution数量越多,该方法效果越好。
3. 该方法的有效性
思考
感觉就是将计数结果作为reward,,
每个问题生成256个答案,然后对step进行计数得到reward
参考:
- 论文:MATH-SHEPHERD: VERIFY AND REINFORCE LLMS
STEP-BY-STEP WITHOUT HUMAN ANNOTATIONS - Making language models better reasoners with step-aware verifier.
- https://blog.csdn.net/WhiffeYF/article/details/143585253