大模型与无限猴子定律:Repeated Sampling提升推理性能
大模型与无限猴子定律:Repeated Sampling提升推理性能
在大模型的推理阶段,如何通过增加计算资源来提升模型性能是一个值得探讨的问题。本文介绍了一种名为Repeated Sampling的技术,通过多次采样来提高模型的推理能力。研究发现,采样数量与任务解决成功率之间存在对数线性关系,这一发现为优化大模型的推理效率提供了新的思路。
什么是Repeated Sampling?
Repeated Sampling是一种在推理阶段通过增加采样数量来提升模型性能的技术。其基本思想是:让模型多次生成结果,然后从这些结果中选择正确的答案。这种方法类似于概率论中的"无限猴子定律",即如果有一大群猴子随机敲打打字机键盘,理论上它们最终会打出任何给定的文本。
Repeated Sampling的效果
研究发现,在SWE-bench Lite数据集上,如果进行250次Repeated Sampling,相比于只生成一个样本,性能可以从15.9%提升到56%。此外,使用五个样本放大更便宜的DeepSeek模型比为GPT-4或Claude 3.5支付额外费用更具成本效益,并且能解决更多问题。
Repeated Sampling的实现流程
Repeated Sampling的主要流程包括两个关键步骤:
- 让模型多次采样生成结果(上百次),以尽可能覆盖到正确答案
- 使用Verifier从生成的样本中找到正确答案
实验结果
研究者在多个复杂推理任务上进行了实验,发现采样数量与任务解决成功率(Pass@K)之间存在近乎对数线性的关系。这种关系在不同规模的模型(从70M到70B参数)上都成立。
有趣的是,对于Weak LLM(较小的模型)进行Repeated Sampling在预算消耗上优于Strong LLM(较大的模型)。在MiniF2F-MATH、MATH和GSM8K任务上,达到相同覆盖率所需的计算量(FLOPs)8B模型远远低于70B模型。
Repeated Sampling的特性
研究者发现,Pass@K覆盖率与采样数量满足指数幂律(exponentiated power law)。对于给定的任务,同一系列的不同模型的覆盖曲线类似于S曲线,具有相似的斜率但不同的水平偏移。
如何挑选正确的样本?
研究者尝试了三种Verifier方法:
- Majority Vote:选择结果一致最多的答案
- Reward Model + Best-of-N:对所有样本进行打分,选择得分最高的答案
- Reward Model + Majority Vote:基于Reward分数加权求和后,选择分数最高且结果一致的答案
实验结果表明,这些Verifier方法都不满足Scaling Law。
如何改进Repeated Sampling?
为了进一步提升Repeated Sampling的效果,可以尝试以下方法:
- 增加Solution多样性:通过结合采样策略(例如temperature)与其他方法来增加推理过程的多样性
- 多轮交互:通过多轮交互的形式引入环境工具反馈信息,可以提高solution的质量
- Learning From Previous:基于已有的采样生成样本,通过Verifier获得反馈,来帮助更好地完成下一次采样生成
总结
Repeated Sampling是一种有效的提升大模型推理能力的方法,特别是在资源有限的情况下。通过增加采样数量,可以显著提高模型的性能,同时在成本上也具有优势。这一发现为优化大模型的推理效率提供了新的思路。