问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

大模型与无限猴子定律:Repeated Sampling提升推理性能

创作时间:
作者:
@小白创作中心

大模型与无限猴子定律:Repeated Sampling提升推理性能

引用
CSDN
1.
https://blog.csdn.net/qq_36426650/article/details/142471776

在大模型的推理阶段,如何通过增加计算资源来提升模型性能是一个值得探讨的问题。本文介绍了一种名为Repeated Sampling的技术,通过多次采样来提高模型的推理能力。研究发现,采样数量与任务解决成功率之间存在对数线性关系,这一发现为优化大模型的推理效率提供了新的思路。

什么是Repeated Sampling?

Repeated Sampling是一种在推理阶段通过增加采样数量来提升模型性能的技术。其基本思想是:让模型多次生成结果,然后从这些结果中选择正确的答案。这种方法类似于概率论中的"无限猴子定律",即如果有一大群猴子随机敲打打字机键盘,理论上它们最终会打出任何给定的文本。

Repeated Sampling的效果

研究发现,在SWE-bench Lite数据集上,如果进行250次Repeated Sampling,相比于只生成一个样本,性能可以从15.9%提升到56%。此外,使用五个样本放大更便宜的DeepSeek模型比为GPT-4或Claude 3.5支付额外费用更具成本效益,并且能解决更多问题。

Repeated Sampling的实现流程

Repeated Sampling的主要流程包括两个关键步骤:

  1. 让模型多次采样生成结果(上百次),以尽可能覆盖到正确答案
  2. 使用Verifier从生成的样本中找到正确答案

实验结果

研究者在多个复杂推理任务上进行了实验,发现采样数量与任务解决成功率(Pass@K)之间存在近乎对数线性的关系。这种关系在不同规模的模型(从70M到70B参数)上都成立。

有趣的是,对于Weak LLM(较小的模型)进行Repeated Sampling在预算消耗上优于Strong LLM(较大的模型)。在MiniF2F-MATH、MATH和GSM8K任务上,达到相同覆盖率所需的计算量(FLOPs)8B模型远远低于70B模型。

Repeated Sampling的特性

研究者发现,Pass@K覆盖率与采样数量满足指数幂律(exponentiated power law)。对于给定的任务,同一系列的不同模型的覆盖曲线类似于S曲线,具有相似的斜率但不同的水平偏移。

如何挑选正确的样本?

研究者尝试了三种Verifier方法:

  1. Majority Vote:选择结果一致最多的答案
  2. Reward Model + Best-of-N:对所有样本进行打分,选择得分最高的答案
  3. Reward Model + Majority Vote:基于Reward分数加权求和后,选择分数最高且结果一致的答案

实验结果表明,这些Verifier方法都不满足Scaling Law。

如何改进Repeated Sampling?

为了进一步提升Repeated Sampling的效果,可以尝试以下方法:

  1. 增加Solution多样性:通过结合采样策略(例如temperature)与其他方法来增加推理过程的多样性
  2. 多轮交互:通过多轮交互的形式引入环境工具反馈信息,可以提高solution的质量
  3. Learning From Previous:基于已有的采样生成样本,通过Verifier获得反馈,来帮助更好地完成下一次采样生成

总结

Repeated Sampling是一种有效的提升大模型推理能力的方法,特别是在资源有限的情况下。通过增加采样数量,可以显著提高模型的性能,同时在成本上也具有优势。这一发现为优化大模型的推理效率提供了新的思路。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号