资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大模型与无限猴子定律：Repeated Sampling提升推理性能

创作时间:

作者:

@小白创作中心

大模型与无限猴子定律：Repeated Sampling提升推理性能

引用

CSDN

https://blog.csdn.net/qq_36426650/article/details/142471776

在大模型的推理阶段，如何通过增加计算资源来提升模型性能是一个值得探讨的问题。本文介绍了一种名为Repeated Sampling的技术，通过多次采样来提高模型的推理能力。研究发现，采样数量与任务解决成功率之间存在对数线性关系，这一发现为优化大模型的推理效率提供了新的思路。

什么是Repeated Sampling？

Repeated Sampling是一种在推理阶段通过增加采样数量来提升模型性能的技术。其基本思想是：让模型多次生成结果，然后从这些结果中选择正确的答案。这种方法类似于概率论中的"无限猴子定律"，即如果有一大群猴子随机敲打打字机键盘，理论上它们最终会打出任何给定的文本。

Repeated Sampling的效果

研究发现，在SWE-bench Lite数据集上，如果进行250次Repeated Sampling，相比于只生成一个样本，性能可以从15.9%提升到56%。此外，使用五个样本放大更便宜的DeepSeek模型比为GPT-4或Claude 3.5支付额外费用更具成本效益，并且能解决更多问题。

Repeated Sampling的实现流程

Repeated Sampling的主要流程包括两个关键步骤：

让模型多次采样生成结果（上百次），以尽可能覆盖到正确答案
使用Verifier从生成的样本中找到正确答案

实验结果

研究者在多个复杂推理任务上进行了实验，发现采样数量与任务解决成功率（Pass@K）之间存在近乎对数线性的关系。这种关系在不同规模的模型（从70M到70B参数）上都成立。

有趣的是，对于Weak LLM（较小的模型）进行Repeated Sampling在预算消耗上优于Strong LLM（较大的模型）。在MiniF2F-MATH、MATH和GSM8K任务上，达到相同覆盖率所需的计算量（FLOPs）8B模型远远低于70B模型。

Repeated Sampling的特性

研究者发现，Pass@K覆盖率与采样数量满足指数幂律（exponentiated power law）。对于给定的任务，同一系列的不同模型的覆盖曲线类似于S曲线，具有相似的斜率但不同的水平偏移。

如何挑选正确的样本？

研究者尝试了三种Verifier方法：

Majority Vote：选择结果一致最多的答案
Reward Model + Best-of-N：对所有样本进行打分，选择得分最高的答案
Reward Model + Majority Vote：基于Reward分数加权求和后，选择分数最高且结果一致的答案

实验结果表明，这些Verifier方法都不满足Scaling Law。

如何改进Repeated Sampling？

为了进一步提升Repeated Sampling的效果，可以尝试以下方法：

增加Solution多样性：通过结合采样策略（例如temperature）与其他方法来增加推理过程的多样性
多轮交互：通过多轮交互的形式引入环境工具反馈信息，可以提高solution的质量
Learning From Previous：基于已有的采样生成样本，通过Verifier获得反馈，来帮助更好地完成下一次采样生成

总结

Repeated Sampling是一种有效的提升大模型推理能力的方法，特别是在资源有限的情况下。通过增加采样数量，可以显著提高模型的性能，同时在成本上也具有优势。这一发现为优化大模型的推理效率提供了新的思路。

热门推荐

储能系统中风冷和液冷的八大区别

《易经》在生活中有什么作用

山东省第二康复医院推出“一站式陪诊服务”，让就医更便捷、更温暖

如何查看电脑内存条型号？内存条型号查询方法是什么？

Excel计算实际利率的详细指南

导弹的“眼睛”如何紧盯目标？揭秘红外成像导引头工作原理

2026年前买新能源车能省购置税，你还在等什么？

汪曾祺的香港印象

悉尼大学学历回国认可度揭秘：能媲美985吗？

DDPM原理详解：从基础概念到代码实现

为什么说Vue不适合大型项目

探究国外汽车与国内汽车配置差异的原因

BMC Surg：提高骨质疏松性椎体压缩性骨折治疗效果的新方法

和尚鹦鹉：聪明活泼的南美鹦鹉，宠物界的模仿达人

7种鹦鹉可合法购买饲养非法养殖或触刑

微信小程序如何调用客服api

孝恭孙皇后的出身与影响

明朝宫廷政治的关键时刻——孙太后在夺门之变中的角色

蛋白过敏与乳糖不耐受区别

春夏秋冬各不同，四季养生操作指南，你养对了吗？

宝来汽车电瓶没电怎么办？发电机充电需4-5小时

隔夜鱼汤能喝吗