思维进化：一种增强大型语言模型推理能力的新方法

创作时间:

作者:

@小白创作中心

思维进化：一种增强大型语言模型推理能力的新方法

引用

CSDN

https://blog.csdn.net/m0_66899341/article/details/145271447

导读：本文介绍了一种创新的进化搜索策略——思维进化（Mind Evolution），用于增强大型语言模型（LLM）的推理能力。该方法通过结合自由流动的随机探索与大规模迭代优化，显著提高了LLM在自然语言规划任务中的表现。实验结果表明，思维进化在多个基准测试中均取得了优于传统方法的性能。

1. 引言

研究背景：大型语言模型（LLM）在处理复杂问题时，如何引导其进行更深入的思考，并利用推理时间计算来提高问题解决能力，是当前研究的重要课题。先前的研究已经探索了多种利用推理时间计算的策略，如链式思考、自我一致性、基于反馈的顺序修订，以及由辅助验证器或评估器引导的搜索。
研究问题：当存在解决方案评估器时，搜索策略能够可靠地通过增加计算量来提高问题解决能力。然而，如何更有效地利用这些策略，特别是针对那些难以形式化或尚未形式化的问题，仍然是一个挑战。
研究目的：本文提出了一种新的进化搜索策略，旨在通过结合自由流动的随机探索与大规模迭代优化，来扩展LLM的推理时间计算，从而提高其在自然语言规划任务中的表现。

2. 相关工作

LLM与进化搜索的结合：尽管之前的研究已经探索了将进化搜索与LLM结合用于程序生成、数值优化和组合优化等领域，但这些研究主要关注在形式化程序空间中的搜索。相比之下，本文提出的思维进化（Mind Evolution）方法不局限于形式化空间，能够应用于那些难以形式化但可以通过程序化评估器进行验证的问题。
LLM与评估器的结合：在执行环境中集成评估器以提供反馈，从而指导LLM修复代码中的错误，这一做法在代码生成领域已被广泛采用。虽然也有研究使用学习到的验证器、奖励模型或自我评估来进行响应优化和搜索，但这些方法可能存在噪声且不完全可靠。相比之下，本文依赖于程序化评估器提供的可靠反馈。

3. 方法

语言基遗传算法概述：遗传算法是一种受自然选择启发的元启发式算法，通过进化候选解群体来寻找更优解。在语言基遗传算法中，候选解以自然语言形式表示，利用LLM强大的语言理解和生成能力来实现有效的重组（交叉和变异）以及岛屿重置操作。
思维进化方法：
选择与迁移操作：采用玻尔兹曼锦标赛选择法，根据适应度分数随机选择候选解进行繁殖。在岛屿模型中，不同子群体（岛屿）独立进化，并通过迁移和岛屿重置操作来维持多样性。
提示设计：设计了一系列提示，用于初始化、重组（交叉和变异）和岛屿重置操作。这些提示引导LLM生成、分析和改进候选解。
适应度评估：为每个问题域实现适应度函数，用于评估候选解的质量，并提供文本反馈。适应度函数在评分解决方案、验证是否满足给定约束以及提供相应文本反馈方面发挥关键作用。
候选解初始化：通过提示LLM描述问题和相关信息来独立采样初始候选解。如果需要进行多次对话，则通过“批判性对话精炼”过程顺序评估和改进这些初始候选解。
批判性对话精炼：组织一个批判性对话，其中“批判者”角色分析候选解并提供改进建议，“作者”角色则基于输入候选解、后续评估和批判者的分析提出改进后的解决方案。
交叉与变异：将交叉和变异操作实现为一个重组步骤，通过LLM使用批判性对话精炼过程来改进给定的一组父代候选解。
岛屿重置：定期选择全局精英候选解来替换岛屿上适应度最低的候选解群体，以维持进化过程的多样性。

4. 实验

任务与模型：在三个基准自然语言规划任务（TravelPlanner、Natural Plan的Trip Planning和Meeting Planning）上评估了思维进化方法。使用Gemini 1.5 Flash作为默认LLM，并探索了两阶段方法，其中对于在第一阶段未解决的问题，使用Gemini 1.5 Pro进行解决。
基线策略：与三种基线搜索策略进行了比较，包括单次通过（1-Pass）、最佳N选（Best-of-N）和顺序修订+（Sequential-Revision+）。这些基线策略使用相同的解决方案评估器和任务特定提示。
评估指标：主要评估指标为成功率（即完全解决问题的实例百分比），并报告了LLM调用次数、输入和输出令牌数以及调用LLM的总API成本。
实验结果：
TravelPlanner：思维进化在验证集上达到了95.6%的成功率，显著优于基线策略。两阶段方法进一步将成功率提升至100%。
Trip Planning：思维进化在验证集上达到了96.2%的成功率，同样显著优于基线策略。两阶段方法将成功率提升至100%。
Meeting Planning：思维进化在验证集上达到了85.0%的成功率，优于基线策略。两阶段方法将成功率提升至98.4%。
成本效益分析：尽管思维进化需要更多的LLM调用次数，但其总体API成本仍低于顺序修订+策略，表明其在成本效益方面的优势。

5. 分析与消融研究

扩展性分析：随着代数的增加，思维进化的成功率稳步提高，表明其具有良好的扩展性。
消融研究：通过消融实验评估了思维进化中不同组件的贡献。结果表明，批判者分析步骤和文本反馈对性能提升最为显著。
超参数敏感性：对超参数进行了敏感性分析，发现岛屿模型对性能有显著提升，并且增加每代候选解数量与增加代数之间存在权衡。

6. 一个具有挑战性的新任务：StegPoet

任务描述：提出了一个名为StegPoet的新任务，要求将隐藏消息以隐写术方式编码到一篇创造性写作中（如散文、故事或诗歌）。虽然该问题难以形式化，但仍可通过程序化验证器进行验证。
实验结果：在两阶段思维进化方法中，Gemini 1.5 Pro在验证集上达到了87.1%的成功率，在测试集上达到了79.2%。相比之下，基线策略的表现较差。

7. 结论

主要贡献：本文提出了思维进化方法，一种利用进化搜索策略来扩展LLM推理时间计算的方法。实验结果表明，在自然语言规划任务中，思维进化显著优于其他推理策略，且无需使用形式化求解器。
未来工作：计划开发基于LLM的评估器，以扩大思维进化方法的应用范围，并探索其在其他领域的应用潜力。

8. 详细实现细节

提示设计：以Meeting Planning为例，详细展示了用于生成、分析和改进候选解的提示结构。这些提示包括一般指令、问题定义、示例、父代候选解及相应的评估反馈、批判性思考指令等。
评估函数：为每个任务实现了程序化评估函数，用于评分解决方案、验证是否满足给定约束以及提供相应文本反馈。评估函数的具体实现细节，包括如何解析用户查询中的约束、如何计算分数以及如何提供反馈等，均进行了详细描述。
数据拆分：详细描述了TravelPlanner、Trip Planning和Meeting Planning基准测试的数据拆分方式，包括训练集、验证集和测试集的大小以及难度级别的划分。

9. 其他实验结果

使用GPT-4o-Mini的结果：即使使用性能较弱的GPT-4o-Mini模型，思维进化方法仍然显著提高了在TravelPlanner、Trip Planning和Meeting Planning基准测试上的成功率。
API成本曲线：展示了不同策略在验证集上的API成本与成功率之间的关系，进一步证明了思维进化在成本效益方面的优势。