思维进化:一种扩展大型语言模型推理能力的新方法
思维进化:一种扩展大型语言模型推理能力的新方法
思维进化(Mind Evolution)是一种用于扩展大型语言模型(LLM)推理时间计算的进化搜索策略。该方法通过语言模型生成、重组和优化候选回答,在控制推理成本的前提下,显著提升了自然语言规划任务的解决能力。本文详细介绍了思维进化方法的理论基础、实现细节和实验结果,并展示了其在多个基准测试中的优越性能。
研究背景与目的
大型语言模型(LLM)在处理复杂问题时,如何引导其进行更深入的思考,并利用推理时间计算来提高问题解决能力,是当前研究的重要课题。虽然先前的研究已经探索了多种利用推理时间计算的策略,但如何更有效地利用这些策略,特别是针对那些难以形式化或尚未形式化的问题,仍然是一个挑战。
本文提出了一种新的进化搜索策略——思维进化(Mind Evolution),旨在通过结合自由流动的随机探索与大规模迭代优化,来扩展LLM的推理时间计算,从而提高其在自然语言规划任务中的表现。
相关工作
尽管之前的研究已经探索了将进化搜索与LLM结合用于程序生成、数值优化和组合优化等领域,但这些研究主要关注在形式化程序空间中的搜索。相比之下,本文提出的思维进化(Mind Evolution)方法不局限于形式化空间,能够应用于那些难以形式化但可以通过程序化评估器进行验证的问题。
方法论
语言基遗传算法概述
遗传算法是一种受自然选择启发的元启发式算法,通过进化候选解群体来寻找更优解。在语言基遗传算法中,候选解以自然语言形式表示,利用LLM强大的语言理解和生成能力来实现有效的重组(交叉和变异)以及岛屿重置操作。
思维进化方法
选择与迁移操作:采用玻尔兹曼锦标赛选择法,根据适应度分数随机选择候选解进行繁殖。在岛屿模型中,不同子群体(岛屿)独立进化,并通过迁移和岛屿重置操作来维持多样性。
提示设计:设计了一系列提示,用于初始化、重组(交叉和变异)和岛屿重置操作。这些提示引导LLM生成、分析和改进候选解。
适应度评估:为每个问题域实现适应度函数,用于评估候选解的质量,并提供文本反馈。适应度函数在评分解决方案、验证是否满足给定约束以及提供相应文本反馈方面发挥关键作用。
批判性对话精炼:组织一个批判性对话,其中“批判者”角色分析候选解并提供改进建议,“作者”角色则基于输入候选解、后续评估和批判者的分析提出改进后的解决方案。
实验结果
在三个基准自然语言规划任务(TravelPlanner、Natural Plan的Trip Planning和Meeting Planning)上评估了思维进化方法。实验结果表明:
- 在TravelPlanner任务中,思维进化在验证集上达到了95.6%的成功率,两阶段方法进一步将成功率提升至100%。
- 在Trip Planning任务中,思维进化在验证集上达到了96.2%的成功率,两阶段方法将成功率提升至100%。
- 在Meeting Planning任务中,思维进化在验证集上达到了85.0%的成功率,两阶段方法将成功率提升至98.4%。
一个具有挑战性的新任务:StegPoet
提出了一个名为StegPoet的新任务,要求将隐藏消息以隐写术方式编码到一篇创造性写作中。实验结果表明,两阶段思维进化方法在验证集上达到了87.1%的成功率,在测试集上达到了79.2%。
结论
本文提出了思维进化方法,一种利用进化搜索策略来扩展LLM推理时间计算的方法。实验结果表明,在自然语言规划任务中,思维进化显著优于其他推理策略,且无需使用形式化求解器。未来工作将进一步探索思维进化方法在其他领域的应用潜力。
Huggingface链接:Paper page
论文链接:2501.09891