问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

思维进化：一种扩展大型语言模型推理能力的新方法

创作时间:

作者:

@小白创作中心

思维进化：一种扩展大型语言模型推理能力的新方法

引用

CSDN

1.

https://blog.csdn.net/m0_66899341/article/details/145271447

思维进化（Mind Evolution）是一种用于扩展大型语言模型（LLM）推理时间计算的进化搜索策略。该方法通过语言模型生成、重组和优化候选回答，在控制推理成本的前提下，显著提升了自然语言规划任务的解决能力。本文详细介绍了思维进化方法的理论基础、实现细节和实验结果，并展示了其在多个基准测试中的优越性能。

研究背景与目的

大型语言模型（LLM）在处理复杂问题时，如何引导其进行更深入的思考，并利用推理时间计算来提高问题解决能力，是当前研究的重要课题。虽然先前的研究已经探索了多种利用推理时间计算的策略，但如何更有效地利用这些策略，特别是针对那些难以形式化或尚未形式化的问题，仍然是一个挑战。

本文提出了一种新的进化搜索策略——思维进化（Mind Evolution），旨在通过结合自由流动的随机探索与大规模迭代优化，来扩展LLM的推理时间计算，从而提高其在自然语言规划任务中的表现。

相关工作

尽管之前的研究已经探索了将进化搜索与LLM结合用于程序生成、数值优化和组合优化等领域，但这些研究主要关注在形式化程序空间中的搜索。相比之下，本文提出的思维进化（Mind Evolution）方法不局限于形式化空间，能够应用于那些难以形式化但可以通过程序化评估器进行验证的问题。

方法论

语言基遗传算法概述

遗传算法是一种受自然选择启发的元启发式算法，通过进化候选解群体来寻找更优解。在语言基遗传算法中，候选解以自然语言形式表示，利用LLM强大的语言理解和生成能力来实现有效的重组（交叉和变异）以及岛屿重置操作。

思维进化方法

选择与迁移操作：采用玻尔兹曼锦标赛选择法，根据适应度分数随机选择候选解进行繁殖。在岛屿模型中，不同子群体（岛屿）独立进化，并通过迁移和岛屿重置操作来维持多样性。
提示设计：设计了一系列提示，用于初始化、重组（交叉和变异）和岛屿重置操作。这些提示引导LLM生成、分析和改进候选解。
适应度评估：为每个问题域实现适应度函数，用于评估候选解的质量，并提供文本反馈。适应度函数在评分解决方案、验证是否满足给定约束以及提供相应文本反馈方面发挥关键作用。
批判性对话精炼：组织一个批判性对话，其中“批判者”角色分析候选解并提供改进建议，“作者”角色则基于输入候选解、后续评估和批判者的分析提出改进后的解决方案。

实验结果

在三个基准自然语言规划任务（TravelPlanner、Natural Plan的Trip Planning和Meeting Planning）上评估了思维进化方法。实验结果表明：

在TravelPlanner任务中，思维进化在验证集上达到了95.6%的成功率，两阶段方法进一步将成功率提升至100%。
在Trip Planning任务中，思维进化在验证集上达到了96.2%的成功率，两阶段方法将成功率提升至100%。
在Meeting Planning任务中，思维进化在验证集上达到了85.0%的成功率，两阶段方法将成功率提升至98.4%。

一个具有挑战性的新任务：StegPoet

提出了一个名为StegPoet的新任务，要求将隐藏消息以隐写术方式编码到一篇创造性写作中。实验结果表明，两阶段思维进化方法在验证集上达到了87.1%的成功率，在测试集上达到了79.2%。

结论

本文提出了思维进化方法，一种利用进化搜索策略来扩展LLM推理时间计算的方法。实验结果表明，在自然语言规划任务中，思维进化显著优于其他推理策略，且无需使用形式化求解器。未来工作将进一步探索思维进化方法在其他领域的应用潜力。

Huggingface链接：Paper page

论文链接：2501.09891

热门推荐

第三代数字车钥匙：UWB、BLE、NFC三合一的智能升级

第三代数字车钥匙：UWB、BLE、NFC三合一的智能升级

解密空气炸锅：工作原理、健康隐患与使用建议

解密空气炸锅：工作原理、健康隐患与使用建议

空气炸锅：省油又便捷，但这些健康风险要当心

空气炸锅：省油又便捷，但这些健康风险要当心

开放式厨房设计指南：三种布局与实用改进方案

开放式厨房设计指南：三种布局与实用改进方案

冬游溧水：十大景点尽显“南京后花园”魅力

冬游溧水：十大景点尽显“南京后花园”魅力

北宋状元俞栗故里：溧水状元坊的九百年沧桑

北宋状元俞栗故里：溧水状元坊的九百年沧桑

苏门答腊猫屎咖啡：大自然与匠心的完美融合

苏门答腊猫屎咖啡：大自然与匠心的完美融合

印尼日惹：猫屎咖啡的传奇诞生地

印尼日惹：猫屎咖啡的传奇诞生地

揭秘猫屎咖啡背后的“喵星人”真相

揭秘猫屎咖啡背后的“喵星人”真相

奢侈品界的“新宠”：一杯售价200元的猫屎咖啡

奢侈品界的“新宠”：一杯售价200元的猫屎咖啡

告别频繁换灯泡：LED灯珠短路维修指南

告别频繁换灯泡：LED灯珠短路维修指南

试灯法检测汽车电路故障：原理、步骤与注意事项

试灯法检测汽车电路故障：原理、步骤与注意事项

冬日泰山旅游最佳季，民宿推荐

冬日泰山旅游最佳季，民宿推荐

揭秘彩票平均回报：双色球、刮刮乐、足球彩票谁更划算？

揭秘彩票平均回报：双色球、刮刮乐、足球彩票谁更划算？

空气炸锅烹饪指南：5种食材最出彩，5种食材需谨慎

空气炸锅烹饪指南：5种食材最出彩，5种食材需谨慎

乔迁送礼大揭秘：明星乔迁新居，送啥最靠谱？

乔迁送礼大揭秘：明星乔迁新居，送啥最靠谱？

乔迁送礼，为什么红包最保险？

乔迁送礼，为什么红包最保险？

乔迁送礼新潮流：这些礼物最讨喜

乔迁送礼新潮流：这些礼物最讨喜

红色礼品，乔迁之喜的最佳选择

红色礼品，乔迁之喜的最佳选择

数据律师教你搞定企业数据安全

数据律师教你搞定企业数据安全

数据律师：企业数据治理的护航者

数据律师：企业数据治理的护航者

移民美国后，国内社保医保怎么处理？

移民美国后，国内社保医保怎么处理？

国家医保局最新通知：美籍华人可参加国内医保

国家医保局最新通知：美籍华人可参加国内医保

口腔医疗乱象：8家诊所给出4种看牙方案，中华口腔医学会给钱就当会员

口腔医疗乱象：8家诊所给出4种看牙方案，中华口腔医学会给钱就当会员

补牙齿使用什么材料比较好？不同材料的优缺点分析与选择建议

补牙齿使用什么材料比较好？不同材料的优缺点分析与选择建议

最后的晚餐：耶稣与门徒的告别盛宴

最后的晚餐：耶稣与门徒的告别盛宴

达芬奇《最后的晚餐》神在何处？十三个人有十四双手，有何隐喻？

达芬奇《最后的晚餐》神在何处？十三个人有十四双手，有何隐喻？

“最后的晚餐”朝圣地两千年风云变幻：走进耶路撒冷的历史现场

“最后的晚餐”朝圣地两千年风云变幻：走进耶路撒冷的历史现场

揭秘达芬奇《最后的晚餐》背后的传世之谜

揭秘达芬奇《最后的晚餐》背后的传世之谜

掌握`strncpy`：C语言安全编程的关键技巧

掌握`strncpy`：C语言安全编程的关键技巧

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号