MIT最新突破:PRefLexOR让AI实现自主进化与深度思考
MIT最新突破:PRefLexOR让AI实现自主进化与深度思考
麻省理工学院(MIT)教授Markus J. Buehler团队近日提出了一种全新自学习AI框架PRefLexOR,该框架能够像人类一样进行深度思考和自主进化。
PRefLexOR的核心技术原理
PRefLexOR(基于偏好的递归语言建模,用于探索性优化推理)是一种将偏好优化与强化学习(RL)概念相结合的框架,使模型能够通过迭代的推理改进自我学习。其核心是"思考令牌"机制,通过这些令牌,模型能够明确地标记输出中的反思推理阶段,实现递归的多步推理、回顾和改进。
PRefLexOR的基础是优势比偏好优化(ORPO),通过优化偏好响应和非偏好响应之间的对数优势比,使模型的推理与人类偏好决策路径保持一致。同时,通过直接偏好优化(DPO)的集成进一步提升模型性能,使用拒绝采样来精细调整推理质量,确保偏好对齐的细微差别。
主动学习与动态生成
PRefLexOR的一个显著特点是其主动学习机制,能够在训练过程中动态生成新的任务、推理步骤和被拒绝的答案。这种适应性过程使模型能够边学边教,并通过实时反馈和递归处理不断改进。与传统方法不同,PRefLexOR不依赖于预先生成的数据集,而是动态生成新的任务和反馈,实现实时适应和改进。
技术创新与应用前景
PRefLexOR通过递归优化引入了迭代反馈循环,类似于RL中的策略细化,能够实现更深层次的一致性、连贯性和适应性。这种框架推动了认知对齐领域的发展,证明了模型可以迭代地自我教学,以更深层次和反思性的方式进行推理。
在材料设计领域,PRefLexOR通过从随机文本生成问题,并利用检索增强生成(RAG)从整个语料库中检索上下文相关数据,构建了一个动态知识图谱。这种方法能够实现复杂交互的递归推理,从单一推理步骤扩展到多种数据和响应模式,整合实际反馈和物理原理,并利用自我评估和自我学习。
PRefLexOR递归推理算法实现
PRefLexOR的递归推理算法通过微调的推理模型和通用批评模型进行迭代,生成、精炼并可选地整合响应。该过程包括生成初始响应、提取反思、改进思维过程,并基于精炼的思维创建新响应,可选地包含最终整合步骤。使用特殊标记使我们能够轻松构建此类代理建模,因为它便于暂停推理、改进策略并重新生成改进的答案。
这项研究为AI领域的自主学习和进化提供了新的思路,展示了AI在复杂问题解决和创新设计方面的巨大潜力。