MIT最新突破:PRefLexOR让AI像人一样深度思考与自主进化
MIT最新突破:PRefLexOR让AI像人一样深度思考与自主进化
麻省理工学院(MIT)教授Markus J. Buehler团队近日发布了一项突破性研究成果——全新自学习AI框架PRefLexOR。该框架通过模拟人类深度思考和自主进化过程,为人工智能的发展开辟了新的方向。
PRefLexOR:基于偏好的递归语言建模
PRefLexOR(Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning)是一种将偏好优化与强化学习(RL)概念相结合的框架,使模型能够通过迭代的推理改进自我学习。其核心是"思考令牌"机制,通过明确标记模型输出中的反思推理阶段,使模型能够递归地进行多步推理、回顾和改进中间步骤,最终生成最终输出。
PRefLexOR的基础是优势比偏好优化(ORPO),通过优化偏好响应和非偏好响应之间的对数优势比来学习使其推理与人类偏好决策路径相一致。同时,通过直接偏好优化(DPO)的集成进一步提升了模型性能,使用拒绝采样来精细调整推理质量,确保偏好对齐的细微差别。这种混合方法类似于RL的关键方面,使模型能够根据反馈不断改进决策和推理。
主动学习与动态生成
与传统方法不同,PRefLexOR不依赖于预先生成的数据集,而是通过主动学习机制动态生成新的任务、推理步骤和反馈。这种适应性过程使模型能够在训练过程中边学边教,并通过实时反馈和递归处理不断改进。递归优化引入了迭代反馈循环,模型通过这些循环不断细化其推理,类似于RL中的策略细化,从而实现更深层次的一致性、连贯性和适应性。
应用实例:材料设计领域的创新
在材料设计领域,PRefLexOR通过从随机文本生成问题,并利用检索增强生成(RAG)从整个语料库中检索上下文相关数据,构建了一个动态知识图谱。通过嵌入空间中相似节点的复杂交互实现递归推理,生成材料信息学工作流和设计原则。
如图所示,左侧为单独的信息,右侧为相互连接的知识网络,通过这种知识网络的构建,可以做出更明智的决策和创新设计。与传统材料科学方法相比,基于PRefLexOR框架的生成材料信息学模型通过引入迭代推理和上下文理解,能够实现更复杂的多步预测。
PRefLexOR递归推理算法通过微调的推理模型和通用批评模型进行迭代,生成、精炼并可选地整合响应。该过程包括生成初始响应、提取反思、改进思维过程,并基于精炼的思维创建新响应,可选地包含最终整合步骤。使用特殊标记使我们能够轻松构建此类代理建模,因为它便于暂停推理、改进策略并重新生成改进的答案。
未来展望
PRefLexOR框架通过证明模型可以迭代地自我教学,以更深层次和反思性的方式进行推理,推动认知对齐领域的发展。这种基于RL的自我改进系统能够解决具有更优推理深度和逻辑性的开放域问题。未来,PRefLexOR有望在更多领域展现其强大的自主学习和进化能力。