问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

大语言模型引导深度强化学习,助力自动驾驶决策

创作时间:
作者:
@小白创作中心

大语言模型引导深度强化学习,助力自动驾驶决策

引用
CSDN
1.
https://blog.csdn.net/yorkhunter/article/details/144976096

2024年12月,北京理工大学(BIT)发布了一篇重要论文,题为《Large Language Model guided Deep Reinforcement Learning for Decision Making in Autonomous Driving》。这篇论文提出了一种创新的自动驾驶决策方法,通过将大语言模型(LLM)与深度强化学习(DRL)相结合,显著提高了自动驾驶系统的性能和学习效率。

DRL在自动驾驶中的挑战

深度强化学习(DRL)在自动驾驶决策中展现出巨大的潜力。然而,DRL的学习效率较低,需要大量的计算资源才能在复杂的驾驶场景中实现合格的策略。此外,利用人类专家的指导来提高DRL性能需要极高的劳动力成本,这限制了它的实际应用。

LGDRL框架:LLM引导的深度强化学习

为了解决上述问题,研究团队提出了一种大语言模型(LLM)引导的深度强化学习(LGDRL)框架。在这个框架中,基于LLM的驾驶专家被集成到DRL中,为DRL的学习过程提供智能指导。随后,通过创新的专家策略约束算法和LLM干预交互机制增强DRL的学习和交互过程。

LLM驾驶专家

LLM驾驶专家包括三个基本组件:提示生成器、开箱即用的LLM和动作提取器。提示生成器根据当前驾驶场景制定提示,LLM处理此提示以分析驾驶场景并产生相应的响应,最后动作提取器解释并解码响应中嵌入的动作指导。

专家策略约束算法

为了有效利用LLM专家的指导,研究团队提出了一种专家策略约束算法。该算法将基于Jensen-Shannon(JS)散度的策略约束纳入Actor-Critic(AC)框架。策略约束将DRL策略与LLM专家策略之间的散度限制在预定义的边界内,修改DRL的学习目标。

LLM干预交互机制

训练期间,DRL智体与环境之间的交互通过一种LLM干预交互机制进行修改。当DRL智体输出危险动作时,LLM专家可以间歇性地干预,用提供的指导动作替代DRL智体的灾难性动作。

实验设计与结果

实验在高速公路环境模拟器上进行,场景由四条车道组成,每条车道长1000米,宽4米,限速为30米/秒。实验结果表明,与最先进的基线算法相比,该方法不仅实现了90%的任务成功率,而且显著提高了学习效率和专家指导利用效率。此外,所提出的方法使DRL智体能够在没有LLM专家指导的情况下保持一致和可靠的性能。

结论

这项研究展示了LLM在自动驾驶领域的巨大潜力,通过将LLM与DRL相结合,不仅提高了学习效率,还降低了对人类专家的依赖。这种方法为自动驾驶决策系统提供了一种新的解决方案,有望推动自动驾驶技术的进一步发展。


动作空间内不同动作的详细描述


LGDRL框架示意图


LLM驾驶专家组件


专家干预交互机制


DRL训练和测试阶段的工作流程

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号