突破自动驾驶瓶颈!KoMA:多智能体与大模型的完美融合
突破自动驾驶瓶颈!KoMA:多智能体与大模型的完美融合
北京航空航天大学研究团队提出了一种名为KoMA的知识驱动多智能体框架,通过结合大语言模型(LLM)和多智能体协作,显著提升了自动驾驶系统在复杂环境下的决策效率与安全性。
背景与挑战
随着自动驾驶技术的快速发展,如何在复杂动态的交通环境中实现高效、安全的车辆控制成为一大核心难题。然而,现有的自动驾驶系统普遍面临以下挑战:
缺乏多智能体协作能力
当前大部分自动驾驶框架依赖单一的智能体来完成驾驶任务,这种方法在面对复杂交通环境时,难以有效理解周围交通参与者的行为和意图,导致决策能力受限。泛化能力不足
传统自动驾驶系统依赖于大量特定场景的训练数据,而在未见过的复杂场景中适应能力较弱,容易出现不安全或低效的决策。缺乏高效决策与解释能力
现有方法通常无法快速应对高动态场景中的决策需求,同时对决策背后的逻辑缺乏解释性,使得系统难以被广泛接受。
在这样的背景下,如何引入具有强泛化能力、复杂推理能力以及高效协作能力的多智能体系统成为了自动驾驶领域亟需解决的问题。
方法
图1 KoMA框架的整体工作流程
图1展示了KoMA框架的整体架构,突出了如何通过多智能体协作与基于大语言模型的决策模块提升自动驾驶系统的效率和适应性。框架的左侧描述了自动驾驶系统所处的环境(Environment),其中蓝色表示周围的环境车辆,绿色表示基于大语言模型(LLM)驱动的智能体车辆。智能体通过环境感知和交互模块,捕获周围车辆的状态信息(如位置、速度和车道位置),并将这些信息生成场景描述,供后续模块进行推理和规划。随后将生成的场景描述传递到解码模块(Decoder),将环境信息解码为语义化的场景描述。这一步是LLM理解环境的核心输入,为后续的智能体规划和决策提供了基础。
智能体在接收到场景描述后,通过多步骤规划模块(Multi-step Planning)完成目标制定、计划生成和行动执行。多步骤规划包括三个关键部分:目标制定(Goal)确定驾驶目标,如避让车辆或进入目标车道;计划生成(Plan)设计具体的路径或行动序列;行动执行(Action)将计划转换为具体的驾驶操作并反馈到环境中。此外,多步骤规划模块还包含交互机制(Interaction Interface),智能体能够分析和理解其他交通参与者的行为意图,从而协作完成更符合交通规范的决策。
为了提升系统的适应性和长期决策性能,框架引入了基于记忆的增强模块(Memory-based Enhancement)。智能体共享一个记忆库(Shared Memory),用于存储经验数据,包括成功经验(Success Experience)和修正经验(Revised Experience)。这些记忆数据通过向量化(Embedding)进行高效存储和检索。在反思模块(Evaluation-Reflection)中,智能体通过分析过去的经验并对决策进行优化,具体步骤包括重新规划(Replanning)、生成新行动(New Action)和总结经验(Summarizing)。优化后的新经验被存入记忆库,为未来决策提供支持。
整个框架形成了一个从感知、规划、行动、反思、优化的闭环流程。智能体通过规划与行动与环境实时交互,并结合反思机制提升决策质量。共享记忆模块显著增强了智能体的泛化能力,而多步骤规划和交互机制确保了智能体在动态交通环境中的实时响应与安全决策。KoMA框架为解决复杂交通场景提供了一种创新且高效的方案。
实验结果
图2 将KoMA在0次(无记忆项)、20次(284个记忆项)和40次(624个记忆项)训练轮次后的性能,与MARL在0次、20,000次和40,000次训练轮次后的性能进行比较
图2展示了KoMA框架与传统多智能体强化学习框架(MARL)在不同轮训练阶段的成功率对比,KoMA框架在训练后期表现出更强的适应性和协作能力,反映了基于记忆增强的KoMA框架在处理多智能体协作任务中的显著优势。
图3 在初始场景中,使用不同记忆模块进行测试的实验结果,分别在训练20轮和40轮后进行评估
图3展示了不同记忆模块对KoMA框架在训练过程中的成功率影响,结果表明共享记忆机制显著优于无记忆和非共享记忆机制。在训练20轮和40轮后,共享记忆的成功率分别达到50%和70%,远超其他两种方法。共享记忆通过智能体之间的经验共享,显著提升了系统的学习效率、协作能力和泛化能力,为解决复杂动态场景提供了更高效的支持。
图4 经过40轮训练后,在测试成功的场景中的平均效率得分和安全得分
图4展示了在训练40轮后,是否采用多步骤规划(Multi-step Planning)对效率得分(Efficiency Score)和安全得分(Safety Score)的影响。结果显示,采用多步骤规划的情况下,效率得分从9.13提升至9.45,安全得分从9.27提升至9.92。这表明多步骤规划能够有效优化智能体的行动决策,显著提升任务执行的效率和安全性。
图5 在有记忆和无记忆的情况下,对不同泛化场景的实验结果进行了评估(该记忆已在一条两车道的主巷道上进行了训练。)
图5比较了在单车道和三车道主干道场景下,是否采用记忆机制对成功率的影响。结果显示,在单车道场景中,采用记忆机制的成功率从40%显著提升至90%;在三车道场景中,成功率从50%提升至70%。这表明记忆机制能够有效帮助智能体积累和利用经验,在不同复杂场景中显著提高决策成功率,尤其是在更简单的单车道场景中提升效果更为显著。
图6 在初始场景中经过40轮训练的记忆,其泛化能力在环岛场景中进行了专门测试
图6展示了在初始场景和扩展至环岛场景中,使用初始场景记忆与无记忆机制的成功率对比。结果表明,在初始场景中,使用记忆的成功率从30%显著提升至 70%;在环岛场景中,成功率从60%提升至80%。这表明基于初始场景训练的记忆不仅能有效提升当前任务的成功率,还能增强智能体在新场景中的泛化能力,从而提升复杂环境下的适应性。
表1 不同LLMs在KoMA框架下训练0、20、40轮后的实验的成功率
表1展示了在KoMA框架中,使用不同的大语言模型经过0、20和40轮训练后的成功率。结果显示,GPT4在所有阶段的表现最优,成功率从初始的30%提升至70%。相比之下,GPT3.5、Llama3、Llama2和Qwen2的最终成功率分别为35%、40%、35%和40%。这些数据表明,模型的推理能力显著影响KoMA框架的性能,其中GPT4展现了最佳的学习能力和泛化性能。
表2 在KoMA框架下对不同LLMs的推理时间进行统计分析
表2对不同的大语言模型在KoMA框架中的推理时间进行了统计分析,结果显示,GPT4的推理时间最长,平均时间为17.49秒,最大时间为19.86秒,相比之下,Llama系列模型的推理时间较短,其中Llama2平均时间最少,仅为7.49秒。这表明不同模型的推理能力存在显著差异,其中Llama2在推理效率方面表现优越,而GPT4尽管推理时间较长,但可能更适合对高精度要求的任务。
总结
KoMA框架通过结合大语言模型与多智能体协作,为自动驾驶任务带来了显著的性能提升。实验结果表明,共享记忆机制、多步骤规划、以及基于排名的反思优化模块在提高模型的效率和泛化能力方面发挥了关键作用。尤其是结合GPT4等强大模型时,KoMA在复杂场景中的决策成功率和安全性均达到领先水平。同时,不同LLMs的推理效率差异也表明了技术选择的重要性,Llama2等模型在效率上表现优越,而GPT4则在性能上具备更强的优势。
未来,KoMA的方法可扩展至更多动态场景和多智能体任务,例如智能交通管理、无人配送等,为自动驾驶技术和多智能体协作领域的发展提供了新的方向和启示。
论文链接:https://ieeexplore.ieee.org/abstract/document/10745878
代码链接:https://jkmhhh.github.io/KoMA/