IJCAI 2024最新研究:多智能体强化学习新范式PTDE
IJCAI 2024最新研究:多智能体强化学习新范式PTDE
多智能体强化学习(MARL)是当前AI领域的研究热点。本文介绍了一种新的训练范式PTDE(个性化训练与蒸馏执行),通过为每个智能体提供个性化的全局信息,并利用知识蒸馏技术,实现了在保持分散式执行的同时提升多智能体系统的协作性能。
研究背景与挑战
在现实世界的许多任务中,如多机器人导航、避障、无人机路径规划等,都可以建模为多智能体系统的决策问题。这些场景通常受到局部可观测和分散式执行的约束。
最常见的范式是集中式训练分散式执行(Centralized Training with Decentralized Execution, CTDE),这种范式在训练时利用全局信息促进各个智能体实现协作行为,在执行时只使用局部信息,是观测信息受限情况下的一种很好的训练 & 执行范式。
但如何在满足 CTDE 范式的前提下,还能在分散式决策过程中充分受益于全局信息,进而提升多智能体的协作表现呢?本文提出了一种新颖的范式(Personalized Training with Distilled Execution, PTDE)来实现这一目标。
PTDE的核心思想
PTDE 范式符合 CTDE 的要求,但与传统 CTDE 不同的是 PTDE 强调为每个智能体提供个性化的全局信息,并通过知识蒸馏将这些个性化的全局信息通过智能体的局部信息预测得到。这种方法不仅大大提升了智能体集中式执行的性能,而且转变为分散式执行时的性能下降也是在可接受范围内的。
研究方法
PTDE 包含两个训练阶段。
第一阶段,通过全局信息个性化(GIP)模块为每个智能体提供个性化的全局信息 。
全局信息个性化(GIP)模块
第二阶段,使用知识蒸馏技术,将个性化的全局信息 蒸馏到仅依赖于智能体局部信息的学生网络中,即学生网络根据局部信息生成个性化全局信息的替代品 。
特定化的知识蒸馏
经过两阶段的训练后,在执行阶段用 替代 ,就可以实现完全分散式的执行并且受益于特定化的全局信息。
两阶段训练&分散式执行
实验结果
我们在 StarCraft II、Google Research Football 和搜索排序(LTR)等不同的测试平台上进行了广泛的实验。
实验结果表明:
- unified 的全局信息对多智能体的协作不一定起到积极作用。
- 个性化的全局信息相比于 unified 的全局信息来说,一般更有利于多智能体的协作。
- 知识蒸馏后,由集中式执行转变为分散式执行的性能下降是在可接受范围内的。
- 基于 PTDE 范式的算法可以在不同类型的环境 & 任务中取得不错的性能。
- PTDE 范式可以很好地适配现有的 MARL 算法,如基于值分解的 QMIX、VDN,以及基于 Actor-Critic 架构的 MAPPO 等。
以下是本文实验部分的一些基本数据,分别是在 StarCraft II、Google Research Football 和搜索排序(LTR)多个任务上的结果:
谷歌足球实验结果
文章的实验部分展示了更多充分且详细的实验曲线&结果分析,具体可进一步参考原文(http://arxiv.org/pdf/2210.08872)。
结论与展望
PTDE 作为一种新的多智能体强化学习范式,通过个性化的全局信息和知识蒸馏技术,有效地提升了多智能体系统的协作决策能力。