问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

PTDE:用于多智能体强化学习的个性化训练与蒸馏

创作时间:
作者:
@小白创作中心

PTDE:用于多智能体强化学习的个性化训练与蒸馏

引用
CSDN
1.
https://blog.csdn.net/m0_59614665/article/details/144741129

本文介绍了一种新颖的多智能体强化学习方法,称为个性化训练与蒸馏执行(Personalized Training with Distilled Execution, PTDE)。该方法通过引入全球信息个性化模块(GIP),为每个智能体定制适合的全球信息,从而优化个体的决策过程。实验结果表明,PTDE在多个基准任务中均实现了显著的性能提升,验证了其广泛的适用性和有效性。

多智能体强化学习

经典的多智能体强化学习(MARL)算法通常分为两大类:基于值分解的方法和基于演员-评论家的方法。基于值分解的方法,如VDN和QMIX,通过将联合价值函数分解为个体价值函数,促进多智能体的协作决策。基于演员-评论家的算法,如MAPPO和COMA,则结合策略优化和价值评估,通过共享或集中化的评论家来提高智能体的协作能力。这些算法在处理多智能体环境中的协作与竞争问题时,已取得了显著的成果。

PTDE模型框架

训练阶段:

在此阶段,通过全球信息个性化模块(GIP),为每个智能体生成个性化的全球信息。这一过程通过分析每个智能体的局部信息,提取有助于决策的全球信息,从而优化每个智能体的Q函数或策略。

知识蒸馏

在第一阶段训练完成后,进行知识蒸馏。在此过程中,使用一个学生网络(学生模型)来提取来自教师网络(GIP模块)的知识。学生网络仅依赖于智能体的局部信息,以实现去中心化的决策过程。

去中心化执行

在执行阶段,教师网络被学生网络所替代。智能体在执行过程中仅利用各自的局部信息来计算行动值,从而进行决策。这种方法确保了在保持个性化信息的同时,实现去中心化执行。

PTDE框架旨在通过个性化全球信息和知识蒸馏相结合,提升智能体的协作性能,减少在去中心化执行过程中可能出现的性能损失。实验结果表明,该框架在多个基准任务中表现出显著的性能提升。PTDE框架具有良好的通用性,可以与多种现有的MARL算法结合使用,从而适应不同的环境和任务需求。

结语

本文提出了一种名为PTDE(个性化训练与蒸馏执行)的新范式,通过个性化全球信息和知识蒸馏,实现多智能体强化学习中的去中心化执行,显著提升了智能体的协作性能。

论文题目: PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning
论文链接: https://arxiv.org/abs/2210.08872

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号