问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

IJCAI 2024最新研究：多智能体强化学习新范式PTDE

创作时间:

作者:

@小白创作中心

IJCAI 2024最新研究：多智能体强化学习新范式PTDE

引用

CSDN

1.

https://m.blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/139015237

多智能体强化学习（MARL）是当前AI领域的研究热点。本文介绍了一种新的训练范式PTDE（个性化训练与蒸馏执行），通过为每个智能体提供个性化的全局信息，并利用知识蒸馏技术，实现了在保持分散式执行的同时提升多智能体系统的协作性能。

研究背景与挑战

在现实世界的许多任务中，如多机器人导航、避障、无人机路径规划等，都可以建模为多智能体系统的决策问题。这些场景通常受到局部可观测和分散式执行的约束。

最常见的范式是集中式训练分散式执行（Centralized Training with Decentralized Execution, CTDE），这种范式在训练时利用全局信息促进各个智能体实现协作行为，在执行时只使用局部信息，是观测信息受限情况下的一种很好的训练 & 执行范式。

但如何在满足 CTDE 范式的前提下，还能在分散式决策过程中充分受益于全局信息，进而提升多智能体的协作表现呢？本文提出了一种新颖的范式（Personalized Training with Distilled Execution, PTDE）来实现这一目标。

PTDE的核心思想

PTDE 范式符合 CTDE 的要求，但与传统 CTDE 不同的是 PTDE 强调为每个智能体提供个性化的全局信息，并通过知识蒸馏将这些个性化的全局信息通过智能体的局部信息预测得到。这种方法不仅大大提升了智能体集中式执行的性能，而且转变为分散式执行时的性能下降也是在可接受范围内的。

研究方法

PTDE 包含两个训练阶段。

第一阶段，通过全局信息个性化（GIP）模块为每个智能体提供个性化的全局信息。

全局信息个性化（GIP）模块

第二阶段，使用知识蒸馏技术，将个性化的全局信息蒸馏到仅依赖于智能体局部信息的学生网络中，即学生网络根据局部信息生成个性化全局信息的替代品。

特定化的知识蒸馏

经过两阶段的训练后，在执行阶段用替代，就可以实现完全分散式的执行并且受益于特定化的全局信息。

两阶段训练&分散式执行

实验结果

我们在 StarCraft II、Google Research Football 和搜索排序（LTR）等不同的测试平台上进行了广泛的实验。

实验结果表明：

unified 的全局信息对多智能体的协作不一定起到积极作用。
个性化的全局信息相比于 unified 的全局信息来说，一般更有利于多智能体的协作。
知识蒸馏后，由集中式执行转变为分散式执行的性能下降是在可接受范围内的。
基于 PTDE 范式的算法可以在不同类型的环境 & 任务中取得不错的性能。
PTDE 范式可以很好地适配现有的 MARL 算法，如基于值分解的 QMIX、VDN，以及基于 Actor-Critic 架构的 MAPPO 等。

以下是本文实验部分的一些基本数据，分别是在 StarCraft II、Google Research Football 和搜索排序（LTR）多个任务上的结果：

谷歌足球实验结果

文章的实验部分展示了更多充分且详细的实验曲线&结果分析，具体可进一步参考原文（http://arxiv.org/pdf/2210.08872）。

结论与展望

PTDE 作为一种新的多智能体强化学习范式，通过个性化的全局信息和知识蒸馏技术，有效地提升了多智能体系统的协作决策能力。

热门推荐

北京大学特色专业有哪些（附名单）

北京大学特色专业有哪些（附名单）

冰箱冷藏室标准温度是多少？如何科学设置家电温度

冰箱冷藏室标准温度是多少？如何科学设置家电温度

家门口的冰雪场地激发市民冬季运动热情

家门口的冰雪场地激发市民冬季运动热情

高中生的地理图表解读能力的提升

高中生的地理图表解读能力的提升

河南桐柏：发挥生态和文化资源优势打造“中国文旅名县”

河南桐柏：发挥生态和文化资源优势打造“中国文旅名县”

创意无限！如何挑选一个既动听又彰显个性的网名？

创意无限！如何挑选一个既动听又彰显个性的网名？

限制员工如厕时间，企业管理不能目中无“人”

限制员工如厕时间，企业管理不能目中无“人”

侄子和外甥的区别是什么

侄子和外甥的区别是什么

用户旅程分析的3个关键步骤

用户旅程分析的3个关键步骤

皮皮岛：天堂之岛，探寻蓝色梦幻的奇幻之旅

皮皮岛：天堂之岛，探寻蓝色梦幻的奇幻之旅

女命八字中官星与日主的关系及其影响

女命八字中官星与日主的关系及其影响

救护车上能做什么急救措施

救护车上能做什么急救措施

Js格式化时间怎么变成中文的

Js格式化时间怎么变成中文的

探秘刺五加——一种珍贵的中药材（解析刺五加的植物类别）

探秘刺五加——一种珍贵的中药材（解析刺五加的植物类别）

量子世界看起来与宏观世界格格不入，那里到底是一个怎样的世界？

量子世界看起来与宏观世界格格不入，那里到底是一个怎样的世界？

如何选择优质的导热硅脂以优化散热效果

如何选择优质的导热硅脂以优化散热效果

小腿弯曲？了解可能的原因和处理方法

小腿弯曲？了解可能的原因和处理方法

膝盖后窝痛的原因有三种

膝盖后窝痛的原因有三种

美国高中社区的构成与特点

美国高中社区的构成与特点

长平之战中的指挥艺术：白起的战略与战术

长平之战中的指挥艺术：白起的战略与战术

河南省加快构建新型基础测绘体系实景三维河南建设实现新突破

河南省加快构建新型基础测绘体系实景三维河南建设实现新突破

营运车转为非营运车多少年报废

营运车转为非营运车多少年报废

美媒：一些中国大模型已经追平甚至超越美国产品

美媒：一些中国大模型已经追平甚至超越美国产品

碳纤维复合材料导弹发射箱的箱体设计

碳纤维复合材料导弹发射箱的箱体设计

《肖申克的救赎》：从绝望到自由的不朽旅程

《肖申克的救赎》：从绝望到自由的不朽旅程

瑶浴SPA全流程详解：从准备到注意事项的完整指南

瑶浴SPA全流程详解：从准备到注意事项的完整指南

怀孕呕吐的原因及应对方法

怀孕呕吐的原因及应对方法

电水暖与燃气水暖比较，到底该怎么选？

电水暖与燃气水暖比较，到底该怎么选？

汉字“权”的详细解释：从读音到演变

汉字“权”的详细解释：从读音到演变

预防狗狗得细小病毒的 8 个方法

预防狗狗得细小病毒的 8 个方法

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号