问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

IJCAI 2024 | 多智能体强化学习新范式：个性化训练与蒸馏执行

创作时间:

作者:

@小白创作中心

IJCAI 2024 | 多智能体强化学习新范式：个性化训练与蒸馏执行

引用

CSDN

1.

https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/139015237

多智能体强化学习（MARL）是人工智能领域的一个重要研究方向，特别是在需要多个智能体协同工作的场景中，如多机器人导航、无人机路径规划等。本文介绍了一种新的训练范式PTDE（Personalized Training with Distilled Execution），通过个性化训练和知识蒸馏来提升多智能体系统的协作性能。

论文标题：
PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning

论文链接：
https://arxiv.org/pdf/2210.08872

代码链接：
https://github.com/AntNLP/nope_head_scale

研究背景与挑战

在现实世界的许多任务中，如多机器人导航、避障、无人机路径规划等，都可以建模为多智能体系统的决策问题。这些场景通常受到局部可观测和分散式执行的约束。

最常见的范式是集中式训练分散式执行（Centralized Training with Decentralized Execution, CTDE），这种范式在训练时利用全局信息促进各个智能体实现协作行为，在执行时只使用局部信息，是观测信息受限情况下的一种很好的训练 & 执行范式。

但如何在满足 CTDE 范式的前提下，还能在分散式决策过程中充分受益于全局信息，进而提升多智能体的协作表现呢？本文提出了一种新颖的范式（Personalized Training with Distilled Execution, PTDE）来实现这一目标。

PTDE的核心思想

PTDE 范式符合 CTDE 的要求，但与传统 CTDE 不同的是 PTDE 强调为每个智能体提供个性化的全局信息，并通过知识蒸馏将这些个性化的全局信息通过智能体的局部信息预测得到。这种方法不仅大大提升了智能体集中式执行的性能，而且转变为分散式执行时的性能下降也是在可接受范围内的。

研究方法

PTDE 包含两个训练阶段。

第一阶段，通过全局信息个性化（GIP）模块为每个智能体提供个性化的全局信息。（Figure 2）

第二阶段，使用知识蒸馏技术，将个性化的全局信息蒸馏到仅依赖于智能体局部信息的学生网络中，即学生网络根据局部信息生成个性化全局信息的替代品。（Figure 4）

经过两阶段的训练后，在执行阶段用替代，就可以实现完全分散式的执行并且受益于特定化的全局信息。

实验结果

我们在 StarCraft II、Google Research Football 和搜索排序（LTR）等不同的测试平台上进行了广泛的实验。

实验结果表明：

unified 的全局信息对多智能体的协作不一定起到积极作用。
个性化的全局信息相比于 unified 的全局信息来说，一般更有利于多智能体的协作。
知识蒸馏后，由集中式执行转变为分散式执行的性能下降是在可接受范围内的。
基于 PTDE 范式的算法可以在不同类型的环境 & 任务中取得不错的性能。
PTDE 范式可以很好地适配现有的 MARL 算法，如基于值分解的 QMIX、VDN，以及基于 Actor-Critic 架构的 MAPPO 等。

以下是本文实验部分的一些基本数据，分别是在 StarCraft II、Google Research Football 和搜索排序（LTR）多个任务上的结果：

文章的实验部分展示了更多充分且详细的实验曲线&结果分析，具体可进一步参考原文（http://arxiv.org/pdf/2210.08872）。

结论与展望

PTDE 作为一种新的多智能体强化学习范式，通过个性化的全局信息和知识蒸馏技术，有效地提升了多智能体系统的协作决策能力。

以上就是对 PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning（http://arxiv.org/pdf/2210.08872）这篇文章的分享，如果感兴趣的话推荐阅读原文（http://arxiv.org/pdf/2210.08872）。如果想要讨论任何问题或者有任何建议，欢迎交流！

此外，还要宣传一下我们将 MARL 应用于搜索结果多样性排序（Search Result Diversification, SRD）的文章，探索 MARL 在更多场景应用的可能性：

MA4DIV: Multi-Agent Reinforcement Learning for Search Result Diversification（https://arxiv.org/pdf/2403.17421.pdf）

热门推荐

河南高校排名大洗牌：华水大涨22位，河大跌至第8

河南高校排名大洗牌：华水大涨22位，河大跌至第8

《群星》战争篇攻略：从早期到中期的完整作战指南

《群星》战争篇攻略：从早期到中期的完整作战指南

一文读懂：战列舰、护卫舰、驱逐舰、巡洋舰的区别

一文读懂：战列舰、护卫舰、驱逐舰、巡洋舰的区别

牛肉储存秘诀，保鲜袋密封与冷冻前的关键步骤，延长牛肉保鲜期

牛肉储存秘诀，保鲜袋密封与冷冻前的关键步骤，延长牛肉保鲜期

为什么经历越多的人越喜欢独处？

为什么经历越多的人越喜欢独处？

和解协议未履行：法律程序与应对策略

和解协议未履行：法律程序与应对策略

婴儿大运动发育时刻一览：快看看你家的宝宝是否跟上步伐了！附安全保护指南

婴儿大运动发育时刻一览：快看看你家的宝宝是否跟上步伐了！附安全保护指南

孩子肺炎一定要住院治疗吗？

孩子肺炎一定要住院治疗吗？

《数字货运平台司机就业与收入研究报告》在京发布

《数字货运平台司机就业与收入研究报告》在京发布

学会自我接纳：成为更强大自信的自己

学会自我接纳：成为更强大自信的自己

日本731部队真实记录：残忍实验杀死上万中国人，人神共愤！

日本731部队真实记录：残忍实验杀死上万中国人，人神共愤！

孕期尿常规检查"未分类结晶偏高"怎么办？

孕期尿常规检查"未分类结晶偏高"怎么办？

2025春节档电影前瞻，谁扑街？谁爆冷？

2025春节档电影前瞻，谁扑街？谁爆冷？

韩愈古文的思想世界

韩愈古文的思想世界

四种外表丑陋但气场强大的花，种植在家中，空气质量逐渐提升

四种外表丑陋但气场强大的花，种植在家中，空气质量逐渐提升

三省交汇地的运城，原来是个“混搭风”的美食城，好吃的都杂乱了

三省交汇地的运城，原来是个“混搭风”的美食城，好吃的都杂乱了

彩礼属女方财产还是对女方家长的馈赠？法院这样判

彩礼属女方财产还是对女方家长的馈赠？法院这样判

双一流校长：我国40万博士生每月仅3000元，建议增至1万元

双一流校长：我国40万博士生每月仅3000元，建议增至1万元

古籍装帧的形制演变与匠心之美

古籍装帧的形制演变与匠心之美

北京协和推荐「健脑手指操」，4个动作让大脑反应更快

北京协和推荐「健脑手指操」，4个动作让大脑反应更快

补交社保到哪里补交

补交社保到哪里补交

外墙腻子的作用以及施工工艺流程

外墙腻子的作用以及施工工艺流程

【每日一药】舒筋活络、消肿止痛之活络油

【每日一药】舒筋活络、消肿止痛之活络油

不带水却有水意的字

不带水却有水意的字

如何有效调整鼠标灵敏度以提升游戏及操作体验

如何有效调整鼠标灵敏度以提升游戏及操作体验

点痣后是不是越久不洗脸越好

点痣后是不是越久不洗脸越好

女孩子学计算机的优势，女生学计算机网络技术怎么样好就业吗？

女孩子学计算机的优势，女生学计算机网络技术怎么样好就业吗？

跑步机维修，家用跑步机常见5种故障维修

跑步机维修，家用跑步机常见5种故障维修

广义相对论视角下的空间弯曲：引力场方程解析

广义相对论视角下的空间弯曲：引力场方程解析

真正的高手，都懂得用这5种“时间思维法”破局

真正的高手，都懂得用这5种“时间思维法”破局

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号