登上Nature封面!强化学习+卡尔曼滤波上大分
登上Nature封面!强化学习+卡尔曼滤波上大分
强化学习与卡尔曼滤波的结合是近年来人工智能领域的一个重要研究方向。这种结合不仅能够提高系统的感知和决策能力,还能在复杂环境中实现更优的资源利用。本文精选了四篇相关领域的代表性论文,从无人机竞速、云计算、概率状态空间模型和多AGV路径规划等多个角度,展示了强化学习与卡尔曼滤波结合的最新研究成果。
1. Champion-level drone racing using deep reinforcement learning
论文标题: Champion-level drone racing using deep reinforcement learning
论文链接: Nature
研究机构: Imperial College London
研究内容: 该研究开发了一个名为Swift的自主无人机系统,能够在无人机竞速比赛中与人类世界冠军相匹敌。系统通过深度强化学习在模拟环境中训练策略,并使用经验噪声模型来弥合模拟与现实之间的差异。同时,通过卡尔曼滤波器融合视觉-惯性估计器和门检测器的估计,以获得更准确的机器人状态表示。
创新点:
- 首次实现仅使用机载传感器和计算就能与人类世界冠军相媲美的无人机竞速系统。
- 成功地将控制策略从模拟环境迁移到现实世界,即使在感知和动态存在差异的情况下也能保持高性能。
- 在真实世界的头对头比赛中与包括世界冠军在内的三位人类冠军进行了对抗,并取得了胜利。
- 在高速和动态变化的环境中,Swift能够基于嘈杂和不完整的感官输入进行实时决策。
- 通过卡尔曼滤波器融合不同传感器数据,提高了状态估计的准确性,这对于高速飞行中的精确控制至关重要。
2. Value-Based Reinforcement Learning for Digital Twins in Cloud Computing
论文标题: Value-Based Reinforcement Learning for Digital Twins in Cloud Computing
论文链接: IEEE Transactions on Cloud Computing
研究机构: University of California, Los Angeles
研究内容: 该研究提出了一种基于价值的强化学习框架(REVERB),用于云计算环境中的数字孪生系统。通过引入数字孪生架构,结合强化学习解决方案和基于信息价值的算法,实现最优控制和传感器选择。同时,构建了一个优化问题,以有效调度感知代理,同时最小化能耗和满足延迟要求。
创新点:
- 引入DT架构以跟踪系统参数的动态变化并控制系统动态。
- 提出一个框架,在学习执行动作的同时控制状态不确定性估计。
- 为在最小化能耗的同时,保持DT系统估计的信心,制定一个新的优化问题。
- 提出基于信息价值的算法,实现在多项式时间内的实际和高效解决方案。
3. KalMamba: Towards Efficient Probabilistic State Space Models for RL under Uncertainty
论文标题: KalMamba: Towards Efficient Probabilistic State Space Models for RL under Uncertainty
论文链接: arXiv
研究机构: University of California, Berkeley
研究内容: 该研究提出了一种名为KalMamba的高效概率状态空间模型架构,结合了概率SSMs的不确定性感知能力和确定性SSMs的计算效率。通过并行关联扫描实现标准卡尔曼滤波和平滑操作,同时使用变分推断进行模型训练,以获得紧密的变分下界。
创新点:
- 结合概率SSMs的不确定性感知能力和确定性SSMs的计算效率。
- 在潜在空间中使用(扩展)卡尔曼滤波和平滑进行推断,提高了计算效率,特别是在长交互序列上。
- 允许在高不确定性下使用平滑推断和紧密变分下界进行端到端模型训练。
- 通过时间并行计算信念状态,KalMamba在模型学习和控制中实现了高效率。
4. Multi-AGV Path Planning Method via Reinforcement Learning and Particle Filters
论文标题: Multi-AGV Path Planning Method via Reinforcement Learning and Particle Filters
论文链接: IEEE Transactions on Automation Science and Engineering
研究机构: Tsinghua University
研究内容: 该研究提出了一种基于强化学习和粒子滤波器的多AGV路径规划方法(PF-DDQN)。通过粒子滤波器处理网络的不精确权重值,并通过神经网络和PF的迭代融合过程优化DDQN模型,以获得最优的真实权重值,提高算法的优化效率。
创新点:
- 提出了一种新的多AGV路径规划方法PF-DDQN,通过结合PF和RL算法,解决了环境不稳定性导致的神经网络方差问题。
- 将训练网络与环境噪声和目标网络的不准确权重作为状态和观测变量,构建系统的方程。
- 通过神经网络和PF的迭代融合,连续更新神经网络权重,提高算法的收敛速度。
- 模拟结果表明,所提出的方法在路径规划优越性和训练时间指标方面分别比传统DDQN算法提高了92.62%和76.88%。
本文原文来自CSDN