问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

【深度强化学习】马尔可夫过程

创作时间:
作者:
@小白创作中心

【深度强化学习】马尔可夫过程

引用
CSDN
1.
https://m.blog.csdn.net/weixin_51568145/article/details/144517966

马尔可夫过程是深度强化学习中的重要概念,它描述了一个具有马尔可夫性的随机过程,即未来的状态只与当前状态有关,而与过去的所有状态无关。本文将详细介绍马尔可夫过程的基本概念、马尔可夫链以及马尔可夫决策过程(MDP),并探讨其在深度强化学习中的应用。

1. 简介

马尔可夫过程是一个具有马尔可夫性(无后效性)的随机过程,其未来的状态只与当前状态有关,而与过去的所有状态无关。

马尔可夫性与马尔可夫的数学定义:

这种 “下一时刻的状态只与当前状态有关,而与上一时刻状态无关” 的性质,称为无后效性马尔可夫性。而具有这种性质的过程称为马尔可夫过程

在马尔可夫过程中有两个比较重要的概念:转移分布函数、转移概率

  • 转移分布函数:

马氏过程X t ,称条件概率 F s , t = P { X t ⩽ y ∣ X s = x } X_t,称条件概率F_{s,t}=P { X_t \leqslant y | X_s =x }Xt ,称条件概率Fs,t =P{Xt ⩽y∣Xs =x}为过程的转移分布函数。

其条件概率f t n ∣ t n − 1 ( x n ∣ x n − 1 ) f_{t_n | t_{n-1}}(x_n | x_{n-1})ftn ∣tn−1 (xn ∣xn−1 )为转移概率密度,

  • 转移概率

称P ( X t n = x n ∣ X t n − 1 = x n − 1 ) P(X_{t_n} = x_n | X_{t_{n-1}} = x_{n-1})P(Xtn =xn ∣Xtn−1 =xn−1 )为转移概率。

2. 马尔可夫链

状态离散的马尔可夫过程称为马尔可夫链。马尔可夫链(Markov Chain)是最简单的马氏过程,即时间和状态过程的取值参数都是离散的马氏过程。时间和状态的取值都是离散值。

对于马尔可夫链,若转移概率P ( X t n = x n ∣ X t n − 1 = x n − 1 ) P(X_{t_n} = x_n | X_{t_{n-1}} = x_{n-1})P(Xtn =xn ∣Xtn−1 =xn−1 )与n无关(即与哪一次转移无关,仅与转移前后的状态有关),则该马氏链为齐次马尔科夫链;否则称为非齐次马尔科链

3. 马尔可夫决策过程

强化学习的主体称为智能体(agent),通俗地说,由谁做动作或决策,谁就是智能体。环境(environment)是与智能体交互的对象,可以抽象地理解为交互过程中的规则或机制。

强化学习的数学基础和建模工具是马尔可夫决策过程(Markov decision process, MDP),一个MDP通常由状态空间、动作空间、奖励函数、状态转移函数、折扣率等组成。下面逐一解释相关概念。

3.1 状态、动作、奖励

3.2 状态转移

4. 策略

策略(policy)的意思是如何根据观测到的状态做出决策,即如何从动作空间中选取一个动作。

强化学习的目标就是得到一个策略函数,在每个时刻根据观测到的状态做出决策。策略可以是确定性的,也可以是随机性的,两种都是非常有用的。

  • 随机性策略

  • 确定性策略

  • 智能体与环境交互

5. 随机性

强化学习中的随机性有两个来源:动作和状态。动作的随机性来源于策略,状态的随机性来源于状态转移。策略由策略函数决定,状态转移由状态转移函数决定。

  • 动作的随机性

  • 状态的随机性

6. 回报与折扣回报

回报(return)是从当前时刻开始到本回合结束所有奖励的总和,所以也叫做累计奖励

折扣回报

7. 价值函数

7.1 动作价值函数

7.2 最优动作价值函数

7.3 状态价值函数

参考

  • 马尔可夫过程(以马尔科夫链Markov为例)

  • 深度强化学习–王树森

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号
【深度强化学习】马尔可夫过程