【深度强化学习】马尔可夫过程
【深度强化学习】马尔可夫过程
马尔可夫过程是深度强化学习中的重要概念,它描述了一个具有马尔可夫性的随机过程,即未来的状态只与当前状态有关,而与过去的所有状态无关。本文将详细介绍马尔可夫过程的基本概念、马尔可夫链以及马尔可夫决策过程(MDP),并探讨其在深度强化学习中的应用。
1. 简介
马尔可夫过程是一个具有马尔可夫性(无后效性)的随机过程,其未来的状态只与当前状态有关,而与过去的所有状态无关。
马尔可夫性与马尔可夫的数学定义:
这种 “下一时刻的状态只与当前状态有关,而与上一时刻状态无关” 的性质,称为无后效性或马尔可夫性。而具有这种性质的过程称为马尔可夫过程。
在马尔可夫过程中有两个比较重要的概念:转移分布函数、转移概率
- 转移分布函数:
马氏过程X t ,称条件概率 F s , t = P { X t ⩽ y ∣ X s = x } X_t,称条件概率F_{s,t}=P { X_t \leqslant y | X_s =x }Xt ,称条件概率Fs,t =P{Xt ⩽y∣Xs =x}为过程的转移分布函数。
其条件概率f t n ∣ t n − 1 ( x n ∣ x n − 1 ) f_{t_n | t_{n-1}}(x_n | x_{n-1})ftn ∣tn−1 (xn ∣xn−1 )为转移概率密度,
- 转移概率
称P ( X t n = x n ∣ X t n − 1 = x n − 1 ) P(X_{t_n} = x_n | X_{t_{n-1}} = x_{n-1})P(Xtn =xn ∣Xtn−1 =xn−1 )为转移概率。
2. 马尔可夫链
状态离散的马尔可夫过程称为马尔可夫链。马尔可夫链(Markov Chain)是最简单的马氏过程,即时间和状态过程的取值参数都是离散的马氏过程。时间和状态的取值都是离散值。
对于马尔可夫链,若转移概率P ( X t n = x n ∣ X t n − 1 = x n − 1 ) P(X_{t_n} = x_n | X_{t_{n-1}} = x_{n-1})P(Xtn =xn ∣Xtn−1 =xn−1 )与n无关(即与哪一次转移无关,仅与转移前后的状态有关),则该马氏链为齐次马尔科夫链;否则称为非齐次马尔科链。
3. 马尔可夫决策过程
强化学习的主体称为智能体(agent),通俗地说,由谁做动作或决策,谁就是智能体。环境(environment)是与智能体交互的对象,可以抽象地理解为交互过程中的规则或机制。
强化学习的数学基础和建模工具是马尔可夫决策过程(Markov decision process, MDP),一个MDP通常由状态空间、动作空间、奖励函数、状态转移函数、折扣率等组成。下面逐一解释相关概念。
3.1 状态、动作、奖励
3.2 状态转移
4. 策略
策略(policy)的意思是如何根据观测到的状态做出决策,即如何从动作空间中选取一个动作。
强化学习的目标就是得到一个策略函数,在每个时刻根据观测到的状态做出决策。策略可以是确定性的,也可以是随机性的,两种都是非常有用的。
随机性策略
确定性策略
智能体与环境交互
5. 随机性
强化学习中的随机性有两个来源:动作和状态。动作的随机性来源于策略,状态的随机性来源于状态转移。策略由策略函数决定,状态转移由状态转移函数决定。
- 动作的随机性
- 状态的随机性
6. 回报与折扣回报
回报(return)是从当前时刻开始到本回合结束所有奖励的总和,所以也叫做累计奖励。
折扣回报
7. 价值函数
7.1 动作价值函数
7.2 最优动作价值函数
7.3 状态价值函数
参考
马尔可夫过程(以马尔科夫链Markov为例)
深度强化学习–王树森