强化学习中的马尔可夫过程：从基础概念到具体示例

创作时间:

作者:

@小白创作中心

强化学习中的马尔可夫过程：从基础概念到具体示例

引用

CSDN

https://blog.csdn.net/python_plus/article/details/138808261

马尔可夫过程是强化学习中的一个重要概念，它描述了一种特殊的随机过程，其中未来的状态仅由当前的状态决定，而不受之前状态的影响。本文将从随机过程、马尔可夫性质、马尔可夫过程的定义及其示例等多个方面，帮助读者深入理解这一概念。

一、马尔可夫过程

1.随机过程

随机过程是概率论的“动态”版本。普通概率论研究的是固定不变的随机现象，而随机过程则专注于那些随时间不断变化的情况，比如天气怎样变化或者城市的交通如何流动。在随机过程中，我们把某一时刻发生的事情视为一组可能结果的集合，并且这些结果随时间不断变化。

这个过程的特点是，一个时间点的情况往往会受到前一个时间点情况的影响。例如，如果我们知道现在的天气状况，我们就可以预测接下来天气变化的可能性。随机过程就是这样一种工具，帮助我们理解和预测那些随时间变化的复杂情况。

2.马尔可夫性质

马尔可夫性质是一种特殊的规则，用于描述一些随机过程，例如天气变化或股市波动。这个规则的核心是：在这种过程中，下一步会发生什么，只取决于现在的状态，而和之前发生的事情无关。

举个例子，如果你在玩一个掷骰子的游戏，那么下一次掷出什么数字只取决于你这一次掷的结果，和之前的掷骰子结果没有关系。这就是马尔可夫性质的一个简单应用。

虽然看起来像是我们不用管历史，但实际上，现在的状态是由过去的状态一步步演变而来的。所以，通过现在的状态，我们其实间接地获得了历史的信息。这就像是只需要看最新的新闻标题，而不必去读整篇文章，你就能知道发生了什么事。

这种性质让分析和预测变得更简单，因为你只需要关注现在，就能有理由推测未来会发生什么。马尔可夫性质在科学和工程中非常有用，因为它帮助我们用简洁的方式处理复杂的信息。

3.马尔可夫过程

马尔可夫过程，又称为马尔可夫链，是一种特殊的随机过程，其核心特性是未来的状态仅由当前的状态决定，而不受之前状态的影响。我们通常用一个包含两个元素的组合< S , P > <S, P><S,P>来描述马尔可夫过程：S SS是有限的状态集合，P PPP是状态转移矩阵。

状态集合就是该过程可能达到的所有不同状态。状态转移矩阵则是一个表格，记录了从任一状态转移到另一状态的概率。比如，如果一个过程有n nn个状态，此时S = S=S={s 1 , s 2 , . . . , s n s_{1},s_{2},...,s_{n}s1 ,s2 ,...,sn }，状态转移矩阵P PPP就会是一个n × n n×nn×n的表格，表中的每个数字表示从一行的状态转到一列状态的概率，即：

P = [ P ( s 1 ∣ s 1 ) ⋯ P ( s n ∣ s 1 ) ⋮ ⋱ ⋮ P ( s 1 ∣ s n ) ⋯ P ( s n ∣ s n ) ] P=\begin{bmatrix} P(s_{1}|s_{1}) & \cdots & P(s_{n}|s_{1}) \ \vdots & \ddots & \vdots \ P(s_{1}|s_{n}) & \cdots & P(s_{n}|s_{n}) \end{bmatrix}P= P(s1 ∣s1 )⋮P(s1 ∣sn ) ⋯⋱⋯ P(sn ∣s1 )⋮P(sn ∣sn )

矩阵P PPP中第i ii行第j jj列元素P ( s j ∣ s i ) = P ( S t + 1 = s j ∣ S t = s i ) P(s_{j}|s_{i}) =P(S_{t+1}=s_{j}|S_{t}=s_{i})P(sj ∣si )=P(St+1 =sj ∣St =si )，表示从状态s i s_{i}si 转移到状态s j s_{j}sj 的概率。从某个状态出发，到达其他状态的概率和必须为 1，即状态转移矩阵的每一行的和为 1。

简单来说，马尔可夫过程就像是一个决策地图，指导你如何根据当前位置预测下一步的位置。每一步的决策只依赖于你现在所在的“地点”，而与你之前的路径无关。这种性质使得马尔可夫过程在预测和决策制定中非常有用，尤其是在那些变化快速且需要即时反应的场景中。

4.马尔可夫过程示例

图1 马尔可夫过程示例

图1展示了一个包含6个状态的简单马尔可夫过程。图中的每个绿色圆圈代表一个状态，每个状态都可以按照一定的概率（包括零概率）转移到其他状态。特别的，状态s 6 s_{6}s6 通常被称为终止状态，因为它不再转移到其他状态，而是永远以1.0的概率转移到自己。

状态之间的转移通过虚线箭头表示，箭头旁边的数字显示了转移发生的概率。对于每个状态，从它出发到其他状态的转移概率之和必须等于1。例如，状态s 1 s_{1}s1 有90%的概率保持在当前状态，10%的概率转移到另一个特定状态s 2 s_{2}s2 。状态s 2 s_{2}s2 有50%的概率返回先前的状态s 1 s_{1}s1 ，有50%的概率前往另一个新状态s 3 s_{3}s3 。

这个马尔可夫过程的状态转移矩阵：

P = [ 0.9 0.1 0 0 0 0 0.5 0 0.5 0 0 0 0 0 0 0.6 0 0.4 0 0 0 0 0.3 0.7 0 0.2 0.3 0.5 0 0 0 0 0 0 0 1 ] P=\begin{bmatrix} 0.9 & 0.1 &0 &0 &0 &0 \ 0.5 & 0 & 0.5 & 0 & 0 & 0\ 0 & 0 & 0 & 0.6 & 0 & 0.4\ 0 & 0 & 0 & 0 & 0.3 & 0.7\ 0 & 0.2 & 0.3 & 0.5 & 0 & 0\ 0 & 0 & 0 & 0 & 0 & 1 \end{bmatrix}P= 0.90.50000 0.10000.20 00.5000.30 000.600.50 0000.300 000.40.701

给定一个马尔可夫过程后，我们可以从某个特定的初始状态出发，按照状态转移矩阵中规定的概率，逐步生成一个状态序列。这个过程被称为采样。通过采样，我们能够模拟出从一个初始状态开始，状态如何随机地转移和变化，形成一系列连续事件，这有助于我们理解和预测该马尔可夫过程的行为特征。例如，从s 1 s_{1}s1 出发，可以生成序列s 1 → s 2 → s 3 → s 6 s_{1} \to s_{2} \to s_{3} \to s_{6}s1 →s2 →s3 →s6 或序列s 1 → s 1 → s 2 → s 3 → s 4 → s 5 → s 3 → s 6 s_{1} \to s_{1} \to s_{2} \to s_{3} \to s_{4} \to s_{5} \to s_{3} \to s_{6}s1 →s1 →s2 →s3 →s4 →s5 →s3 →s6

热门推荐

公主病：家庭教育与社会文化的双重反思