问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

强化学习基本概念

创作时间:
作者:
@小白创作中心

强化学习基本概念

引用
CSDN
1.
https://m.blog.csdn.net/artorialili/article/details/144531331

强化学习是人工智能领域的一个重要分支,它通过模拟智能体(Agent)在环境中的学习过程,使智能体能够通过试错和反馈来优化其行为策略。本文将通过一个简单的网格世界游戏场景,介绍强化学习中的基本概念,帮助读者快速入门这一领域。

一、State(状态)

这是这节课的一个重要概念,相对于环境的一个状态 status,在这个网格世界中,指的就是location-位置,在上面的网格中,有多个location,那么我们就用这些字母表示这些状态,这个s可以理解为一个向量,存储x,y坐标,如果是更复杂的问题,那还有其他位置、速度信息。我们把这些数据放到一起

,就得到了现代控制理论中说的 状态空间 。

这个空间就是一个集合 set,就像之前LQR里面位置 速度的集合。

二、Action(动作)

基本概念action,就相当于我在每一个状态实际上都是有一系列的可采取行动

在这里面就是有五种行动,a1 - a5 分别对应上下左右原地,我们也把这些所有的action放到一起,就得到了 Action space of a state

Action space和 state是依赖的,不同的状态对应的运动策略自然是不同的。

三、 State transiton(状态转移)

当我们采取一个行动,那这个 agent 可以从一个 state 移动到另一个 state,这就是这样的一个过程。

以这个为例子,如果我在s1,那么采取行动a2后,就会到s2这个状态,这样一个过程就可以用这个式子来表示。这个概念实际上是定义 action和环境的一种交互行为。但是这个与环境的状态交互,在仿真中由我们定义,实际中起始是根据物理模型分析的。

上面我们说到的 Forbidden区,这块位置是可以进去的,但是进去了会被惩罚,如果物理上无法进入,那么就要在transiton定义状态,但是现在我们定义的是第一种状态。这种状态变化,我们也可以用一个表格来表示。

表格每一行对应一个状态,每一列对应一个action。但是如果存在多种可能性,那么表格肯定无法表达,那么一般的方法就是 State transition probability,引入了概率,那么这个就是条件概率。

直管来说,当前位置在s1,采取a2的行动,下一时刻跳动s2的概率是多少

四、Policy(策略)

非常重要,独有的概念。他会告诉agent,如果我在一个状态,应该采取哪一个action

直观上来看,没一个Policy运动状态都对应一个箭头,基于这些策略,我们就可以得到path,绿色的箭头告诉我们,我们在哪个位置应该做什么,在复杂情况下,我们就可以针对这个策略在某一条件下,任何一个action,采取他的概率是多少,针对一个状态,概率之和应该为1.对每个状态都应该要有对应的策略。

五、Reward(奖励)

这是非常独特的一个概念,他是个数,标量,在agent采取了一个动作之后,就会得到一个数,这个数是正数,就是鼓励,负数就是对行为的惩罚。如果不给reward,或者设置为0,其实在一定程度上就会是鼓励。在数学技巧上,这个正负和鼓励和惩罚没有必然的关系,可以通过数学技巧来改变。

那么在这个网格世界中我们就可以如此设计:

如果agent想要离开这个边界,那就会给一个负数,r bound = -1,如果进入forbidden里面,也给-1,如果进入目标,就给1,其他都给0.那么设计reward,就可以实现我们的目标。我们也可以用条件概率来表示:

在s1的情况下,采取a1的行动,reward为-1,概率为1,

六、Trajectory and Return(轨迹和回报)

实际上是一个叫做 state-action-reward的链,考虑上图这样的trajectory

这就包含了三个概念,还有一个return,这个return,就是沿着这个 trajectory所得到的所有reward加起来,这里的return就是1。

分析多个trajectory 和 policy,根据return,我们就能知道哪个更好。

七、Discounted return(折扣回报)

在上面一小节,我们看到了一条trajectory,但是这个点在最后是会一直呆在原地的,所以

那么这个return就会使无穷,在原地等待。引入Discounted rate,这个其实和深度学习的正则化系数有异曲同工之妙,为了防止数值爆炸,我们将这个rate当作系数乘以每个s,得到

当次数越多,后面的y会很快的衰减,那么这个值就是取决于前面的,相反就取决于之后的。

八、Episode(回合)

这个概念又涉及到另一个概念 terminal state,就是我们最后终止的。一个episode一般是有限制的,但是也有任务会是无止尽进行的。那我们是要在那不动,还是让他继续进行策略呢?

实际上和上面的Discounted是可以转换的。一般化使用为第二个

九、MDP 马尔可夫决策过程

上面的概念,都会在这个框架内涉及到。

首先,一个MDP实际上有很多要素,第一个要素就是包含了很多的集合sets,之前我们提到了state space。

Sets里面包含:· State

, ·Action

, ·Reward

三个集合

第二个MDP的要素就是 Probability distribution可能性决策

Probability distribution包含

`State transition probablity

,从状态s,采取行动a,到s`的概率;

`Reward probability

,从状态s,采取行动a,获得奖励的概率;

第三个Policy,告诉我在状态s,采取行动a的概率

最后所独特的性质:Markov property: memoryless property

比如我开始状态为 s0,采取了一个action,慢慢的走到t+1阶段,也就是说与之前的历史没有关系,之和行动 at+1相关,与之前无关。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号