资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

强化学习基本概念

创作时间:

作者:

@小白创作中心

强化学习基本概念

引用

CSDN

https://m.blog.csdn.net/artorialili/article/details/144531331

强化学习是人工智能领域的一个重要分支，它通过模拟智能体（Agent）在环境中的学习过程，使智能体能够通过试错和反馈来优化其行为策略。本文将通过一个简单的网格世界游戏场景，介绍强化学习中的基本概念，帮助读者快速入门这一领域。

一、State（状态）

这是这节课的一个重要概念，相对于环境的一个状态 status，在这个网格世界中，指的就是location-位置，在上面的网格中，有多个location，那么我们就用这些字母表示这些状态，这个s可以理解为一个向量，存储x，y坐标，如果是更复杂的问题，那还有其他位置、速度信息。我们把这些数据放到一起

，就得到了现代控制理论中说的状态空间。

这个空间就是一个集合 set，就像之前LQR里面位置速度的集合。

二、Action（动作）

基本概念action，就相当于我在每一个状态实际上都是有一系列的可采取行动

在这里面就是有五种行动，a1 - a5 分别对应上下左右原地，我们也把这些所有的action放到一起，就得到了 Action space of a state

Action space和 state是依赖的，不同的状态对应的运动策略自然是不同的。

三、 State transiton（状态转移）

当我们采取一个行动，那这个 agent 可以从一个 state 移动到另一个 state，这就是这样的一个过程。

以这个为例子，如果我在s1,那么采取行动a2后，就会到s2这个状态，这样一个过程就可以用这个式子来表示。这个概念实际上是定义 action和环境的一种交互行为。但是这个与环境的状态交互，在仿真中由我们定义，实际中起始是根据物理模型分析的。

上面我们说到的 Forbidden区，这块位置是可以进去的，但是进去了会被惩罚，如果物理上无法进入，那么就要在transiton定义状态，但是现在我们定义的是第一种状态。这种状态变化，我们也可以用一个表格来表示。

表格每一行对应一个状态，每一列对应一个action。但是如果存在多种可能性，那么表格肯定无法表达，那么一般的方法就是 State transition probability,引入了概率，那么这个就是条件概率。

直管来说，当前位置在s1,采取a2的行动，下一时刻跳动s2的概率是多少

四、Policy（策略）

非常重要，独有的概念。他会告诉agent，如果我在一个状态，应该采取哪一个action

直观上来看，没一个Policy运动状态都对应一个箭头，基于这些策略，我们就可以得到path，绿色的箭头告诉我们，我们在哪个位置应该做什么，在复杂情况下，我们就可以针对这个策略在某一条件下，任何一个action，采取他的概率是多少，针对一个状态，概率之和应该为1.对每个状态都应该要有对应的策略。

五、Reward（奖励）

这是非常独特的一个概念，他是个数，标量，在agent采取了一个动作之后，就会得到一个数，这个数是正数，就是鼓励，负数就是对行为的惩罚。如果不给reward,或者设置为0，其实在一定程度上就会是鼓励。在数学技巧上，这个正负和鼓励和惩罚没有必然的关系，可以通过数学技巧来改变。

那么在这个网格世界中我们就可以如此设计：

如果agent想要离开这个边界，那就会给一个负数，r bound = -1，如果进入forbidden里面，也给-1，如果进入目标，就给1，其他都给0.那么设计reward，就可以实现我们的目标。我们也可以用条件概率来表示：

在s1的情况下，采取a1的行动，reward为-1，概率为1，

六、Trajectory and Return（轨迹和回报）

实际上是一个叫做 state-action-reward的链，考虑上图这样的trajectory

这就包含了三个概念，还有一个return，这个return，就是沿着这个 trajectory所得到的所有reward加起来，这里的return就是1。

分析多个trajectory 和 policy，根据return，我们就能知道哪个更好。

七、Discounted return（折扣回报）

在上面一小节，我们看到了一条trajectory,但是这个点在最后是会一直呆在原地的，所以

那么这个return就会使无穷，在原地等待。引入Discounted rate，这个其实和深度学习的正则化系数有异曲同工之妙，为了防止数值爆炸，我们将这个rate当作系数乘以每个s，得到

当次数越多，后面的y会很快的衰减，那么这个值就是取决于前面的，相反就取决于之后的。

八、Episode（回合）

这个概念又涉及到另一个概念 terminal state,就是我们最后终止的。一个episode一般是有限制的，但是也有任务会是无止尽进行的。那我们是要在那不动，还是让他继续进行策略呢？

实际上和上面的Discounted是可以转换的。一般化使用为第二个

九、MDP 马尔可夫决策过程

上面的概念，都会在这个框架内涉及到。

首先，一个MDP实际上有很多要素，第一个要素就是包含了很多的集合sets，之前我们提到了state space。

Sets里面包含：· State

, ·Action

, ·Reward

三个集合

第二个MDP的要素就是 Probability distribution可能性决策

Probability distribution包含

`State transition probablity

，从状态s，采取行动a，到s`的概率；

`Reward probability

,从状态s，采取行动a，获得奖励的概率；

第三个Policy，告诉我在状态s，采取行动a的概率

最后所独特的性质：Markov property: memoryless property

比如我开始状态为 s0，采取了一个action，慢慢的走到t+1阶段，也就是说与之前的历史没有关系，之和行动 at+1相关，与之前无关。

热门推荐

EPP与PP性能对比：环保、耐用、保温减振全方位解析

癌痛让他痛不欲生 “鞘内泵药物输注系统”一招解痛

如何找到丢失的猫？这份实用指南请收好

高等学校毕业生登记表自我鉴定中如何提到未来职业规划？

蜂王浆的功效与作用？看完你就懂了

口腔溃疡发作，疼痛难忍怎么办？3种办法或许靠谱，不妨试试

钨电极主要应用于钨极氩弧焊工艺中本土企业具备高质量产品生产实力

公积金贷款利率再调整，购房者能省多少钱？

收藏！一个详细完整的公司局域网搭建案例

最低工资是什么意思？最低工资标准含社会保险、公积金和加班费吗？

如何防止别墅蚊虫问题？这种防蚊措施的持久性怎样？

标准作业是什么？标准作业的作用与步骤详解，如何提升生产效率？

共情之力：如何通过理解与沟通减少医患矛盾

高铁时速是350公里，为啥一千公里路就只需要6个小时？长知识了

医院组织架构规划怎么优化？

法律透视：房屋中介骗局的常见套路与防范策略

寒风起，警惕过敏性鼻炎

天然气安全知识培训

秋冬之交儿童咳嗽高发，久咳不愈要看耳鼻喉科

头痛、头晕不在意，可能会埋下重大隐患——慢性硬膜下血肿

团队选举如何处理

手机摄像传感器类型详解

清华大学张莹莹教授AM综述——用于可穿戴电子的生物高分子基衍生碳材料