问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

强化学习基本要素:环境状态、Agent动作与环境奖励

创作时间:
作者:
@小白创作中心

强化学习基本要素:环境状态、Agent动作与环境奖励

引用
CSDN
1.
https://blog.csdn.net/samurasun/article/details/107784260

其实本来不想写这篇的,相信愿意往下看的童鞋,对强化学习本身应该有一定了解。但其实你看的多了就会发现,现有很多文章在细节方面还是有不少差异的。因此,这篇文章也是为了统一本博客的话语体系,为后面内容打基础。

首先请看下面这张图:

上图就是强化学习的最一般思路。其中Agent代表你实现的各种“牛叉”算法,Environment则代表Agent输出或作用的对象。其实这一思路,特别类似于我们人类或者自然界的动物等,通过与环境的交互,逐渐适应环境并学习到知识。当然,现有强化学习的算法从效率上来说,别说和人类相比,与动物相比低的也不是一星半点。这是因为现有的学习算法,大部分都是需要依靠海量的数据来投喂的。(当然,我的知识有限,如果已有更高效的学习方法,我会回来改正这段话的。)

下面,我们根据上图,正式引入强化学习的一些基本要素:

1. 环境状态s

即Environment所描述对象的情况。由于强化学习本身的设计,其状态可认为是离散的,或者简单来说,就是一步一步的。我们在这里给s添加一个下标t,表示为$s_t$,表示环境每一步的状态。当然,在强化学习中,$s_t$具体的取值,取决于你的采样方式,更取决于你设计的算法本身的需求。

2. Agent的动作a

即Agent的输出,这个也是一步一步的,因此可表示为$a_t$。当然,这个取值也完全取决于你的需求与设计。在强化学习中,s与a是成对出现的,即$s_t \rightarrow a_t \rightarrow s_{t+1} \rightarrow \cdots$。请大家务必记住这个序列,它是强化学习概念的基础,贯穿强化学习始终。

3. 环境奖励r

即Agent的动作带来的实时收益,这个收益本身也取决于环境的设计。一般情况下,这个收益每一步都有。但是,有时很难对每一步设计具体收益,所以有可能会在最后设计一个总收益,而其他步上都是0。收益的设计会极大的影响你的算法,后面我们会通过各种示例慢慢讨论。

以上三个是强化学习中最基本的要素。在具体的强化学习中,每一步都会产生一个组合:$(s_t, a_t, s_{t+1}, r_{t+1})$。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号