问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

【入门强化学习】从基本概念到核心原理

创作时间:

作者:

@小白创作中心

【入门强化学习】从基本概念到核心原理

引用

CSDN

1.

https://m.blog.csdn.net/m0_61552056/article/details/145637073

强化学习是人工智能领域的一个重要分支，它让机器能够通过与环境的交互来学习如何做出决策。本文将从基本概念出发，介绍强化学习的核心要素、它能解决的问题类型，以及与传统监督学习的主要区别。

文章目录

什么是强化学习
强化学习解决的问题
强化学习的独特性

什么是强化学习

强化学习是机器通过与环境交互来实现目标的计算方法。智能体与环境的交互方式如图所示，在每一轮交互中，智能体根据感知状态经过自身计算给出本轮动作，将其作用于环境；环境得到智能体动作后，产生相应的即时奖励信号并发生相应的状态转移。智能体则在下一轮交互中感知到新的环境状态，以此类推。

如果问题可以建模成一个强化学习问题，有三要素不可缺少：

环境：与有监督学习不同，强化学习中的环境是动态的随机过程，受当前环境状态及智能体决策动作影响。
目标：即决策目标，智能体与环境进行交互时，环境会产生相应的奖励信号。这个奖励信号一般是诠释当前状态或动作的好坏的及时反馈信号。
数据：在智能体与环境交互过程中，我们实际优化的是数据分布，即占用度量。由于奖励建立在状态动作对之上，一个策略对应的价值就是一个占用度量下对于的奖励期望，因此寻找最优策略实际上是寻找最优占用度量。

强化学习解决的问题

强化学习处理的任务是序贯决策任务。决策和预测不同，决策需要为未来所发生的事负责，当下最优解可能不是全局最优解，也就是说当下动作会影响未来状态；而预测仅是根据数据以期望得到和输出一样的结果，并不会影响环境状态。

强化学习的独特性

对于一般的监督学习来说，我们的目标是找到一个最优的模型函数，使其最小化损失函数。

$$
Optimal\space Model = \argmin_{Model} Loss(y, \hat y )
$$

相比之下，强化学习任务的最终优化目标是最大化智能体策略在和动态环境交互过程中的价值。

$$
Optimal\space Policy = \argmax_{Policy} Reward(S, A)
$$

可以发现一般的有监督学习关注寻找一个模型，使其在给定数据分布下得到的损失函数的期望最小；而强化学习关注寻找一个最优策略，使其在于动态环境交互后产生最优数据分布。

热门推荐

朱棣迁都北京：如何巩固中央集权？

朱棣迁都北京：如何巩固中央集权？

大年初三如何用汉语表达祝福？

大年初三如何用汉语表达祝福？

春节打卡：徐州汉文化景区探秘

春节打卡：徐州汉文化景区探秘

徐州博物馆：十一假期打卡胜地！

徐州博物馆：十一假期打卡胜地！

吕梁山风景区：徐州最美自驾游打卡地

吕梁山风景区：徐州最美自驾游打卡地

查干湖：东北最美冬游打卡地！

查干湖：东北最美冬游打卡地！

松原必打卡：乾安泥林&查干湖摄影指南

松原必打卡：乾安泥林&查干湖摄影指南

龙华寺：松原市的历史文化瑰宝

龙华寺：松原市的历史文化瑰宝

上饶美食，吃的是什么？

上饶美食，吃的是什么？

重庆周边秋冬景点全攻略：温泉、古镇、山水一网打尽

重庆周边秋冬景点全攻略：温泉、古镇、山水一网打尽

双十一家庭时间管理攻略：如何平衡个人与共同时间？

双十一家庭时间管理攻略：如何平衡个人与共同时间？

《三十而已》中的时间困境：如何平衡婚姻中的个人与共同时间？

《三十而已》中的时间困境：如何平衡婚姻中的个人与共同时间？

石家庄正定小商品夜市：“泼天流量”背后有啥“真功夫”

石家庄正定小商品夜市：“泼天流量”背后有啥“真功夫”

赵本山67岁再出“王炸”！两部新作爆笑来袭，春晚或将再登台

赵本山67岁再出“王炸”！两部新作爆笑来袭，春晚或将再登台

正定古城何以成为“最愿意去的热门景点”

正定古城何以成为“最愿意去的热门景点”

揭秘美国海军两分钟入眠法：真的有效吗？

揭秘美国海军两分钟入眠法：真的有效吗？

美国海军两分钟入眠法：科学原理、效果与使用指南

美国海军两分钟入眠法：科学原理、效果与使用指南

移动护航，拉萨分会场通信无忧！

移动护航，拉萨分会场通信无忧！

十部不可错过的战争电影：历史硝烟中的灵魂回响

十部不可错过的战争电影：历史硝烟中的灵魂回响

透视中西方传统指挥文化差异

透视中西方传统指挥文化差异

角斗士2：一部值得观看的历史古装大片

角斗士2：一部值得观看的历史古装大片

古罗马人泡咖啡馆看报纸？《角斗士2》被指与历史不符

古罗马人泡咖啡馆看报纸？《角斗士2》被指与历史不符

海南省老年病医院推荐：心跳加快时如何自救？

海南省老年病医院推荐：心跳加快时如何自救？

缓解紧张焦虑，让心跳不再加速

缓解紧张焦虑，让心跳不再加速

抖音热推：杭州宋城千古情必打卡！

抖音热推：杭州宋城千古情必打卡！

研究证实听音乐可改善失眠，但选错音乐恐越听越难睡！ 4个技巧提升音乐助眠功效

研究证实听音乐可改善失眠，但选错音乐恐越听越难睡！ 4个技巧提升音乐助眠功效

甘油三酯高有多大危害?哪些人需要吃药？给您最佳治疗方案

甘油三酯高有多大危害?哪些人需要吃药？给您最佳治疗方案

大年初二必吃三样：面条、元宝汤、年糕！

大年初二必吃三样：面条、元宝汤、年糕！

广东人的大年初二：十三道菜里的吉祥寓意

广东人的大年初二：十三道菜里的吉祥寓意

乌镇：活着的江南水乡，古镇版“迪士尼”

乌镇：活着的江南水乡，古镇版“迪士尼”

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号