【入门强化学习】从基本概念到核心原理
创作时间:
作者:
@小白创作中心
【入门强化学习】从基本概念到核心原理
引用
CSDN
1.
https://m.blog.csdn.net/m0_61552056/article/details/145637073
强化学习是人工智能领域的一个重要分支,它让机器能够通过与环境的交互来学习如何做出决策。本文将从基本概念出发,介绍强化学习的核心要素、它能解决的问题类型,以及与传统监督学习的主要区别。
文章目录
- 什么是强化学习
- 强化学习解决的问题
- 强化学习的独特性
什么是强化学习
强化学习是机器通过与环境交互来实现目标的计算方法。智能体与环境的交互方式如图所示,在每一轮交互中,智能体根据感知状态经过自身计算给出本轮动作,将其作用于环境;环境得到智能体动作后,产生相应的即时奖励信号并发生相应的状态转移。智能体则在下一轮交互中感知到新的环境状态,以此类推。
如果问题可以建模成一个强化学习问题,有三要素不可缺少:
- 环境:与有监督学习不同,强化学习中的环境是动态的随机过程,受当前环境状态及智能体决策动作影响。
- 目标:即决策目标,智能体与环境进行交互时,环境会产生相应的奖励信号。这个奖励信号一般是诠释当前状态或动作的好坏的及时反馈信号。
- 数据:在智能体与环境交互过程中,我们实际优化的是数据分布,即占用度量。由于奖励建立在状态动作对之上,一个策略对应的价值就是一个占用度量下对于的奖励期望,因此寻找最优策略实际上是寻找最优占用度量。
强化学习解决的问题
强化学习处理的任务是序贯决策任务。决策和预测不同,决策需要为未来所发生的事负责,当下最优解可能不是全局最优解,也就是说当下动作会影响未来状态;而预测仅是根据数据以期望得到和输出一样的结果,并不会影响环境状态。
强化学习的独特性
对于一般的监督学习来说,我们的目标是找到一个最优的模型函数,使其最小化损失函数。
$$
Optimal\space Model = \argmin_{Model} Loss(y, \hat y )
$$
相比之下,强化学习任务的最终优化目标是最大化智能体策略在和动态环境交互过程中的价值。
$$
Optimal\space Policy = \argmax_{Policy} Reward(S, A)
$$
可以发现一般的有监督学习关注寻找一个模型,使其在给定数据分布下得到的损失函数的期望最小;而强化学习关注寻找一个最优策略,使其在于动态环境交互后产生最优数据分布。
热门推荐
用手机轻松搞定!教你如何一键查询自己名下的所有银行卡
够级一人多少张牌,了解规则助你轻松获胜
正宗香煎鳕鱼腌制方法
高级职称评审条件及材料要求的法律分析
防晒服商标怎么去掉?多种实用方法详解
这4个星座敏感多疑,跟他们相处时有许多眉角要注意 !
维持性血液透析患者的护理
家庭教育中的安全教育:提升孩子的安全意识和自我保护能力
跨境干货之:VAT详解,电商卖家必读
医疗结构化面试:题型解析与应对策略
海南旅游发展史:从历史到现状的五大发展阶段概述
征地补偿全攻略:谈判要点、补偿款分配与道路补偿计算
如何利用水稻田杂草变成肥料,提高农作物产量
结节性红斑怎么预防
栀子花什么时候换盆最好 在几月份换盆合适
项目管理流程如何梳理整改措施
声压、声强、响度之间的区别与联系
银是什么意思?银的定义及其在市场中的价值体现
胰腺术后引流管的管理
忻州古城:“保护+传承” 让非遗焕发新生
什么是太田痣?
女儿为何呼唤父亲耕水田-探寻父女关系中的劳动与情感纽带
典故起名:赋予名字深厚文化内涵
低估值板块迎来反弹 低估值绩优股揭秘 18只潜力股值得关注
从阴阳到0与1:太极哲学在数字化转型中的应用
光电耦合器电流传输比CTR值,光耦关键参数
如何计算和比较不同投资产品的手续费?这些费用对投资回报有何影响?
理科一本、体育一本均上涨35分,上涨的多,2024宁夏分数线出炉
整个脑袋突然发热是怎么回事
横空出世的054B,证明了中国海军再一次弯道超车,它到底有多强?