强化学习基础概念入门
创作时间:
作者:
@小白创作中心
强化学习基础概念入门
引用
1
来源
1.
https://www.cnblogs.com/lizhongzheng/p/18779601
强化学习是人工智能领域的一个重要分支,它研究如何使智能体通过与环境的交互来学习最优决策策略。本文将从总体流程开始,逐步介绍强化学习中的核心概念,包括智能体、环境、状态、动作、奖励等基础概念,以及回报、动作价值函数、最优动作价值函数和状态价值函数等高级概念。
基础知识点扫盲---专业术语 Terminologies
Agent(智能体):相当于主角,智能体是与环境交互的主体。它通过执行动作(action)来影响环境,并从环境中接收反馈(奖励/惩罚(reward))。
Environment(环境):环境是智能体所处的外部世界。它包含了智能体(agent)可以观察到的状态(state),并根据智能体(agent)的动作,同时给予智能体奖励(reward)。
State(状态):状态是环境在某一时刻的描述。它是智能体需要考虑的信息,以便决定采取什么动作。
Action(动作):动作是智能体在某一状态下可以执行的行为。智能体通过执行动作来影响环境。
Reward(奖励):奖励是智能体在执行动作后从环境中获得的反馈。它通常是一个数值,用来表示动作的好坏。智能体的目标是最大化累积奖励。
Policy(策略):策略是智能体决定在给定状态下采取什么动作的规则或函数。它定义了智能体的行为策略。
State transition(状态转移概率):状态转移概率描述了在给定当前状态s和动作a的情况下,转移到下一个状态s′ 的概率
Return and Value(回报和价值)
- Return(回报):
- 回报是智能体在某一时刻t之后获得的所有未来奖励的总和,通常表示为
其中γ是折扣因子,用于权衡未来奖励的重要性。
- Action-value function(动作价值函数):
- 动作价值函数
表示在策略π下,从状态 st 执行动作 at 后所能获得的期望回报。
- Optimal action-value function(最优动作价值函数):
- 最优动作价值函数
是在所有可能的策略中,对于给定状态和动作,所能获得的最大期望回报。
- State-value function(状态价值函数):
- 状态价值函数
表示在策略π下,从状态 st 开始所能获得的期望回报。其中A是动作。
总体流程:
- 观察状态 st:
- 智能体首先观察当前的环境状态st。状态是环境在某一时刻的完整描述,智能体需要根据这个状态来决定下一步的动作。
- 做出动作 at:
- 智能体根据当前观察到的状态st,选择并执行一个动作at。这个动作是根据智能体的策略π(a∣s) 来选择的,策略是智能体决定在给定状态下采取什么动作的规则。
- 环境给出新状态 st+1 和奖励 rt:
- 环境接收到智能体的动作at后,会转移到一个新的状态st+1,并给智能体一个奖励rt。奖励是环境对智能体动作的反馈,用于评价动作的好坏。奖励可以是正的(表示动作是有益的),也可以是负的(表示动作是有害的)。
- 智能体可以由策略 π(a∣s) 或最优动作价值函数 Q∗(s,a) 控制:
- 智能体的行为可以由两种方式控制:
- 策略 π(a∣s):这是智能体在给定状态下选择动作的概率分布。智能体根据这个策略来选择动作。
- 最优动作价值函数 Q∗(s,a):这是在所有可能的策略中,对于给定状态和动作,所能获得的最大期望回报。智能体可以选择使Q∗(s,a) 最大化的动作。
- 重复过程:
- 这个过程会不断重复。在每个时间步t,智能体会观察新的状态s**t+1,然后基于这个状态选择新的动作at+1,环境会再次给出新的状态st+2 和奖励rt+1,以此类推。
热门推荐
终于实现自我价值:成功之路的探索
镜片材质大揭秘:不同材料镜片的特点与区别
【检验科普】小检查大作用——尿常规检查
人如其名?| 姓名对人多方面的影响
膳食指南取消了胆固醇的摄入限制?胆固醇能随便吃吗?
傣族泼水节,欢乐与祝福的洗礼
为什么拖鞋怎么换都滂臭?不是因为脚气,是因为......
心理营销策略怎么实施?
什么是电子证据
女性腹痛腹胀的原因及应对方法
房产中介遭客户“跳单”?法院判了
亚锦赛国乒一天输9场外战,背后这些因素不容小觑!
如今42岁,凭《六姊妹》成人生赢家
专家称,吃晚餐的最佳时间是长寿和减肥的最佳时间
港八大VS内地985,谁排名更高?附港八大2025申请要求
瞰青岛|即墨区生态赋能,农文旅融合提升发展含金量
牛舌、五花、横隔膜:你热爱的日式烧肉,其实是来自韩国的料理?
缅北电诈更多犯罪细节曝光:园区里都是铁栏杆,到处都喷溅血迹
揭秘铜酸中毒:诱因、症状与应对策略
中国四大卫星发射中心:酒泉、太原、西昌、文昌
思科揭露身份服务引擎重大安全漏洞:后果与防范措施一览
收割千亿的顶级豪门接班人破防,三代加起来干不过一个外室?
海龟汤题目和答案全套简短简单-海龟汤简短题目及答案-第五章
重排NBA历史5大分卫:从艾弗森到乔丹,谁是真正的GOAT?
新食品原料L-阿拉伯糖,引领减糖新风尚
张平医生:儿童抽动可以自愈吗?孩子抽动用什么方法调理?
重点关注 | 中外校园欺凌防治措施对比与应对策略探讨
淋巴瘤科普:从症状识别到治疗方案
Excel-趋势线简介
刚刚!福建发布强冷空气警报!福州多地跌破-2℃