问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

强化学习基础概念入门

创作时间:

作者:

@小白创作中心

强化学习基础概念入门

引用

1

来源

1.

https://www.cnblogs.com/lizhongzheng/p/18779601

强化学习是人工智能领域的一个重要分支，它研究如何使智能体通过与环境的交互来学习最优决策策略。本文将从总体流程开始，逐步介绍强化学习中的核心概念，包括智能体、环境、状态、动作、奖励等基础概念，以及回报、动作价值函数、最优动作价值函数和状态价值函数等高级概念。

基础知识点扫盲---专业术语 Terminologies

Agent（智能体）：相当于主角，智能体是与环境交互的主体。它通过执行动作（action）来影响环境，并从环境中接收反馈（奖励/惩罚（reward））。
Environment（环境）：环境是智能体所处的外部世界。它包含了智能体（agent）可以观察到的状态（state），并根据智能体（agent）的动作，同时给予智能体奖励（reward）。
State（状态）：状态是环境在某一时刻的描述。它是智能体需要考虑的信息，以便决定采取什么动作。
Action（动作）：动作是智能体在某一状态下可以执行的行为。智能体通过执行动作来影响环境。
Reward（奖励）：奖励是智能体在执行动作后从环境中获得的反馈。它通常是一个数值，用来表示动作的好坏。智能体的目标是最大化累积奖励。
Policy（策略）：策略是智能体决定在给定状态下采取什么动作的规则或函数。它定义了智能体的行为策略。
State transition（状态转移概率）：状态转移概率描述了在给定当前状态s和动作a的情况下，转移到下一个状态s′ 的概率

Return and Value（回报和价值）

Return（回报）：

回报是智能体在某一时刻t之后获得的所有未来奖励的总和，通常表示为
其中γ是折扣因子，用于权衡未来奖励的重要性。

Action-value function（动作价值函数）：

动作价值函数
表示在策略π下，从状态 st 执行动作 at 后所能获得的期望回报。

Optimal action-value function（最优动作价值函数）：

最优动作价值函数
是在所有可能的策略中，对于给定状态和动作，所能获得的最大期望回报。

State-value function（状态价值函数）：

状态价值函数
表示在策略π下，从状态 st 开始所能获得的期望回报。其中A是动作。

总体流程：

观察状态 st：

智能体首先观察当前的环境状态st。状态是环境在某一时刻的完整描述，智能体需要根据这个状态来决定下一步的动作。

做出动作 at：

智能体根据当前观察到的状态st，选择并执行一个动作at。这个动作是根据智能体的策略π(a∣s) 来选择的，策略是智能体决定在给定状态下采取什么动作的规则。

环境给出新状态 st+1 和奖励 rt：

环境接收到智能体的动作at后，会转移到一个新的状态st+1，并给智能体一个奖励rt。奖励是环境对智能体动作的反馈，用于评价动作的好坏。奖励可以是正的（表示动作是有益的），也可以是负的（表示动作是有害的）。

智能体可以由策略 π(a∣s) 或最优动作价值函数 Q∗(s,a) 控制：

智能体的行为可以由两种方式控制：
策略 π(a∣s)：这是智能体在给定状态下选择动作的概率分布。智能体根据这个策略来选择动作。
最优动作价值函数 Q∗(s,a)：这是在所有可能的策略中，对于给定状态和动作，所能获得的最大期望回报。智能体可以选择使Q∗(s,a) 最大化的动作。

重复过程：

这个过程会不断重复。在每个时间步t，智能体会观察新的状态s**t+1，然后基于这个状态选择新的动作at+1，环境会再次给出新的状态st+2 和奖励rt+1，以此类推。

热门推荐

麻鸭和一般鸭子的区别，外观特征不同

麻鸭和一般鸭子的区别，外观特征不同

“粤车南下”新进展！拟首阶段不入市区

“粤车南下”新进展！拟首阶段不入市区

大模型日报｜9 篇必读的大模型论文

大模型日报｜9 篇必读的大模型论文

减脂过程中，最有效的十大减肥运动！

减脂过程中，最有效的十大减肥运动！

学英语时，选择美音还是英音？一篇文章帮你理清思路

学英语时，选择美音还是英音？一篇文章帮你理清思路

新房装修是先做防水还是先铺地暖

新房装修是先做防水还是先铺地暖

合同签名鉴定：如何确定签名真实性和法律效力？

合同签名鉴定：如何确定签名真实性和法律效力？

凯雷为“非洲的切·格瓦拉”设计，布基纳法索托马斯·桑卡拉纪念建筑群

凯雷为“非洲的切·格瓦拉”设计，布基纳法索托马斯·桑卡拉纪念建筑群

如何在展厅设计中提供互动体验和参与感？

如何在展厅设计中提供互动体验和参与感？

血糖高能吃羊角蜜吗？医生的专业建议来了

血糖高能吃羊角蜜吗？医生的专业建议来了

渐冻症的高发人群有哪些？

渐冻症的高发人群有哪些？

如何优化签字流程管理规定以提高效率？

如何优化签字流程管理规定以提高效率？

成都医生应用DeepSeek!AI辅助高难度手术

成都医生应用DeepSeek!AI辅助高难度手术

格力空调E3故障处理指南：原因分析与解决方案详解

格力空调E3故障处理指南：原因分析与解决方案详解

工程监控摄像头安装应该注意的事项

工程监控摄像头安装应该注意的事项

公司的一般账户与基本账户有什么区别

公司的一般账户与基本账户有什么区别

融资租赁每年租金计算公式的法律解析与应用

融资租赁每年租金计算公式的法律解析与应用

为什么很多老人到了七十岁，过不了几年就去世了？原因主要是三点

为什么很多老人到了七十岁，过不了几年就去世了？原因主要是三点

成都网约车市场调查：40多名司机讲述行业困境与出路

成都网约车市场调查：40多名司机讲述行业困境与出路

A股市场：现状剖析、影响因素及投资指南

A股市场：现状剖析、影响因素及投资指南

物料堆放高度国家标准规范最新要求是什么？

物料堆放高度国家标准规范最新要求是什么？

2024文旅营销洞察报告：内容与特色良性循环，个性化崛起

2024文旅营销洞察报告：内容与特色良性循环，个性化崛起

二战时期，德国“恩尼格玛”密码机被破解，每月被截获近万条情报

二战时期，德国“恩尼格玛”密码机被破解，每月被截获近万条情报

为什么说近视600度是一个分水岭？

为什么说近视600度是一个分水岭？

人防车位租赁合同：法律性质、效力及实务操作指南

人防车位租赁合同：法律性质、效力及实务操作指南

如何签订租赁土地合同

如何签订租赁土地合同

康乃馨盆栽养护全攻略：从光照到修剪，让花朵年年绽放

康乃馨盆栽养护全攻略：从光照到修剪，让花朵年年绽放

医学专家列出对身体最有害的酒精饮料

医学专家列出对身体最有害的酒精饮料

这届年轻人都爱在网上看啥？《高等数学》赢麻了！

这届年轻人都爱在网上看啥？《高等数学》赢麻了！

扑翼无人机——设计的灵感汲取自创造

扑翼无人机——设计的灵感汲取自创造

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号