资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

《强化学习的数学原理》课程笔记：从基础概念到高级算法的全面解析

创作时间:

作者:

@小白创作中心

《强化学习的数学原理》课程笔记：从基础概念到高级算法的全面解析

引用

CSDN

https://blog.csdn.net/weixin_46034116/article/details/138476378

《强化学习的数学原理》是西湖大学赵世钰教授的一门课程，本文是该课程的学习笔记，涵盖了从基本概念到高级算法的详细内容。文章通过图表和文字相结合的方式，系统地介绍了强化学习的核心原理和关键算法，包括状态值、贝尔曼公式、值迭代、策略迭代、模型无关学习、随机逼近理论、时序差分方法以及值函数近似等重要概念。

如何学习强化学习？

原理：理解算法背后的数学原理
实践和编程：将理论知识应用到实际问题中

为何要了解算法背后的原理？

了解算法的原理是什么？
它在做什么样的事情？
有什么优势？有什么劣势？
创新可以从哪些方面入手？

给目标分配合适的时间

不存在速成！需要充裕的时间，保持平和的心态，稳扎稳打。
数学性强，系统性强。预计需要40小时的学习时间，可以阅读相关论文。

学习目标

不仅能知道算法的过程
还能理解为什么要设计这个算法
为什么它能有效地工作

第1章基本概念

第2章状态值和贝尔曼公式

状态值

定义：agent在遵循给定策略的情况下从某个状态出发时所能获得的预期收益。状态值越大，对应的策略越好。
作用：用于评价一个策略的好坏。

贝尔曼公式

定义：描述了所有状态和状态值之间的关系。
策略评价：求解贝尔曼公式进而得到一个策略所对应的状态值。

第3章最优策略 [贝尔曼最优公式]

强化学习的终极目标：求解最优策略
最优策略：能获得最大的状态值

第4章值迭代和策略迭代

值迭代：通过迭代更新状态值来逼近最优策略
策略迭代：通过迭代更新策略来逼近最优策略
截断策略迭代：结合了前两者的优点

第5章 model-free的强化学习算法

数据 vs 模型：强化学习中的“数据”是指智能体与环境交互时产生的经验样本。
MC Basic：策略迭代中依赖模型的部分去掉，替换成依赖数据的
实际不可用，效率很低

第6章随机逼近理论

定义：解决寻根或优化问题的一类广泛的随机迭代算法
经典算法：Robbins-Monro算法和随机梯度下降算法

第7章时序差分方法【增量】

学习状态值：用模型来计算（第4章）、用蒙特卡洛方法学习（第5章）、用TD方法学习（第7章）
Q-learning：离线直接学习最优动作值
策略类型：
off-policy：behavior policy和target policy可以不同
on-policy：behavior policy和target policy相同

第8章值函数近似[神经网络]

表格或向量形式的状态值
状态非常多或状态连续：表格效率低下，转而使用函数（神经网络）
状态值估计步骤：
1. 明确目标函数定义最优策略
2. 求目标函数梯度
3. 用梯度上升或下降对目标函数进行优化

第9-10章 policy-based方法

value-based VS policy-based

value-based
目标函数J(w)，w是值函数的参数
更新值函数的参数使得这个值函数能够很好地近似或者估计出来一个策略所对应的值
在此基础上再更新策略，得到新的策略，然后再估计它的值
不断迭代找到最优的策略
policy-based
目标函数J(θ)，θ是策略的参数
直接优化θ，直接改变策略，慢慢找到最优的策略

三步走：

找目标函数
目标函数梯度
用梯度上升或下降优化目标函数

策略和值交叉迭代

求出值 ——> 更新策略 ——> 求值 ——> 更新策略……

热门推荐

从沙盘模型到虚拟仿真，看军事演练模拟技术如何发展

人工智能助力军事革命：15个国防应用实例深度分析

髋关节疼痛的 7 种疾病和 7 个缓解动作

游泳后头发越来越差？这样做让头发保持健康

游泳后头发越来越差？这样做让秀发重获生机

养护头发的七个秘诀

南京大学新发现：GLP1或成癌症治疗新希望

浙江省人民医院：信息化创新提升输血安全的标杆实践

医疗专家解读：输血前的“三查八对”为何如此重要？

王安石变法为何饱受争议？一文带你了解熙宁变法的前因后果

王安石变法的历史背景及其与宋神宗的关系

CT技术如何透视你的身体秘密？

高情商职场社交：如何适度迎合？

当他说"你想要什么我们就做什么"：解读迎合行为背后的心理密码

《强化学习的数学原理》课程笔记：从基础概念到高级算法的全面解析

《强化学习的数学原理》课程笔记：从基础概念到高级算法的全面解析

如何学习强化学习？

为何要了解算法背后的原理？

给目标分配合适的时间

学习目标

第1章 基本概念

第2章 状态值和贝尔曼公式

状态值

贝尔曼公式

第3章 最优策略 [贝尔曼最优公式]

第4章 值迭代和策略迭代

第5章 model-free的强化学习算法

第6章 随机逼近理论

第7章 时序差分方法【增量】

第8章 值函数近似[神经网络]

第9-10章 policy-based方法

value-based VS policy-based

三步走：

策略和值交叉迭代

第1章基本概念

第2章状态值和贝尔曼公式

第3章最优策略 [贝尔曼最优公式]

第4章值迭代和策略迭代

第6章随机逼近理论

第7章时序差分方法【增量】

第8章值函数近似[神经网络]