《强化学习的数学原理》课程笔记:从基础概念到高级算法的全面解析
创作时间:
作者:
@小白创作中心
《强化学习的数学原理》课程笔记:从基础概念到高级算法的全面解析
引用
CSDN
1.
https://blog.csdn.net/weixin_46034116/article/details/138476378
《强化学习的数学原理》是西湖大学赵世钰教授的一门课程,本文是该课程的学习笔记,涵盖了从基本概念到高级算法的详细内容。文章通过图表和文字相结合的方式,系统地介绍了强化学习的核心原理和关键算法,包括状态值、贝尔曼公式、值迭代、策略迭代、模型无关学习、随机逼近理论、时序差分方法以及值函数近似等重要概念。
如何学习强化学习?
- 原理:理解算法背后的数学原理
- 实践和编程:将理论知识应用到实际问题中
为何要了解算法背后的原理?
- 了解算法的原理是什么?
- 它在做什么样的事情?
- 有什么优势?有什么劣势?
- 创新可以从哪些方面入手?
给目标分配合适的时间
- 不存在速成!需要充裕的时间,保持平和的心态,稳扎稳打。
- 数学性强,系统性强。预计需要40小时的学习时间,可以阅读相关论文。
学习目标
- 不仅能知道算法的过程
- 还能理解为什么要设计这个算法
- 为什么它能有效地工作
第1章 基本概念
第2章 状态值和贝尔曼公式
状态值
- 定义:agent在遵循给定策略的情况下从某个状态出发时所能获得的预期收益。状态值越大,对应的策略越好。
- 作用:用于评价一个策略的好坏。
贝尔曼公式
- 定义:描述了所有状态和状态值之间的关系。
- 策略评价:求解贝尔曼公式进而得到一个策略所对应的状态值。
第3章 最优策略 [贝尔曼最优公式]
- 强化学习的终极目标:求解最优策略
- 最优策略:能获得最大的状态值
第4章 值迭代和策略迭代
- 值迭代:通过迭代更新状态值来逼近最优策略
- 策略迭代:通过迭代更新策略来逼近最优策略
- 截断策略迭代:结合了前两者的优点
第5章 model-free的强化学习算法
- 数据 vs 模型:强化学习中的“数据”是指智能体与环境交互时产生的经验样本。
- MC Basic:策略迭代中依赖模型的部分去掉,替换成依赖数据的
- 实际不可用,效率很低
第6章 随机逼近理论
- 定义:解决寻根或优化问题的一类广泛的随机迭代算法
- 经典算法:Robbins-Monro算法和随机梯度下降算法
第7章 时序差分方法【增量】
- 学习状态值:用模型来计算(第4章)、用蒙特卡洛方法学习(第5章)、用TD方法学习(第7章)
- Q-learning:离线直接学习最优动作值
- 策略类型:
- off-policy:behavior policy和target policy可以不同
- on-policy:behavior policy和target policy相同
第8章 值函数近似[神经网络]
- 表格或向量形式的状态值
- 状态非常多或状态连续:表格效率低下,转而使用函数(神经网络)
- 状态值估计步骤:
- 明确目标函数定义最优策略
- 求目标函数梯度
- 用梯度上升或下降对目标函数进行优化
第9-10章 policy-based方法
value-based VS policy-based
value-based
目标函数J(w),w是值函数的参数
更新值函数的参数使得这个值函数能够很好地近似或者估计出来一个策略所对应的值
在此基础上再更新策略,得到新的策略,然后再估计它的值
不断迭代找到最优的策略
policy-based
目标函数J(θ),θ是策略的参数
直接优化θ,直接改变策略,慢慢找到最优的策略
三步走:
- 找目标函数
- 目标函数梯度
- 用梯度上升或下降优化目标函数
策略和值交叉迭代
- 求出值 ——> 更新策略 ——> 求值 ——> 更新策略……
热门推荐
复兴号与和谐号(探索中国高铁发展的两个里程碑)
中国高铁速度排名与列车型号详解:从和谐号到复兴号的飞跃
网签后的查询流程是怎样的?这些查询流程有哪些具体步骤?
《重返未来1999》新角色前瞻:阿莱夫——启示体系的补强,但并非局限于启示队?
艺术学门类包括哪些专业?最热门的专业推荐
一城锦绣正芳华:解码太原入选十大热门旅游目的地的流量密码
2025年,银发经济的十大机会
走进泾阳西红柿产地,探秘小果子如何“番”荣兴旺“茄”势领航
天文科普研学:解锁星际穿越的新奇体验
三维动画制作技术指标要求
什么是高效的取证方式
全球首款且唯一预防1型糖尿病新药,国内加速上市
套利定价理论在现代金融市场中的应用与挑战
北京地区机动车驾驶证期满换证流程详解
在重庆,婚假、产假各有多少天?生育津贴如何领?
如何使用3DMark测试电脑性能:详细教程与技巧分享
痔疮患者日常护理指南:从饮食到运动全方位缓解症状
接地电阻试验:原理、标准与检测方法详解
哑铃能带上高铁吗?哑铃的正确使用方法是什么
怀孕保胎请假对工作升职有影响吗?
大体重跑者选鞋全攻略:从入门到进阶的全面指南
厨房切配岗位需要掌握哪些刀工技能?
拔牙到种植牙的具体流程是什么?了解这一过程的详细步骤与注意事项。
海口至重庆自驾游:精选中途休息站及特色住宿推荐指南
修复Windows 10中的INACCESSIBLE_BOOT_DEVICE错误
从SSL证书到HTTPS:揭秘网站数据加密的全过程
注会经济法:数学在财务报表分析中的应用
如何判断补牙材料是否出现脱落现象?补牙后需要注意哪些迹象?
53 所初中强校提质,107所新校高位发展 青岛基础教育扩优提质成果丰硕
resset数据库如何查看变量类型