《强化学习的数学原理》课程笔记:从基础概念到高级算法的全面解析
创作时间:
作者:
@小白创作中心
《强化学习的数学原理》课程笔记:从基础概念到高级算法的全面解析
引用
CSDN
1.
https://blog.csdn.net/weixin_46034116/article/details/138476378
《强化学习的数学原理》是西湖大学赵世钰教授的一门课程,本文是该课程的学习笔记,涵盖了从基本概念到高级算法的详细内容。文章通过图表和文字相结合的方式,系统地介绍了强化学习的核心原理和关键算法,包括状态值、贝尔曼公式、值迭代、策略迭代、模型无关学习、随机逼近理论、时序差分方法以及值函数近似等重要概念。
如何学习强化学习?
- 原理:理解算法背后的数学原理
- 实践和编程:将理论知识应用到实际问题中
为何要了解算法背后的原理?
- 了解算法的原理是什么?
- 它在做什么样的事情?
- 有什么优势?有什么劣势?
- 创新可以从哪些方面入手?
给目标分配合适的时间
- 不存在速成!需要充裕的时间,保持平和的心态,稳扎稳打。
- 数学性强,系统性强。预计需要40小时的学习时间,可以阅读相关论文。
学习目标
- 不仅能知道算法的过程
- 还能理解为什么要设计这个算法
- 为什么它能有效地工作
第1章 基本概念
第2章 状态值和贝尔曼公式
状态值
- 定义:agent在遵循给定策略的情况下从某个状态出发时所能获得的预期收益。状态值越大,对应的策略越好。
- 作用:用于评价一个策略的好坏。
贝尔曼公式
- 定义:描述了所有状态和状态值之间的关系。
- 策略评价:求解贝尔曼公式进而得到一个策略所对应的状态值。
第3章 最优策略 [贝尔曼最优公式]
- 强化学习的终极目标:求解最优策略
- 最优策略:能获得最大的状态值
第4章 值迭代和策略迭代
- 值迭代:通过迭代更新状态值来逼近最优策略
- 策略迭代:通过迭代更新策略来逼近最优策略
- 截断策略迭代:结合了前两者的优点
第5章 model-free的强化学习算法
- 数据 vs 模型:强化学习中的“数据”是指智能体与环境交互时产生的经验样本。
- MC Basic:策略迭代中依赖模型的部分去掉,替换成依赖数据的
- 实际不可用,效率很低
第6章 随机逼近理论
- 定义:解决寻根或优化问题的一类广泛的随机迭代算法
- 经典算法:Robbins-Monro算法和随机梯度下降算法
第7章 时序差分方法【增量】
- 学习状态值:用模型来计算(第4章)、用蒙特卡洛方法学习(第5章)、用TD方法学习(第7章)
- Q-learning:离线直接学习最优动作值
- 策略类型:
- off-policy:behavior policy和target policy可以不同
- on-policy:behavior policy和target policy相同
第8章 值函数近似[神经网络]
- 表格或向量形式的状态值
- 状态非常多或状态连续:表格效率低下,转而使用函数(神经网络)
- 状态值估计步骤:
- 明确目标函数定义最优策略
- 求目标函数梯度
- 用梯度上升或下降对目标函数进行优化
第9-10章 policy-based方法
value-based VS policy-based
value-based
目标函数J(w),w是值函数的参数
更新值函数的参数使得这个值函数能够很好地近似或者估计出来一个策略所对应的值
在此基础上再更新策略,得到新的策略,然后再估计它的值
不断迭代找到最优的策略
policy-based
目标函数J(θ),θ是策略的参数
直接优化θ,直接改变策略,慢慢找到最优的策略
三步走:
- 找目标函数
- 目标函数梯度
- 用梯度上升或下降优化目标函数
策略和值交叉迭代
- 求出值 ——> 更新策略 ——> 求值 ——> 更新策略……
热门推荐
木耳保存期限全攻略:从新鲜到加工后的完整指南
「馨然」名字的含义和寓意_馨然的出处与意思解释
打造完美睡眠,从调整生理时钟开始!
孕妇吃什么可以促进胎儿大脑发育
汽车起动机测试方法有哪些
如何确定房门锁的安全性?这种安全性如何进行保障?
2024年中国大学物理学专业排名:哪所大学最强?
疟疾防治 专家有话说
秦始皇:千古一帝,权力的巅峰与暴政的阴影
黑曜石真的能助眠吗?科学解读其功效与保养方法
西游记中玉帝历1750劫,如来历了多少劫?还有谁历劫更多?
中国数学,迎来“奇迹年” 三维挂谷猜想和狭义希尔伯特第六问题解决
《绝区零》:重生后的体验是否值得回坑?
成年人牙套价目表2025速戳!金属8k陶瓷18k隐形24k+,地包天19k+..
紫陶炖锅怎么用,是否安全无及使用注意事项
企业注册资本与总资产:概念区分及法律解读
无人机 PX4 飞控 | ROS应用层开发:offboard 模式切换详细总结
合同法下的承揽合同与承包合同:权利义务与风险承担的解析
美联储的货币政策工具在不同经济周期中是如何调整的?
年轻人该怎么选自己的养老产品?
成语铁石心肠的故事
粘金属胶水的使用方法与注意事项
电动吸痰器:功能、使用方法及注意事项
如何理解“以客户为中心”
哪些项目适合参加中国大学生服务外包创新创业大赛?
15CrNiMoA合金结构钢的主要化学成分
咖啡能消肿?什么时候饮用效果最佳
这么吃梨,整个秋冬不咳嗽,还能降血压
如何评估理财产品的可靠性?这些产品有哪些选择标准?
什么是股票的CDR:CDR在股票发行中的应用