《强化学习的数学原理》课程笔记:从基础概念到高级算法的全面解析
创作时间:
作者:
@小白创作中心
《强化学习的数学原理》课程笔记:从基础概念到高级算法的全面解析
引用
CSDN
1.
https://blog.csdn.net/weixin_46034116/article/details/138476378
《强化学习的数学原理》是西湖大学赵世钰教授的一门课程,本文是该课程的学习笔记,涵盖了从基本概念到高级算法的详细内容。文章通过图表和文字相结合的方式,系统地介绍了强化学习的核心原理和关键算法,包括状态值、贝尔曼公式、值迭代、策略迭代、模型无关学习、随机逼近理论、时序差分方法以及值函数近似等重要概念。
如何学习强化学习?
- 原理:理解算法背后的数学原理
- 实践和编程:将理论知识应用到实际问题中
为何要了解算法背后的原理?
- 了解算法的原理是什么?
- 它在做什么样的事情?
- 有什么优势?有什么劣势?
- 创新可以从哪些方面入手?
给目标分配合适的时间
- 不存在速成!需要充裕的时间,保持平和的心态,稳扎稳打。
- 数学性强,系统性强。预计需要40小时的学习时间,可以阅读相关论文。
学习目标
- 不仅能知道算法的过程
- 还能理解为什么要设计这个算法
- 为什么它能有效地工作
第1章 基本概念
第2章 状态值和贝尔曼公式
状态值
- 定义:agent在遵循给定策略的情况下从某个状态出发时所能获得的预期收益。状态值越大,对应的策略越好。
- 作用:用于评价一个策略的好坏。
贝尔曼公式
- 定义:描述了所有状态和状态值之间的关系。
- 策略评价:求解贝尔曼公式进而得到一个策略所对应的状态值。
第3章 最优策略 [贝尔曼最优公式]
- 强化学习的终极目标:求解最优策略
- 最优策略:能获得最大的状态值
第4章 值迭代和策略迭代
- 值迭代:通过迭代更新状态值来逼近最优策略
- 策略迭代:通过迭代更新策略来逼近最优策略
- 截断策略迭代:结合了前两者的优点
第5章 model-free的强化学习算法
- 数据 vs 模型:强化学习中的“数据”是指智能体与环境交互时产生的经验样本。
- MC Basic:策略迭代中依赖模型的部分去掉,替换成依赖数据的
- 实际不可用,效率很低
第6章 随机逼近理论
- 定义:解决寻根或优化问题的一类广泛的随机迭代算法
- 经典算法:Robbins-Monro算法和随机梯度下降算法
第7章 时序差分方法【增量】
- 学习状态值:用模型来计算(第4章)、用蒙特卡洛方法学习(第5章)、用TD方法学习(第7章)
- Q-learning:离线直接学习最优动作值
- 策略类型:
- off-policy:behavior policy和target policy可以不同
- on-policy:behavior policy和target policy相同
第8章 值函数近似[神经网络]
- 表格或向量形式的状态值
- 状态非常多或状态连续:表格效率低下,转而使用函数(神经网络)
- 状态值估计步骤:
- 明确目标函数定义最优策略
- 求目标函数梯度
- 用梯度上升或下降对目标函数进行优化
第9-10章 policy-based方法
value-based VS policy-based
value-based
目标函数J(w),w是值函数的参数
更新值函数的参数使得这个值函数能够很好地近似或者估计出来一个策略所对应的值
在此基础上再更新策略,得到新的策略,然后再估计它的值
不断迭代找到最优的策略
policy-based
目标函数J(θ),θ是策略的参数
直接优化θ,直接改变策略,慢慢找到最优的策略
三步走:
- 找目标函数
- 目标函数梯度
- 用梯度上升或下降优化目标函数
策略和值交叉迭代
- 求出值 ——> 更新策略 ——> 求值 ——> 更新策略……
热门推荐
如何从吵架冷战中和好如初(重建信任)
不超过25个字的求婚信
Omega-3脂肪酸对脑健康有帮助?生食鱼肉会更营养?
印刷专色油墨的配色原理及配色方法介绍
为什么八路军抗战"伤亡少"?看刘伯承和贺龙的战斗总结就明白了
青岛中程现退市风险又被监管立案还能成功保壳吗?股民损失可索赔
游山东最大的道观,观世界最大老子铜像,看《崂山道士》穿过的墙
哪吒1和2的人物对比,明显更强了!
装修属于承揽还是劳务合同?一文详解两者区别与法律规定
中国五大对骨骼好的食物,适当吃,真的好
薪酬调查与分析:定期调查,了解市场行情
85mm与70-200mm镜头:人像拍摄的最佳选择指南
毫无底线!霸凌情节竟成短视频创作“灵感源泉”?
省级大三甲医院却身处县级市,王牌科室微创手术占比95%,这是如何做到的?
浅谈水晶艺术品鉴赏
中央办公厅唯一直属高校,95%毕业生到体制内工作,根本不愁就业
净水机5个滤芯安装顺序是什么
弦卷心:《Hello, Happy World!》中的独特存在
沮授属于什么级别的谋士?他是如何死的?
特发性震颤症状缓解小技巧,你学会了吗?
乙木身弱命怎么补救,乙木身弱最有效的化解方法
有效向领导请示与审阅材料的沟通技巧总结
搞怪有趣的iPhone设备名称:创意与AI的碰撞
多方位展现文物之美文化之美!唐山清东陵保护区探索创新文物保护利用路径
向公司讨要加班工资该怎么计算?
牙齿发凉是怎么回事
深度分析:国乒女团亚锦赛失利原因与赛局推演
“三个不相信”英雄宣言跨越时空传递奋进的力量
30年呈指数增长!盘点围产期干细胞在组织修复/再生中的作用和应用
如何实现涨停卖出的合理价格?实现该价格有哪些策略?