《强化学习的数学原理》课程笔记:从基础概念到高级算法的全面解析
创作时间:
作者:
@小白创作中心
《强化学习的数学原理》课程笔记:从基础概念到高级算法的全面解析
引用
CSDN
1.
https://blog.csdn.net/weixin_46034116/article/details/138476378
《强化学习的数学原理》是西湖大学赵世钰教授的一门课程,本文是该课程的学习笔记,涵盖了从基本概念到高级算法的详细内容。文章通过图表和文字相结合的方式,系统地介绍了强化学习的核心原理和关键算法,包括状态值、贝尔曼公式、值迭代、策略迭代、模型无关学习、随机逼近理论、时序差分方法以及值函数近似等重要概念。
如何学习强化学习?
- 原理:理解算法背后的数学原理
- 实践和编程:将理论知识应用到实际问题中
为何要了解算法背后的原理?
- 了解算法的原理是什么?
- 它在做什么样的事情?
- 有什么优势?有什么劣势?
- 创新可以从哪些方面入手?
给目标分配合适的时间
- 不存在速成!需要充裕的时间,保持平和的心态,稳扎稳打。
- 数学性强,系统性强。预计需要40小时的学习时间,可以阅读相关论文。
学习目标
- 不仅能知道算法的过程
- 还能理解为什么要设计这个算法
- 为什么它能有效地工作
第1章 基本概念
第2章 状态值和贝尔曼公式
状态值
- 定义:agent在遵循给定策略的情况下从某个状态出发时所能获得的预期收益。状态值越大,对应的策略越好。
- 作用:用于评价一个策略的好坏。
贝尔曼公式
- 定义:描述了所有状态和状态值之间的关系。
- 策略评价:求解贝尔曼公式进而得到一个策略所对应的状态值。
第3章 最优策略 [贝尔曼最优公式]
- 强化学习的终极目标:求解最优策略
- 最优策略:能获得最大的状态值
第4章 值迭代和策略迭代
- 值迭代:通过迭代更新状态值来逼近最优策略
- 策略迭代:通过迭代更新策略来逼近最优策略
- 截断策略迭代:结合了前两者的优点
第5章 model-free的强化学习算法
- 数据 vs 模型:强化学习中的“数据”是指智能体与环境交互时产生的经验样本。
- MC Basic:策略迭代中依赖模型的部分去掉,替换成依赖数据的
- 实际不可用,效率很低
第6章 随机逼近理论
- 定义:解决寻根或优化问题的一类广泛的随机迭代算法
- 经典算法:Robbins-Monro算法和随机梯度下降算法
第7章 时序差分方法【增量】
- 学习状态值:用模型来计算(第4章)、用蒙特卡洛方法学习(第5章)、用TD方法学习(第7章)
- Q-learning:离线直接学习最优动作值
- 策略类型:
- off-policy:behavior policy和target policy可以不同
- on-policy:behavior policy和target policy相同
第8章 值函数近似[神经网络]
- 表格或向量形式的状态值
- 状态非常多或状态连续:表格效率低下,转而使用函数(神经网络)
- 状态值估计步骤:
- 明确目标函数定义最优策略
- 求目标函数梯度
- 用梯度上升或下降对目标函数进行优化
第9-10章 policy-based方法
value-based VS policy-based
value-based
目标函数J(w),w是值函数的参数
更新值函数的参数使得这个值函数能够很好地近似或者估计出来一个策略所对应的值
在此基础上再更新策略,得到新的策略,然后再估计它的值
不断迭代找到最优的策略
policy-based
目标函数J(θ),θ是策略的参数
直接优化θ,直接改变策略,慢慢找到最优的策略
三步走:
- 找目标函数
- 目标函数梯度
- 用梯度上升或下降优化目标函数
策略和值交叉迭代
- 求出值 ——> 更新策略 ——> 求值 ——> 更新策略……
热门推荐
窗户朝向全解析:如何选择最佳采光与舒适度
你的肺健康吗?这些伤肺行为你做了几个?做好预防,远离肺部疾病
如何跟领导沟通要项目
期货的杠杆原理是怎样运作的?杠杆原理在投资中存在哪些风险?
如何分析期货白银杠杆的风险因素?这种风险因素如何进行有效管理?
运动学专家:哈兰德的身体简直是一件艺术品
英超榜首大战:萨拉赫 vs 哈兰德数据对比分析
ISTQB基础级CTFL v4.0认证考试攻略:全面复习指南与备考计划及大纲详解
简历期望工作怎么写
商业纠纷律师的专业咨询与法律实务解析
买卖纠纷需要什么证据?一文详解证据收集与举证要点
海南旅游市场拉客人员月均薪资水平调查与分析
个人举办各类学习班取得收入,应当缴纳哪些税
公共场所安检辐射会影响公众健康吗?一文读懂安检设备辐射真相
集中空调通风系统的设计与优化策略
《野狗子》展示新内容:游戏中玩家将面临道德选择
通过基于几何的网格自适应增强 CFD 网格划分
显卡共享内存是什么意思?显卡共享内存怎么设置和关闭?
量子力学到底讲了些什么?如何通俗理解?
OSMnx应用指南:OpenStreetMap路网数据下载及可视化
云南省乡村旅游产业特色景点概览
从网红长沙看背后的湘菜产业
七界传说:因果逻辑交织的奇幻之旅,七界祸乱因陆云而起
深度解析图式理论:内容图式、语篇图式与语言图式的概念及应用
演讲三段论:凤头猪肚豹尾的演讲结构
医生说血热是什么意思
年味贵州:萝卜排骨汤与灵魂蘸水的完美搭配
中国化妆品新原料备案最新情况分析
中国科学家研发全球首颗3D仿生眼球,数千万盲人有望重见光明
商家是否有权拒绝接待客人