西湖大学赵世钰老师《强化学习的数学原理》课程学习笔记
创作时间:
作者:
@小白创作中心
西湖大学赵世钰老师《强化学习的数学原理》课程学习笔记
引用
CSDN
1.
https://blog.csdn.net/Oven_maizi/article/details/138254823
强化学习的数学原理是由西湖大学赵世钰老师带来的关于RL理论方面的详细课程,本课程深入浅出地介绍了RL的基础原理,前置技能只需要基础的编程能力、概率论以及一部分的高等数学,你听完之后会在大脑里面清晰的勾勒出RL公式推导链条中的每一个部分。赵老师明确知道RL创新研究的理论门槛在哪,也知道视频前的你我距离这个门槛还有多远。
本笔记将会用于记录学习中的理解,会结合赵老师的视频截图,以及PDF文档Book-Mathematical-Foundation-of-Reinforcement-Learning进行笔记注释,之后也会补充课程相关的代码样例,帮助大家理解。
笔记合集链接(排版更好哦🧐):《RL的数学原理》
前面章节贵在基础性,后面章节在于前沿性与实践性
Chapter1:基本概念
Chapter2:贝尔曼公式,重要的概念及工具,用以策略评价
Chapter3:贝尔曼最优公式->最优策略,强化学习的最终目标就是求解最优策略,需要把握两点:最优策略与最优状态价值。贝尔曼最优方程:1.不动点原理,2. 解决基础性问题,3. 提供求解贝尔曼方程的算法
Chapter4: 你的第一类求解最优策略的算法:值迭代,策略迭代,Truncated policy(第三个是前两者的结合,亦或者说是前两者的一种积分情况)。以上三个算法都是迭代式的算法,都包含策略迭代与值迭代,在实践中不断迭代,从而获得最优策略。未来所有的算法都是以此为基本逻辑。另外,以上都需要环境模型。
Chapter5:蒙特卡洛是最简单,也是唯一不需要模型的算法,需要明确没有模型的情况下,我们的训练目标是什么,以及我们所拥有的是什么:期望值(某种程度上可以理解为平均值),采样数据。模型与数据必有其一才可学习。你的第一类求解无模型的RL的算法:1. MC Basic(策略迭代数据版,效率特别低), 2. MC Exploring Starts, 3.MC ϵ-greedy
Chapter6:随机近似理论,估计随机变量的期望,两种估计的方法:1.无增量的想法,需要对所有采样的结果都获取到之后求平均,获得近似,2. 有增量的想法,先对其有一个不准确的估计,每次获得采样后,不断更新估计。三种算法:1. Robbins-Monro(RM)算法,2. Stochastic gradient descent(SGD)随机梯度下降,3. SGD,BGD批量下降,MBGD小批量梯度下降三者之间的比较。
Chapter7:时序差分方法,1. 用TD方法计算state value(前面使用了蒙特卡洛、模型等方法计算),2. Sarsa:用TD思想学习动作价值,3. Q-learing:用TD直接计算最优动作价值,因此是off-policy离线策略。Behaviour Policy 与 Target Policy 如果二者相同,那就是On-policy,反之就是Off-policy(可以从先前别的策略学习到的数据为我所用)
Chapter8:从之前的邻接矩阵形式,迈入了函数表达式,使用近似函数模拟的方式求解状态价值:明确目标函数,求梯度,使用梯度上升或梯度下降进行优化。模型应用中,值函数的更新是通过真实值和函数值之差的绝对值来评判。与时序差分算法的多种结合。利用了神经网络所具有的优秀函数拟合能力,发展产生了深度强化学习。
Chapter9:从Value-based迈入了policy-based,他们的区别在于后者是直接使用函数拟合,并且直接改变优化策略:明确目标函数,求梯度,使用梯度上升或梯度下降进行优化。
Chapter10:结合Value-based(Critic)和policy-based(Actor)
课程是否适合你?
本课程是原理部分,偏向于用数学原理来描述问题,能够更全面更完整理解,只有深刻理解原理,才能有所创新
0节:课程介绍
1、Why this course?
- Reinforcement learning:An introduction.强化学习界的圣经(广泛引用,但是数学内容不多,对深入学习不算友好,同时会有高级知识提前出现在基础内容中,导致学习不太友好)
- 一大类书籍都偏向于通过文字描述,通过直观解释来介绍,另一大类又太过数学化,需要极强的专业背景,中间存在一个Gap等待被填充
- 我们希望从本质去回答去回答算法设计的逻辑,将数学控制在合理的水平,既能清晰展现原理,又不会过于晦涩
- 建议大家循序渐进,按照章节进行学习
2、The story of Alphago
3、Brief history of rl
DQN:RL与deep RL的分界线
Q-learning:一种时序差分算法
4、Details of this course
强化学习与监督学习、半监督学习并列属于ML,其有着广泛地交叉应用领域,并在控制方向上也有着重大作用
热门推荐
记错账被处罚后股价却骤然暴涨?华锡有色:因金属涨价,主产品锡、锑近日在涨价
如何理解庄子的“物物而不物于物,念念而不念于念”?
美军新一代空空导弹能否追上中国霹雳15?专家解析AIM-260性能
PyTorch XPU环境配置:使用Intel集成显卡进行深度学习
功函数:基础、测量、计算、工程和应用
华夏远古的传说:燧人氏及治所
计算机软件开发翻译技巧指南
百闻不如一见|一颗赣南脐橙的“圈粉”秘籍
火锅控必看,各地特色火锅大盘点,麻辣、清汤、海鲜
海南后安粉的神仙做法!(制作教程)
个人养老金理财产品再扩围
3月人文社科中文原创好书榜|熙丰残照:北宋中期的改革
孩子的护眼灯怎么选,营造舒适学习环境
如何理解美缝剂的作用与价值?这种作用与价值怎样体现?
扬声器(Speakers)是电子设备中用于将电信号转换为声音的装置
我有一剑,名曰"太平人间"
不满8岁未成年人签订合同,家长需谨慎!
8周岁限制民事行为能力人:法律地位与权利义务分析
实现PC端和安卓手机的局域网内文件共享
吃栗子对身体的好处
羊水与喝水有关吗
Windows系统卡在开机画面的解决方案
关税风云录:从南北战火到中美贸易波澜的历史回响
水煮鸡蛋可以隔夜吃吗?保存得当,隔夜也能安心享用!
玉米价格波动的背后有哪些关键因素?如何预测其下跌趋势?
转让费合理性的判断标准:房屋转租案例分析
肝癌复发风险有多高?AI在线平台可预测
如何重构别人的代码
母公司和子公司之间的关系如何?这种关系对投资者有何重要性?
广州巨无霸城中村改造:拆迁暴富成为历史,补偿矛盾更加棘手