问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

西湖大学赵世钰老师《强化学习的数学原理》课程学习笔记

创作时间:

作者:

@小白创作中心

西湖大学赵世钰老师《强化学习的数学原理》课程学习笔记

引用

CSDN

1.

https://blog.csdn.net/Oven_maizi/article/details/138254823

强化学习的数学原理是由西湖大学赵世钰老师带来的关于RL理论方面的详细课程，本课程深入浅出地介绍了RL的基础原理，前置技能只需要基础的编程能力、概率论以及一部分的高等数学，你听完之后会在大脑里面清晰的勾勒出RL公式推导链条中的每一个部分。赵老师明确知道RL创新研究的理论门槛在哪，也知道视频前的你我距离这个门槛还有多远。

本笔记将会用于记录学习中的理解，会结合赵老师的视频截图，以及PDF文档Book-Mathematical-Foundation-of-Reinforcement-Learning进行笔记注释，之后也会补充课程相关的代码样例，帮助大家理解。

笔记合集链接（排版更好哦🧐）：《RL的数学原理》

前面章节贵在基础性，后面章节在于前沿性与实践性

Chapter1：基本概念

Chapter2：贝尔曼公式，重要的概念及工具，用以策略评价

Chapter3：贝尔曼最优公式->最优策略，强化学习的最终目标就是求解最优策略，需要把握两点：最优策略与最优状态价值。贝尔曼最优方程：1.不动点原理，2. 解决基础性问题，3. 提供求解贝尔曼方程的算法

Chapter4：你的第一类求解最优策略的算法：值迭代，策略迭代，Truncated policy（第三个是前两者的结合，亦或者说是前两者的一种积分情况）。以上三个算法都是迭代式的算法，都包含策略迭代与值迭代，在实践中不断迭代，从而获得最优策略。未来所有的算法都是以此为基本逻辑。另外，以上都需要环境模型。

Chapter5：蒙特卡洛是最简单，也是唯一不需要模型的算法，需要明确没有模型的情况下，我们的训练目标是什么，以及我们所拥有的是什么：期望值（某种程度上可以理解为平均值），采样数据。模型与数据必有其一才可学习。你的第一类求解无模型的RL的算法：1. MC Basic（策略迭代数据版，效率特别低）, 2. MC Exploring Starts, 3.MC ϵ-greedy

Chapter6：随机近似理论，估计随机变量的期望，两种估计的方法：1.无增量的想法，需要对所有采样的结果都获取到之后求平均，获得近似，2. 有增量的想法，先对其有一个不准确的估计，每次获得采样后，不断更新估计。三种算法：1. Robbins-Monro（RM）算法,2. Stochastic gradient descent(SGD)随机梯度下降,3. SGD,BGD批量下降,MBGD小批量梯度下降三者之间的比较。

Chapter7：时序差分方法，1. 用TD方法计算state value（前面使用了蒙特卡洛、模型等方法计算），2. Sarsa：用TD思想学习动作价值，3. Q-learing：用TD直接计算最优动作价值，因此是off-policy离线策略。Behaviour Policy 与 Target Policy 如果二者相同，那就是On-policy，反之就是Off-policy（可以从先前别的策略学习到的数据为我所用）

Chapter8：从之前的邻接矩阵形式，迈入了函数表达式，使用近似函数模拟的方式求解状态价值：明确目标函数，求梯度，使用梯度上升或梯度下降进行优化。模型应用中，值函数的更新是通过真实值和函数值之差的绝对值来评判。与时序差分算法的多种结合。利用了神经网络所具有的优秀函数拟合能力，发展产生了深度强化学习。

Chapter9：从Value-based迈入了policy-based，他们的区别在于后者是直接使用函数拟合，并且直接改变优化策略：明确目标函数，求梯度，使用梯度上升或梯度下降进行优化。

Chapter10：结合Value-based（Critic）和policy-based（Actor）

课程是否适合你？

本课程是原理部分，偏向于用数学原理来描述问题，能够更全面更完整理解，只有深刻理解原理，才能有所创新

0节：课程介绍

1、Why this course？

Reinforcement learning:An introduction.强化学习界的圣经（广泛引用，但是数学内容不多，对深入学习不算友好，同时会有高级知识提前出现在基础内容中，导致学习不太友好）
一大类书籍都偏向于通过文字描述，通过直观解释来介绍，另一大类又太过数学化，需要极强的专业背景，中间存在一个Gap等待被填充
我们希望从本质去回答去回答算法设计的逻辑，将数学控制在合理的水平，既能清晰展现原理，又不会过于晦涩
建议大家循序渐进，按照章节进行学习

2、The story of Alphago

3、Brief history of rl

DQN：RL与deep RL的分界线
Q-learning：一种时序差分算法

4、Details of this course

强化学习与监督学习、半监督学习并列属于ML，其有着广泛地交叉应用领域，并在控制方向上也有着重大作用

热门推荐

记错账被处罚后股价却骤然暴涨？华锡有色：因金属涨价，主产品锡、锑近日在涨价

记错账被处罚后股价却骤然暴涨？华锡有色：因金属涨价，主产品锡、锑近日在涨价

如何理解庄子的“物物而不物于物，念念而不念于念”？

如何理解庄子的“物物而不物于物，念念而不念于念”？

美军新一代空空导弹能否追上中国霹雳15？专家解析AIM-260性能

美军新一代空空导弹能否追上中国霹雳15？专家解析AIM-260性能

PyTorch XPU环境配置：使用Intel集成显卡进行深度学习

PyTorch XPU环境配置：使用Intel集成显卡进行深度学习

功函数：基础、测量、计算、工程和应用

功函数：基础、测量、计算、工程和应用

华夏远古的传说：燧人氏及治所

华夏远古的传说：燧人氏及治所

计算机软件开发翻译技巧指南

计算机软件开发翻译技巧指南

百闻不如一见｜一颗赣南脐橙的“圈粉”秘籍

百闻不如一见｜一颗赣南脐橙的“圈粉”秘籍

火锅控必看，各地特色火锅大盘点，麻辣、清汤、海鲜

火锅控必看，各地特色火锅大盘点，麻辣、清汤、海鲜

海南后安粉的神仙做法！（制作教程）

海南后安粉的神仙做法！（制作教程）

个人养老金理财产品再扩围

个人养老金理财产品再扩围

3月人文社科中文原创好书榜｜熙丰残照：北宋中期的改革

3月人文社科中文原创好书榜｜熙丰残照：北宋中期的改革

孩子的护眼灯怎么选，营造舒适学习环境

孩子的护眼灯怎么选，营造舒适学习环境

如何理解美缝剂的作用与价值？这种作用与价值怎样体现？

如何理解美缝剂的作用与价值？这种作用与价值怎样体现？

扬声器（Speakers）是电子设备中用于将电信号转换为声音的装置

扬声器（Speakers）是电子设备中用于将电信号转换为声音的装置

我有一剑，名曰"太平人间"

我有一剑，名曰"太平人间"

不满8岁未成年人签订合同,家长需谨慎!

不满8岁未成年人签订合同,家长需谨慎!

8周岁限制民事行为能力人：法律地位与权利义务分析

8周岁限制民事行为能力人：法律地位与权利义务分析

实现PC端和安卓手机的局域网内文件共享

实现PC端和安卓手机的局域网内文件共享

吃栗子对身体的好处

吃栗子对身体的好处

羊水与喝水有关吗

羊水与喝水有关吗

Windows系统卡在开机画面的解决方案

Windows系统卡在开机画面的解决方案

关税风云录：从南北战火到中美贸易波澜的历史回响

关税风云录：从南北战火到中美贸易波澜的历史回响

水煮鸡蛋可以隔夜吃吗？保存得当，隔夜也能安心享用！

水煮鸡蛋可以隔夜吃吗？保存得当，隔夜也能安心享用！

玉米价格波动的背后有哪些关键因素？如何预测其下跌趋势？

玉米价格波动的背后有哪些关键因素？如何预测其下跌趋势？

转让费合理性的判断标准：房屋转租案例分析

转让费合理性的判断标准：房屋转租案例分析

肝癌复发风险有多高？AI在线平台可预测

肝癌复发风险有多高？AI在线平台可预测

如何重构别人的代码

如何重构别人的代码

母公司和子公司之间的关系如何？这种关系对投资者有何重要性？

母公司和子公司之间的关系如何？这种关系对投资者有何重要性？

广州巨无霸城中村改造：拆迁暴富成为历史，补偿矛盾更加棘手

广州巨无霸城中村改造：拆迁暴富成为历史，补偿矛盾更加棘手

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号