问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

《强化学习的数学原理》课程笔记:从基础概念到高级算法的全面解析

创作时间:
作者:
@小白创作中心

《强化学习的数学原理》课程笔记:从基础概念到高级算法的全面解析

引用
CSDN
1.
https://blog.csdn.net/weixin_46034116/article/details/138476378

《强化学习的数学原理》是西湖大学赵世钰教授的一门课程,本文是该课程的学习笔记,涵盖了从基本概念到高级算法的详细内容。文章通过图表和文字相结合的方式,系统地介绍了强化学习的核心原理和关键算法,包括状态值、贝尔曼公式、值迭代、策略迭代、模型无关学习、随机逼近理论、时序差分方法以及值函数近似等重要概念。

如何学习强化学习?

  1. 原理:理解算法背后的数学原理
  2. 实践和编程:将理论知识应用到实际问题中

为何要了解算法背后的原理?

  • 了解算法的原理是什么?
  • 它在做什么样的事情?
  • 有什么优势?有什么劣势?
  • 创新可以从哪些方面入手?

给目标分配合适的时间

  • 不存在速成!需要充裕的时间,保持平和的心态,稳扎稳打。
  • 数学性强,系统性强。预计需要40小时的学习时间,可以阅读相关论文。

学习目标

  • 不仅能知道算法的过程
  • 还能理解为什么要设计这个算法
  • 为什么它能有效地工作

第1章 基本概念

第2章 状态值和贝尔曼公式

状态值

  • 定义:agent在遵循给定策略的情况下从某个状态出发时所能获得的预期收益。状态值越大,对应的策略越好。
  • 作用:用于评价一个策略的好坏。

贝尔曼公式

  • 定义:描述了所有状态和状态值之间的关系。
  • 策略评价:求解贝尔曼公式进而得到一个策略所对应的状态值。

第3章 最优策略 [贝尔曼最优公式]

  • 强化学习的终极目标:求解最优策略
  • 最优策略:能获得最大的状态值

第4章 值迭代和策略迭代

  • 值迭代:通过迭代更新状态值来逼近最优策略
  • 策略迭代:通过迭代更新策略来逼近最优策略
  • 截断策略迭代:结合了前两者的优点

第5章 model-free的强化学习算法

  • 数据 vs 模型:强化学习中的“数据”是指智能体与环境交互时产生的经验样本。
  • MC Basic:策略迭代中依赖模型的部分去掉,替换成依赖数据的
  • 实际不可用,效率很低

第6章 随机逼近理论

  • 定义:解决寻根或优化问题的一类广泛的随机迭代算法
  • 经典算法:Robbins-Monro算法和随机梯度下降算法

第7章 时序差分方法【增量】

  • 学习状态值:用模型来计算(第4章)、用蒙特卡洛方法学习(第5章)、用TD方法学习(第7章)
  • Q-learning:离线直接学习最优动作值
  • 策略类型
  • off-policy:behavior policy和target policy可以不同
  • on-policy:behavior policy和target policy相同

第8章 值函数近似[神经网络]

  • 表格或向量形式的状态值
  • 状态非常多或状态连续:表格效率低下,转而使用函数(神经网络)
  • 状态值估计步骤
    1. 明确目标函数定义最优策略
    2. 求目标函数梯度
    3. 用梯度上升或下降对目标函数进行优化

第9-10章 policy-based方法

value-based VS policy-based

  • value-based

  • 目标函数J(w),w是值函数的参数

  • 更新值函数的参数使得这个值函数能够很好地近似或者估计出来一个策略所对应的值

  • 在此基础上再更新策略,得到新的策略,然后再估计它的值

  • 不断迭代找到最优的策略

  • policy-based

  • 目标函数J(θ),θ是策略的参数

  • 直接优化θ,直接改变策略,慢慢找到最优的策略

三步走:

  1. 找目标函数
  2. 目标函数梯度
  3. 用梯度上升或下降优化目标函数

策略和值交叉迭代

  • 求出值 ——> 更新策略 ——> 求值 ——> 更新策略……
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号