《动手学强化学习》内容精炼及扩展-第一章
《动手学强化学习》内容精炼及扩展-第一章
强化学习是人工智能领域的一个重要分支,它通过智能体与环境的交互来学习最优决策策略。本文将带你深入了解强化学习的基础概念,包括序贯决策、核心要素以及与有监督学习的区别,帮助你建立对这一前沿技术的系统认知。
序贯决策
序贯决策(Sequential Decision Making)是指在一个动态环境中,智能体(agent)在多个时间步长上依次做出决策的过程。这种决策不仅仅依赖于当前的状态,还依赖于先前做出的决策以及可能的未来结果。每个决策会影响后续的状态和可选的行动,因此决策是具有依赖性的、连贯的。
在序贯决策中,智能体通常与环境进行交互,通过观察环境的状态、选择某个动作(action),然后根据动作的结果获得反馈(通常是奖励或惩罚),并更新对环境的理解。这一过程重复多次,智能体的目标是通过选择一系列最优的动作,最大化某个长期的累积奖励(通常称为回报,return)。序贯决策问题在强化学习中是非常典型的,可以通过马尔可夫决策过程(MDP,Markov Decision Process)来建模。
序贯决策的关键特征在于它的“时间”维度,智能体必须不仅仅考虑短期的奖励,还要平衡长期的收益,尤其是在长期收益和短期利益发生冲突的场景中。这个特点使得序贯决策在优化问题和强化学习中的应用非常广泛。
在强化学习中的目标通常是找到一个最优策略,使得在序贯决策下,智能体的累积奖励最大化。
实现序贯决策的机器学习方法就是本书讨论的主题——强化学习(reinforcement learning)
强化学习
概念:
一种机器学习方法,旨在通过与环境的持续交互,学习一个策略来最大化累积奖励。强化学习强调学习过程中智能体(agent)从试错中获得经验,并根据奖励信号进行行为优化。
(强化学习用智能体(agent)这个概念来表示做决策的机器)
核心思想:
通过试错学习(Trial and Error Learning),找到最佳的策略。它在复杂的、具有不确定性和延迟反馈的环境中表现出色。
迭代交互过程:
智能体在某个时间步从环境中观测到当前状态,选择一个动作,执行这个动作后,环境会反馈一个奖励并进入下一个状态。智能体根据奖励信息调整自己的策略,逐步提高其决策能力,目标是找到一个最优策略,使得在长期内获得的累积奖励最大化。(如下图)
智能体的三种关键要素:
- 感知。智能体在某种程度上感知环境的状态,从而知道自己所处的现状。
- 决策。智能体根据当前的状态计算出达到目标需要采取的动作的过程叫作决策。
- 奖励。环境根据状态和智能体采取的动作,产生一个标量信号作为奖励反馈。
强化学习中的基本概念:
- 智能体(Agent): 负责与环境互动并执行动作的实体。
- 环境(Environment): 智能体所处的外部环境,它根据智能体的动作返回下一个状态和奖励。
- 状态(State, s): 环境在某一时刻的描述,它表示智能体所感知到的环境状况。
- 动作(Action, a): 智能体在特定状态下可以采取的动作。
- 奖励(Reward, r): 智能体执行动作后从环境中获得的反馈,通常以数字形式表示。奖励是强化学习中非常重要的信号,用来引导智能体行为。
- 策略(Policy,π \piπ): 决定智能体在每个状态下采取什么动作的规则。策略可以是确定性的(每个状态总是选择同一个动作)或随机性的(在每个状态下以一定概率选择动作)。
- 值函数(Value Function, V 或 Q): 评估智能体在某个状态或在某个状态采取某个动作时的预期累积奖励。值函数帮助智能体评估长期收益,而不仅仅是即时的奖励。价值(回报(return)的期望值)就是强化学习中智能体学习的优化目标。
- 折扣因子(Discount Factor,γ \gammaγ): 衡量未来奖励的重要性。折扣因子介于 0 和 1 之间,γ \gammaγ越接近 1,智能体越重视长期奖励,γ \gammaγ越接近 0,智能体越关注即时奖励。
强化学习的基本框架:
强化学习通常通过MDP来建模,MDP 包含以下要素:
- 状态空间(State Space, S): 所有可能的状态的集合。
- 动作空间(Action Space, A): 智能体可以采取的所有动作的集合。
- 状态转移函数(State Transition Function, P): 描述在某个状态采取某个动作后,智能体转移到下一个状态的概率。
- 奖励函数(Reward Function, R): 给定某个状态和动作后,获得的即时奖励。
RL与有监督学习的比较
有监督学习
- 任务建立在从给定的数据分布中采样得到的训练数据集上,通过优化在训练数据集中设定的目标函数(如最小化预测误差)来找到模型的最优参数。这里,训练数据集背后的数据分布是完全不变的。
- 有监督学习直接通过优化模型对于数据特征的输出来优化目标,即修改目标函数而数据分布不变。
- 一般的有监督学习关注寻找一个模型,使其在给定数据分布下得到的损失函数的期望最小。在训练数据独立同分布的假设下,这个优化目标表示最小化模型在整个数据分布上的泛化误差(generalization error),用简要的公式可以概括为:
强化学习
- 数据是在智能体与环境交互的过程中得到的。如果智能体不采取某个决策动作,那么该动作对应的数据就永远无法被观测到,所以当前智能体的训练数据来自之前智能体的决策结果。因此,智能体的策略不同,与环境交互所产生的数据分布就不同。
- 强化学习则通过改变策略来调整智能体和环境交互数据的分布,进而优化目标,即修改数据分布而目标函数不变。
- 强化学习关注寻找一个智能体策略,使其在与动态环境交互的过程中产生最优的数据分布,即最大化该分布下一个给定奖励函数的期望。策略的价值可以等价转换成奖励函数在策略的占用度量上的期望,即:
占用度量的概念:
归一化的占用度量(occupancy measure)用于衡量在一个智能体决策与一个动态环境的交互过程中,采样到一个具体的状态动作对(state-action pair)的概率分布。
参考:《动手学强化学习》(第一章)