RLHF(基于人类反馈的强化学习)流程拆解与核心
创作时间:
作者:
@小白创作中心
RLHF(基于人类反馈的强化学习)流程拆解与核心
引用
CSDN
1.
https://blog.csdn.net/qq_43588095/article/details/146639930
RLHF(基于人类反馈的强化学习)是AI领域的重要技术,它通过三个阶段实现模型优化:预训练获取基础能力、奖励模型量化人类偏好、强化学习根据偏好优化策略。本文将详细解析RLHF的核心流程及其在GPT中的应用,帮助读者理解这一技术的关键原理和实际应用。
RLHF核心流程
1. 预训练阶段
- 目标:通过大规模数据学习语言基础能力
- 输入:海量文本语料(书籍、网页等)
- 输出:具备基础语法/语义/知识的语言模型
- 局限性:
- 可能出现答非所问
- 回答不够自然或礼貌
- 存在输出危险或不适当内容的风险
2. 奖励模型训练阶段
- 流程:
- 预训练模型对同一问题生成多个候选答案
- 人类标注者对回答进行质量评分或排序
- 使用标注数据训练奖励模型(排序模型)
- 关键技术:
- 成对比较标注(如回答A优于回答B)
- 监督学习方法(如逻辑回归、神经网络)
3. 强化学习阶段
- 优化目标:最大化奖励模型评分
- 核心算法:PPO(近端策略优化)
- 训练循环:
- 当前策略模型生成候选回答
- 奖励模型计算回答分数
- 根据分数调整模型参数,重复迭代
RLHF在GPT中的应用
1. 发展历程
- 2018年:GPT-1(1.17亿参数)
- 2019年:GPT-2(15亿参数)
- 2020年:GPT-3(1750亿参数)首次引入RLHF(InstructGPT)
- 2022年:ChatGPT(GPT-3.5)
- 2023年:GPT-4(多模态能力)
2. 应用步骤
- 数据收集:
- 标注者对模型生成的回答进行成对比较(如回答A比B更有用)
- 数据形式示例:
问题回答A回答B标注结果北京天气晴,10-15℃多云,8-12℃A > B
- 奖励模型训练:
- 使用标注数据训练排序模型,将人类偏好转化为数值评分
- 策略优化:
- 使用PPO算法微调GPT模型,最大化奖励信号
- 持续迭代:
- 收集新反馈数据,更新奖励模型和策略
RLHF核心——奖励模型
1. 核心作用
- 将人类主观偏好转化为AI可优化的信号
- 作为强化学习的"裁判",定义模型改进方向
2. 量化机制
- 主观评价 → 客观分数:
- 多个标注者对回答进行排序
- 构建排序数据集训练奖励模型
- 模型输出连续分数表示回答质量
3. 信号价值
- 与传统RL对比:
维度传统RLRLHF奖励来源预设规则人类反馈优化目标明确任务目标复杂主观偏好灵活性低(依赖规则设计)高(适应人类价值观)
强化学习基础
1. 核心概念
- 智能体:学习主体(如机器人、程序)
- 环境:智能体所处的外部世界
- 状态:环境在某一时刻的描述
- 动作:智能体可执行的行为
- 奖励:环境对动作的即时反馈
- 策略:动作选择规则(确定性或随机性)
- 价值函数:评估状态或动作的长期收益
以下是强化学习核心概念的列表及其对应的字母表示(按常见文献中的符号规范整理):
强化学习核心概念与符号对照表
概念 | 字母表示 | 说明 |
|---|---|---|
智能体 (Agent) | - | 无标准单字母表示,常用全称或π表示策略 |
环境 (Environment) | env或E | 交互的外部系统 |
状态 (State) | s | 环境在时刻t的描述,s∈S(状态空间) |
动作 (Action) | a | 智能体的行为选择,a∈A(s)(动作空间) |
奖励 (Reward) | r或R(s,a) | 即时反馈信号,r_t=R(s_t, a_t) |
折扣因子 (Discount) | γ(gamma) | 未来奖励的衰减系数,0 ≤γ≤ 1 |
策略 (Policy) | π(pi) | 动作选择规则:- 确定性策略:a=π(s)- 随机策略:π(a |
状态价值函数 | V(s)或V^π(s) | 从状态s开始的长期期望收益(遵循策略π) |
动作价值函数 | Q(s,a)或Q^π(s,a) | 在状态s执行动作a的长期期望收益 |
最优价值函数 | V^(s),Q^(s,a) | 在所有策略中的最大价值函数 |
状态转移概率 | P(s’ | s,a) |
时间步 (Time step) | t | 离散时间索引(如t= 0,1,2,…) |
补充说明
- 字母规范:
- s,a,r为最基础符号,广泛用于贝尔曼方程和算法伪代码。
- π和γ为希腊字母,需与拉丁字母区分(如策略πvs. 状态转移概率P)。
- 上下标含义:
- Q^π(s,a)表示策略π下的动作价值,Q^(s,a)* 表示最优动作价值。
- P(s’|s,a)中的竖线表示条件概率。
- 其他常见符号:
- η(eta):学习率(如梯度下降中的步长)。
- λ(lambda):资格迹(TD(λ)算法中的衰减参数)。
2. 学习过程
- 智能体在当前状态选择动作
- 环境根据动作返回新状态和奖励
- 智能体根据奖励更新策略,优化未来决策
3. 算法对比
算法名称 | 场景示例 | 场景描述 | 适合场景 |
|---|---|---|---|
Q-Learning | 学习打麻将 | 新手打麻将时,桌上每个牌型(状态)都有对应的选择(动作) ,如“摸牌”、“出牌”、“碰”或“杠”。“碰”后胡牌(高奖励),下次更倾向于类似选择。“杠”后被放炮(低奖励),下次避免这种情况。 | 状态和动作有限、可以列出所有可能性的情况 |
Deep Q-Network(DQN) | 学习玩《王者荣耀》 | 玩《王者荣耀》时,状态可能是地图上的位置、敌人的动向、血量等,动作是“进攻”、“撤退”、“买装备”。因为状态和动作的组合太多,没法用表格记录,所以用神经网络来预测某个动作的好坏。 | 状态和动作非常复杂,比如玩游戏或视觉控制问题 |
Policy Gradient(PG) | 学习射箭 | 不断调整射箭的力度和角度(动作) ,以命中靶心。每射一箭,根据结果调整动作(策略) ,直到每次都能精准命中靶心。 | 动作是连续值(如力度、角度)时,无法用表格表示 |
Proximal Policy Optimization(PPO) | 高级射箭训练 | 已经掌握射箭基础,但想更精确地微调动 作。PPO限制每次动作调整的幅度,确保策略变化不过猛,保证学习稳定性。 | 需要平衡探索与稳定性的复杂任务 |
A3C(Asynchronous Actor - Critic) | 团队扫雷 | 分头去扫雷,每个人在不同区域探索(独立智能体),但把经验汇总到一个共享的学习模型中。这个模型告诉每个人最优的扫雷策略。多人分头行动,共享经验 。 | 需要高效并行学习的任务,比如实时学习或多智能体合作 |
Soft Actor - Critic(SAC) | 爬悬崖 | 在未知的悬崖上寻找最佳爬法,每次动作尝试新路径,同时保留旧的安全策略。SAC加入“熵”奖励,更多地探索新方法,避免过早陷入单一爬法。在复杂问题中试探性地探索 。 | 状态复杂且奖励稀疏的任务 |
奖励模型与算法关系
1. 解耦架构
- 人类反馈训练奖励模型
- 奖励模型为PPO算法提供优化信号
- PPO算法调整策略模型生成回答
2. 组合可能性
- 奖励模型可与多种强化学习算法结合:
- TRPO(高精度任务)
- Policy Gradient(简单任务)
- A2C(结合价值函数优化)
关键总结:
RLHF通过三个阶段实现模型优化:
- 预训练获取基础能力
- 奖励模型量化人类偏好
- 强化学习根据偏好优化策略
核心在于奖励模型将主观评价转化为可计算的信号,指导模型生成符合人类预期的回答。
热门推荐
新概念第二册语法:深入探索所有格代词
项目资源分配与决策支持工具实施效果评估与资源优化与利用效率
你不在意但却十分有效的“9种”锻炼养生方法
如何有效解决装修扰民问题?这种解决方式有哪些实际效果?
兰学:日本人如何“开眼看世界”
“纸品回收价格是近十年来最低价”,济南纸箱回收价格调查
新疆南疆旅游最佳时间是几月份,新疆适合几月份去旅游最好,新疆适合旅游的季节
背书久了头疼怎么办?专家给出6个缓解方法
牆壁裂縫什麼程度要處理?都是地震惹的禍?
遗嘱的六种合法形式
如何在短视频里讲故事?看看这些平台和创作者怎么做
人民币的制造成本是多少?一道道不为人知的工序,你了解几个?
单位社保证明的用途及管理指南
突发中风时的急救措施是什么
搬家仪式流程和注意事项:乔迁之喜不踩雷,实用攻略来了!
晋行记丨第四站:自在忻州,我们来啦!
考取铲车驾驶证的流程和要求是什么?准备考试时应注意哪些重点?
续航无界,芯片低功耗的革命从电源开始?
如果当初弥彦没死,晓组织会变成什么样子?还会是动漫中的晓吗?
狂犬病可防不可治!中山设有27家“犬伤门诊”
世界上最大的十艘邮轮:第一名甚至比航母还大两倍
如何拒绝升职为项目经理
最爱烟火气!浙江这些清凉早市,你去过几个?
《文明6》首都选址攻略:六大关键要素
大理石清洗保养全攻略:方法、工具与注意事项
专业医生解析:如何科学提高肺活量
防火墙四种工作模式:路由模式、透明模式、混合模式、旁路模式
如何制作U盘启动盘并运行DOS系统——详解U盘DOS启动全流程
平板电脑恢复出厂设置步骤详解:两种情况下的完整指南
僵尸毁灭者史低价是多少?揭秘史低价背后的市场动态与玩家期待