大模型变“健忘症患者“?——公式揭秘灾难性遗忘的防治之道
创作时间:
作者:
@小白创作中心
大模型变“健忘症患者“?——公式揭秘灾难性遗忘的防治之道
引用
CSDN
1.
https://m.blog.csdn.net/qq_37148940/article/details/145791053
大模型在学习新任务时往往会遗忘旧任务的知识,这种现象被称为“灾难性遗忘”。本文通过类比和公式推导的方式,详细解释了弹性权重巩固(EWC)、知识蒸馏、梯度投影和回放策略等解决方案,并提供了EWC方法的代码实现。
核心结论:模型记忆就像橡皮泥,捏新形状时旧痕迹会消失
“给橡皮泥加铁丝骨架(正则化),或定期回放旧形状(回放策略),就能保持新旧记忆共存”
公式推演与类比解释
1. 核心公式对比表
公式名称 | 数学表达式 | 通俗解释 | 类比场景 |
|---|---|---|---|
弹性权重巩固 | $L_{\text{total}} = L_{\text{new}} + \lambda \sum_i F_i (\theta_i - \theta_{\text{old},i})^2$ | 重要神经连接加防护罩 | 大脑重要记忆区设置保护屏障 |
知识蒸馏 | $L_{\text{KD}} = \alpha T^2 \text{KL}(q^{\text{old}} | q^{\text{new}}) + (1-\alpha)L_{\text{task}}$ | |
梯度投影 | $\min | g - g_{\text{new}} | ^2 \quad \text{s.t.} \quad g^T g_{\text{old}} \geq 0$ |
回放策略 | $L = \mathbb{E}{(x,y)\sim D{\text{new}}} [l(f(x),y)] + \beta \mathbb{E}{(x,y)\sim D{\text{old}}} [l(f(x),y)]$ | 新旧知识交替复习 | 背单词时定期复习前几课内容 |
2. 核心公式详解
公式1:弹性权重巩固(EWC)
$$
L = \underbrace{L_{\text{new}}(\theta)}{\text{新任务损失}} + \underbrace{\frac{\lambda}{2} \sum_i F_i (\theta_i - \theta{\text{old},i})^2}_{\text{记忆保护项}}
$$
参数 | 数学符号 | 类比解释 | 作用机制 |
|---|---|---|---|
重要性矩阵 | $F_i$ | 神经连接的重要程度评分 | Fisher信息矩阵对角元素 |
旧参数 | $\theta_{\text{old}}$ | 橡皮泥的原始形状 | 预训练模型参数 |
惩罚系数 | $\lambda$ | 新旧记忆的平衡调节器 | 超参数调节新旧任务权重 |
案例应用:在BERT微调中,EWC保护语言理解相关的关键参数不被过度修改
公式2:梯度投影约束
$$
\begin{cases}
\min |g - g_{\text{new}}|^2 \
g^T g_{\text{old}} \geq 0
\end{cases}
$$
项 | 物理意义 | 类比解释 |
|---|---|---|
$g_{\text{new}}$ | 新任务梯度方向 | 想学习的新技能方向 |
$g_{\text{old}}$ | 旧任务梯度方向 | 已掌握的技能方向 |
$g^T g_{\text{old}}$ | 方向一致性检测 | 确保不背道而驰的指南针 |
3. 进阶公式推导
动态网络扩展
$$
\theta = \theta_{\text{base}} \oplus \theta_{\text{new}}
$$
$$
\mathcal{M}(x) = f_{\theta_{\text{base}}}(x) + g_{\theta_{\text{new}}}(x)
$$
参数隔离策略
$$
\mathbb{P}(w_i \text{被冻结}) = \frac{e^{-\gamma F_i}}{\sum_j e^{-\gamma F_j}}
$$
在线回放优化
$$
L_{\text{replay}} = \frac{1}{N}\sum_{i=1}^N \mathbb{E}{x\sim M_i} [\text{KL}(f{\theta}(x)||f_{\theta_i}(x))]
$$
代码实战:EWC方法实现
import torch
import numpy as np
from torch.nn.functional import kl_div
class EWC_Optimizer:
def __init__(self, model, lambda_=0.5):
self.model = model
self.lambda_ = lambda_
self.fisher_matrix = {}
self.old_params = {}
def calculate_fisher(self, dataset):
# 计算Fisher信息矩阵
fisher = {}
for name, param in self.model.named_parameters():
fisher[name] = torch.zeros_like(param)
for data, _ in dataset:
self.model.zero_grad()
output = self.model(data)
loss = torch.nn.functional.nll_loss(output, target)
loss.backward()
for name, param in self.model.named_parameters():
fisher[name] += param.grad.pow(2) / len(dataset)
self.fisher_matrix = fisher
self.old_params = {n:p.clone() for n,p in model.named_parameters()}
def penalty_loss(self):
loss = 0
for name, param in self.model.named_parameters():
old_param = self.old_params[name]
fisher = self.fisher_matrix[name]
loss += (fisher * (param - old_param).pow(2)).sum()
return self.lambda_ * loss
# 训练示例
ewc = EWC_Optimizer(model, lambda_=0.8)
ewc.calculate_fisher(old_task_loader) # 预训练任务数据
for epoch in range(100):
for data, target in new_task_loader:
optimizer.zero_grad()
output = model(data)
task_loss = F.cross_entropy(output, target)
ewc_loss = ewc.penalty_loss()
total_loss = task_loss + ewc_loss
total_loss.backward()
optimizer.step()
# 可视化Fisher矩阵
plt.figure(figsize=(10,6))
plt.imshow(np.log(ewc.fisher_matrix['layer1.weight'].cpu().numpy()+1e-9),
cmap='viridis')
plt.colorbar()
plt.title("Fisher Information Heatmap")
plt.show()
可视化解析
- Fisher矩阵热力图:显示神经网络各层参数重要性分布,颜色越亮表示对旧任务越关键
- 损失函数曲线:蓝色曲线显示新任务损失下降,红色曲线显示旧任务损失波动范围
- 参数分布雷达图:对比显示EWC约束下参数偏移量明显小于普通微调
公式体系总览
公式类型 | 典型代表 | 防御机制 |
|---|---|---|
正则化公式 | EWC约束项 | 参数空间锚定 |
动态架构公式 | Progressive Neural Networks | 网络结构扩展 |
记忆回放公式 | iCaRL选择策略 | 样本重放机制 |
元学习公式 | MAML优化器 | 快速适应机制 |
热门推荐
腰间盘突出会出现晨僵吗?应该怎么办呢?
医生建议睡“硬点的床”,到底是多硬?
为什么压力大的人容易暴饮暴食?为什么多晒太阳心情会变好?
区间测速新招:如何正确设置车速提醒?
智能手机丢失后如何定位找回(利用技术手段和合作伙伴的帮助)
给中年女性的10条忠告
从失败到甲骨文巨头:拉里·埃里森如何逆袭成为全球顶级富豪?
摆地摊经营全攻略:从市场分析到成本控制
相册里的青春"活"过来了!94岁老兵寻找战友引全网刷屏
“民告官”,一波三折的工伤认定!
工伤认定考勤证明怎么提供
甲状腺疾病偏爱女性:如何识别和防治?
春节热热闹闹:醒狮和大秧歌齐上阵!
小年到!教你做红红火火的年夜菜
元旦庙会:亲子共度欢乐中国年
高速路上如何避免超速?
智能交通系统:科技助力道路安全,智能预防超速驾驶
超速罚单申诉攻略:这些情况可免罚!
超速驾驶:安全红线不可越!
《喜洋洋:刘明源民乐合奏曲集》:一位民乐大师的艺术传承
长江日报新年祝福活动:传递健康与希望的力量
春节将至:如何优雅发送新年祝福?
正太饭店:石家庄百年建筑的文化新生
黑山大峡谷:石家庄古建探秘新宠!
格雷夫斯病:症状、病因及并发症全解析
科学实证:三种简单有效的情绪调节方法
新婚祝词简单大方怎么写:不同文化背景有差异
昆明附近短途自驾游景点推荐
属龙五行缺金的女孩如何起名,金属性的女孩吉祥名字
短视频脚本编写指南