多任务学习MTL模型：多目标Loss优化策略

创作时间:

作者:

@小白创作中心

引用

CSDN

https://blog.csdn.net/sgyuanshi/article/details/141689077

多任务学习（MTL）是深度学习中的一个重要研究方向，它允许模型同时学习多个相关或不相关的任务。然而，在实际应用中，不同任务的损失函数（Loss）往往存在量级差异，这可能导致某些任务主导整个学习过程，影响模型的整体性能。为了解决这一问题，研究者们提出了多种优化策略，本文将详细介绍其中几种主流方法。

前言

之前的文章中介绍了针对多任务学习的几种模型，如MMoE和PLE，主要集中在网络结构方面的优化，以缓解任务间相关性低导致的梯度冲突和“跷跷板”问题。但多任务学习还存在以下棘手问题：

接下来，我们将介绍几种基于损失优化的多任务学习策略。

这篇论文指出，多任务学习模型的效果很大程度上由共享的权重决定，但训练这些权重是很困难的。因此，引入了不确定性（uncertainty）的概念来衡量不同任务的损失，使得可以同时学习不同类型的任务。

具体来说，总损失的计算公式如下：

其中，α为可学习参数，表示对应任务的不确定性。

容易看出，总损失会惩罚损失大且α小的任务，因为对于这种任务，这一项就会很大，SGD就会将它往小优化。

它代表着对于损失较大的任务，意味着它的不确定性也较高，为了避免模型往错误的方向“大步迈”，应该以较小的梯度去更新w；相反的，对于损失较小的任务，它的不确定性也就较低，以较大的梯度去更新w。

同时，这也能避免让较大损失的任务主导的问题。

总结：大损失的任务给予小权重，小损失的任务给予大权重。

这个方法由于后面的log项，可能会出现总损失为负的情况。

这篇论文提出了一种新的方法：梯度正则化（GradNorm），它能自动平衡多任务不同的梯度量级，提升多任务学习的效果，减少过拟合。

首先，总损失的定义仍是不同任务的损失加权平均：

GradNorm设计了额外的损失来学习不同任务损失的权重wi，但它不参与网络层的参数的反向梯度更新，目的在于不同任务的梯度通过正则化能够变成同样的量级，使不同任务可以以接近的速度进行训练：

其中，t代表训练的步数；
W一般是取最后一层共享网络层shared layer的权重；
第i个任务的正则化梯度，即损失对W的梯度，然后再做L2-norm：

第i个任务的损失(第t步)与初设损失比率，用来代表学习速度：

第i个任务的相对学习速度：

不同任务的初设损失：Li(0)，对学习速度的计算影响很大。
如果所有网络层有着稳定的参数初始化，则可以直接使用（第一次的损失）；
但如果Li(0)对参数初始化方式很敏感，在多分类中，则可以令Li(0) = log(C)，C为分类数。
论文的流程是在每轮训练中，先通过反向传播进行不同任务损失的权重wi，再进行网络参数的更新。