优化多任务模型：损失与梯度策略实战

需积分: 0 10 浏览量更新于2024-06-18 收藏 1.74MB PDF 举报

该资源是一份名为"2023-01-17 任务损失-梯度优化策略合集.pdf"的文档，它主要针对Kaggle竞赛中的多任务模型优化问题进行深入探讨。作者Ai在文中分享了在处理多任务模型时遇到的挑战，如负迁移和跷跷板效应，这些问题源于不同任务之间的Loss值不平衡、学习速度差异以及梯度冲突。文章的核心内容包括以下几个关键点： 1. **Loss量级优化**：当不同任务的Loss值存在明显差距时，UncertaintyWeighting方法被提出，通过引入可学习的噪声参数σ来调整任务的权重。这种方法在回归、分类和多任务场景下应用，并通过概率模型最大化高斯似然估计来学习任务参数。较大的噪声参数对应较低的权重，以平衡任务间的贡献。 2. **Velocity（Loss学习速度）**：考虑到任务难度的差异，可能需要调整Loss的学习速率。这可以通过动态调整学习率或者使用不同时间尺度的学习策略来实现，确保所有任务都有足够的时间收敛。 3. **Direction（Loss梯度冲突）**：解决梯度冲突的关键是处理Loss的反向传播，通过调整更新策略或联合优化方法来避免“翘翘板”效应。可能的方法包括使用对抗性训练、联合梯度下降或层次化学习。 4. **参考文献**：文章引用了Kendall等人在2018年CVPR会议上关于多任务学习利用不确定性权重Loss的研究，展示了其在多任务场景下的广泛影响力。 5. **实践示例**：文档提供了具体的代码示例，如UncertaintyWeighting Loss函数的实现，帮助读者理解并应用这些优化策略。这份文档对Kaggle竞赛参与者来说非常有价值，因为它不仅提供了理论背景和优化策略，还包含了实操技巧，能够帮助参赛者提高模型性能，减少负迁移现象，提升比赛成绩。对于AI和机器学习工程师，特别是那些从事多任务学习和竞赛优化的人来说，这是不可或缺的参考资料。

2. MGDA

论文：Sener, O., & Koltun, V. (2018). Multi-task learning as multi-objective

optimization. *Advances in neural information processing systems*, *31*.

引用量：638

代码：https://github.com/isl-org/MultiObjectiveOptimization

据[2]解释，作者将MTL看作一个带约束优化问题，求解过程相当于寻找帕

累托最优过程。假定固有有一群任务和可分配的任务损失权重，从一种分配

状态到另一种状态的变化中，在没有使任何任务境况变坏的前提下，使得至

少一个任务变得更好，这就达到了帕累托最优化。

MTL的优化目标函数：

文中，作者总结一个方法：多重梯度下降算法 (multiple gradient descent

algorithm, MGDA) ，该算法针对共享参数和任务独立参数，声明 KKT

(Karush-Kuhn-Tucker) 条件：

第二个条件，是让每个任务独立的参数梯度为0，直接对每个任务独立分支

的部分上，各自做梯度下降即可。而第一个条件是要找到一个帕累托最优点

(即最好的alpha组合) ，使得共享层参数梯度为0。这边作者使用了Frank-

Wolfe算法。

剩余31页未读，继续阅读

白话机器学习

粉丝: 1w+
资源: 7672

优化多任务模型：损失与梯度策略实战

梯度下降的优化算法概览.pdf

cheatsheet-deep-learning-tips-tricks.pdf

GAN-Overview-Chinese.pdf

CVPR16-Social-LSTM.pdf

cheatsheet-supervised-learning.pdf

回归和梯度下降算法学习.pdf

chap7-网络优化与正则化.pdf

GTFM-troubleshooting-deep-neural-networks-OpenAI专家指导你改模型-141.pdf

基于差异合并的分布式随机梯度下降算法.pdf

一种基于分布式编码的同步梯度下降算法.pdf

最新资源