面向领域泛化的跨领域课程学习

118 浏览量更新于2023-12-09 收藏 513KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取ScienceDirectICTExpress 8（2022）225www.elsevier.com/locate/icte面向领域泛化的跨领域课程学习Daehee Kima，Jinkyu Kimb，Jaekoo Leea，a大韩民国汉城国民大学计算机科学学院b大韩民国首尔高丽大学计算机科学与工程系接收日期：2021年3月8日;接收日期：2021年10月22日;接受日期：2021年11月20日2021年11月30日网上发售摘要领域泛化的目的是从多个源域中学习一个领域不变的表示，这样一个模型就可以很好地泛化到看不见的目标域。这些模型通常使用从所有源域随机呈现的示例进行训练，这可能会由于在冲突的梯度方向上进行优化而使训练不稳定。在这里，我们探讨域间课程学习（IDCL），源域暴露在一个有意义的顺序，逐步提供更复杂的。实验结果表明，在PACS和家庭基准测试中，我们的方法比最先进的© 2021作者（S）。出版社：Elsevier B.V.代表韩国通信和信息科学研究所这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：领域泛化;跨领域课程学习;深度神经网络1. 介绍深度学习最近以爆炸性的速度发展，扩展到现实世界的应用，例如自动驾驶汽车。尽管深度学习模型发展迅速，但在领域转移的情况- 训练域和测试域具有不同的条件。在领域转移的情况下，深度学习模型的性能通常会严重下降。这种限制是深度学习被准确地用作现实世界应用的障碍。领域自适应（DA）和领域泛化（DG）是解决上述问题的有效方法。这些技术通常使用深度卷积神经网络，如ResNet [1]，来学习跨域的对象分类。这两种技术都使用多个域来训练深度学习模型，这些域被称为源域。此外，在未包括在源域中的看不见的域中，测试模型的域被称为目标域。如图1所示，所有域的图像数据包括相同的通道和大小。换句话说，这些研究保证了模型在域转移下的适当性能。DA在训练期间使用目标域数据进行，并且存在两种类型的*通讯作者。电子邮件地址： jaekoo@kookmin.ac.krwww.example.com Lee）。DA：半监督DA和无监督DA。然而，DG是不同的，因为它是在假设没有目标域数据的情况下进行的。因此，DG通常被认为比DA更具挑战性。在DG任务中，研究人员传统上在ImageNet上训练具有预训练权重的模型[2]。这种迁移学习技术是一种实用的方法，数据有限的情况下。因此，即使在训练之前，模型也偏向ImageNet数据集。此外，域移位的程度由ImageNet确定。这种现象在具有良好代表性的域移位多域数据集中尤为突出。在此，我们提出了跨领域课程学习（IDCL），一个基于课程学习的培训策略，在DG利用领域转移。1课程学习[3]是一种在训练深度学习模型时顺序提供易于学习和难以学习的数据的方法。这被应用于一个深度学习模型，该模型模仿一个人20年的知识基础，包括初学者到大学水平的知识。IDCL涉及将课程学习概念应用于DG，依次提供弱域转移数据和强域转移数据。对IDCL的定量实验表明，平均准确度提高了1.08%，并且我们使用图中的箱形图可视化了性能偏差的减少。二、本文的主要贡献如下。同行审议由韩国通信研究所负责教育与信息科学（KICS）。https://doi.org/10.1016/j.icte.2021.11.0091该代码可在https：//github获得。com/dnap512/IDCL.2405-9595/© 2021作者。由Elsevier B.V.代表韩国通信和信息科学研究所出版。这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。D. 金，J.Kim和J.李ICT Express 8（2022）225226图二. （a）PACS上平均准确度偏差的比较。(b)使用GradCAM可视化测试图像Fig. 1. 我们建议的跨领域课程学习（IDCL）包括两个阶段。我们首先将源域按以下顺序排列：与预先训练骨干的域的距离，例如ImageNet。在训练过程中，模型逐渐暴露于逐步学习更复杂的模型。我们提出了新的课程学习为基础的培训策略，在DG利用领域转移。IDCL可以通过减少训练所需的总计算量来帮助加快研究周期模特16.7%此外，平均精度提高了1.08%，最高精度也有所提高。IDCL非常容易应用，因此很容易应用于其他DG研究。我们的实验表明，性能得到改善，通过应用IDCL的SOTA方法。2. 相关工作在文献中，DG模型被训练用于从未知域数据中提取域不变特征。例如，Ganin等人[4]提出了一种神经网络的对抗域训练，以匹配域间特征分布。Li等人[5]引入了最近，一种自监督对比正则化（SelfReg）[7]技术将模型正则化，以将同一类样本的特征紧密嵌入特征空间中。表示自挑战（RSC）[8]是一种众所周知的方法，它在训练过程中通过CNN提取的大梯度来掩盖某些特征，以学习数据的整体特征。我们通过实验证明了将IDCL应用于第4节中的SOTA方法可以提高泛化性能。CuMix [9]从以下角度接近DG：数据增强，并尝试使用源域数据的混合来推断看不见的域数据的分布。然而，混淆过程中涉及随机性，导致学习不稳定。为了控制训练中的随机性，他们使用一种课程学习来训练模型，这种课程学习会从容易到困难顺序地生成混合结果。鉴于此，我们认为课程学习可以应用于DG中的各个领域数据PACS [10]是一个DG基准数据集，包括四个领域，即照片，艺术印刷，卡通和草图，具有很强的领域转移。然而，VLCS [11]数据集包含四个照片对象识别数据集作为域：PAS-CAL VOC [12]、LabelMe [13]、Caltech [14]和SUN 09 [15]。此外，VLCS侧重于每个数据集的不同收集过程和偏差，而最近的一项研究发现在深层特征水平上存在轻微的域偏移[10]。相反，PACS是具有域转移的良好代表性数据集，足以用作最近DG研究的基准数据集。因此，我们在我们的方法中使用了PACS数据集3. 跨领域课程学习从以前的研究中，我们观察到，从照片的特定域的域转移越强，模型的测试精度越低。具体而言，例如PACS数据集中照片的测试准确率较高，其次是艺术画、卡通和素描。研究人员通常在ImageNet [2]上使用预先训练的权重来进行DG任务，而不是从头开始训练模型。因此，即使在训练之前，模型也偏向于光域，这会降低泛化性能。这种下降在域转移得到很好代表的数据集上特别明显，例如PACS，它在最近的DG研究中被积极使用对于这种趋势，我们假设，如果在初始训练期间在训练集中包含强域偏移数据，则由于权重探索的困难，学习可能不会成功。因此，我们首先在初始训练期间使用类似于ImageNet的域数据训练模型，然后逐渐提供所有域数据。例如，在PACS的情况下，如图1所示，模型学习第一张照片，第二张照片，艺术绘画，第三张照片，艺术绘画，卡通，最后是所有领域。然而，因为DG任务假设不存在目标域数据，所以省略了将目标域包括在上述过程。生成IDCL数据集的过程描述如下：D all={A，B，C，. . . ，Z}（1）D目标={B}（2）D1={A}（3）D2= {D1，C}（4）···D. 金，J.Kim和J.李ICT Express 8（2022）225227----关于我们联系我们我们的优势···Dn=Dsource= {Dn−1，Z}（5）所有的Eq 。（1）是指包含所有域的数据集。A、B、C、. . .，Z是域移位变得更强的顺序。当量（2）提示靶结构域为B。因此，在Eqs。（3）、（4）和（5）中，对于每个阶段，我们顺序地包括从弱域移位数据到强域移位数据的训练数据集，不包括目标域B。在IDCL中，用于训练的域的顺序通过域移位而上升这些序列在数据集[10]中正式通常，源域可以排序通过与预先训练骨干的域的距离。具体来说，我们将源域按照识别准确度的顺序排列在留一设置中的验证集上-使用单个域作为测试域其他的作为训练域。我们相信这个过程可以很好地推广到其他更复杂的数据集。我们根据经验证实，当学习间隔被建立为训练方程的Dn−1时，模型被很好地训练。（5）对于总历元的最初三分之一。以PACS为例，如果目标域是卡通，训练第一张照片作为D1，第二张照片，艺术绘画作为D2，最后照片，艺术绘画，素描作为D3。在这个过程中，D1、D2和D3分别包含一个、两个和三个结构域.此外，D1和D2分别消耗D3D1和D2各占总历元的六分之一。相应地，我们可以减少D1中总计算量的11.1%和D2中总计算量的5.6%。因此，通过应用IDCL，该模型可以训练与83.3%的计算，现有的学习方法，仅使用D3。这一优势可以通过减少训练模型所需的总计算量来帮助加快研究周期。4. 实验数据集。我们在公开可用的PACS [10]和PACS [10]数据集包括来自四个不同领域的图像，例如照片、艺术绘画、卡通和素描领域，提供七个对象类别，即狗、大象、长颈鹿、吉他、马、房子和人。Office–Home [我们为PACS使用了正式的训练、验证和测试分割，而对于每次训练，我们将训练集和验证集随机分为9：1的比例，并使用整个目标域数据作为测试集。实施细节。我们使用ImageNet [2]-预训练的ResNet-18 [1]作为所有实验的主干ConvNet我们的模型是端到端训练的，使用SGD优化器进行了大约30个epoch。学习率设置为0.004，批量大小为128。在24个epoch之后，我们将学习率降低了0.1。在RSC [8]之后，使用数据增强在我们的实验中，以提高模型的泛化能力。这通过随机裁剪、水平翻转、抖动颜色和改变强度来完成。培训详情。对于PACS，源域中包括三个域。在此应用IDCL，整个培训包括三个阶段。如果以照片领域为目标，则总共构建了三个阶段：艺术绘画、艺术绘画、卡通和艺术绘画、卡通、素描。此外，我们尝试一次提供两个相对较弱的领域转移领域作为训练集：{艺术绘画，卡通}和{艺术绘画，卡通，素描}。这些分别由表1中的IDCL3期和IDCL2期IDCL2阶段被训练为等式Dn−1（5）在作为第一阶段的总历元的初始三分之一期间，等式（1）的Dn为0（5）在其余三分之二为第二阶段。在IDCL3期，将IDCL2期的第一阶段一分为二，将其分为三个阶段的总时期如下：总时期的六分之一，六分之一和三分之二。定量分析相表1显示了PACS [10]（顶部）和PACS-Home[ 16 ]（底部）基准中的识别准确性。我们提出的IDCL模型显着提高了识别精度的DG基准（比较模型A与B C）。在两个基准测试中，所有领域的评分通常都有所提高，即PACS [10]和更重要的是，我们在卡通和素描领域获得了更大的改进，预计会有更大的域转移。请注意，所有模型都针对每个目标域训练20次，并报告平均准确度。图2（a），我们提供了一个箱形图，显示了PACS [10]数据集上每个模型的性能偏差。使用GradCAM进行分析。我们使用GradCAM [17]来可视化网络关注的图像区域。红色是网络最终判决的关注区域。在图2（b）中，我们提供了两个例子，比较了模型训练时间比较表1中的列车时刻为独立训练所有域所需的时间。IDCL3阶段的训练时间为1283.5 s，相当于PACS上基线的82.4%。训练时间的减少通过减少训练模型所需的计算来加快研究周期。PACS上的IDCL与其他SOTA方法。我们的方法是简单的，适用于其他DG方法。表2显示了基于ResNet18复制RSC [8]和SelfReg [7]的实验结果。这一结果是根据论文中发布的可扩展实现复制的。表2提供了使用默认设置进行试验的结果。结果表明，将IDCL应用于RSC和SelfReg时，平均准确率分别提高了0.47%和0.32%。因此，我们的结论是，IDCL可以整合与以前的DG研究，以提高性能。D. 金，J.Kim和J.李ICT Express 8（2022）225228表1我们的方法在PACS [10]（顶部）和E-Home [ 16 ]（底部）数据集上的基准结果（准确性）模型照片艺术绘画卡通草图Avg.列车时间（s）A. 基线95.5879.7575.6874.5381.381556.8B. A + IDCL2期95.7180.2476.6875.5382.041379.8C. A + IDCL3期95.8180.2777.7576.0182.461283.5模型真实世界产品艺术剪贴画Avg.列车时间（s）A. 基线74.5072.8258.4649.3263.786259.8B. A + IDCL2期74.7273.1558.5549.1763.905888.8C. A + IDCL3期74.7573.4158.4649.4664.025781.8表2将IDCL应用于其他最先进方法的基准结果（准确性），即RSC [8]、SelfReg [7]。（数据：PACS [10]）模型照片艺术绘画卡通草图Avg.RSC [8]93.4079.2877.3078.8082.19RSC [8] + IDCL3期（我们的）93.6879.2577.8279.9182.66自动注册[7]96.1081.8978.0377.2183.30SelfReg [7] + IDCL3期（我们的）96.2282.3478.4377.4783.625. 结论在此，我们提出跨领域课程学习，它将课程学习的概念应用于领域泛化。跨领域课程学习提高了学生的平均成绩和峰值成绩，也减少了成绩偏差。此外，IDCL通过减少训练所需的总计算量来加速研究周期。IDCL是一种非常简单的方法，易于应用于其他DG研究。在一种方式，转换的数据，使域转移表示更强烈，IDCL预计将在未来的工作中更有用的数据增强的角度来看。CRediT作者贡献声明金大熙：概念化，方法论，分析，解释，写作-原始草稿。金镇奎：概念化，方法论，调查，写作李在坤：监督，方法，写作竞合利益作者声明，他们没有已知的可能影响本文所报告工作致谢该研究得到了韩国科学和信息通信技术部（MSIT）的支持，并在IITP（信息通信技术规划评估研究所）监督的ICT挑战和高级人力资源开发网络计划（2020-0-01826）和可持续稳健自动驾驶AI教育/开发集成平台（2021-0-00994）下进行。引用[1] K.他，X。Zhang，S. Ren，J. Sun，Deep residual learning for imagerecognition，in：Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，2016，pp.770-778[2] J.邓，W.东河，巴西-地索赫尔湖，美-地J. Li，K.利湖，加-地飞飞，ImageNet：一个大规模的分层图像数据库，在; CVPR 09，2009。[3] Y. Bengio ， J. Louradour ， R. Collobert ， J. Weston ， Curriculumlearning，2009年，第26届机器学习国际年会论文集，第10页。41比48[4] Y. Ganin，E.乌斯季诺娃Ajakan，P. Germain，H. Larochelle，F.Laviolette，M. Marchand，V. Lempitsky，神经网络的领域对抗训练，J。马赫学习. Res. 17（1）（2016）2096[5] H. Li ， S.J. Pan ， S. 王， AC. Kot ， Domain generalization withadversarial feature learning，在：IEEE会议论文集计算机视觉和模式识别，CVPR，2018年，pp。5400-5409.[6] B. 孙， K. Saenko ， Deep coral ： Correlation alignment for deepdomainadaptation ，in：Proceedings of the European Conference onComputerVision，ECCV，Springer，2016，pp. 443-450[7] D.金，Y。柳，S。Park，J. Kim，J. Lee，Selfreg：域泛化的自监督对比正则化：IEEE/CVF计算机视觉国际会议论文集，2021年，第102页。9619-9628[8] Z. Huang，H. Wang，E.P. Xing，D.黄，自我挑战改进跨域泛化，在：计算机视觉 -E C C V 20 2 0 ：第 16 届欧洲会议，格拉斯哥，英国， 20 2 0 年 8 月 23 日至 28 日，会议记录，第 II 部分16 ，Sp r i n g e r ， 20 2 0 年， pp . 124-140[9] M. Mancini ， Z. Akata ， E. Ricci ， Towards Recognizing UnseenCategories in Unseen Domains，Springer。[10] D. Li，Y.杨玉Z.宋，T. Hospedales，更深，更广泛和更艺术的领域概括，在：国际计算机视觉会议，2017年。[11] A. Torralba ， A.A. Efros ， Unbiased look at dataset bias ， in ：CVPR2011，IEEE，2011，pp. 1521-1528年。[12] M.埃弗灵厄姆湖，澳-地Van Gool，C.K. Williams，J. Winn，A.Zisserman ， Pascal Visual Object Classes （ Pascal Visual ObjectD. 金，J.Kim和J.李ICT Express 8（2022）225229Classes）Challenge，Int. J. Comput.目视 88（2）（2010）303[13] B.C. Russell ， A. Torralba ， K.P. Murphy ， W.T. Freeman ，LabelMe：adatabase and web-based tool for image annotation，Int. J.Comput. 目视77（1-3）（2008）157-173。D. 金，J.Kim和J.李ICT Express 8（2022）225230[14] L.费费河Fergus，P. Perona，从几个训练示例中学习生成视觉模型：一种在101个对象类别上测试的增量baidu方法，2004年计算机视觉会议和Pattern Recognition Workshop，IEEE，2004，p.178.[15] M.J. Choi ， J.J. Lim ， A. Torralba ， A.S. Willsky ， Exploitinghierarchicalcontext on a large database of object categories，in：2010IEEEComputer Society Conference on Computer Vision and PatternRecognition，IEEE，2010，pp. 129比136[16] H. Venkateswara，J. Eusebio，S.查克拉博蒂，S。Panchanathan，Deep hashing network for unsupervised domain adaptation ， in ：（IEEE）Conference on Computer Vision and Pattern Recognition，CVPR，2017。[17] R.R. Selvaraju，M.Cogswell，A.达斯河，巴西-地Vedantam，D.帕里克，D. Batra，Grad-cam：通过基于梯度的本地化从深度网络中进行视觉解释：IEEE计算机视觉国际会议论文集，2017年，第100页。618-626

下载后可阅读完整内容，剩余1页未读，立即下载