没有合适的资源?快使用搜索试试~ 我知道了~
8340学习单领域泛化0Zijian Wang Yadan Luo Ruihong Qiu Zi Huang Mahsa Baktashmotlagh昆士兰大学 {zijian.wang, y.luo, r.qiu, m.baktashmotlagh}@uq.edu.au,huang@itee.uq.edu.au0摘要0领域泛化(DG)旨在将在多个源(即训练)领域上训练的模型推广到分布不同的目标(即测试)领域。与传统的DG严格要求多个源领域的可用性相比,本文考虑了一个更现实但更具挑战性的场景,即单领域泛化(Single-DG),在训练过程中只有一个源领域可用。在这种情况下,有限的多样性可能会危及模型在未知目标领域上的泛化能力。为了解决这个问题,我们提出了一个样式补充模块,通过合成与源领域互补的不同分布的图像来增强模型的泛化能力。具体而言,我们采用了生成图像与源样本之间的互信息(MI)的可行上界,并进行了两步优化迭代:(1)通过最小化每个样本对的MI上界近似值,强制生成的图像与源样本有所区别;(2)随后,我们最大化相同语义类别样本之间的MI,这有助于网络从多样化的样式图像中学习有区分性的特征。在三个基准数据集上进行了大量实验证明了我们方法的优越性,超过了最先进的单领域泛化方法高达25.14%。代码将公开发布在0https://github.com/BUserName/学习多样性01. 引言0现代机器学习算法的显著成功是建立在源(即训练)和目标(即测试)样本来自相似分布的假设上的。实际上,这个假设通常被各种因素所违反,比如光照、物体外观或背景的变化,这被称为领域偏移问题[36,3]。由于领域之间的差异,当应用于目标领域时,源领域上训练的模型的性能可能会显著降低。0到目标领域。0为了解决这个问题,主要进行了大量关于领域自适应和领域泛化的研究。领域自适应旨在将标记的源领域的知识转移到未标记的目标领域[45, 1, 26,13],而领域泛化则试图通过从多个源领域学习来将模型推广到未知的目标领域[34, 42, 10,42]。与领域自适应相比,领域泛化(DG)被认为是一项更具挑战性的任务,因为目标样本在训练阶段没有暴露出来。关于将知识从源领域传递到未知目标领域的不同策略,现有的DG技术可以归纳为两个广泛的类别,即基于对齐的方法[2,11, 33]和基于增强的方法[5, 17, 44, 50,47]。从技术上讲,基于对齐的方法旨在从多个源领域达成共识,并学习用于目标领域的域不变潜在表示。基于增强的方法学习通过不同的转换来增强源图像或为每个源领域生成伪新样本。0一般来说,DG的范式依赖于多个源领域的可用性。然而,考虑到更现实的情况,即单领域泛化(Single-DG),在训练过程中只有一个源领域可用。尽管DG已经得到了广泛的研究,但单领域泛化仍然未被充分探索。对于先前的DG方法来说,处理这种新的设置是非常困难的,因为从多个源领域收集的样本和领域标识符不再可用。没有领域信息可依赖,无论是基于对齐还是基于增强的模型都无法很好地识别对未知目标领域变化具有鲁棒性的域不变特征或转换。最近,一些工作[37,49]提出了学习在源图像上添加对抗性噪声,以训练对未知数据变化具有鲁棒性的分类器。虽然这对解决模型的脆弱性有积极的贡献,但是操纵的图像与原始源图像无法区分,不足以覆盖真实目标分布的多样性。8350为了解决多样性不足的问题,在本文中,我们提出了一种新颖的学习多样性(L2D)方法,旨在通过交替生成多样的样本和判别性的样式不变表示学习来提高模型的泛化能力,如图1所示。具体而言,我们设计了一个样式补充模块,该模块学习合成具有未见过的样式的样本,这些样本不属于原始分布。与以前的增强方法不同,以欧几里德距离量化图像空间中的多样性,我们在潜在特征空间中使生成的样本多样化。通过明确对训练的分类器提出更大的挑战,增强了模型对目标转移的韧性。我们在训练时逐渐扩大生成样本和源样本之间的分布差异,并进行两步优化的迭代。通过最小化每个样本对的可追踪互信息的上界,强制生成的图像在子空间中与源样本多样化。此外,为了获得样式不变的特征,我们最大化属于相同语义类别的图像之间的互信息。因此,样式补充模块和任务模型在最小最大博弈中竞争,通过迭代生成域外图像和优化样式不变的潜在空间来提高任务模型的泛化能力。需要注意的是,在这个目标下,由提出的样式补充模块生成的图像不仅与源图像多样化,而且可以被视为对任务模型的挑战样本。我们的工作的主要贡献总结如下。0•我们提出了一个样式补充模块,通过学习生成多样化的图像来解决单一领域泛化的问题。0•设计了一种最小最大互信息优化策略,逐渐扩大生成图像和源图像之间的分布差异,同时将相同语义类别的样本在潜在空间中靠近。0•为了验证所提方法的有效性,我们在三个基准数据集上进行了大量实验,包括数字识别、损坏的CIFAR-10和PACS。我们进一步展示了我们的方法在标准DG设置下在留一领域协议下的有效性。结果清楚地证明了我们的方法在所有数据集上超过了最先进的DG和单一DG方法。02. 相关工作0领域转移。大多数现有的机器学习方法在源(即训练)领域和目标(即测试)领域遵循不同的分布时会出现性能下降。分布之间的差异被称为领域转移[36,8]。在计算机视觉应用中,这种转移可能是由环境和风格的变化引起的,但不限于此。针对这个问题,已经提出了领域自适应(DA)方法,通过匹配源域和目标域的边际[26, 13,1]或条件分布[27,29]来最小化领域之间的差异。领域自适应已经在各种设置下广泛研究,例如半监督[18, 38, 46]和无监督场景[26,28],这些场景利用了部分标记或未标记的目标域进行训练。最近,提出了少样本DA[32],在训练阶段只有少量标记的目标样本和源样本可用。领域泛化。领域自适应(DA)和领域泛化(DG)之间最显著的区别是DG在训练阶段不需要访问目标域。现有的DG方法可以粗略地分为两类:学习领域不变表示和数据增强。前一类的关键思想是减少多个源域表示之间的差异。Muan-det等人首先提出了一种基于核的方法来获得领域不变特征。[14]通过同时考虑域重构任务来学习潜在的不变表示。[33]进一步引入了对比语义对齐损失,鼓励类内相似性和类间差异。Li等人提出通过在对抗自编码器框架下对文本信息和相应的潜在表示的纹理信息施加正交约束来学习领域不可知表示。最近,元学习过程已经研究用于解决DG问题[10, 24,11]。Li等人提出了一种基于梯度的模型不可知元学习算法来解决DG问题。Dou等人利用情节训练方案来强制进行全局和局部对齐。[11]将变分信息瓶颈与元学习相结合,缩小源域之间的领域差距。另一类与数据增强相关。这一系列的工作通常旨在生成域外样本,然后与源样本一起用于训练网络,以提高泛化能力。例如,[42]利用对抗训练方案生成分类器的“困难”样本。Shankar等人提出沿着领域变化方向增加源样本。[50]利用条件生成…+ µk,(1)8360StyleMod0源图像0StyleMod StyleMod0生成图像0主干网络0��(∙; ��)0实例0归一化0风格变量0风格均值0① 最小化MI0② 最大化MI0风格补充模块0��(∙; �� ��)0分类器0��(∙; ����)0StyleMod0��(∙; ����)0源数据0生成数据0图1:所提出的Learning-to-diversify (L2D)的整体框架。L2D交替训练风格补充模块 G(∙; θ G) 和任务模型 F(∙; θ F),q(∙; θq),以及 H(∙; θH)。具体而言,(1)最小化源图像和生成图像之间的互信息(MI)上界,(2)最大化属于同一类别的样本之间的MI。它以对抗的最小最大方式增强任务模型的泛化能力。0生成伪新领域数据的生成对抗网络(GAN)。[5]被认为是另一种增强方法,它利用解决拼图问题的辅助自监督训练信号来提高分类器的泛化能力。本文关注更具挑战性但更现实的单域泛化[37,49]。在单域泛化中,网络在单个源域上训练,而在多个未见过的目标域上进行评估。基于梯度的图像增强是单域泛化的一种有效策略。[37]通过在潜在空间中的辅助Wasserstein自编码器上鼓励增强和源图像之间的语义一致性来改进ADA。[49]考虑在对抗训练框架中最大化熵以生成源样本的具有挑战性的扰动。在所有上述单域泛化方法中,源图像和生成图像之间的视觉差异主要体现在增强样本的颜色和纹理上。与现有的单域泛化方法不同,我们的方法旨在生成具有新风格/纹理/外观的多样化样本,其与源数据分布有较大的偏移,因此可以被视为源数据分布的补充。03. 方法论0给定一个源域 S = {x i, y i} N i=1,其中包含 N个样本,单域泛化的目标是学习一个能够推广到许多未见过的目标域 T的模型。在没有关于目标域的先验知识的情况下,我们提出了一种0style-complement module G(∙; θ G): x → x +,通过合成与源图像 x具有相同语义信息但具有不同风格的 x +来增强源域。如图1所示,我们首先应用特征提取器 F(∙; θ F) 将图像 x 和 x +转换为特征。0到潜在向量 z 和 z+。为了使生成的特征与源样本多样化,对于每对 z 和 z+,最小化了MI的上界近似来学习 G;随后,我们冻结G,并最大化来自相同语义类别的 z 和 z +之间的MI,这有助于任务网络 F 和分类器 H(∙; θ H)学习来自具有不同风格的图像的判别特征。风格补充模块。风格补充模块 G(∙; θ G) 包含 K个变换,每个变换由一个卷积层、一个风格学习层和一个转置卷积层组成。通过应用卷积操作,将源图像从原始分布投影到具有任意风格偏移的新分布。我们进一步通过在像素级别创建风格偏移来增强生成样本的多样性。具体而言,我们为每个变换添加可学习参数 θ G,k = {µ k, σk},其中可学习参数 µ k, σ k ∈ R h * w * c是均值偏移和方差偏移。更具体地说,我们有:0T ( f i,k ; θ G,k ) = σ k * f i,k− µ0其中 f i,k ∈ R h * w * c 是应用于 k -th 变换中的 x i 的卷积操作的输出,其中 h、w 和 c分别表示高度、宽度和通道。µ 和 σ 对应于 f i,k 的均值和协方差。将变换后的特征图 f ′ i,k = T ( fi,k ; θ G,k ) 应用于转置卷积操作,以重构为原始图像的维度 x。风格补充模块的最终输出 x + i是从 k -th 变换获得的增强图像 x + i 的线性组合:(wkσ(x+i,k)),(2)[log qθ(z+i |zi) − 1Nlog qθ(z+j |zi)]∆ = KLD(p(z+, z) ∥ qθ(z+, z))= Ep(z,z+)[log(p(z+|z)p(z)) − log(qθ(z+|z)p(z))]= Ep(z,z+)[log p(z+|z)] − Ep(z,z+)[log qθ(z+|z)].(6)Llikeli = − 1Nlog qθ(z+i |zi).(7)8370并且 c 分别表示高度、宽度和通道。µ 和 σ 对应于 f i,k的均值和协方差。变换后的特征图 f ′ i,k = T ( f i,k ; θ G,k )然后通过转置卷积操作应用于重构为原始图像的维度x。风格补充模块的最终输出 x + i 是从 k -th变换获得的增强图像 x + i 的线性组合:0x + i = 1 / K k=1 ( w k )0K ∑0其中 w k 是从正态分布中采样的标量,用于加权变换 k对输出增强图像 x + i 的贡献。我们应用激活函数 σ ( ∙),例如 tanh,来缩放 x +i。合成新的风格。风格补充模块的目标是从源域分布推广到域外分布。为了增加创建的风格的多样性,应该尽量减少生成图像与源图像之间的相关性。互信息 (MI) I ( z ; z + )用作量化 z 和 z + 相关性的度量,其定义如下:0I ( z ; z + ) = E p ( z,z + )( z + | z )0p ( z + ) = (3)0我们通过将图像通过 F ( ∙ ; θ F )进行传递来最小化源图像和生成图像在潜在特征空间 Z中的互信息 (MI)。[7]中定义的互信息的上界为:0I ( z ; z + ) ≤ E p ( z,z + ) [log p ( z + | z )] − E p ( z ) p( z + ) [log p ( z + | z )] , (4) 其中 z 和 z + 分别是源图像 x和生成图像 x + 的潜在向量。由于条件分布 p ( z + | z )是难以计算的,因此无法直接最小化 I ( z ; z + )的上界。因此,我们采用变分分布 q ( z + | z),该分布使用由 θ q参数化的神经网络来近似互信息的上界ˆ I ( z ; z + ):0ˆ I ( z ; z + ) = 1/ N ∑0N0N/A0(5)通过最小化方程(5),我们的模型中的可学习均值/方差偏移参数被训练以补充源域的风格。虽然ˆ I ( z ; z +)不再是互信息的上界,因为条件分布p ( z + | z)被变分近似q θ ( z + | z)所替代,但是如果两个分布之间的差异很小,ˆ I ( z ; z +)仍然可以作为一个可靠的上界估计器。具体来说,0我们通过使用Kullback-Leibler散度 (KLD) 估计ˆ I ( z ; z +) 与 I ( z ; z + ) 的上界之间的差异:0上述方程显示差异 ∆受两个项的影响。由于方程6的第一项与 θ q无关,我们通过最小化 z i 和 z + i之间的负对数似然来代替直接最小化 ∆:0N/A0语义一致性。虽然样式补充模块可以生成具有多样风格的图像,但它可能会引入噪声或生成具有扭曲语义信息的图像(例如,当方差偏移σk等于0时,生成的图像将变得无意义)。因此,限制从源分布到域外分布的条件分布偏移,从而避免生成语义不相关的图像,是非常重要的。为了实现这一点,我们在潜在空间中最小化类别条件最大均值差异(MMD),如下所示:0Lconst = 10C0m=1(∥10nms0i=1 φ(zmi) − 10nmt0nm0i=10(8)其中zmi和zm+i分别是类别m的第i个源样本和增强样本的潜在向量。nms和nmt分别是类别m的原始样本和增强样本的总数。φ(∙)表示核函数。条件MMD通过限制属于同一类别的样本的分布偏移来减轻潜在的语义信息失真。MI最大化。我们通过在样式补充模块G(∙;θG)和任务模型F(∙;θF)之间进行最小最大博弈来获得一个具有泛化能力和鲁棒性的模型。虽然样式补充模块旨在生成对源图像信息最小的多样化图像,任务模型可以在嵌入空间中对具有相同语义标签的图像进行聚类。[40]提出的两个变量之间的互信息的下界是:0I(z; z+) ≥ E � 10N0i=1 log e f0�Nj=1 e f(zi,z+j)�,(9)0其中f(∙,∙)是一个评论函数。1minθG L = ˆI(z; z+) + βLconst,(13)ERM27.8352.7239.6576.9449.29CCSA25.8949.2937.3183.7249.05d-SNE26.2250.9837.8393.1652.05JiGen33.8057.8043.7977.1553.14ADA35.5160.4145.3277.2654.62M-ADA42.5567.9448.9578.5359.49ME-ADA42.5663.2750.3981.0459.328380然而,直接最大化生成图像和源图像的互信息的下界而不利用语义标签可能会错误地减少相同类别样本的共享信息。为了缓解这个问题,我们采用监督对比损失[19]来增加相同类别样本之间的互信息,定义如下:0Lsupcon = −0N �0i=00|P(i)|0p ∈ P(i) log e (zi∙zp/τ)0�0a ∈ A(i) e (zi∙za/τ)0P(i) = {p ∈ A(i): yp = yi},(10)0其中A(i)是源图像和生成图像的相同类别的潜在表示z,z+的集合。τ是温度系数。为了进一步增强语义一致性,我们最小化源图像X和生成图像X+上的交叉熵损失:0Ltask = −02N [0i = 0 yi log(ˆ yi)+0j = 0 y + j log(ˆ y +j)],(11)0其中ˆy和ˆy+分别是源图像和生成图像的预测。目标函数。我们采用两步训练的方法,通过迭代优化样式补充模块G(∙;θG)和任务模型F(∙;θF),q(∙;θq)和H(∙;θH)。具体而言,我们使用Eq.(5),(7)和(11)的加权组合来训练任务模块F,包括源图像X和生成图像X+:0最小化θ F,θ q,θ H L = L task + α1L supcon + α2L likli.(12)0值得注意的是,α1和α2是平衡损失的超参数。为了优化G,我们考虑联合求解Eq. (5)和(8):0其中 β 是互信息上界估计 ˆ I ( z ; z + ) 和语义一致性损失 Lconst之间的平衡权重。实现说明:为了捕捉图像的多尺度信息,我们在卷积和转置卷积层中应用不同的变换(即核大小)。此外,为了避免语义信息的潜在失真,我们将输出通道数固定为输入颜色通道数(即RGB图像的3个输出通道)。我们通过从均匀分布中采样(-1 / 根号0大小(核), 1 / 0大小(核))在每次迭代中重新初始化卷积层和转置卷积层的权重。0表1:数字数据集上的单域泛化准确率(%)比较。模型在MNIST上进行训练,并在其他数字数据集上进行评估。最佳性能以粗体显示。0SVHN MNIST-M SYN USPS 平均0我们的方法 62.86 87.30 63.72 83.97 74.4604. 实验0数据集。为了评估所提方法的有效性,我们在三个单域泛化基准数据集上进行实验。Digits数据集包含5个不同的数据集,分别是MNIST[22]、SVHN[35]、MNIST-M[12]、SYN[12]和USPS[9]。每个数据集被视为一个独特的域,可能与其他域在字体风格、背景和笔画颜色上不同。PACS[23]是一个最近提出的DG基准数据集,包含四个域,包括照片、艺术绘画、卡通和素描。每个域包含属于七个类别的224×224图像,总共有9,991张图像。与数字数据集相比,PACS由于域之间的大量样式转换而被认为是一个更具挑战性的数据集。为了公平比较,我们遵循官方的训练、验证和测试划分。Corrupted CIFAR-10[16,20]包含来自CIFAR-10的32×32小型RGB图像,这些图像被不同类型的噪声损坏。这里有来自4个主要类别的15种损坏,包括天气、模糊、噪声和数字。每种损坏都有5个级别的严重程度,“5”表示最严重的损坏。04.1. 数字比较0实验设置。根据[42, 37,49],我们从MNIST中选择10,000张图像作为源域,并测试模型在其他四个数字数据集上的泛化性能。我们将所有图像调整为32×32大小,并复制通道以将所有灰度图像转换为RGB。我们使用LeNet[22]作为骨干网络,批量大小设置为32。我们使用SGD来优化样式补充模块和任务模型。结果。表1显示,与其他基线方法相比,我们的模型在平均准确率上取得了最高的表现。具体而言,我们观察到在SVHN、MNIST-M、SYN和总体准确率上分别提高了20.3%、29.36%、13.33%和14.9%。以前的单域泛化方法di-ERM67.2856.7330.0262.3054.08CCSA67.6657.8128.7361.9654.04d-SNE67.9056.5933.9761.8355.07velyedhator-s.8390表2:单域泛化准确率(%)。模型在CIFAR-10数据集上进行训练,并在CIFAR-10-C数据集上评估,其中包含5个不同程度的数据损坏。我们报告了4个主要损坏类别(天气、模糊、噪声和数字)的平均准确率。最佳性能以粗体显示。*表示我们的实现。0天气 模糊 噪声 数字 平均0ADA � 72.67 67.04 39.97 66.62 61.58 M-ADA 75.5463.76 54.21 65.10 64.65 ME-ADA � 74.44 71.37 66.4770.83 70.770我们的方法 75.98 69.16 73.29 72.02 72.610通过应用对抗扰动来直接生成辅助训练样本。与对抗梯度方法相比,L2D通过整合样式补充模块在生成的图像和源图像之间创建了更大的域偏移。与基准方法相比,准确性的显著提高证明了生成多样化风格图像对于提高模型的泛化能力的重要性。此外,我们观察到单一DG方法通常在此任务中实现更好的性能,反映了以前DG方法对多个源域的依赖以学习一个具有泛化能力的模型。我们的方法在USPS上实现了第二好的性能。我们推断这可能与USPS和源域MNIST共享非常相似的笔画风格有关。在这种情况下,多样化生成的图像可能不像具有更大域偏移的任务那样对模型的泛化能力有很大的益处。04.2. 在受损的CIFAR-10上的比较0实验设置。我们在CIFAR-10数据集的训练集(50,000张图像)上训练所有模型,并在CIFAR-10的受损测试集(10,000张图像)上进行评估。根据[37],我们选择WideResNet(16-4)[48]作为骨干网络,批量大小为256。我们使用带有Nesterov动量和权重衰减率为0.0005的SGD优化模型。学习率初始化为0.2,通过使用余弦退火调度器逐渐减小。结果。我们在表2中报告了在5级严重程度损坏下的四个类别的平均准确率。我们的方法实现了最高的平均性能,超过最佳基准约2.6%。值得注意的是,对于噪声损坏,准确性显著提高了约13.2%。我们还报告了方法在所有五个级别的噪声损坏和数字损坏下的性能,如图3所示。从图中可以看出,我们的方法在PACS上的性能优于其他方法。0表3:PACS上的单域泛化准确率(%)。模型在照片上进行训练,并在其余目标域(即艺术绘画、卡通和素描)上进行评估。比较基于我们的实现。最佳性能以粗体显示。0A C S Avg.0ERM 54.43 42.74 42.02 46.39 JiGen 54.98 42.6240.62 46.07 RSC 56.26 39.59 47.13 47.66 ADA 58.7245.58 48.26 50.85 ME-ADA 58.96 44.09 49.96 51.000我们的方法(无样式补充) 53.27 41.00 41.92 45.39我们的方法(无模块) 58.48 48.96 53.20 53.54我们的方法(无最小互信息) 56.49 48.08 56.32 53.63我们的方法(无最大互信息) 56.64 47.08 49.68 51.13我们的方法(完整模型) 56.26 51.04 58.42 55.240我们的方法与其他方法之间的性能差距在严重程度为一的情况下相对较小,并且随着严重程度的增加而逐渐扩大。这进一步验证了我们的模型不仅可以实现最高的平均性能,而且对严重的损坏具有弹性。04.3. 在PACS上的比较0实验设置。对于单域泛化任务,我们考虑了一个实际案例,其中我们利用一组易于收集的逼真图像(即照片)作为源域,并在其他多样化风格的域(即艺术绘画、卡通和素描)上评估模型。AlexNet[21]被用作骨干网络,该网络在Imagenet上进行了预训练,并在源域上进行了微调。我们还在PACS上使用标准的留一域协议评估了我们方法的有效性,其中一个域被选为测试域,其余域被视为源域。我们在留一域设置中使用预训练的Alexnet和ResNet-18[15]作为骨干网络。更多实现细节请参阅补充材料。结果。从表3可以看出,与基准方法相比,我们的方法可以实现最佳的平均分类准确率。重要的是,我们的方法在素描域上可以实现相对较大的性能差距,因为该域与照片具有高度抽象的形状。这个结果验证了我们的方法利用了由样式补充模块生成的多样化风格图像的优势。为了进一步验证我们方法的性能,我们在PACS上进行了留一域泛化任务。我们将我们的方法与最新的两类最先进的DG方法进行了比较。第一类包括DSN [4],Fusion [30],MetaReg [2],Epi-123456785152535455565758590.10.51.01.52.02.53.0151525354555657580.10.51.01.52.02.53.02515253545556575812345Noise Level2030405060708090Accuracy (%)ERMADAMEADAOURS12345Noise Level50556065707580859095Accuracy (%)ERMADAMEADAOURSle-lity8400k0准确率(%)0(a)0准确率(%)0(b)0准确率(%)0(c)0图2:关于PACS数据集上参数 k、α1和α2的L2D敏感性分析。报告的准确率是对所有三个未见目标域的平均值。0(a) 噪声0(b) 数字0图3:在噪声和数字污染下,不同方法的平均分类准确率(%)。0FCR [25]、MASF [10]和DMG[6]在训练阶段需要域标识。第二类方法与更现实的混合潜在域设置[31]一致,在训练阶段无法获得域标识。AGG[25]、HEX [44]、PAR [43]、JiGen [5]、ADA[42]、MEADA [49]、MMLD[31]和我们的方法属于后一类。我们在表4中报告了使用不同骨干网络的结果。在不利用域标识的情况下,我们的方法仍然可以在PACS上实现最先进的单域排除泛化任务的性能。在训练阶段,图像增强模块逐渐扩大了生成图像与源图像之间的域偏移。04.4. 实证分析0消融研究。我们在PACS数据集上进行消融研究,以验证我们框架中每个组件的有效性。表3报告了我们原始框架的4个变体的分类结果。我们报告了没有引入样式补充模块的基准结果,即 w/oStyle-comp.。没有生成的图像,模型降级为在嵌入空间中具有变分近似 z 的骨干模型。 w/o Style-comp.与我们的完整模型之间存在较大的性能差距。0表4:在PACS上的单域排除分类准确率(%)。最佳性能以粗体突出显示。0D ID P A C S 平均0AlexNet0DSN � 83.30 61.10 66.50 58.60 67.40 Fusion � 90.20 64.1066.80 60.10 70.30 MetaReg � 87.40 63.50 69.50 59.1069.90 Epi-FCR � 86.10 64.70 72.30 65.00 72.00 MASF �90.68 70.35 72.46 67.33 75.21 DMG � 87.31 64.65 69.8871.42 73.320HEX � 87.90 66.80 69.70 56.20 70.20 PAR � 89.60 66.3066.30 64.10 72.08 JiGen � 89.00 67.63 71.71 65.18 73.38ADA � 85.10 64.30 69.80 60.40 69.90 MEADA � 88.60 67.1069.90 63.00 72.20 MMLD � 88.98 69.27 72.83 66.44 74.380我们的方法 � 90.96 71.19 72.18 67.68 75.500ResNet-180Epi-FCR � 93.90 82.10 77.00 73.00 81.50 MASF � 94.9980.29 77.17 71.68 81.03 DMG � 93.55 76.90 80.38 75.2181.460Jigen � 96.03 79.42 75.25 71.35 80.51 ADA � 95.61 78.3277.65 74.21 81.44 MEADA � 95.57 78.61 78.65 75.59 82.10MMLD � 96.09 81.28 77.16 72.29 81.830我们的方法 � 95.51 81.44 79.56 80.58 84.270我们的完整模型证明了样式补充模块在提高模型泛化能力方面的重要性。 w/o Mod.是在完整模型中去除样式修改后的结果。去除样式修改会导致1.35%的绝对性能下降。我们推断这与生成图像的样式多样性有关。为了理解互信息如何影响学习框架,在 w/oMin. MI 和 w/o8410(a) ERM0(b) ADA0(c) ME-ADA0(d) 我们的方法0图4:在数字单领域任务上,不同方法提取的未见目标特征分布的t-SNE可视化。具有相同语义标签的特征以相同的颜色绘制。0最大互信息(Max.MI)中,我们分别去除了互信息最小化和最大化过程。我们观察到没有最小化互信息的模型的准确率比完整模型低1.26%,与没有模块化的结果类似。这意味着,没有互信息约束项,样式补充模块倾向于按照源分布生成图像,限制了它们的多样性。同时,没有最大化互信息的过程,没有最大化互信息的模型与完整模型相比显示了明显的性能差距,差距为3.76%。这表明,在嵌入空间中将同一类别的多样化样式图像映射得更近有助于提高模型的泛化能力。参数敏感性。为了验证转换总数k和损失中的权重参数α1和α2的重要性,我们在PACS数据集上进行了敏感性分析。在实验中,我们最初设置k=6,α1=1,α2=1。当我们分析对特定参数的敏感性时,我们固定其他两个参数的值。图2显示了在单领域泛化设置下的敏感性分析结果。从图2(a)可以看出,随着样式补充模块组合更多的转换,性能逐渐提高。而且,当k=5后,平均性能相对稳定。结果还表明,同时考虑多个转换可以增加生成图像的多样性。同时,过多的转换可能会产生额外的噪音,阻碍进一步的性能提升。从图2(b)和(c)可以看出,我们的方法在广泛的α设置下超越了现有技术的性能,并在α1=α2=1时实现了最佳分类准确率。t-SNE可视化。为了进一步证明所提方法的有效性,我们使用t-SNE[41]来可视化数字数据集(即SVHN、SYN、USPS和MNIST-M)中未见目标特征的分布。具体而言,我们在MNIST上训练不同的模型,并随机选择1000个样本进行可视化。0从每个未见目标领域中选择1000个样本进行可视化。如图4所示,我们的方法明显比基线方法实现了更好的类别分离。此外,从ERM、ADA和ME-ADA提取的特征分布中,我们观察到同一类别内的特征可以有多个子聚类。这表明这些方法很难学习到领域不变表示,并且大的类内变化可能会阻碍它们在目标上获得清晰的决策边界。相比之下,我们的方法明显地创建了比基线方法更紧密的聚类和更好的类别混合。这强烈支持了多样化图像生成和样本之间互信息最大化的思想。05. 结论0本文提出了一种名为Learning-to-Diversify(L2D)的新方法,用于解决单领域泛化问题。与以往利用多个源领域学习领域不变表示的领域泛化方法不同,该方法设计了一个样式补充模块,从单个源领域生成多样的领域外图像。采用迭代的最小-最大互信息(MI)优化策略来提升模型的泛化能力。通过最小化可计算的MI上界进一步增强生成图像的多样性,同时通过最大化相同类别样本之间的MI来获得样式不变的表示。在三个基准数据集上进行了大量实验证明,该方法在单领域泛化和标准的留一领域外泛化上均优于现有方法。致谢:本工作得到了澳大利亚研究委员会(ARCDP190102353和CE200100025)的支持。8420参考文献0[1] Mahsa Baktashmotlagh, Mehrtash Tafazzoli Harandi,Brian C. Lovell和Mathieu Salzmann.通过域不变投影进行无监督领域适应。在ICCV,2013年。0[2] Yogesh Balaji, Swami Sankaranarayanan和RamaChellappa. Metareg:使用元正则化进行领域泛化。在NeurIPS,2018年。0[3] Shai Ben-David, John Blitzer, Koby Crammer, AlexKulesza, Fernando Pereira和Jennifer Wortman Vaughan.从不同领域学习的理论。Mach. Learn.,2010年。0[4] Konstantinos Bousmalis, George Trigeorgis, NathanSilberman, Dilip Krishnan和Dumitru Erhan.领域分离网络。在NeurIPS,2016年。0[5] Fabio Maria Carlucci, Antonio D’Innocente, Silvia Bucci,Barbara Caputo和Tatiana Tommasi.通过解决拼图问题进行领域泛化。在CVPR,2019年。0[6] Prithvijit Chattopadhyay, Yogesh Balaji和Judy Hoffman.学习平衡特异性和不变性以进行领域泛化。在ECCV,2020年。0[7] Pengyu Cheng, Weituo Hao, Shuyang Dai, Jiachang Liu,Zhe Gan和Lawrence Carin. CLUB:互信息的对数比上界的对比学习。在ICML,2020年。0[8] Gabriela Csurka.关于视觉应用领域适应的综合调查。在计算机视觉应用中的领域适应,2017年。0[9] John S. Denker, W. R. Gardner, Hans Peter Graf, DonnieHenderson, Richard E. Howard, Wayne E. Hubbard, LawrenceD. Jackel, Henry S. Baird和Isabelle Guyon.用于手写邮政编码数字的神经网络识别器。在NeurIPS,1988年。0[10] Qi Dou, Daniel Coelho de Castro, KonstantinosKamnitsas和Ben Glocker.通过模型无关学习语义特征进行领域泛化。在NeurIPS,2019年。0[11] Ying-Jun Du, Jun Xu, Huan Xiong, Qiang Qiu, XiantongZhen, Cees G. M. Snoek和Ling Shao.学习使用变分信息瓶颈进行领域泛化。在ECCV,2020年。0[12] Yaroslav Ganin和Victor S. Lempitsky.通过反向传播进行无监督领域适应。在ICML,2015年。0[13] Yaroslav Ganin, Evgeniya Ustinova, Hana Ajakan, PascalGermain, Hugo Larochelle, François Laviolette, MarioMarchand和Victor S. Lempitsky. 领域对抗训练神经网络。J.Mach. Learn. Res.,2016年。0[14] Muhammad Ghifary, W. Bastiaan Kleijn, MengjieZhang和David Balduzzi.使用多任务自编码器进行目标识别的领域泛化。在ICCV,2015年。0[15] Kaiming He, Xiangyu Zhang, Shaoqing Ren和Jian Sun.深度残差学习用于图像识别。在CVPR,2016年。0[16] Dan Hendrycks和Thomas Dietterich.对常见破坏和扰动的神经网络鲁棒性进行基准测试。ICLR,2019年。0[17] Zeyi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功