基于推理时间标签的域偏移

87 浏览量更新于2024-01-22 收藏 2.17MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

12924基于推理时间标签保持目标投影Prashant Pandey1，Mrigank Raman*1，Sumanth Varambally*1，PrathoshAP11 IIT德里{bsz178495，mt1170736，mt6170855，prathoshap}@ iitd.ac.in摘要在一组源域上训练的机器学习模型在具有不同统计数据的未知目标域上的推广是一个具有挑战性的问题。虽然已经提出了许多方法来解决这个问题，但它们仅在训练期间利用源数据，而没有利用在推理时可获得单个目标示例的事实。受此启发，我们提出了一种方法，有效地使用目标样本在推理过程中超越单纯的分类。我们的方法有三个组成部分-（i）源数据上的标签保持特征或度量变换，使得源样本根据它们的类而被聚类，而不管它们的域（ii）在这些特征上训练的生成模型（iii）通过使用学习的度量在生成模型的输入空间上解决优化问题，在推理期间目标点在源特征流形最后，将投影目标用于分类器。由于投影的目标特征来自源流形，并且通过设计具有与真实目标相同的标签，因此分类器期望在其上比真实目标更好地执行。我们证明，我们的方法优于国家的最先进的域生成方法在多个数据集和任务。1. 介绍域偏移是指训练数据和测试数据的分布之间存在显著的差异[41]。这导致仅在训练或源数据上训练的机器学习模型在测试或目标数据上表现不佳处理这个问题的一种简单方法是用新数据微调模型，这通常是不可能的，因为很难为每个新目标域获取标记数据。域自适应（DA）方法[42，9，14，39，26，4，31，33，34]通过利用（未标记的）目标数据来最小化域偏移来解决这个问题;然而，当未标记时，它们不能使用。*平等贡献beled目标数据不可用。另一方面，域泛化（DG）[30，21，10，22，1，23]从以下角度看待这个问题：如何使在单个或多个源域上训练的模型泛化到完全看不见的目标域上。这些方法通过（i）使用对抗学习等方法学习对数据域不变的特征表示[24，25]，（ii）通过Meta学习方法[22，1]学习时模拟域转移，以及（iii）用来自虚构目标域的合成数据扩充源数据集[44，48]。这些方法已被证明是有效的，在处理问题的域转移。然而，大多数现有的方法不利用测试样本从目标分布在推理时可用的下一个单纯的分类。另一方面，当人类遇到一个看不见的物体时，他们通常会将其与之前感知到的类似物体联系起来，这是一种出于这种直觉，在本文中，我们对解决DG问题做出了以下贡献：（a）给定来自多个源分布的样本，我们建议学习一个源域不变表示，它也保留了类标签。(b)我们建议(c)我们通过大量的实验证明，我们的方法在标准DG任务上实现了新的最先进的性能，同时在鲁棒性和数据效率方面也优于其他方法。2. 先前工作元学习：元学习方法旨在通过在训练期间模拟域偏移来提高模型对未知域的鲁棒性这是通过将训练集分成元训练集和元测试集来完成的。[22]为基于元学习的DG提供了一个总体框架，其中12925我J更新模型参数，以协调的方式使元训练和元测试域上的损失最小化。[1]提出了一种预训练的正则化器网络，用于正则化领域无关任务网络的学习目标。[7]使用公共特征提取器主干网络与若干域特定聚合模块。在推理期间执行这些模块的聚合以预测类标签。[23]在每个源域上训练单独的特征提取器和分类器，并最小化不匹配的特征提取器和分类器对的损失，以提高模型鲁棒性。[15]利用概率元学习模型，其中跨域共享的分类器参数被建模为分布。他们还通过优化信息瓶颈的变分近似来学习域不变表示由于元学习方法仅在模拟的领域变化上进行训练数据增强：使用随机变换增强数据集可以提高泛化能力[13]。通常使用的增强技术包括旋转、翻转-ping、随机裁剪、随机颜色失真等。[38]使用来自域分类器的梯度来对图像进行预处理。然而，这些扰动可能不反映实际观察到的畴移。[48]旨在使用对抗过程来训练变换网络以产生图像翻译来解决这个问题，该图像翻译旨在生成新颖的域，同时保留类信息。[47]利用基于最佳传输的公式从伪新颖域生成图像，同时利用循环一致性和分类损失来重构语义信息。[36]通过在元学习框架中使用Wasserstein自动编码器虽然这些生成的域与源域显著不同，但它们可能并不反映实际的域差异。领域不变表示：领域泛化文献中的另一个常见主题是将源数据转换为低维[10]学习自动编码器以通过重构域间和跨域图像来提取域不变特征。[24]使用对抗性自动编码器将来自所有源域的表示与使用对抗性学习过程的拉普拉斯先验进行对齐。[6]采用情景训练来模拟域转移，同时最小化全局类对齐损失和局部样本聚类目标以按类聚类点。[15]学习使平均域差异和类内分散最小化同时使平均类差异和多域类间分散最大化的核函数。 [35]第三十五章一个小秘密在最后的分类层上进行组合，以可识别地学习跨领域的共同和特定特征。[37]使用特定于域的规范化来学习与域无关和语义上有区别的表示。上述所有方法都需要域标签，这可能并不总是可行的。[5]旨在通过学习一个解决拼图游戏的辅助任务来解决没有域标签的DG问题。这个想法是，从这样的辅助任务中学习的特征将是不变性的。[27]首先分配通过对域判别特征进行聚类而推断出的伪标签。他们针对这些伪标签训练域分类器，该分类器进一步用于对抗地训练域不变特征提取器。[29]使用语义对齐损失作为额外的正则化器，同时训练分类器进行域不变特征学习。[16]使用层梯度迭代地定位在训练数据上激活的主导特征，并通过自我挑战学习有用的特征。[45]通过同时提供度量学习任务形式的外部监督和自我监督辅助任务形式的内部监督，与我们自己的方法最相似的是[40]，因为它们也运行推理时间过程。然而，与我们的方法不同，他们使用测试样本来更新模型参数。3. 该方法3.1. 问题设置和方法概述设X和Y分别表示数据和标签空间。设H是假设空间，其中H中的每个假设h映射从X指向Y中的标签。域由元组（D，gD）定义，其中D是X和gD上的概率分布，其中gD：X → Y是分配地面真值标签的函数一般假设地面实况标记函数g在所有域上是相同的。域泛化被定义为总共有N个域的任务，|来源和|不|是目标域。|are target domains.源域和目标域分别用DS表示，i∈[|S|]和DT，j∈[|不|]中。目标是在源域上训练一个分类器，该分类器在目标域当目标样本在训练期间不可用时。我们的方法的动机来自于以下观察：DG方法学习域不变表示只使用源数据。因此，在这种表示上训练的分类器不能保证在源数据流形之外的目标数据上表现良好因此，如果在分类之前将目标样本投影到源特征的多个上，使得保留地面实况标签，则可以改善为此，我们提出了一个由三部分组成的领域泛化过程：12926不¨k ¨图1：A）我们设计了一个函数f（神经网络fθ）来学习一个标签保留度量，当一对图像之间的地面真值标签（由函数g给出）匹配时，该度量产生的相似性得分为1，否则为-1。函数“sim”是指余弦相似度函数。 B）f使用神经网络fθ实现。在培训过程中，使用损失LA创建源流形Zs，使得流形上的特征被隐式聚类以保留示例的标签C）在来自流形Zs的标签保留特征上训练分类器Cφ和生成模型Gφ，使得Gφ学习将高斯向量u映射到流形Zs上的点。D）在推理过程中，fθ将目标xt投影到标签保持特征空间上的点zt我们提出了一个推理时间的程序，以项目的tar得到功能的一个点z的源manifold，这是最终分类预测其标签yt。θ、θ和φ表示它们对应的网络的权重在推理过程中是固定的1. （训练）：使用源数据学习保持标签的域不变表示我们首先将数据f：X → F通过解决以下优化问题。中国公司简介arg min（−1）α（i，j）<$f<$（x）−f<$（x）<$从多个源域到一个空间，根据类别标签进行聚类，而不考虑do-fj=1i=1伊日（一）¨ ¨mains并在这些特征上构建分类器。2. （培训）：学习从域生成要素受<$f<$（x）<$=1<$k∈[N].通过在源数据上构造生成模型，从源数据创建不变特征流形。α（i，j）=0g（xi）=g（xj）1否则3. （推断）：给定一个测试目标样本，以标签保留方式将其投影到源特征流形上。这是通过解决上述一般输入空间上的推理时间优化问题来完成的tive模型最后对投影后的目标特征进行分类。请注意，所有涉及的网络（特征提取器，生成模型和分类器）的参数仅使用源数据学习，并在推断期间固定。因此，我们的方法在DG的范围内，尽管在推理期间针对每个目标样本解决了总体过程如图1所示。在随后的部分中，我们将详细描述上述所有组件。3.2. 标签保持变换3.2.1域不变特征我们方法的第一步是学习一个特征（度量）空间，这样输入图像就可以根据它们的标签（类）进行聚类，而不管它们的域。我们用一个函数显式地构造这样一个特征空间F函数f被学习，使得当一对源样本具有相同的地面真值标签时，它们在f下的表示之间的差异的范数与它们的域成员关系无关地低，并且当它们属于不同的类时高在这个公式下，fea-空间F中的图将根据它们的类标签被事实上，可以证明，上述f使任何两对域之间的H-散度最小化提案1. 定义在等式中的标签保持变换f。1，减少了在其上学习的任何两对域之间的H-发散（证明在附录中）。总之，所提出的特征变换将多个源域合并成单个特征域，使得具有相同标签的图像在特征空间中聚类成一组3.2.2学习f函数我们建议通过使用深度神经网络fθ参数化来学习f。很容易看出，客观功能--12927不不∗不不不在Eq。1简化为样本对fθ（xi）和fθ（xj）之间的余弦相似性的优化。假设zi=fθ（xi）和zj=fθ（xj）表示输入的特征向量，zi和zj之间的余弦相似性si，j由下式给出：u∈ N（0，I）到源特征流形Zs。请注意，这些生成模型仅在源特征上训练，并在推理过程中固定。我们表示生成模型的训练。si，jzi·zj=zi（二）3.3.2标签保留投影我们的方法的最后一个组成部分是投影焦油-注意，在Eq. 1寻找si，j，当标签相同时为高，当标签不同时为低（由等式中的α（i，j）①的人。因此，我们首先将si，j转换为S形激活的logits，并对生成的概率使用二进制交叉熵。然而，由于−1≤si，j≤1，我们用一个小的正常数τ（通常为0.1），以扩大生成的logit的范围。在数学上，我们可以写为pi，j=sigmoid（si，j/τ）。在此公式下，可以将pi ， j视为相似性得分，如果（xi，xj）具有相同的标签（α（i，j）= 0），则其应该为1，否则为0。因此，我们最终使用pi，j之间的二进制交叉熵损失LA，和1−α（i，j）来训练fθ网络。3.3. 推断时间目标预测在DG设置中，在推断期间将特征获取到源特征流形上应当注意，变换fθ被构造为使得当一对样本在该空间中具有零距离时，它们具有相同的地面真值标签。也就是说，如果= 0，则g（x1）=g（x2）。我们利用这个属性和解决（每个样本）优化过程，在生成模型Gφ（u）的输入空间上进行，以获得目标特征投影。设zt=fθ（xt）表示与测试目标样本xt相对应的特征向量。我们的目标是在源特征流形z∈Zs中找到与zt具有相同的地面真实标签的投影目标特征。通过构造fθ（Eq.1），则如果要匹配它们的地面真值标签，则zt和zt之间的余弦距离应该较低在此基础上，我们设计了如下优化问题：lem在Gφ的输入空间上找到zt：是在源域上学习的。让Zs表示通过学习这样的fea创建的流形ΣLS=1−Σzt·Gφ（ u）zt（三）使用源数据。训练分类器C**，点从源数据特征流形Zs。由于域移位，对应于测试目标点xt的特征f（xt）可能不落在源数据特征流形Zs上。这导致分类器在目标特征f（xt）上失败。为了解决这个问题，我们建议将目标特征投影或我们建议实现这种标签保持投影通过解决一个gener的输入空间上的推理时间优化问题在Z上训练的行为模型。为了方便起见，我们定义一个函数g：F→Y，使得g（f（x））=g（x）3.3.1生成源特征流形Zs一旦通过fθ得到了保持标签的源特征流形Zs，我们就在其上建立一个生成模型。学习源数据特征流形Zs的正态分布为此，我们选择了两种最先进的神经生成模型：（a）变分自动生成模型，u=arg minLS（4）uz=Gφ（u）（5）Eq中的目标函数4试图找到投影的目标特征z（经由来自等式4的u）5）其离真实目标特征Zt的余弦距离最小。隐式我们的方法的假设是，当目标示例被投影到源流形上时，最小化距离相当于保留标签。3.3.3分析与实施在本节中，我们分析了分类器的性能，因为它使用投影目标而不是真实目标特征。在下面的介词中，当在分类器中使用投影目标时，我们通过上界误分类的期望值开始。2号提案当使用投影目标而不是真实目标时，用分类器h获得的预期误分类率服从以下上限：编码器（VAE）[18]：在这种设置中，使用源数据特征z训练VAE，通过对它们进行编码以产生E（DT，DT）|≤|≤潜在空间u∈ N（0，I）。一种解码器G重构EDT|g（z）−h（z）|+E（DT，DT不|g˜(zt) −g˜(z∗)|（六）φ`t`）tx（生成）源特征流形Z通过最小化阿姆斯壮第一第二一个正则化的基于范数的损失。（b）生成性对抗方-ial Networks（GAN）[11]：这里，GAN是用生成器网络G φ训练的，该生成器网络Gφ映射任意潜在空间其中D和DT分别表示真实和投影目标分布（证明见附录）。12928s←（i）在Eq. θ是h在投影目标上的误分类误差，并且项（ii）是真实目标和投影目标的地面实况标签之间的差。考虑到我们的总体目标是最小化方程的LHS。6，前一节中的优化过程旨在最小化项（ii），而项（i）预计会更小，因为预计投影目标位于在其上训练分类器的源特征流形Zs在实施过程中，在推理过程中，我们优化了Eq.4（减少项（ii）在方程。（6）梯度下降。关于停止标准选择的讨论见第4.7节。训练和推理过程在算法1中有详细说明，如图1所示。算法1：推断时间目标投影培训输入：批量N，学习率η，源数据{（xk，yk）};结果：训练的fθ，生成模型Gφ，分类器Cφ度量是分类准确性，并且我们与基线Deep All方法进行比较：在组合的源域上训练分类器，而不采用任何DG技术。对于每个目标域，我们报告了模型五次独立运行的平均值和标准差我们还比较了我们的方法与现有的DG方法和报告的结果，数据集明智的。对于没有报告标准差的模型，我们将标准差报告为0。对于每个数据集，我们使用验证集来选择超参数（如果可用）。另一方面，我们从源域中分离数据，并使用较小的集合进行超参数选择.我们还使用数据增强来正则化网络fθ。有关数据集、机器配置和超参数选择的更多详细信息，请参阅附录。方法艺术卡通素描照片平均值对于采样的小批量{（xk，yk）}N ，对于所有i ∈ {1，. N}和jk=1∈ {1，.N}do（zi，zj）←（fθ（xi），fθ（xj））zi·zji，j zizjyi，j=δy，yIjpi，j←sigmoid（si，j/τ）端L←1N中国BCE损失（p（y）AN2i=1j=1i、ji、j端θ←θ−ηθLA在{（fθ（xk），yk）}上训练Gφ和Cφ。推理输入：目标图像xt，训练后的网络fθm，生成模型Gφ，分类器Cφ，迭代率β;结果：Tar get labelytzt←fθ（xt）;从N（0，I）采样u;初始化U和L为空列表，对于所有i∈ {1，. M} doz ←Gφ（u）z·ztǁzǁǁztǁu←u −βuLS（U[i]，L[i]）←（u，LS）端窗口平均法平滑Lu←U[arg maxiδ2L]yt←C（Gφ（u））4. 实验和结果我们已经考虑了四个标准DG数据集- PACS [21]，VLCS [8]，Digits-Home [43]和Digits-DG [48]，以证明我们方法的有效性。所有这些数据集包含四个域，其中三个域用作源，另一个域用作留一策略中的目标在我们所有的主要结果中，我们使用VAE作为生成模型Gφ，每-表1：PACS [21]数据集上不同模型之间的性能比较，AlexNet，ResNet-18和ResNet-50作为fθ网络的主干。4.1. 多源域综合PACS：PACS数据集由来自摄影、绘画、卡通和素描领域的图像组成。我们遵循[21]中定义的实验方案我们使用ResNet-50、ResNet-18和AlexNet作为特征提取网络fθ的主干，并在源域上训练它们。为了执行目标投影，我们通过在潜在空间（u）上训练VAE来学习从fθ产生的特征中采样如表1所示，我们用所有三种主链选择实现了最先进的结果。VLCS：VLCS包括VOC 2007（Pascal），LabelMe，Caltech和Sun域，所有这些域都包含照片。我们跟男人一样做实验-LS←1−AlexNet全部深入65.96±0.269.50±0.259.89±0.389.45±0.371.20吉根[5]67.63±0.071.71±0.065.18±0.089.00±0.073.38MMLD [27]69.27±0.072.83±0.066.44±0.088.98±0.074.38MASF [6]70.35±0.372.46±0.267.33±0.190.68±0.175.21EISNet [45]70.38±0.471.59±1.370.25±1.491.20±0.075.86RSC [16]71.62±0.075.11±0.066.62±0.090.88±0.076.05我们72.67±0.576.51±0.373.09±0.292.01±0.378.57ResNet-18全部深入77.65±0.275.36±0.369.08±0.295.12±0.179.30MMLD [27]81.28±0.077.16±0.072.29±0.096.09±0.081.83EISNet [45]81.89±0.976.44±0.374.33±1.495.93±0.182.15L2A-OT [47]83.30±0.078.20±0.073.60±0.096.20±0.082.80DSON [37]84.67±0.077.65±0.082.23±0.095.87±0.085.11RSC [16]83.43±0.880.31±1.880.85±1.295.99±0.385.15我们86.39±0.381.26±0.281.79±0.197.15±0.486.65ResNet-50全部深入81.31±0.378.54±0.469.76±0.494.97±0.181.15MASF [6]82.89±0.280.49±0.272.29±0.295.01±0.182.67EISNet [45]86.64±1.481.53±0.678.07±1.497.11±0.485.84DSON [37]87.04±0.080.62±0.082.90±0.095.99±0.086.64RSC [16]87.89±0.082.16±0.083.85±0.097.92±0.087.83我们90.25±0.485.19±0.286.20±0.598.97±0.190.1512929方法加州理工LabelMePascal孙Avg.全部深入96.45±0.160.03±0.570.41±0.462.63±0.372.38吉根[5]96.93±0.060.90±0.070.62±0.064.30±0.073.19MMLD [27]96.66±0.058.77±0.071.96±0.068.13±0.073.88MASF [6]94.78±0.264.90±0.169.14±0.267.64±0.174.11EISNet [45]97.33±0.463.49±0.869.83±0.568.02±0.874.67RSC [16]97.61±0.061.86±0.073.93±0.068.32±0.075.43我们98.12±0.166.80±0.374.77±0.470.43±0.177.53表2：在VLCS [8]数据集上使用AlexNet主干的不同模型之间的性能比较。在[27]中，我们在三个源域上训练，每个源域有70%的数据，并在第四个目标域的所有示例上进行测试我们使用与PACS 数据集中类似的fθ和Gφ设置，AlexNet作为主干。我们在VLCS上实现了SOTA结果，如表2所示。我们强调，不像PACS数据集的域不同的图像风格，VLCS由域只包含照片。因此，我们证明了我们的方法gener- alizes以及即使当源域是不多样的。方法艺术剪贴画产品真实世界Avg.全部深入52.06±0.546.12±0.370.45±0.272.45±0.260.27D-SAM [7]58.03±0.044.37±0.069.22±0.071.45±0.060.77吉根[5]53.04±0.047.51±0.071.47±0.072.79±0.061.20MMD-AAE [24]56.50±0.047.30±0.072.10±0.074.80±0.062.70DSON [37]59.37±0.045.70±0.071.84±0.074.68±0.062.90RSC [16]58.42±0.047.90±0.071.63±0.074.54±0.063.12L2A-OT [47]60.60±0.050.10±0.074.80±0.077.00±0.065.60我们62.63±0.255.79±0.376.86±0.178.98±0.168.56表3：在TMS-Home上使用ResNet-18主干的不同模型之间的性能比较[43]。方法MNISTMNIST-MSVHNSYNAvg.全部深入95.24±0.158.36±0.662.12±0.578.94±0.373.66吉根[5]96.50±0.061.40±0.063.70±0.074.00±0.073.90[第29话]95.20±0.058.20±0.065.50±0.079.10±0.074.50MMD-AAE [24]96.50±0.058.40±0.065.00±0.078.40±0.074.60[38]第三十八话96.70±0.061.10±0.065.30±0.080.20±0.075.80L2A-OT [47]96.70±0.063.90±0.068.60±0.083.20±0.078.10我们97.99±0.166.52±0.471.31±0.385.40±0.580.30表4：Digits-DG [48]数据集上不同模型之间的性能比较。主页：主页包含来自4个领域的图像，即艺术，剪贴画，产品和现实世界。我们遵循[7]中概述的实验方案。我们利用ResNet-18作为骨干网，并增加了两个完全连接的层。利用L1和L2损失函数使VAE的重建误差最小化。我们使用 ResNet-18 主干在所有域上实现SOTA结果，如表3所示。应该注意的是，Clipart是一个难以推广的领域，因为它与其他领域不同我们实现了5.6%的改进，最近的竞争对手的Clipart域，展示了我们的方法推广到不同的目标域的优点。Digits-DG：Digits-DG是我们的数字识别任务，[20 ][21][22][23][ 24][25][26]在字体风格和背景上有很大不同的域我们遵循[48]的实验设置，并将其体系结构用于特征提取器fθ。 Gφ网络以类似的方式实现，因为它是为PACS数据集实现的，ResNet-18作为主干。表4显示了我们的方法在Digits-DG数据集上与各种SOTA方法相比的性能4.2. 成对H发散我们研究了所提出的方法的有效性，在投影目标功能的源特征mani，通过计算一个称为A距离的H-发散的代理度量，该度量度量两个域之间的发散。我们计算来自草图域（目标域）的特征与每个特征之间的A距离三个源域（照片，卡通和艺术），以两种方式获得-第一，从源域（Deep All）上训练的ResNet-18模型，第二，使用我们的方法执行目标投影后我们在图2a中比较了从这两种方法获得的A距离。据观察，源-目标潜水员-与Deep All相比，Gence大大降低，表明我们的投影方案在将目标点带到源流形上方面的有效性4.3. 消融研究为了量化两个组成部分（即网络fθ和Gφ）的重要性，我们使用Digits-Home和Digits-DG数据集进行了消融研究对于Office- Home数据集，Deep All模型使用ResNet- 18作为主干进行训练，而[48]提出的主干用于Digits-DG数据集上的Deep All模型我们对从特征提取器网络中提取的目标域特征进行分类，而无需目标投影过程，如图2b所示。我们通过对fθ学习的域不变特征进行分类，而不使用Gφ网络，观察到了比Deep All我们把这归因于特征空间F中的fθ网络。当我们通过在Deep上训练生成模型来排除fθ所有特征并对这些特征执行投影过程，我们仍然观察到比仅仅使用Deep All模型进行分类有相当大的这表明了目标投影过程作为采样策略的有效性。如图2b所示，所有组件一起工作可以实现最佳性能。4.4. 采样策略为了量化用于Gφ网络的特定生成模型的效果，我们在VLCS数据集上报告了三个采样器的性能，即：（a）VAE，（b）目标样本与源样本的1-最近邻（1-NN），使用公式（1）中的相似性度量。2，（c）GAN，并在表5中显示结果。可以看出，使用con-12930图2：（从左到右）（a）显示源和投影目标特征之间的A-发散的图。（b）办公室-家庭数据集上的消融，突出了我们的方法中采用的不同组分的相对重要性（c）在20%、40%、60%和80%的PACS数据集上训练的不同方法的相对对于每个设置，我们使用留一策略报告目标域中所有示例的平均（d）在单个域（草图（S））上训练并在照片（P）、卡通（C）和艺术（A）域上测试的DG方法的相对性能连续生成模型（VAE和GAN）提供了比1-NN采样更好的性能在像LabelMe和Sun这样的领域，它们分别比1-NN抽样方法提高了约5.7%和7.0%。这是由于生成模型可以通过从经验数据中学习来逼近真实数据分布，并提供无限采样，而1-NN搜索仅限于现有的训练点。方法加州理工LabelMePascal孙Avg.全部深入96.4560.0370.4162.6372.381-NN96.5161.4471.8263.4673.31我们的（Gφ=GAN）97.8967.1874.5970.2877.48我们的（Gφ=VAE）98.1266.8074.7770.4377.53表5：我们的方法在具有不同采样策略的VLCS数据集上的性能。4.5. 低资源环境在本节中，我们展示了我们的方法在低资源环境中的有效性。我们表明，我们的方法推广以及使用时，在稀缺的资源设置和单域DG问题，也可以很容易地扩展到监督域自适应访问稀缺的标记目标样本。我们的方法具有双重优势，使其特别具有数据效率：（a）由于fθ是在图像对上训练的，因此即使在小数据集上也可以有效地学习（b）生成模型Gφ在目标投影过程中实现无限采样4.5.1稀缺资源设置我们将我们的方法与Deep All和两种最先进的方法RSC[16]和Jigen [5]进行比较。对于PACS中的每个源域，我们对来自每个域的{20%，40%，60%，80%}数据进行训练，并对整个目标域进行测试从图2c中可以明显看出，我们的方法在每个考虑的资源设置下都优于所有基线。图3：（左）（a）在PACS上推断期间偏离每个目标示例的最佳迭代次数的影响。（右）（b）迭代与目标示例在由照片、艺术和卡通域创建的源流形（Zs4.5.2监督域自适应在[36]和[28]中，这种设置也被称为少拍域自适应。在此设置中，除了源数据之外，我们假设我们可以访问有限数量的标记样本（|不|）从目标域中，火车时间我们训练特征提取器网络fθ，gener-主动模型Gφ和分类器Cφ对源数据进行微调，并对目标样本进行微调我们比较我们的方法[28]《易经》中的“道”，是“道”的意思。结果见表6。我们的表现远远优于最接近的竞争对手，从而突出了我们的方法对这种用例的适应性。4.5.3单源域泛化在单源DG中，我们在训练期间只能访问单个域，并且旨在推广到所有其他看不见的域。我们在PACS数据集的Sketch域上进行训练，并在其他三个域（即摄影、艺术绘画和卡通）。我们将我们的方法与Jigen[5]和RSC [16]进行比较。结果如图2d所示。我们还检查了我们的方法在这种情况下的每个分量fθ和Gφ的单独影响，通过检查每个12931方法|不|U→MM→SS→MAvg.FADA [28]791.5047.0087.2075.23[第29话]1095.7137.6394.5775.97071.1936.6160.1455.98M-ADA [36]792.3356.3389.9079.521093.6757.1691.8180.88074.5242.9664.1260.53我们793.8158.9292.0281.581096.1060.0795.3383.83表6：Digits数据集（MNIST [20]（M）、USPS [17]（U）和SVHN [32]（S））上不同模型之间的少拍域自适应性能比较方法S→ PS →CS →A深全部29.8832.47 30.56我们的（不含Gφ）33.7637.9436.02我们的（不含fθ）50.3966.8244.94我们的（fθ+Gφ）五十三点八二70.3350.61表7：单源DG上的消融，草图（S）作为源，照片（P）、卡通（C）和艺术（A）作为不可见目标域。没有他们每个人（表7）。我们观察到，在没有Gφ的情况下，Deep All和我们的方法之间的性能差异大大低于通过对Deep All特征执行目标投影所获得的改进，突出了投影过程的有效性当两者一起使用时获得最佳性能，因为投影过程有效地利用了由fθ定义的标签保持度量。4.6. 鲁棒域推广我们检查我们的方法对不同类型的腐败的鲁棒性我们对CIFAR- 10-C数据集[12]进行了基准测试，该数据集由在CIFAR-10测试集上以5个严重程度应用的19种破裂类型的图像组成。我们遵循[36]中详细描述的协议，并使用宽残差网络（WRN）骨干[46]在CIFAR-10数据集上训练我们的模型。结果按严重度水平列于表8，按破裂类型列于图4a。与4.5.3类似，我们观察到Gφ在推广到腐败方面的有效性方法1级2级3级4级5级欧洲风险管理[19]87.8±0.181.5±0.275.5±0.468.2±0.656.1±0.8M-ADA [36]90.5±0.386.8±0.482.5±0.676.4±0.965.6±1.2我们93.6±0.289.2±0.485.3±0.179.0±0.368.2±0.6表8：CIFAR-10-C在5种不同严重度水平准确性平均超过所有19腐败水平4.7. 确定停止标准3.3.3节中讨论的推理时间迭代优化过程需要一个停止准则，因为停止图4：（左）（a）M-ADA和我们的方法在CIFAR-10-C数据集中严重级别为5的19种腐败类型中的10种上的（右）（b）显示各组成部分的相对重要性的图我们的方法在CIFAR-10-C数据集上。平均精度在所有19个腐败级别。过早停止不能保证标签的保持，而过晚停止可能会将投影目标带到源流形上的低概率区域。我们解决这个问题的启发式：停止迭代过程中的“肘点”（二阶导数的最大值）的这种选择的灵感来自于观察，肘点反映了减少点返回;对于恒定的迭代速率（β），损失在超过该点后以较慢的速率减小。作为经验证据，我们通过围绕样本的二阶导数值的最大值n的固定迭代次数n来改变每个目标样本图3a中显示了准确度与灵敏度的关系图。我们观察到，最高的准确度是在n= 0附近获得的，这表明停止准则n= 0的正确性。对于负值，可以解释精度下降由于标签保存不充分，而投影的目标离开源流形时，λ的值为正值。5. 结论我们提出了一种新的域泛化技术，利用源域来学习域不变的标签保持度量空间。在推理过程中，每个目标样本都被投影到这个空间上，这样在源特征上训练的分类器就可以很好地推广投影的目标样本。我们已经证明，这种方法产生SOTA结果多源，单源和鲁棒域泛化设置。此外，该方法的数据效率使其适合在低资源环境下工作。未来的工作迭代可能会尝试将此方法扩展到用于分割和零次学习的域生成。12932引用[1] 尤格什·巴拉吉，斯瓦米·桑卡拉纳拉亚南，和拉玛·哲拉帕. Metareg：使用元正则化实现领域泛化.神经信息处理系统的进展，第998-1008页，2018年[2] Shai Ben-David ， John Blitzer ， Koby Crammer ， AlexKulesza ， FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论Machine learning，79（1-2）：151[3] Shai Ben-David ， John Blitzer ， Koby Crammer ， andFernando Pereira.域适应的表示分析。神经信息处理系统的进展，第137-144页，2007年[4] Konstantinos Bousmalis ， Nathan Silberman ， DavidDohan，Dumitru Erhan，and Dilip Krishnan.无监督像素级域自适应生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第3722-3731页[5] 法比奥·卡卢奇，安东尼奥·德诺森特，西尔维娅·布奇，巴巴拉·卡普托和塔蒂亚娜·托马西.通过解决拼图游戏进行领域概括。在IEEE计算机视觉和模式识别会议集，第2229-2238页[6] Qi Dou ， Daniel Coelho de Castro ， KonstantinosKamnitsas，and Ben Glocker.通过语义特征的模型不可知学习的领域泛化神经信息处理系统的进展，第6450-6461页[7] 安东尼奥·德诺森特和芭芭拉·卡普托使用特定于域的聚合模块进行域生成。德国模式识别会议，第187Springer，2018年。[8] 陈芳，叶旭，丹尼尔 N. 洛克莫尔 Unbiased metriclearning：On the utilization of multiple datasets and webimages for softening bias.在IEEE国际计算机视觉会议（ICCV）的会议中，2013年12月。[9] 雅罗斯拉夫·加宁和维克多·伦皮茨基。通过反向传播进行的无监督机器学习国际会议，第1180-1189页，2015年[10] Muhammad Ghifary ， W Bastiaan Kleijn ， MengjieZhang，and David Balduzzi.用多任务自动编码器进行目标识别的领域推广在IEEE计算机视觉国际会议论文集，第2551-2559页[11] Ian Goodfellow ， Jean Pouget-Abadie ， Mehdi Mirza ，Bing Xu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville，and Yoonne Bengio.生成性对抗网。神经信息处理系统的进展，第2672-2680页，2014年[12] 丹·亨德里克斯和托马斯·迪特里希。基准神经网络鲁棒性常见的腐败和扰动。在2019年国际学习代表会议上[13] 艾尔·埃克斯·赫尔娜·加尔西亚和彼得·科尼格。卷积神经网络数据增强的进一步改进。在国际人工神经网络会议上，第95-103页Springer，2018年。[14] 朱迪·霍夫曼、埃里克·曾、朴大成、朱俊彦、菲利普·伊索拉、凯特·萨恩科、阿列克谢·埃夫罗斯和特雷弗·达雷尔。Cycada：周期一致的对抗性域适应。在机器学习国际会议上，第1989- 1998页[1

下载后可阅读完整内容，剩余1页未读，立即下载