知识差异的可视化：领域转移中的无源图像翻译方法

78 浏览量更新于2024-01-22 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13824领域转移澳大利亚国立大学{firstname.lastname}@ anu.edu.au摘要在源数据上训练的源模型和通过无监督域自适应（UDA）学习的目标模型通常编码不同的知识。为了更好地理解这一顺应过程，我们用意象翻译来刻画他们的知识差异.具体地说，我们分别将翻译后的图像和原始图像输入到这两个模型中，形成两个分支。通过更新翻译后的图像，我们迫使两个分支的输出相似.当满足这样的要求时，两个图像之间的差异可以补偿并且因此表示模型之间的知识差异。为了增强两个分支的相似输出并描述适应的知识，我们提出了一种无源图像翻译方法，该方法仅使用目标图像和两个模型来生成源风格的图像。我们用不同的UDA方法在几个数据集上可视化了适应的知识，并发现生成的图像成功地完全捕捉到了两个领域之间的风格差异。对于应用程序，我们表明，生成的图像使进一步调整的目标模型，而无需访问源数据。代码可在https://github.com/hou-yz/DA_visualization获得。1. 介绍域转移或域适应旨在弥合源域和目标域之间的分布差距。许多现有的工作研究了无监督域自适应（UDA）问题，其中目标域是未标记的[27，6，46，1，11]。在这个过程中，我们感兴趣的是神经网络学习和适应什么知识。本质上，我们应该可视化模型之间的知识差异：在源域上训练的源模型，以及通过UDA为目标域学习的目标模型。我们的目标是描绘与图像生成的知识给定翻译后的图像及其原始版本，我们将这两个图像分别馈送到源模型和目标模型。期望图像对之间的差异可以补偿知识差异。(a) 目标图像（真实世界）(b) 生成的源代码样式图像(c) 看不见的源图像（合成）图1：VisDA数据集上非监督域适应（UDA）中适应知识的可视化[38]。为了描述知识差异，在我们的无源图像翻译（SFIT）方法中，我们从目标图像（a）生成源风格图像（b）。训练过程完全由源模型和目标模型指导，而不是访问源图像（c），以便忠实地描绘它们之间的知识差异。模型之间的参考，导致两个分支的类似输出（两个图像馈送到两个不同的模型）。实现这一点，我们也可以说图像对代表了知识差异。这个可视化问题是非常具有挑战性的，迄今为止尚未在文献中进行研究。它专注于迁移学习中相对研究不足的领域，我们从模型中提取知识差异并将其嵌入生成的图像中。相关的工作线，传统的图像翻译，利用内容图像和风格图像生成所需风格的图像[7，13，48]，并应用于13825在UDA的像素级对准方法中[26，2，44，11]。然而，依赖于两个领域的图像来表示风格差异，这样的作品不能忠实地描绘源模型和目标模型之间的知识差异，也无法帮助我们理解适应过程。在本文中，我们提出了一个无源图像翻译（SFIT）的方法，在那里我们翻译目标图像的源风格，而不使用源图像。源图像的排除防止系统依赖于图像对来进行风格差异指示，并且确保系统仅从两个模型学习。具体来说，我们将翻译后的源样式图像提供给源模型，将原始目标图像提供给目标模型，并通过更新生成器网络来强制为此，我们使用传统的知识蒸馏损失和一种新的关系保持损失，它保持特征映射之间的相对通道关系。我们表明，所提出的关系隐藏损失也有助于弥合域差距，而改变图像风格，进一步解释所提出的方法从域适应的角度来看。我们的方法的一些结果如图1所示。我们观察到，即使在无源设置下，来自两个模型的知识仍然可以为从目标风格到源风格的风格转换提供动力（SFIT降低了色彩饱和度并变白背景以模仿看不见的源样式）。在几个基准测试[19，36，39，38]中，我们表明，从所提出的SFIT方法生成的图像显着减少了两个模型之间的性能差距此外，我们发现，SFIT在不同程度上转移的图像风格，当我们使用不同的UDA方法在同一个数据集。这进一步验证了SFIT可视化对模型的忠实性，并且不同的UDA方法可以解决不同程度的风格差异。对于应用程序，我们表明，生成的图像可以作为一个额外的线索，并使目标模型的进一步调整这也属于UDA的苛刻设置，无源域适配（SFDA）[17，20，24]，其中系统无法访问源图像。2. 相关工作领域自适应的目的是减少源领域和目标领域之间的领域差距。企业级分销联盟是一种流行的策略[27，6，46，40]。 Long etal. [27]为此目的使用最大平均差异（MMD）损失。Tzeng等人[46]提出了一种基于生成对抗网络（GAN）的具有损失函数的对抗方法ADDA。图像平移的像素级对齐是UDA中的另一种流行选择[26，2，44，42，1，11]。霍夫曼等提出了基于CycleGAN [48]图像翻译的Cy-CADA [11还研究了其他选择。Saito等人[第四十届]对齐两个分类器的特定于任务的决策边界。无源域适配（SFDA）不使用源数据，因此极大地消除了发布源数据集时的隐私问题。作为早期尝试，AdaBN [22]将源CNN中的批量归一化层的统计数据Li等[20]生成具有与目标图像相同分布的图像，并使用它们来微调分类器。Liang等人[24]在目标图像上微调标签平滑[34]源模型。据作者知识蒸馏通过最大化教师输出和学生输出之间的互信息，将知识从预先训练的教师模型转移到学生模型[10一些现有的作品认为关系-在实例或像素之间运送，以便更好地进行每一次蒸馏[45，23，37]。无数据知识蒸馏（DFKD）[30，35，3，33，8，47]不是在给定的训练数据集上提取教师知识，而是首先生成训练数据，然后在此生成的数据集上学习学生网络。训练数据可以通过对齐特征统计[30，8，47]来生成，强制执行高教师配置，dence [30，35，3，8，47]，and adversarial generation ofhard学生的例子[33，47]。在[8，47]中，批归一化统计量被匹配为正则化。我们的工作虽然也假设无法访问源图像，但与这些工作的显著不同之处在于，我们的图像翻译必须描绘传递的知识，而无数据的知识蒸馏只是生成满足教师网络的任何图像。意象翻译是将同一内容以不同的艺术风格表现出来。一些现有的作品采用基于GAN的系统来完成这项任务[26，44，14，48，11]，而其他作品则使用用于风格转换的预训练特征提取器[7，15，32，13]。Zhu等人在图像翻译循环中采用循环一致性损失来训练CycleGAN系统[48]。 Gatys等人考虑高级特征图上的内容损失，以及用于样式传输的特征图统计上的样式损失[7]。Huang和Belongie [13]提出了一种通过改变实例规范化层中的统计数据来实现实时AdaIN风格传输的方法。基于AdaIN，Karraset al.提出StyleGAN用于最先进的图像生成[16]。我们的工作不同于传统的图像翻译，而不是来自两个域的图像，只有两个域的模型被用来指导图像更新。3. 问题公式化为了实现我们的目标，即，在UDA中可视化适应知识，我们将图像x从某个域转换为新的图像x。希望将原始图像馈送到其相应的模型（针对该特定领域进行训练）并且所生成的图像到另一个模型可以最小化13826不S发生器来源CNN目标图像处理生成的图像关系保持损失知识蒸馏损失目标CNN图2：提出的无源图像翻译（SFIT）方法，用于可视化UDA中的适应知识。该系统包括两个分支：原始目标图像被馈送到目标CNN，而生成的源风格图像被馈送到源CNN。我们最小化知识蒸馏损失和关系保持损失，并相应地更新生成器网络。如果两个分支机构在采用不同模型的同时得到相似的结果，那么，在原始的目标图像x和所生成的源样式图像x之间，模型之间的知识差异虚线表示固定网络参数。这两个分支之间的输出差。更新过程仅由源模型fS（·）和目标模型fT（·）指导，并且我们提供对来自其他域的图像的访问我们制定- 将适应的知识可视化为源模型、目标模型和来自某个领域的图像的函数的任务，G（fS，fT，x）→x≠.（一）相比之下，传统的图像翻译需要从内容和风格规范这两个域访问除了源图像xS和目标图像xT之外，传统的图像翻译还依赖于某些神经网络工作d（·）作为标准。不是源头和标签-获取模型，ImageNet [4]预训练的VGG [43]和adver-分别在风格转换[7，13]和基于GAN的方法[48，11]中使用经过特殊训练的神经网络来完成这项因此，传统的图像翻译任务可以被公式化为，G（d，xS，xT）→xS.（二）我们在Eq中的目标比较。1和传统的图像transla- tion方程。第二，我们可以看到他们之间的差距。传统的图像翻译学习来自两个领域的图像所表示的风格差异，而我们的目标是学习以可视化源模型和目标模型fS（·）、fT（·）之间的知识差异。4. 方法为了研究神经网络在自适应中学习到什么，我们提出了无源图像翻译（SFIT），这是一种从原始目标图像生成源风格图像的新方法，以减轻和表示模型之间的知识差异。4.1. 概述根据许多以前的UDA工作[6，27，46，24]，我们假设只有源模型中的特征提取器CNN适用于目标域。给定源CNNfS（·）和目标CNNfT（·）共享相同的分类器，p（·），我们为SFIT任务训练生成器g（·）我们讨论为什么我们在4.3节中选择这个平移方向。作为训练过程是无源的，为了简单起见，我们在下面将目标图像称为x而不是xT。如图所示。在生成的图像x=g（x）中，源模型输出特征图 fs（x= g）和所有C类上的概率分布p（ fs（x= g））。来描绘所生成的图像中的适应知识，此外，针对传统的知识提取损失，提出了一种新的关系保持损失，它保持了目标-图像-目标之间的相对通道关系模型特征图f N（x）和生成图像源模型特征图fN（x）。4.2. 损失函数有了知识蒸馏损失LKD和关系保持损失LRP，我们就有了总损失函数，L=LKD+ LRP。（三）在下面的章节中，我们将详细介绍损失条款。知识蒸馏损失。在所提出的无源图像翻译方法中，用源模型和生成器组合的fs（g（·））在目标模型fT（·）中描绘适应的知识可以被看作是知识蒸馏的特殊情况，其中我们的目标是蒸馏将适应的知识传递给发电机。在这种情况下，我们在生成的图像源模型输出p（fs（x））和获取图像之间包括知识蒸馏损失。分类器分类器13827F我的SS¨目标模型输出p（fT（x）），LKD=DKL（p（fT（x）），p（fS（x），（4）其中DKL（·，·）表示Kullback-Leibler偏差。关系维护损失。类似的分类输出表明成功描述了目标模型关于生成图像的知识。由于我们假设UDA的分类器是固定的，因此在成功的知识蒸馏之后，来自目标图像目标CNN和生成的图像源促进fea之间类似的渠道关系-真实映射fN（x）和fN（x∈ N）有助于实现这一目标。(a)关系保持损失（b）传统风格损失T S以前的知识蒸馏工程保存相对批量或像素关系[45，23]。但是，由于以下原因，它们不适合这里相对批量关系不能有效地监督每图像生成任务。此外，在分类器之前的全局池化可能会掩盖逐像素关系保持的功效。相比之下，逐通道关系是在每个图像的基础上计算的，并且即使在全局池化之后也是有效的。因此，我们选择按以下方式计算的信道方式关系保留损失。Giv en特征映射fN（x），fN（x≠），我们首先重塑图3：提出的关系保持损失和传统风格损失之间的比较。在（a）和（b）中，给定256维特征图，我们示出了按行归一化的Gram矩阵的差异（等式2）。8）和原始的Gram矩阵（Eq. 9）。较深的颜色表示较大的差异，因此表示较强的监督。所提出的关系保持损失提供了均匀分布的所有渠道的监督，而传统的风格损失主要集中在几个渠道。T S4.3. 讨论将它们转换为特征向量FS和FT，fN（x∈RD×H×W→FfN（x）∈RD×H×W→F∈RD×HW，∈RD×HW，（五）为什么要将目标图像转换为源样式。根据方程中的问题公式。1，我们应该能够通过生成ei来可视化适应的知识TT从目标图像中提取源样式图像，或目标样式图像其中，D、H和W是特征图深度（通道）、高度和宽度。接下来，我们计算它们的通道自相关，或格拉姆矩阵，GS=FS·FT，GT=FT·FT，（6）图片来源图片在本文中，我们选择了for-mer方向，因为它可能会进一步应用于微调目标模型（参见第5.4节的应用）。风格转移与关系保存损失。所提出的关系保持损失可以被认为是其中GS，GT∈RD×D.像知识蒸馏的其他相似性保留损失[45，23]一样，我们然后应用行式L2归一化，作为Gatys等人介绍的传统风格损失的标准化版本。[7]，1G=<$GS[i，：]<$，G=、（7）Lstyle=G-G-T-2，（9）D2S[i，：]<$GS[i，：]<$2T[i，：]<$GT[i，：]<$2它计算Gram矩阵之间的MSE。其中[i，：]表示矩阵中的第i行。最后，我们将关系保持损失定义为归一化Gram矩阵之间的均方在所提出的关系中，保持损失（Eq. 8），而不是原来的革兰氏矩阵，我们使用一个行的正规化版本。它侧重于以下方面的相对关系：1¨LRP=D？¨S−GF ，（8）通道，而不是在传统风格的损失自我相关的绝对值。保持相对关系为所有人提供更均匀分布的监督213828其中，表示Frobenius范数（条目式L2矩阵的范数在第4.3节中，我们进一步讨论了关系-从风格转换和域适应的角度来看，它可以以类似于风格转换的风格损失[7]和UDA的MMD损失[27]的方式对齐特征图分布，迫使生成器描绘两个模型之间的知识差异。通道，而不是像传统风格损失那样优先考虑几个通道（图3）。实验发现，这种均匀分布的监督更好地保留了前景对象，并允许更容易的训练和更高的性能，同时也改变了图像风格（见第5.5节）。分布对齐与损失的关系。正如Liet al. [21]传统风格13829不[27]这是一个与《古兰经》中的“真主的使者”（愿主福安之）相似的故事。我们还可以将关系保持损失看作是MMD损失的修改版本，它调整了生成的图像源CNN特征映射fN（xN）到S目标图像目标CNN特征图f N（x）。5. 实验5.1. 数据集我们在以下数据集上可视化源模型和目标模型之间的知识差异。Digits是一个标准的UDA基准，专注于10类数字识别。具体来说，我们在MNIST [19]，USPS和SVHN[36]数据集上进行了实验。Office-31是UDA的标准基准，包含来自三个不同领域的31个类：Amazon（A），Webcam（W）和DSLR（D）。VisDA[38]是一个具有挑战性的大规模UDA基准，用于从12类合成CAD模型图像到COCO [25]中的真实世界图像的域适应。5.2. 实现细节源模型和目标模型。如果没有指定，我们采用SFDA最近的工作SHOT-IM [24]中的源和目标模型SFDA是UDA的一个特例，在没有源数据的情况下，看看机器学习了什么更有趣。我们还包括UDA方法DAN [27]和ADDA [46]用于SFIT结果比较。对于网络架构，在数字数据集上，遵循Longet al. [28]，我们选择LeNet [18]分类器。在Office-31和VisDA上，我们分别选择ResNet-50和ResNet-101 [9]。SFIT的发生器。由于内存问题，我们使用修改后的CycleGAN [48]架构，具有3个残差块培训计划。在训练过程中，我们首先将生成器初始化为透明过滤器，它生成与原始输入相同为此，我们使用ID损失LID=1×1×1×1，内容损失L内容=表1：数字数据集的分类准确率（%）。在表1-3中，方法A→WD→WW→DA→DD→AW→AAvg.ResNet-50 [9]68.496.799.368.962.560.776.1丹麦[27]80.597.199.678.663.662.880.4DANN [6]82.696.999.381.568.467.582.7ADDA [46]86.296.298.477.869.568.982.9JAN [29]86.096.799.785.169.270.784.6CDAN+E [28]94.198.6100.092.971.069.387.7GTA [41]89.597.999.887.772.871.486.53C-GAN [20]93.798.599.892.775.377.889.6源模型[24]76.995.698.580.360.663.479.2目标模型[24]90.898.499.988.873.671.787.2生成的图像89.198.199.987.369.868.785.5微调91.898.799.989.973.972.087.7表2：Office-31数据集的分类准确率（%）。在表2和表3中，方法飞机bcycl公共汽车小汽车马小刀mcycl人工厂sktbrd火车卡车按类ResNet-101 [9]55.1 53.3 61.9 59.1 80.6 17.979.731.281.026.5 73.5 8.552.4丹麦[27]87.1 63.0 76.5 42.0 90.3 42.985.953.149.736.3 85.8 20.761.1DANN [6]81.9 77.7 82.8 44.3 81.2 29.565.128.651.954.6 82.8 7.857.4JAN [29]75.7 18.7 82.3 86.3 70.2 56.980.553.892.532.2 84.5 54.565.7ADDA [46]88.8 65.7 85.6 53.1 74.9 96.283.370.775.926.4 83.9 32.469.7丹麦[40]87.0 60.9 83.7 64.0 88.9 79.684.776.988.640.3 83.0 25.871.9CDAN+E [28]85.2 66.9 83.0 50.8 84.2 74.988.174.583.476.0 81.9 38.073.9瑞典[5]95.9 87.4 85.2 58.6 96.2 95.790.680.094.890.8 88.4 47.984.33C-GAN [20]94.8 73.4 68.8 74.8 93.1 95.488.684.789.184.7 83.5 48.181.6源模型[24]58.3 17.6 54.2 69.9 64.45.582.230.762.224.6 86.2 6.046.8目标模型[24]92.5 84.7 81.3 54.6 90.5 94.780.979.190.881.5 87.9 50.180.7生成的图像88.9 65.8 83.0 61.7 88.5 76.889.569.691.451.9 84.3 34.373.8微调94.3 79.0 84.9 63.6 92.6 92.088.479.192.279.8 87.6 43.081.4-fN（x）−fN（x）-训练生成器进行初始化-S S2第初始化性能如表4所示，我们可以看到原始目标图像的准确度下降了1.9%。然后，我们用等式中的整体损失函数训练生成器。3用于可视化适应的知识。具体来说，我们使用亚当优化器与余弦衰减[31]学习率从3×10−4开始，批量大小为16。所有的实验都是在RTX-2080 Ti GPU上完成的。5.3. 评价生成图像的识别精度。为了检验所提出的SFIT方法是否能够描述知识差异，在表1-3中，我们报告了使用生成图像源模型分支（称为“生成图像”）的识别结果在数字数据集上，表3：VisDA数据集的分类准确度（%）在性能差距方面，源模型和目标模型之间的知识差异在SVHN→MNIST上为26.5%，在USPS→MNIST上为7.6%，在SVHN →MNIST上为25.2%。在MNIST→USPS上。从SFIT桥生成的图像这些差异分别为0.2%、0.7%和0.3%。在Office-31数据集中，两个模型之间的性能差距平均为8.0%，生成的图像将其缩小到1.7%。值得注意的是，性能从目标图像目标模型分支下降到生成的图像图像源模型分支在D→A和W→A上尤其明显，这两种设置将具有白色或无背景Amazon图像转换为真实世界背景方法SVHN→MNISTUSPS→MNISTMNIST→USPS来源[11]67.1±0.669.6±3.882.2±0.8丹麦[27]71.1-81.1DANN [6]73.87385.1CDAN+E [28]89.298.095.6CyCADA [11]90.4±0.496.5±0.195.6±0.4丹麦[40]96.2±0.494.1±0.394.2±0.7GTA [41]92.4±0.990.8±1.395.3±0.73C-GAN [20]99.4±0.199.3±0.197.3±0.2源模型[24]72.3±0.590.5±1.672.7±2.3目标模型[24]98.8±0.198.1±0.597.9±0.2生成的图像98.6±0.197.4±0.397.6±0.313830(a) 目标图像（MNIST）(b) 生成的源代码样式图像(c) 不可见源图像（SVHN）图4：SFIT方法在数字数据集SVHN→MNIST上的结果。在图1和图4 - 6中，我们在（a）中显示：目标图像，（b）：生成的源样式图像，每个源样式图像对应于其上方的目标图像，以及（c）：未看见的源图像。对于灰度目标图像来自MNIST，我们的SFIT方法添加了随机RGB颜色，以模仿不可见源（SVHN）中的全色样式，而不改变内容。(a) 目标图像（网络摄像头）(b) 生成的源代码样式图像(c) Unseen source images（亚马逊）图5：Office- 31数据集Amazon→Webcam上的SFIT方法的结果。我们的翻译方法使背景变白，同时增加对象（网络摄像头）的对比度，以获得更吸引人的外观，如在线购物图像（亚马逊）。在网络摄像头或数码单反相机。事实上，在实验中我们发现生成一个整体一致的彩色背景是非常必要的，系统通常会在物体的轮廓关于VisDA在数据集上，生成的图像将性能差距从33.9%缩小到6.9%，即使在更苛刻的设置和从真实世界图像到合成CAD模型图像的更大域差距下也是如此。总的来说，在所有三个数据集上，生成的图像显着减轻了性能差距方面的知识差异，表明所提出的SFIT方法可以成功地将自适应知识从目标模型提取到生成的图像。无源代码图像翻译结果的可视化。对于数字数据集SVHN→MNIST（图4），生成器学习将RGB颜色添加到灰度MNIST（目标）图像，其模仿全色SVHN（源）图像。对于Office-31数据集亚马逊→网络摄像头（图。5）、生成的图像背景是白色的，而不是真实世界的背景是亚马逊的主要特征之一（来源）与网络摄像头（目标）相比，此外，亚马逊在线购物图像也具有更高的对比度，以获得更吸引人的外观，我们的翻译图像也捕捉到了这些特征，例如，计算器里的钥匙，台式电脑的箱子里对于VisDA数据集SYN→REAL（图1和图6），生成器学习降低真实世界（目标）的整体饱和度。使它们更类似于合成（源）场景而同时使背景变白的对象，例如，图中的马、卡车和飞机1、图中的汽车和滑板6，并带出植物的绿色总体而言，图像生成结果显示出与目标图像相比最小的内容变化，同时成功捕获了看不见的源样式。在视觉质量方面，值得注意的是，数字数据集SVHN→MNIST的生成结果包含不是来自源域的颜色和图案，而我们在Office-31数据集和VisDA数据集上的结果是更符合看不见的源头由于缺乏源图像，而不是传统的图像翻译方法[7，13，11，44]，SFIT只依赖于源和目标模型，并根据这两个模型描绘适应的知识。由于较弱的LeNet分类器用于数字数据集，因此更容易生成满足所提出的损失项的图像，而不需要生成的在Office-31和VisDA数据集上，考虑到ResNet等更强大的模型，很难生成满足损失项的图像。更严格的限制和更长的训练时间导致生成结果与看不见的源图像更一致，也具有更好的视觉质量。不同UDA方法的可视化。在图7中，我们显示了使用不同UDA方法的SFIT可视化结果。在给定源域和目标域的情况下，传统的图像翻译方法生成的图像类型与UDA方法无关，这表明其无法呈现模式之间的知识差异13831(a) 目标图像（真实世界）(b) 生成的源代码样式图像(c) 看不见的源图像（合成）图6：VisDA数据集SYN→REAL上的SFIT方法的结果。我们的翻译方法降低了目标（真实世界）的图像饱和度和白化的背景，同时保持语义不变。(a)（b）（c）（d）图7：使用不同UDA方法对VisDA数据集进行SFIT的结果（a）目标图像;（b）DAN [27];（c）ADDA [46];(d) [24]第二十四话埃尔。相比之下，所提出的SFIT方法产生不同的-ADDA结果的一致性不如SHOT-IM，但优于DAN。这进一步验证了我们的SFIT方法确实可视化了模型之间的知识差异，并且更强的适应方法可以更好地忍受风格差异（导致更大的知识差异，从而更强的风格迁移结果）。5.4. 应用从SFIT生成的图像允许在SFDA系统中进一步调整目标模型，其中没有源图像可用。我们在所有训练样本上包括多样性损失，以促进均匀的类分布，.ΣLdiv=−HEx <$Ptarget（x）[p（fT（x））]，（10）其中H（·）表示信息熵函数。我们还包括伪标签微调损失，如果伪标签y=S，为来自生成图像源模型分支的argmaxp（fS（x））等于来自获取图像获取模型分支的伪标签yT=argmaxp（fT（x））。然后我们使用这个伪标签y=yS=yT来微调目标模型，.不同UDA方法的输入图像。具体来说，当H（p（fT（x）），y∈ H），如果L=y=yS=yT，（十一）比较DAN [27]，ADDA [46]和SHOT-IM [24]中适应知识的可视化结果，我们发现伪0，否则，更强的UDA方法可以更好地将目标样式转换为不可见的源样式。如图7所示，在用于风格转移的背景白化方面，SFIT重新13832其中H（·，·）表示交叉熵函数。我们结合这两个损失方面的方程。10、Eq. 11，以给出总体微调损耗LFT=Ldiv+ Lpseudo。13833变体LKDLRP准确度（%）目标图像--46.8初始化g（·）44.9[12]第十二话51.7不含LKD✓72.7不含LRP✓71.2LRP → L型✓L型[7]66.4LRP → L批次✓L批次[45]71.2LRP → L像素✓L像素[23]70.9盛菲特✓✓73.8表4：V在DA数据集上的变异研究.(a)（b）（c）（d）图8：使用不同分布对齐方法对VisDA数据集进行可视化的结果。 (a)目标图像;(b)[12]第二节：传统风格的损失[7];(d)关系维护损失。作为一个额外的提示，来自生成图像源模型的监督在Office-31上，根据表2，微调带来了0.4%的性能提升。在VisDA上，微调将目标模型精度提高了0.7%，如表3所示。这些改进在统计上是非常显著的（即，p值0.001，超过5次运行），并介绍了SFIT生成图像的真实应用。<5.5. 比较和变体研究与BatchNorm统计对齐方法的比较[12]。Hou等人建议匹配批量特征图统计数据，以便直接生成模仿源样式的图像。具体地说，他们探索存储在源模型中BN层中的使用他们的方法，我们可以温和地将图像更改为看不见的源样式（见图1）。8）并稍微减少两个分支之间的性能差异（见表4）。也就是说，与所提出的方法相比，它们缺乏两个分支之间的输出对齐（仅来自源分支的知识蒸馏的损失。知识蒸馏损失将适应的知识转移到生成的图像，并且将其移除导致1.1%的性能下降。保持损失的关系的效果。如图8、传统风格的丢失可以成功地将目标图像自行转换为源风格。但使用与“w/oLRP“变体相比，它导致4.8%的性能下降另一方面，发现分批或逐像素关系保持变体[45，23]没有用，因为它们未能改进相比之下，所提出的通道式关系保留损失LRP可以有效地提高所生成图像的识别精度，因为包含它会导致业绩增长2.6%。此外，如图所示。8、与传统的风格损失类似，仅使用关系保持损失也能有效地将目标图像转换为不可见的源风格。此外，专注于相对通道关系而不是绝对相关值，所提出的关系保留损失可以更好地保持前景对象（不太模糊且更突出），同时转移整体图像风格，从而导致更高的识别精度。6. 结论本文研究了UDA中适应性知识可视化的科学问题。具体来说，我们提出了一个无源图像翻译（SFIT）的方法，它产生源风格的图像从原始目标图像的指导下，源和目标模型。源模型上的翻译图像与目标模型上的目标图像达到了相似的结果，表明了对适应知识的正确描述。这些图像也表现出了源风格，并且风格转移的程度遵循UDA方法的性能，这进一步验证了更强的UDA方法可以更好地解决域间的分布差异。我们表明，生成的图像可以用于微调目标模型，并可能有助于其他任务，如增量学习。确认这项工作得到了 ARC 发现早期职业研究者奖（DE200101283）和ARC发现项目（DP210102801）的支持。13834引用[1] Konstantinos Bousmalis ， Nathan Silberman ， DavidDohan，Dumitru Erhan，and Dilip Krishnan.无监督像素级域自适应生成对抗网络。在IEEE计算机视觉和模式识别集，第3722一、二[2] 康斯坦蒂诺斯·鲍斯马利斯，乔治·特里乔吉斯，内森·西尔伯曼，迪利普·克里希南和杜米特鲁·埃尔汉.域分离网络。神经信息处理系统的进展，第343-351页，2016年2[3] Hanting Chen ， Yunhe Wang ， Chang Xu ， ZhaohuiYang，Chuanjian Liu，Boxin Shi，Chunjing Xu，ChaoXu，and Qi Tian.学生网络的无数据学习。在IEEE计算机视觉国际会议论文集，第3514-3522页，2019年。2[4] J. 邓，W。东河，巴西-地索赫尔湖，美-地J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。2009年CVPR 09中。3[5] 杰夫·弗伦奇，迈克尔·麦凯维奇，马克·费舍尔。视觉域自适应的自集成。2018年，参加国际学术会议。5[6] 雅罗斯拉夫·甘宁、叶夫根尼娅·乌斯季诺娃、哈娜·阿亚坎、帕斯卡尔·热尔曼、雨果·拉罗谢尔、弗朗索瓦·拉维奥莱特、马里奥·马尔尚和维克托·列皮茨基。神经网络的领域对抗机器学习研究杂志，17（1）：2096-2030，2016。一二三五[7] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集，第2414-2423页，2016年。一、二、三、四、六、八[8] Matan Haroush，Itay Hubara，Elad Hoffer，and DanielSoudry. 其中的知识：无数据模型压缩方法。arXiv预印本arXiv：1912.01274，2019。2[9] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集，第770-778页，2016年。5[10] 杰弗里·辛顿，奥里尔·维尼亚，杰夫·迪恩. 在神经网络中提取知识。arXiv预印本arXiv：1503.02531，2015年。2[11] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Efros和TrevorDarrell。CyCADA ：周期一致的对抗域自适应。在Jennifer Dy和Andreas Krause，编辑，第35届机器学习国际会议的主席，机器学习研究论文集第80卷，第1989PMLR。一二三五六[12] 云中侯、梁政。源免费做主要适应与图像翻译. arXiv预印本arXiv：2008.07514，2020。8[13] 黄勋和塞尔日·贝隆吉。任意风格的实时传输，具有自适应的实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页，2017年。一、二、三、六[14] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.图像到图像的翻译与条件副词-sarial网络。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页2[15] 贾斯汀·约翰逊亚历山大·阿拉希和李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694Springer，2016. 2[16] Tero Karras Samuli Laine和Timo Aila一种用于生成对抗网络的基于风格的生成器体系结构。在IEEE计算机视觉和模式识别会议论文集，第4401-4410页2[17] Jogendra Nath Kundu ， Naveen Venkat 和 R VenkateshBabu 。通用无源域适配。 arXiv 预印本 arXiv ：2004.04393，2020。2[18] YannLeCun，Le'onBottou，YoelmanBengio和PatrickHaffner。应用于文档识别的基于顺应性的学习Proceedings of the IEEE，86（11）：2278-2324，1998.5[19] Yann LeCun，Corinna Cortes，and CJ Burges.手写数字数据库。[Online].可查阅：http://yann.lecun.com/exdb/mnist，2010年2月。第二、五条[20] Rui Li，Qianfen Jiao，Wenming Cao，Hau-San Wong，and Si Wu.模型自适应：无源数据的无监督域自适应。在IEEE/CVF计算机视觉和模式识别会议论文集，第9641第二、五条[21] 李阳浩，王乃彦，刘嘉颖，侯小迪去神秘化神经风格转移。在第26届国际人工智能联合会议上，IJ-CAI'17，第2230-2236页。北京：清华大学出版社，2017.4[22] 李阳浩，王乃彦，石建平，侯晓迪，刘嘉颖。自适应批量规格化的实际域适应. 模式识别，80：109-117，2018。2[23] Zeqi Li，Ruowei Jiang，and Parham Aarabi.保持语义关系的图像到图像翻译知识提取。欧洲计算机视觉。施普林格，2020年。二，四，八[24] 梁健，胡大鹏，贾世峰。我们真的需要访问源数据吗？用于无监督域自适应的源假设转移。在国际机器学习会议（ICML）上，第xx-xx页二、三、五、七[25] 林宗义，迈克尔·梅尔，塞尔日·贝隆吉，詹姆斯·海斯，彼得罗·佩罗纳，德瓦·拉马南，彼得·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco：上下文中的常见对象。欧洲计算机视觉会议，第740Springer，2014. 5[26] 刘明宇和昂塞尔·图泽尔。耦合生成对抗网络。神经信息处理系统的进展，第469-477页，2016年。2[27] Mingsheng Long ， Yue Cao ， Jianmin Wang ， andMichael I Jordan.使用深度适应网络学习可转移特征。arXiv预印本arXiv：1502.02791，2015年。一、二、三、四、五、七[28] Mingsheng Long ， Zhangjie Cao ， Jianmin Wang ， andMichael I Jordan.条件对抗域适应。神经信息处理系统的进展，第1645-1655页，2018年513835[29] Mingsheng Long ， Han Zhu ， Jianmin Wang ， andMichael I Jordan.具有联合适应网络的深度迁移学习

下载后可阅读完整内容，剩余1页未读，立即下载