无监督跨领域泛化学习的视觉表示模型

177 浏览量更新于2023-10-26 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5280通过学习跨领域的桥梁实现无监督领域泛化Sivan Harary*1，Eli Schwartz*1，2，Assaf Arbelle*1，Peter Staar1，Shady Abu-Hussein1，2，Elad Amrani1，3，RoeiHerzig1，2，Amit Alfassy1，3，Raja Giryes2，Hilde Kuehne6，7，Dina Katabi5，Kate Saenko4，7，Rogerio Feris7，Leonid Karlinsky**11IBM研究院，2特拉维夫大学，3以色列理工学院，4波士顿大学，5麻省理工学院，6歌德大学，7麻省理工学院-IBM沃森人工智能实验室摘要在显著不同的视觉领域（例如真实照片、剪贴画、绘画和草图之间）概括学习到的表示的能力是人类视觉系统的基本能力。在本文中，不同于大多数跨领域的作品，利用一些（或全部）源域监督，我们接近一个相对较新的和非常实用的无监督域泛化（UDG）设置，没有训练监督，无论是在源域或目标域。我们的方法是基于跨域桥（BrAD）的自监督学习-一个辅助桥域，伴随着一组语义保留视觉（图像到图像）映射到BrAD从每个训练域。BrAD和到它的映射是与对比自监督表示模型联合学习的（端到端）在这项工作中，我们展示了如何使用边缘正则化的BrAD，我们的方法在多个基准和一系列任务中实现了显著的收益，包括UDG，Few-shot UDA和跨多域数据集的无监督泛化（包括泛化到看不见的域和类）。1. 介绍当人们第一次看到一些带有设备原理图的技术手册时，不需要任何监督就可以将这些原理图与真实的复杂对象联系起来。这证明了人类基本能力之一的重要性和效率-在多个视觉领域几乎没有监督的情况下学习的能力，以及在没有额外监督的情况下有效推广到新领域甚至新对象类的能力*同等贡献绘画布拉德房草图剪贴画图1.最初，相同的域实例彼此之间的距离比其他域中相同类的实例之间的距离更近。流行的自监督学习技术的朴素应用倾向于在类之前分离域（第4节）。我们的方法是学习一个BrAD -一个辅助桥域（例如边缘图像），它有助于跨域对齐同一类的实例。箭头表示我们的训练损失在特征空间中施加的力（第3节）。绿色=吸引;红色=排斥。在第2节中广泛讨论的最近的文献中，有大量关于学习在目标域中没有监督的情况下跨域语义概括的作品。目标域可以在无监督域自适应（UDA）中被观察为未标记图像的集合，或者甚至在域生成（DG）中的训练期间完全不可见。对于UDA和DG，成功的推广将意味着所需的下游任务（分类，检测等）。将成功转移到新的可见或不可见域。然而，在大多数UDA和DG作品中，对应作者：sivangl juelisch juelassaf.arbelle juelassafleonidka@il.ibm.com5281假定预期的下游任务。但我们在现实生活中的用例中总是这样吗？在许多情况下，例如上面的技术手册示例，我们需要我们的系统不仅推广到新的领域，而且还推广到全新的对象类型，我们可能只有很少的数据（图像和/或标签）-不足以训练标准的UDA或DG方法。近年来，Unsupervised DG（UDG）和Few-ShotUDA（FUDA）的工作很少，意识到了这个问题的重要性，并将源域的监督限制在很少甚至零个标记示例。在本文中，我们的目标是限制性最小的（在标签要求方面）UDG设置，在训练时我们不需要任何源域监督，并且还隐含地支持泛化到具有新的不可见类的全新的不可见视觉域。当我们被要求快速画出一些东西时，我们都会画出一个边缘状的图像。物体边缘似乎是我们所观察到的所有领域的共同的通用视觉表示。这推动了我们BrAD方法背后的基本直觉：教机器以同样的方式表示所有视觉域（在特征空间中），就像它表示边缘状图像的这种似乎普遍共享的视觉域一样。我们的方法（图1）是基于我们提出的可学习跨域桥（BrAD）的概念-一个辅助的视觉“桥”域，它是相对容易的视觉映射（在图像到图像的意义上）所有感兴趣的领域。BrAD仅在我们模型的对比自监督训练期间使用，用于将每个训练域的表示（特征）与共享BrAD的表示（特征）进行语义对齐。通过特征空间中的这种语义对齐的传递性，所有域的学习模型表示都是这使得学习到的BrAD映射不需要用于推断，使得训练的模型在测试时甚至能够推广到新的看不见的域（对于这些域，我们没有BrAD映射）。此外，不依赖于BrAD映射进行推断允许利用也由我们的表示模型编码器学习的非BrAD特定特征（例如颜色）（第2.1.1节）。（3）第三章。我们表明，即使是一个简单的启发式实现的BrAD的想法，映射图像到他们的边缘地图，已经给出了一个很好的改善强自我监督的基线不利用BrAD。我们进一步表明，使用可学习的BrAD，我们的方法在各种数据集和任务中表现出良好的收益：UDG，FUDA，以及建议的推广到不同领域和类别的任务。总结我们的贡献如下：（i）我们提出了一个可学习的BRAD的新概念-一个辅助的视觉BrAD的概念与自监督对比学习和一些额外的想法相结合，可以为不同类型的源标签有限的跨域任务（包括UDG，FUDA，甚至在没有监督的情况下跨多域基准的泛化）训练有效的（和高效的）模型;（iii）我们展示了比UDG高达14%和高达13的显着收益。在几个基准测试中，比FUDA各自的最新技术水平（SOTA）高出3%，并且在将学习到的表示转移到新的看不见的域和对象类别而无需任何额外的微调方面显示出显着的优势。2. 相关工作无监督域自适应（UDA）。UDA [17]指的是将知识从标记的源域转移到未标记的目标域。大多数UDA方法采用特征分布对齐，使用：域分布的最大离散度[26，36，38，49，53，69，70]，对抗域分类器[14，15，22，37，51，56，63]，以及熵优化[27，37，47，48]。 GAN图像在[2，22，30，40，50，52]中使用了翻译。在[35，59，64]中，源域数据被替换为在源上预先训练的模型。[39]使用低级边缘特征来加强UDA中的一致性，以进行单目深度估计。在少数拍摄UDA（FUDA）[27，65]中，每个类只有少数例子在源域中被标记，而其余的都是未标记的。在我们的工作中，我们更进一步，在训练过程中没有看到任何标记的示例的情况下，预先形成域适应。域泛化（DG）。DG致力于将知识转移到培训期间看不见的领域。大多数DG作品在（一组）标记的源域上执行监督训练。用于监督DG的方法包括：跨域的分布匹配[32，34]，不同源域损失的自适应加权[46]，执行潜在表示的低秩[33]和随机源域混合[60]。无监督DG（UDG）是[68]介绍的使用未标记源域进行训练的新任务。未标记的源域图像用于自监督预训练，然后通过标记源图像的一小部分来将分类器拟合到学习的表示。我们显示了我们的方法在UDG设置中的强大优势，即使是在直接通过kNN使用未监督的预训练特征而无需任何进一步的分类器拟合时。自我监督学习（SSL）。SSL是指从未标记的数据中学习强语义特征表示。从历史上看，许多文本前的任务被提议用于SSL [13，16，28，42，43，67]。最近，对比学习[5对比方法通常通过使同一图像的两个增强在特征空间中比它们到一组负锚的距离更接近来优化在我们的实验中，我们展示了一个广告-5282nnEB→P→Q ∈ D→ ∈ Dn=1{· ··}nDa1ma2BnLnnnnnnn��免费WiFiL'-B正则化骨干ℬ域鉴别器投影Pn=绘画L$%&-对抗性损失L）*n+Lnc#−InfoNCE损失科隆动量更新�� ∈��势头骨干网络势头投影Pm$Lnc#−InfoNCE$损失&画a2正密钥被存储！ =n在绘画队列中，作为将来的负键从绘画队列中提取负键图2. BrAD培训架构。 Ia1，Ia2是图像In∈ Dn的随机扩充. n（I a1），n（I a2）是它们各自的使用（学习的）域特定的图像到图像映射来将图像映射到桥域，箭头的颜色表示流经模型的图像：I a1（蓝色）、I a2（粉红色）、n（I a1）（绿色）和n（I a2）（红色）。对比的否定键k−丢失有时来自域特定队列。我们应用L正则化，从边缘映射中提取（甚至可以是一个简单的Canny，参见第二节。4.4），迫使桥域图像类似于边缘图，其（直观地）对域移位不太敏感。最后，一个域的不变性A和对抗损失Ladv提高域不变性的投影图像表示。我们的方法优于将流行的SSL方法直接应用于多域数据，这可能是由于SSL方法倾向于在分离类之前分离域与我们的工作同时，[11]成功地在视频中使用了HOG我们的方法可以很容易地允许采用HOG或其他手工制作的基于边缘的功能作为学习的桥域的替代正则化，从而为在未来的工作中进一步研究对比SSL的边缘实用程序提供了一个通用工具。UDA和DG的自监督学习。一些UDA和DG方法在其管道中使用SSL损耗。解决拼图游戏的SSL任务在[42]中被用来帮助UDA和DG。[54]将源域上的监督学习与两个域上的SSL结合起来。最近[27，65]提出了一种用于少射UDA（FUDA）的跨域SSL方法，[68]提出了一种用于UDG的SSL如前所述，我们展示了我们的方法对于FUDA和UDG任务的强大优势3. 方法令D={Dn}N是用于训练的N个域的集合学习和下面解释的其他想法具体来说，我们的训练架构（图2）由以下组件组成：（1）主干：IRd（例如，具有GAP和d= 2048的ResNet 50）-它是训练后唯一保留的东西，其余组件仅用于训练，随后丢弃;（2）投影头：Rd其中p d（例如，两层MLP（p= 128）和L2归一化在顶部：（3）分离的否定队列n对于每个域D n-由于域之间的分离比类之间的分离容易得多，我们观察到，所有域都有一个队列（如[9]中所述）会损害性能（如第2节所述）。4.4）;（4）一组图像到图像模型，用于映射每个域Dn对于共享的（在所有可见和不可见的域中）辅助BrAD域，将BrADn正则化以产生包括BrAD的边缘状图像，在第2节中。4.探讨和比较了几种选择的方法;（5）域区分器：Rd1，，N，其是仅应用于图像表示的对抗域分类器B（n），并试图预测原始的任何图像In ∈Dn投影到n的主索引n。Intu-学习产生混淆A的表征ing （例如，FUDA 中的一对源域和目标域[27 ，65]，或UDG中的一组源域[68]）。每个域D n由一组未标记图像{I j}表示，更好地对准了所有不同的原始域的投影。（6）动量模型Bm和Pm（如在[9]中）：分别仅EMA更新了B和P的副本为了清楚起见，我们将省略j并用I表示从域Dn.我们的目标是训练一个骨干模型B（例如，CNN），将任何图像In∈Dn投影到d维表示空间F<$Rd（所有训练在从所有训练域联合随机采样的图像批次中进行。为了清楚起见，我们将描述单个输入图像的训练流程I n∈D n∈ D.有两个增广域），在某种程度上，对于一个类映射C（未知在nn训练）和任意In∈Dn和Im，Ir∈Dm，s.t.C（In）=C（I m）=C（I r）：||B（I n）−B（I m）||≪||B（I n）−B（I r）||将首先，我们定义以下对比损失：L（In）=Lnce（P（B（I）），P（B（n（I），Qn）可能会满意。此外，我们的总体目标是，n na 1mm一个2+L（P（B（I），P（B（I）），Q）语义对齐属性也将推广到其他领域，即使它们在训练期间没有被看到。nce nnnn（一）我们使用对比自监督学习进行训练，扩展了MocoV2方法[9]以纳入BrAD其中nce（q，k+，k-）是查询q的标准InfoNCE损失[19，20]，吸引q的正键k+，以及损失张量NN模块队列（存储器）1，11，2⋯1美元（绘画）2，12，2⋯2002，$（real）...尼日尼日⋯100N，$（草5283BLB∈∈BPLBPLLB的1|Q|· ||nnLAFBLPL的1ABLLD−LABBALL∈联系我们MEMma 2m一个2否定键的集合k−排斥q。我们的InfoNCE使用余弦相似性来比较查询和键。因为在Eq.正关键字k+总是经由动量模型m和m（不产生梯度）编码，我们需要这两个nce以便训练和表示原始训练域图像Dn及其BrAD-映射<$n（In）Ω。注意，Eq.（1）教导直接从每个Dn中提取BrAD相关特征，这意味着我们可以在训练后丢弃BrAD映射模型，甚至应用于我们没有学习的BrAD映射的看不见的领域。在处理每个批次之后，批次图像的Qn← Qn<${P（B（I）n（I））、P（B（I（2）其中当计算用于训练对抗域判别器的梯度时，ADV前面的符号变为正。实作详细数据。我们的代码在PyTorch [12]中，基于[9]的代码。我们在实验中设α1，α2，α3= 1UDG实验的主干是ResNet-18 [21]（与[68]相同），FUDA和跨基准泛化实验的主干是ResNet-50（与[27]相同）。我们使用的批次规格为256，SGD，力矩为0。9，余弦LR-时间表（从LR 0.03到0.002），并针对FUDA训练250个epoch，针对UDG训练1000个epoch（与[68]相同）。我们设置n=min（64K，2Dn），并仅存储从每个域图像In及其投影（通过n）生成的单对（动量）表示。此外，我们发现将q的缓存版本从其k−negative键集合中排除会稍微有好处以这种方式维护我们的队列使得来自未来训练批次的Dn图像不仅能够与其他Dn图像的投影进行对比，而且还能够与来自Dn的其他图像进行对比-从而使得我们的表示模型能够用一些Dn特定的特征（例如颜色特征）来补充其特定于图像的特征集。此外，我们使用以下对抗性损失：Ladv（In）=CE（A（B（In），n）（3）其中CE是标准交叉熵损失，n1，N是图像I，n的正确域索引。我们使用标准的在每个训练批次中，域n最小化adv，而阻塞和n梯度，而和n最小化负损失：adv，而阻塞梯度。注意，我们只使用adv来进行原始域的双投影，因此不需要在的域之间进行直接对齐。此外，为了减少adv和adv之间的“竞争”，我们直接在生成的表示（最终特征）上使用域判别器，而不是在投影头生成的表示（用于提高adv效率的临时特征）上使用域判别器。最后，我们定义了BrAD损失，该模型产生边缘状图像，包括共享的辅助BrAD域，我们表明，这是非常在不同的任务中有效。第四章：a 1a12当计算nce（q，k+，k−）损失。为我们使用带有LeakyReLU的3层MLP（1024，512，256），然后是线性域分类器。对于BrAD映射模型，我们在其PyTorch实现[41]中使用了HED [ 62 ]的架构。4. 结果由于我们的BrAD方法在训练过程中是完全无监督的，因此我们使用了无监督或有限监督的跨域任务，特别是无监督域泛化（ UDG ） [68] 和少镜头 UDA（FUDA）[27，65]，以评估其性能并与其他自监督或源标签有限的跨域方法进行比较。此外，我们还评估了BrAD和其他自监督方法如何在大规模未标记的跨域数据（如DomainNet）上进行训练后推广到看不见的域和看不见的类[44]。数据集。DomainNet [44]是迄今为止最大、最多样化和最新的跨域基准测试。它由6个域组成：Real，Painting，Sketch，Clipart，Infograph和Quickdraw，具有345个对象类，每个域48 K-173 K图像，平均每个类269个PACS[31]是一个标准的领域泛化基准。它由4个领域组成：照片，艺术，卡通和素描，有7个对象类，每个领域2.5K图像，平均每个类357个图像。VisDA[45]是一个模拟到真实的数据集，有12个类。模拟域通过重复（80-480次）3D对象模型实例的3D渲染生成，每个类50-150个模型。因此，它仅由101.5K个不同的对象实例组成。办公室-L（I n）=||n（In）− E（In）||（四）Home[57]是一个相对较小的数据集，由4个do-mains：Art，Clipart，Product and Real，with65 classes，and其中是一些边缘模型，它可以是启发式的，例如Canny边缘检测器[4]，或预先训练的，例如HED [62]，我们在Sec. 4.4最后，我们对图像In的全部损失因此是Lf（In）=α1·Lcont（In）+α2·L（In） −α3·Ladv（In）（5）平均每班只有60张图片。4.1. 无监督领域泛化UDG任务被定义为：（i）在一组源域上进行无监督训练;（ii）仅使用小的标记1可在https://github.com/leokarlin/BrAD上查阅5284目标域名Clipart Info.快绘画实景素描油漆。真实素描}{Clipart快。}总体平均值标签分数1%ERM6.542.965.006.686.977.255.885.89BYOL [18]6.213.484.275.008.474.425.615.30MoCo V2 [9，20]18.8510.576.3211.3814.9715.2812.1212.90AdCo [23]16.1612.265.6511.1316.5317.1912.4713.15Simplified V2 [8]23.5115.425.2920.2517.8418.8515.4616.55[68]第六十八话18.5310.6212.6514.4521.6821.3016.5616.53我们的（kNN）40.6514.0021.2816.8022.2925.7222.3523.46我们的（线性cls）47.2616.8923.7420.0325.0831.6725.8527.45标签分数5%ERM10.217.085.347.456.085.006.506.86BYOL [18]9.605.096.029.7810.733.977.837.53MoCo V2 [9，20]28.1313.799.6720.8024.9121.4418.9919.79AdCo [23]30.7718.657.7519.9724.3124.1919.4220.94Simplified V2 [8]34.0317.1710.8821.3524.3427.4620.8922.54[68]第六十八话39.3219.0910.5021.0930.5128.4923.3124.83我们的（kNN）55.7518.1526.9324.2933.3337.5431.1232.66我们的（线性cls）64.0125.0229.6429.3234.9544.0935.3737.84标示分数10%ERM15.109.397.119.909.195.128.949.30BYOL [18]14.558.715.959.5010.384.458.698.92MoCo V2 [9，20]32.4618.548.0525.3529.9123.7121.8723.05AdCo [23]32.2517.9611.5623.3529.9827.5722.7923.78Simplified V2 [8]37.1119.8712.3324.0130.1731.5824.2825.84[68]第六十八话35.1520.8815.6925.9033.2930.7726.0926.95我们的（kNN）60.7819.7631.5626.0637.4341.3834.7736.16我们的（线性cls）68.2726.6034.0331.0838.4848.1738.7441.10表1.DomainNet上UDG的准确度（%）结果所有基线结果均来自[68]。所有方法都使用ResNet18主干，并且在标记（仅源）数据上训练之前，在无监督的情况下预训练1000个epoch。所有基线都使用线性分类器（对于我们的基线，我们还包括不使用任何监督训练的kNN结果ERM表示随机初始化的ResNet18。总体和平均值分别表示总体测试数据准确度和每个域准确度的平均值。它们是不同的，因为不同域的测试集大小不同报告的结果是3次运行的平均值粗体=最好，蓝色=第二好。源域图像的子集，以在由无监督模型产生的（冻结的）特征的顶部上拟合线性分类器;以及（iii）评估在训练期间看不见的一组目标域上的所得分类器在我们的UDG实验中，我们准确地遵循了UDG最新技术水平（SOTA）方法DIUL [68]的方案，包括相同的主链弓。相同数量epoch，以及用于训练和测试的类的相同子集与[68]相同，我们在DomainNet上进行了评估[44]（Tab。1）和PACS [31]（表2）。在DomainNet中，我们训练Clipart，Infograph和Quickdraw，并测试看不见的绘画，真实和素描，反之亦然。对于PACS，我们使用其他三个域作为源进行留一域测试（对所有域重复此操作与DIUL [68]不同，当源标签的数量为源数据大小的10%时，DIUL [68]使用额外的完整模型微调，我们的自监督模型从未使用源标签进行微调（在所有情况下）。此外，我们还为我们的方法提供了kNN结果，其中我们使用我们的直接生成特征而无需任何额外的训练。从Tab中可以看出1和Tab。2、BrAD恶魔--显示显著的增益（在线性CL中均是如此。和在kNN模式中）不仅在[68]上，而且在各种SOTA自监督预训练基线上（以与[68]完全相同的方式使用分类器这说明了一个重要的观点，BrAD的想法似乎可以有效地提高自监督预训练对看不见的目标域的泛化能力，根据这些结果，这对于当前的自监督SOTA方法来说似乎是相当困难的。4.2. 少次无监督域自适应我们使用最大和最新的跨域数据集DomainNet [44]来评估我们的BrAD方法FUDA [27，65]性能。与[65]相同（也是常见的UDA实践），对于此评估，我们仅使用4个域：Clipart，Real，Painting和Sketch，以及Tab中列出的源目标方向3 .第三章。我们遵循5285AdCo [23] 46.51 30.21 31.45 22.96 32.78Simplified V2 [8] 54.65 37.65 46.00 28.25 41.64迪欧[68] 53.37 39.9146.41 30.17 42.47我们的（kNN）67.20 41.9945.3250.04 51.14我们的（线性cls）72.17 44.20 50.01目标域照片艺术。卡通素描标签分数1%Avg.概括地说，我们包括我们的方法在我们的预期模式和成对模式的结果。在我们预期的模式所有的域名都（3 ）、本方法的源 - 目标优势在于多效率（单知查询r）。和类ns考虑它可以一般-一个有访问lti域数据训练一个con-所以假设推理在一个新的看不见的ERM16.2716.6218.4012.0115.82为了测试领先的自我监督方法[5，6，9，10，BYOL [18]27.0125.9420.9819.6923.4066]处理拟议的情况（一般化到MoCo V2 [9，20]44.1925.8533.5324.9732.14可见和不可见领域的混合，以及大多数不可见领域表2. PACS上UDG的准确度（%）结果。对于每个目标域，所有其他3个域都用作训练的源域。有关运行次数、列标题含义等的其他详细信息，请看Tab。1标题。所有基线结果均来自[68]。粗体=最佳结果，蓝色=第二好。在[65]中定义的FUDA协议，其中源域每个类别具有单个（1次）或三个（3次）标记图像，其余图像作为未标记图像提供。我们使用与[65]提供的相同类别和每种情况下标记样本的精确指数进行重复性。我们的结果和其他方法的比较总结在表中。3 .第三章。根据[65]的协议，所有计算方法模型都使用ImageNet预训练进行初始化，并在转换设置2中运行。除了我们的方法之外，所有的方法在训练过程中每个类都使用相应的1或3个样本在我们的例子中，我们只在推理过程中使用这些样本-或者作为kNN中的搜索空间，或者用于训练线性分类器（仅在这些少数标记的源图像上）。除了我们的方法之外，所有的方法都是为了分别处理每对源域和目标域而设计的。因此，为了比较，2根据[65]发布的官方代码，transductive=在训练中使用整个域数据（包括未标记的测试数据）。换流设置可使性能提高约3-4%（第4.4）。类），并将其性能与我们的方法进行比较，我们进行了以下跨数据集FUDA一般化实验，其结果在Tab. 4.第一章我们使用它们的官方代码和推荐的超参数和主干设置对来自 DomainNet 的 Clipart 、 Real 、 Painting 和Sketch域的所有方法（包括我们的方法）都使用相同的ResNet50主干，除了Dino [6]，它使用了更强的ViT主干，并对其进行了优化。然后，我们使用kNN分类器和第二节中详细介绍的FUDA设置对4.2，在CNASHome [57]，PACS [31]和VisDA [45]跨域数据集上。在所有情况下，每个类的1次和3次震源域示例都是随机采样的，并且对于所有方法都保持相同。该实验（射击的取样）重复5次，并在表1中显示。4我们报告平均值。Sim-ilar to UDG experiments in Sec. 4.1中，这些结果再次表明了流行的自监督学习方法所固有的跨域泛化困难，以及BrAD在提高这种泛化能力方面的优势。4.4.消融研究在选项卡中。5我们在DomainNet数据集[44]上使用FUDA任务[27，65实验设置见第2节。4.2以上。具体来说，我们展示了在1次拍摄中产生的模型的平均性能3自监督对比学习方法（包括我们的方法）的一个已知限制是需要观察每个类相对大量的不同实例（自然没有类标签）。ERM10.9011.2114.3318.8313.82（3）我们训练一个单一的模型，BYOL [18]11.2014.5316.2110.01一共12.99美元。在成对模式MoCo V2 [9，20]22.9715.5823.6525.2721.87我们训练7个不同的模型，每个模型一个，AdCo [23]26.1317.1122.9623.3722.39主对。除了展示一个有竞争力的广告Simplified V2 [8] 30.9417.4330.1625.2025.93方法在所有模式下，结果在Tab. 3指数[68]第六十八话27.7819.8227.5129.5426.16领域培训在ef中具有明显的优势我们的（kNN）55.0035.5438.1234.1440.70型号与7种型号）、易用性（无需我们的（线性cls）61.8133.5743.4736.3743.81域）和性能（约10%比标签分数5%4.3.对未知域的ERM14.1518.6713.3718.3416.13一个有趣的研究问题BYOL [18]26.5517.7921.8719.6521.47瓦特自我监督学习-是如何MoCo V2 [9，20]37.3925.5728.1131.1630.56ize到看不见的域和类。假设AdCo [23]37.6528.2128.5230.3531.18到大量不同的未标记的亩Simplified V2 [8] 54.6735.9235.3136.84需要40.68（例如，未标记的DomainNet [44]）[68]第六十八话44.6139.2536.4136.5339.20transative自我监督模型3.然而，al我们的（kNN）58.6639.1145.3746.1147.31训练后的模型需要用于我们的（线性65.2241.3550.8850.6852.03少量情景（即数据很少）5286QB∼∼源域目标域真实剪贴画真画真实素描绘画剪贴画绘画真实剪贴画草图素描画Avg.仅来源基线[65]18.4/30.230.6/44.216.7/25.716.2/24.628.9/49.812.7/24.210.5/23.219.1/31.7[第四十七话]13.8/22.829.2/46.59.7/14.516.0/25.126.0/50.013.4/20.114.4/24.917.5/29.1CDAN [37]16.0/30.025.7/40.112.9/21.712.6/21.419.5/40.87.20/17.18.00/19.714.6/27.3MDDIA [24]18.0/41.430.6/50.715.9/37.415.4/31.427.4/52.99.30/23.110.2/24.118.1/37.3加拿大[25]18.3/28.122.1/33.516.7/25.013.2/24.723.9/46.911.1/23.312.1/20.116.8/28.8[27]第二十七话23.1/36.640.0/54.022.2/35.524.1/38.135.1/57.618.8/35.425.2/45.126.9/43.2[27]第二十七话35.4/47.436.7/52.833.4/43.225.6/41.229.4/56.419.3/37.522.5/41.128.9/45.6PCS [65]39.0/45.251.7/59.139.8/41.926.4/41.038.8/66.623.7/31.923.6/37.434.7/46.1我们的配对（kNN）43.6/49.550.4/57.041.7/47.935.9/41.044.2/60.734.5/42.436.1/45.540.9/49.1Ours pairwise（linearcls.）44.0/51.450.1/58.947.0/55.635.7/42.544.5/62.135.3/45.035.65 /45.041.8/51.5我们的（kNN）46.4/57.652.0/59.450.5/58.945.1/55.349.3/61.348.3/56.449.0/59.348.6/58.3我们的（线性cls）48.6/60.655.1/62.852.8/61.644.6/56.647.8/63.647.9/59.851.0/61.049.7/60.8表3. DomianNet上FUDA任务[65]的1次/3次精度（%）结果。除CDS [27]外，所有基线结果均来自[65]。CDS结果由作者提供，高于[65]中报告的结果粗体=最佳结果，蓝色=第二好。性能（-0. 3/+0。1）;（ii）MQ：用于对比损失的多个负队列（n）-为1次拍摄情况（+4. 2/+0。4）单独使用，与DD（+3. 8/+6。（iii）Canny BrAD：启发式Canny [4]边缘检测器形式的Canny BrAD-导致一个非常强大的性能提升（+10，9/+11。9）强调BrAD想法的有效性;（iv）HED BrAD：HEDBrAD是在BSDS 500[ 1 ]数据集上预训练的冻结HED [ 62 ]边缘检测器-我们观察到，即使使用强的预训练边缘检测器模型也不足以相对于更简单的Canny BrAD（-1）进一步改进。七比一。8），这清楚地强调了BrAD模型C3n需要与我们在主要方法中提出的表示模型联合学习（端到端）;（v）学习的BrAD：C3n是HED [62]模型，与我们的BrAD方法的其他组件端到端训练，如第8节所述。3-强调需要学习BrADCanny模型，这相对于智能CannyBrAD（+2. 8/+2。3）和整体相比，不使用BrAD（+13。7/+14。2）;（vi）由Canny生成的边缘的组合的典型示例，预训练的HED [62]，以及我们学习的BrAD如图3所示-可以看出，BrAD和HED都丢弃了背景噪声，但未方法办公室主页PACsVisDA恐龙[6]12.41 /16.9730.90 /34.6725.02 /28.14SWAV[5]13.26 /17.8031.14 /33.0925.65 /29.26新加坡[10]13.67 /18.2730.24 /32.2724.70 /28.80[66]第六十六话17.86/24.0641.18 /46.1825.34 /30.47MocoV2 [9]17.64 /22.6349.00/54.2530.34/36.10我们21.79/28.2155.61/6332.98/40.22表4. 1-射击/ 3射击精度（%）交叉数据集结果。这些模型在DomainNet上从头开始训练，并在Patient Home，PACS和VisDA上进行测试。我们报告平均超过5次随机射击。粗体=最好，蓝色=第二好。21.0 22.3价格-20.6 27.9埃克塞特-31.5 39.829.8 38.0学习成绩学习成绩-37.8 47.1学习成绩-44.1 55.2学习成绩*中国-中国38.7 51.1阿玛尼Canny阿玛尼41.4 52.7美国41.6 51.9表5.在具有knn分类器的Domain- Net数据集上使用FUDA任务的BrAD消融研究。粗体=最好，蓝色=第二好。突出显示的行是我们在Sec中的完整方法。4.2设置。 “与HED一样，BrAD学习保留形状和纹理的语义细节，如房屋窗户、长颈鹿斑点或人的手臂（补充材料中提供了其他示例（vii）预训练的Transductive / ImageNet：根据PCS的FUDA实验设置[65]，用于我们在第12节中的FUDA评估中的所有方法4.2，训练从ImageNet预训练模型开始，并将转换范式用于未标记的域数据-我们已经验证了转换设置始终增加了4%的预训练，而ImageNet预训练具有更显著的影响，增加了10%的性能。通过添加所有上述组件并与PCS [65]的实验设置对齐，我们得出了我们的主要FUDA结果（在表中突出显示）。（五）。此外，我们还验证了我们的方法对HED模型[62]的BSDS 500 [1]数据集预训练没有很强的依赖性。具体来说，我们随机初始化了BRNBrAD模型（具有HED架构），学习能力48.658.3/3-shots Fuda on DomainNet从vanilla MocoV 2 [9]开始演变，并添加：（i）DD：域区分-DDMQ布拉德Ψn透导ImageNet预训练单次拍摄3次注射（A在Eq.（3））--✓--------16.816.521.922.05287EL并取代了BSDS500预训练的HED模型，如在BSDS500中所使用的那样（公式10）。（4））具有简单的模糊Canny边缘图（更多细节在补充中）。这样，在我们的系统中任何地方都没有任何BSDS500预训练权重。从表5中相应的“learned *“行可以看出，最终结果（-1. 2/+1。0））表明我们的方法可以在没有HED的BSD 500预训练的情况下同样有效。详情请参阅补充资料。最后，我们验证了由于引入BrAD模型而观察到的强大收益不会随着ImageNet预测试和转换设置而消失。在Tab的相应行中可以看到。 5，Canny和冷冻HED BrAD变体都保持高达2的适度增益。9%（在无BrAD模式下），而我们的完整方法与学习到的神经网络BrAD保持大幅上涨（+9. 9 + 7。（2）如预期。5. 结论和局限性在本文中，我们提出了一种新的自监督跨域学习方法的基础上语义对齐（在特征空间）所有的域到一个共同的BrAD域-一个学习的辅助桥域伴随着相对容易学习的图像到图像的mappings. We已经探索了一个特殊的情况下，边缘正则化的BrAD -特别驱动BrAD是一个域的边缘映射的图像。在这个实现中，我们已经展示了我们所提出的方法对于重要的有限源标签任务（如FUDA和UDG）以及跨域基准之间的泛化到潜在的不可见域和类的建议任务的显著优势。我们观察到这些任务比以前的无监督和部分监督方法有了显着的改进。未来的工作还可能包括探索这里使用的边缘样变换作为对比SSL的潜在有用的增强一般。目前的文件的局限性包括：（i）故意只关注边缘状桥域，这是一个最简单的BrAD可以构建。当然，这也有局限性，例如，降

下载后可阅读完整内容，剩余1页未读，立即下载