无监督域自适应：基于正则化对齐的编码器设置为狗

28 浏览量更新于2023-10-12 收藏 938KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1416编码器：设置为狗基于正则化条件对齐的Safa Cicek，StefanoSoatto UCLA视觉实验室加州大学洛杉矶分校，CA 90095{safacicek，soatto}@ ucla.edu摘要我们提出了一种用于无监督域自适应的方法，该方法训练共享嵌入来对齐输入（域）和输出（类）的联合分布，使任何分类器对域不可知。联合对齐确保不仅域的边缘分布对齐，而且标签也对齐我们提出了一个新的目标函数，鼓励类条件分布在特征空间中有不相交的支持我们毛皮-源（目标）狗图像编码器：将其设置为目标（源）狗类预测器：设置为dog联合预测器：L级犬猫...加入条件与域类标号来源狗来源猫...目标狗目标猫...一致性损失另外，利用对抗正则化来提高分类器在没有注释数据可用的域1. 介绍在分类的上下文中，无监督域自适应（UDA）包括修改在标记数据集（称为“源”）上训练的分类器更一般地说，我们希望训练一个模型来操作来自源域和目标域的输入数据，尽管后者没有注释数据例如，一个人可能有一个合成数据集，其中注释是免费的，但希望得到的模型在真实数据上工作良好，其中手动注释很少或不存在[30]。最成功的方法是使用对抗（最小-最大）标准来学习深度神经网络的参数。这个想法是同时识别类（输出）和域（例如，，合成的从某种意义上说，分类器对领域变得不可知。这可以理解为调整了两个域的输入的边际分布。不幸的是，这不能保证成功的转移，因为源（比如说合成图像）可能与目标（比如说自然图像）完美地对准，而猫的自然图像映射到狗的合成图像。我们希望-将其设置为源（目标）狗图1.提出了网络结构的处理方法。我们建议通过联合预测器（紫色）学习域标签d和类标签y上的联合分布P（d，y）。编码器（或范围）被训练为通过匹配与两个域的相同类别样本相对应的特征来混淆该联合预测器。由于目标数据的标签是未知的，因此在一致性损失的帮助下使用目标数据上的类预测器（蓝色）的预测未标记的数据进一步利用SSL文献中的输入平滑算法VAT [26]。因此，对于调整输出以及输入。这促使其他方法调整域和类的联合或条件分布，而不是边缘分布。这产生了两个问题：第一，目标类别标签未知;第二，由于存在输入的共享表示，因此对齐联合分布可能导致它们崩溃，从而失去模型的区分能力。为了解决这些问题，我们提出了一种方法来执行联合分布的对齐（Sect. 2.2）。我们采用半监督学习（SSL）的思想来提高泛化性能（Sect. 2.3）。我们提出了一个优化方案，使用两个折叠的标签空间。所得到的方法在不推动超参数优化的限制的情况下以最先进的方式执行（Sect.（3）第三章。我们在监督设置中分析了所提出的目标函数，并证明了最优解在保持分布区分性的同时有条件地对齐了分布（Sect. 4）.最后，我们讨论我们的贡献，1417i ii=11 22 NN关系到广大和不断增长的文献UDA（节。（五）。形式化我们给Ns个标记源样本xs∈ Xs和相应的标记ys∈Ys，给Nt个未标记目标样本xt∈ Xt. 整个训练数据集X具有基数N=Ns+Nt。标记的源数据和未标记的目标数据来自两个不同的分布（do-main shift）：（xs，ys）P s，（x t，y t）P t，其中，通过Kullbach-Liebler（KL）散度测量的它们的差异为KL（P s||Pt）>0（协变量偏移）。两个分布都定义在X×Y上，其中Y={1，...，K}。边缘分布定义在X上，样本从它们中抽取为xs<$Ps，xt<$Pt。假设有限的sam-分布在域和类变量上。编码器将试图通过最小化源中的狗样本与目标域中的样本之间的分类损失来欺骗预测器，该目标域中的样本在对齐域中的预测标签也是狗。在训练期间，分配给联合预测器的前K个标签的概率对于目标样本非常小因此，我们需要一个单独的机制来为目标样本提供伪标签，以便由联合预测器进行对齐。为此，我们训练另一个预测器，我们称之为类预测器输出-只输出类标签。类预测器在使用地面真实标签的源数据和使用半监督学习（SSL）正则化器的联合预测器和类预测器都可以是SX xples{（x s，y s）}N：={（x s，y s），（x s，ys），.，（x ss，y ss）}不用于推理。然而，我们发现类预测器性能稍好。我们推测这是因为根据P s和{（x t）}N ：={x t，x t，...， x tt}从P t，i i=11 2 Nx预测器在域和类的较难任务上进行训练目标是学习一个分类器f：X→Y，风险在目标域中。这种风险可以用交叉熵来衡量：minE（x，y）PtCE（f（x）;y）（1）F哪里CE（f（x）;y）：=−是针对单热、地面实况标签y∈ {0，1}K和标签估计f（x）∈RK计算的交叉熵损失，其是具有输入x的深度神经网络的输出，并且K是类的数量。2. 该方法在本节中，我们将展示如何形式化对齐输入和输出的标准，尽管在缺乏监督的情况下，后者对于目标类是未知边缘分布的对齐可以使用域对抗神经网络（DANN）[10]来完成，这将源数据的标准分类损失添加到域的二进制分类损失：源代码与目标代码。如果一切顺利，类预测器将正确地对源数据进行分类，而二进制域预测器则无法区分源数据和目标数据之间的差异。因此，类预测器也可以正确地对目标数据进行分类。不幸的是，这并不能保证，因为可能会有输出空间的不对齐，导致源中的某些类映射到目标中的不同类例如一只天然的猫变成了一只人造的狗。我们方法的关键思想是在域对齐上施加的不是二元对抗损失，而是2K路对抗损失，就好像我们有2K个可能的类：第一个K是已知的源类，第二个K是未知的目标类。我们将结果称为联合域类预测器或简称为联合预测器，因为它学习一个预测，而在推理时仅需要后者。我们认为UDA是一个双重问题。第一步通过对齐特征空间中的分布来处理域偏移。给定成功的比对，可以使用仅源训练的模型进行推断。但是，一旦匹配了域，就可以通过作用于标签空间来进一步提高泛化能力。来自SSL的想法可以帮助实现这一目标[26]。该模型的整体架构如图所示1.2.1. 网络结构我们用g表示共享编码器，用hc表示类预测器，用hj 表示联合预测器，并且整个网络为fc=hcg 和fj=hjg。然后，输入x的类预测器输出可以写为：fc （ x ） =hc （ g （ x ）） ∈ RK.（3）类似地，联合预测器输出可以写为，fj （ x ） =hj （ g （ x ）） ∈R2K.（四）2.2. 损失函数类预测器是网络的主要组成部分，用于推理。其边缘特征由联合预测器提供的损失使用交叉熵损失，用标记的源样本训练类预测器。该源分类损失可以写为，Lsc（fc）=E（x，y）<$Ps<$CE（fc（x），y）.（五）编码器（g）和类别预测器（hc）都是最新的，同时使这种损失最小化。1418XXX.我们还更新了联合预测器，具有相同的分类损失的标记源样本。这一次，仅更新联合预测器（hj）。联合源分类损失为Ljsc（hj）=E（x，y）PsCE（hj（g（x）），[y，0]）（6）其中0是大小为K的零向量，选择该零向量以使源样本的最后K个联合概率为零类似地，用目标样本训练联合预测器。由于没有给出目标样本的真实标签，因此来自类别预测器的标签估计值被用作伪标签。联合目标分类损失为Ljtc（hj）=Ex<$Pt<$CE（hj（g（x）），[0，y<$]）（7）使用输入平滑领域分类器对抗性特征匹配无输入平滑图2. 走了在UDA设置中，存在域分类器（例如，橙色线段），能够区分源样本（绿色和紫色点）与目标样本（灰色点）。应用条件特征匹配，直到在有限容量分类器空间中没有这样的分类器。结果，源数据和目标数据的标签条件特征分布匹配。对的一旦特征匹配，使用SSL正则化器（如VAT）利用未标记的数据[26]其中y=ek和k=argmaxkfc（x）[k] =变得微不足道。仅使用带标签的样本（绿色和紫色arg maxkhc（g（x））[k]，ek是大小K的单位，其第k个元素为1。1在这里，我们假设仅源模型在目标上实现了合理的性能。main（例如：比机会更好对于仅源训练模型最初性能不佳的实验由于联合预测器是用类预测器对目标数据的估计来训练的，因此它也可以被解释为类预测器的学生引入联合预测器的目的是对齐标签条件特征分布。为此，编码器被训练成欺骗联合预测器，如[10]中所示。在这里，我们应用条件愚弄。联合源对准损耗为L jsa（g）=E（x，y）<$Ps<$CE（h j（g（x）），[0，y]）.（八）编码器被训练为通过将关节标签从[y，0]更改为[0，y]来进行欺骗。类似地，通过将伪标签从[0，y= 0]改变为[y= 0，0]来定义联合目标对准损失，Ljta（g）=Ex<$Pt<$CE （hj （g（x）），[y<$，0]）。（9）最后两个损失仅由编码器g最小化。2.3. 使用SSL正则化利用未标记数据ers点）给出了较差的判定边界（蓝色线段）。当使用未标记的样本（灰色点）应用输入对抗训练最好用彩色观看。对于利用未标记数据的判别模型，模型参数或未知标签必须有一些先验知识[5]。将熵最小化应用于未标记数据的预测是SSL文献中的一个众所周知的正则化器[13，15，7]。这种正则化迫使决策边界处于低密度区域，这是集群假设下的理想属性[5]。我们的类预测器被训练来最小化这个目标熵损失，Lte（fc）=Ex<$Pt <$E（hc（g（x）（10）式中，f（x）= −f（x），log f（x）<$。由于联合预测器已经在类预测器的低熵估计上训练，因此将其应用于类预测器就足够了最小熵仅满足Lipschitz分类器的聚类假设[13]。 Lipschitz条件可以通过应用对抗训练来实现，如[27，26]所建议的。VAT [26]对对抗性输入扰动Δx进行了二阶近似R∆x≈ǫx ||R||一旦源域和目标域受r=r二、（f（x），f（x+ n））.（十一）匹配，我们的公式化的UDA变成一个半监督学习问题。在某种程度上，公司简介.x=自适应处理源数据集和目标数据集之间的大的域偏移2）的情况。其中d<$N（0，1）。因此，正则化损失[27，26]是RAT（f（x））= AT（f（x），f（x + x））||R||）的情况）.214191我们使用符号x[k]来索引向量x的第k个索引处的值。受r=r公司简介（f（x），f（x +<$x））. x=（十二）1420ˆ对于一个输入样本x.我们将在源和目标训练数据上应用这个正则化器，如[35，17]所示。因此，源损耗和目标损耗如下所示：现在，我们可以回忆一下[2]的主要定理设H是VC维d的假设空间。如果X s，X t是大小为m′的未标记样本，从P s和P tre中抽取，X xLsvat（fc）=E（x，y）PsVAT（fc（x））（13）δ ∈（0，1），则对任意δ∈（0，1），概率至少1−δ（在样本的选择上），对于每个h∈ H：和1t（h）≤t（h）+2dH<$H（Xs，Xt）+L tvat（f c）= E xPt VAT（f c（x））。（十四）.2dlog（2m′）+log（2）X一旦实现特征匹配，可以在稍后阶段应用SSL正则化但是，我们发现在大多数任务中，从训练开始就应用SSL正则化器也很有效。更多的细节将在Supp。Mat.我们将本节和前一节介绍的目标函数结合起来。源样本和目标样本的总体对抗性损失函数可以写成如下，L adv （ g ）=λ jsa L jsa （ g ） +λ jta L jta（g）（15）其余的目标函数是L（g，h j，h c）=Ls（g，h j，h c）+λ tLt（g，h j，h c）. （ 16）凡Ls（ g，hj，hc）= Lsc（ fc）+ λsvat Lsvat（ fc）+λjsc Ljsc（hj）（17）Lt（ g，hj，hc）= Lte（ fc）+ λtvat Ltvat（ fc）+λ jtc L jtc（h j）.（十八）所提出的方法最小化Eq. 15、Eq. 16、以一种交替的方式2.4. 领域适应理论（Domain AdaptationTheory）[2]的工作提供了目标风险的上限：t（h，y）= E（x，y）Pt [|h（x）− y|]，其中h是分类器。上界中的一个分量是两个域分布之间的在UDA中，我们感兴趣的是两个域的子集之间的度量的差异，在这两个域上，有限容量假设空间H中的假设可以犯错误。而不是采用传统的度量（例如总变差距离），他们使用H-散度。给定一个域X，在X上有P和Q概率分布，H是X上的一个假设类，H-散度为′1421XX4δ+λ（20）m′其中 λ=λ_s （ h_s ） +λ_t （ h_t ）， h_t= argminh∈H_s（h）+λ_t（h），d_H_h_h_H（X_ s，X_ t）是经验H_due_g_e. 在文中，目标风险由源风险上界，经验理想联合假设λ的H-散度与联合风险。如果不存在可以将源样本与目标样本区分开的分类器，则根据[2]的引理2，经验H-散度为零。[10]的DANN通过匹配主分布（即，通过对齐边缘前推g#Ps和g#Pt）。但是，如果联合前推分布（g#Ps和g#Pt）没有准确匹配，则在假设空间中可能不存在在两个域中都具有低风险的分类器。因此，对于任何假设空间，λ必须很大H.我们提出的方法解决了这个问题，通过确保标签条件的前推是不相交的对齐。对于不相交对齐，我们的意思是没有两个具有不同标签的样本可以被分配给同一个特征点。此外，上限中的第三项随着从两个域抽取的样本的数量而这个数字可以随着数据的增加而增加。VAT具有相同的效果，即用不利扰动的图像来增强数据，其中小扰动对任务是有害的。3. 实证评价3.1. 实现细节我们评估所提出的方法在UDA的标准数字和对象图像分类基准。即， CIFAR→ STL、 STL→ CIFAR 、MNIST→ SVHN 、 SVHN→ MNIST 、 SYN-DIGITS→SVHN和MNIST→ MNIST-M。前三个设置是最具挑战性的，其中最先进的（SOA）方法准确率仍低于90%。我们的方法在所有这些任务中实现了SOA的准确性。CIFAR参与。与CIFAR类似，STL图像是从ImageNet上的标记示例中获取的。然而，CIFAR中的图像是96×96，而不是32×32.所有图像在预训练中转换为32×32RGBdH H（ P，Q）：= 2suph，h′∈H|Pr x∼P(h(x)/= h (x))−我们通过局部平均对图像进行下采样注意我们PrxQ（h（x））h′（x））|.（十九）在所有的实验中只使用STL的标记部分CI-FAR和STL都有10个类，其中9个是通用的1422数据集训练样本试验样品班数决议渠道[第18话]六万一万1028 ×28单SVHN [28]七十三、二百五十七26 0321032 ×32RGBCIFAR 10 [16]五万一万1032 ×32RGBSTL [8]五千八千1096 ×96RGB[第10话]四七九，四百九五五三1032 ×32RGB表1.实验中使用的数据集的规格两个数据集。像以前的作品[17，9]一样，我们删除了不重叠的类（类青蛙和类猴子），将问题简化为9类预测。数据集的规格见表1MNISTSVHN。我们通过重复每个颜色通道的灰度图像将MNIST图像转换为RGB图像，并通过填充零将其调整为32×32。遵循以前的作品[17，9]，我们使用MNIST ParticipSVHN的实例规范化（IN），这是由[40]引入的图像风格传输。我们使用IN在训练和测试时对图像进行同步数字→ SVHN。 SYN-DIGITS [10]是一个数据集从Windows字体生成的合成数字的变化-位置、方向和背景。在每个图像中，存在一个、两个或三个数字。选择变异度以匹配SVHN。MNIST→MNIST-M。MNIST-M [10]是MNIST在从BSDS 500 [1]的彩色照片中随机提取的补丁上的差异混合。即I out=|I1−I2|、数据集。3.2. 结果我们在表2中报告了所提出的方法的性能在所有实验中，所提出的方法在Co-DA [17]之后实现了最佳或次佳结果。特别是在最具挑战性的任务中，SOA的准确率低于90%，我们的方法优于所有以前的方法。使用相应论文中报告的数字，但DANN除外，其报告的评分来自[35]都被使用了。我们比较的作品包括[11]提出的深度重建分类网络（DRCN）。源数据的交叉熵损失和重建损失对目标数据的影响被最小化。[35]将SSL方法VAT应用于UDA，他们称之为VADA（虚拟广告域适配）。在使用域对抗损失[10]和VAT进行训练后，他们仅进一步微调ijkijkijk对目标数据进行熵和增值税目标。[17个]其中i、j是像素的坐标，k是通道指数. MNIST-M图像为RGB和28×28。MNIST图像在预处理期间为每个通道复制。在任何实验中都没有使用数据增强，以便与SOA方法进行公平比较[17，35]。同样，为了与以前的作品[9，35]进行公平的比较，我们没有使用像ResNet [14]这样的复杂架构。实验中使用的网络在Supp. Mat.我们报告的类预测器的推理性能。我们在每次迭代训练时将源样本和训练样本送入两个不同的小批量。由于我们对源数据集和目标数据集使用相同的批处理图层，因此学习了均值和方差，- 是源和目标数据统计信息的运行平均值。OfficeUDA实验（Amazon→Webcam，Webcam→DSLR，DSLR→Webcam）被用作早期UDA作品的标准基准[23，34，19，38]。然而，最近的SOA方法[31，17，35，9]没有报告这些数据集，因为标签是嘈杂的[3]。此外，这是一个包含来自31个类别的4652张因此，我们也选择不报道这方面的实验。建议有两个假设的方式，他们学习不同的特征嵌入，而类预测是鼓励一致的。他们在[35]的VADA上建立了这个方法所提出的方法可以通过与Co-DA相结合来进一步改进，尽管我们忽略了它以突出清洁方法的有效性。与Co-DA相比，我们的方法具有不训练多个编码器的内存和计算时间优势。[31]介绍的ATT，其中两个网络在源数据上被训练，并且网络的预测被用作目标数据上的另一个网络在具有伪标签的目标数据如果两个网络一致并且其中至少一个网络是可信的，则分配伪标签纯源模型也作为基准报告这些模型在标准监督学习设置中使用相同的学习过程（例如，网络、迭代次数等）作为UDA方法。由于CIFAR有一个大的标记集（45000后，删除类青蛙的样本），CIFAR→ STL有很高的准确性，即使没有利用未标记的数据。尽管如此，所提出的方法优于仅源基线2。百分之二十四仅目标模型仅在目标域上训练，并显示类标签在一些文献中，仅目标绩效被认为是经验上界，但它不一定是最优的。1423源数据集目标数据集MNISTSVHNSVHNMNISTCIFARSTLSTLCIFAR同步数字SVHNMNISTMNIST-M[10]丹 *六十岁。668岁378岁162. 7九十194 6[11]DRCN四十0582岁0 66岁。37五十八86NRNR[33]kNN-Ad四十378岁8NRNRNR86岁。7[31]ATT52岁886岁。2NRNR92. 994 2[9]型号 **三十三岁。87九十三33七十七。53七十一65九十六。01NR[35]第三十五话四十七5九十七9八十0七十三。594 8九十七7[35]DIRT-T五十四5九十九。4NR75. 3九十六。1九十八9[35]VADA + IN七十三。394 578岁3 七十一494 9九十五7[35]DIRT-T +IN七十六。5九十九。4NR七十三。3九十六。2九十八7[17]Co-DA81. 7九十九。081. 4七十六。4九十六。4九十九。0[17]Co-DA + DIRT-T88岁0九十九。4NR七十七。6九十六。4九十九。1我们89岁。19九十九。3381. 65七十七。76九十六。22九十九。47仅来源（基线）44. 21七十58 79岁。41六十五44八十五83七十28仅目标94 82九十九。28七十七。0292. 04九十六。56九十九。87表2. 比较SOA UDA算法对UDA图像分类任务的影响。报告了目标测试数据的准确度。算法在整个标记的源训练数据和未标记的目标训练数据上进行训练。NR代表未报告。* DANN结果是[35]的实现，具有实例归一化输入。** 报告了[9]的结果，具有最小的增强。所提出的方法实现了最好的或第二高的分数后，Co-DA。所提出的方法可以与Co-DA相结合，但我们报告的裸结果来说明这个想法的有效性。在CIFAR→ STL设置中，目标数据很少;因此，仅目标模型甚至比仅源模型更糟糕该方法的优点在STL → CIFAR的逆方向上更加明显，其精度从65。44%到77。百分之七十六STL包含一个非常小的（删除类猴样本后为4500这就是为什么DIRT-T对目标数据进行微调，给出了CIFAR→ STL的不可靠结果，因此他们只报告VADA结果。仅源基线在MNIST→ SVHN设置中得分最低。这是一个具有挑战性的任务，因为MNIST是灰度的，与SVHN中的彩色数字形成对比。此外，SVHN包含多个数字在一个图像，而MNIST图片包含单一的，中心的数字。SVHN→ MNIST是一个简单得多的实验设置，SOA准确率超过99%。我们在MNIST→ SVHN中实现了SOA，而在SVHN中排名第二Co-DA后→ MNIST。请注意，我们在SVHN中的精度MNIST是99。百分之三十三MNIST→ MNIST-M和SYN-数字→SVHN是其他饱和任务，我们的方法在前者中击败了SOA，而在后者中则是第二好的。在数据集的这些饱和度下，最高评级的性能并不能提供信息。在MNIST → SVHN中，我们的方法（89. 19%）明显优于VADA+IN（73. 3%），它也使用输入平滑，但与DANN（边际对齐）。同样，在STL → CIFAR中，VADA达到73。5%，而我们的方法是SOA与77。准确率76%这表明，1424我们的联合对齐方法。为了证明所提出的方法在对齐相同类别的样本中的有效性，我们将仅源基线的t分布随机邻居嵌入（t-SNE）[24]和图2中的所提出的方法可视化。3.对从源域和目标域中随机抽取的1000个样本的编码器输出执行t-SNE，以进行STL→CIFAR设置。可以看出，与仅源方法相比，所提出的方法更好地对齐了相同类别的样本。4. 分析我们分析的主要结果是，Sect.2.2仅在给定最优联合预测器（定理1）的情况下，对于匹配条件前推最小化为此，我们首先在命题1中找到最佳联合预测器。我们在监督设置下操作，假设标签被重新检查。因此，我们将目标函数中的y替换为目标样本的地面实况标签y证明遵循与[12]中的命题1和定理1类似的步骤。1.提案最优联合预报器hj最小化L jsc（h j）+L jtc（h j）在等式中给出。6，7对于任何特征z1425XxXx当且仅当g #Ps（z |y = e k）= g #P t（z |y = e k），+表示源（STL），o表示目标（CIFAR）g#P s（z|y=e k）>0μg#P s（z|y=e i）= 0for ik对于任意y= ek和z。10050050100150 100 50 050100150定理1指出，在给定最优联合预测器的情况下，没有两个具有不同标签的样本可以被分配给编码器的相同特征点以使其损失最小化。此外，分配给每个特征的度量对于源和目标前推分布是相同的，以最大限度地欺骗最佳联合预测器。这一结果表明，当条件特征分布对齐时，所提出的目标函数达到全局最小值但是，这种分析并不一定能保证收敛的解决方案在实践中是最优的，因为我们无法访问目标10050050100150T-SNE的第一个组件+表示源（STL），o表示目标（CIFAR）100 50 0 50 100 150T-SNE的第一个组件标签在UDA但是，我们在图中以经验证明。3利用由分离的类预测器提供的相当好的伪标签，该目标给出了比仅源模型更好的对准。第二个问题是找到具有有限样本的最优预测器或生成器可能是不可能的，因为最优解被导出为真实测量的函数，而不是在有限样本上训练的网络参数。最后，联合预测器直到收敛才进行训练;相反，为了计算效率，以交替的方式采用梯度步骤。因此，预测器在实践中也不一定是最优的尽管理论和实践之间仍有差距需要填补，但该分析表明，鉴于目标数据的伪标签合理良好，所提出的目标函数正在进行合理的工作。图3. STL → CIFAR的t-SNE图。仅源训练（上图）和所提出的方法模型（下图）的t-SNE图。编码器输出被投影到具有t-SNE的二维空间。对应于相同类别的样品以相同颜色可视化。符号“+”用于源样本，“o”用于目标样本。最好用彩色观看。在g#Ps（z）或g#Pt（z）上的非零测度为2g#Ps（z，y=ei）hj（z）[i] =g#Ps（z）+g#Pt（z）g# Pt（ z，y=ei）hj （ z ） [i+K]=g#Ps （ z ） +g#Pt （ z ）对于i∈{1，.， K}。5. 讨论和相关工作在本节中，我们将总结UDA文献中最相关的作品。有关更深入的文献报道，请参阅[41]关于各种视觉任务的深度域适应的最新调查。许多领域适应工作可以分为两类：（1）学习共享特征空间的那些（基于非对称特征）和将一个域的特征转移到另一个域的那些（基于非对称特征）。共享功能（基于图形功能）。特征可传递性在网络的较高层中下降，并且可能不存在用于源数据和目标数据的最佳分类器因此，许多作品使用两个单独的分类器的源和目标域，而编码器参数是共享的。在这些作品中，源X x分类器是用标记的源数据和目标数据训练的。定理1. 等式中给出的目标L jsa（g）+L jta（g）对于给定的最优联合预测器，[2]我们用P（z）来表示随机变量的分布和相应的密度函数，但其含义从上下文中应该是清楚的。通过使用所有数据最小化源分类器之间的距离度量来正则化GET分类器一种常见的此类度量是（最大平均差异）MMD，其是两个概率分布之间的差异的度量，T-SNE的第二个组件T-SNE的第二个组件1426样本通过计算均值嵌入的距离：第二预测器（联合预测器）是提供条件1Nss1Ntt编码器的对齐||.||. [39]的DDC适用MMD到最后一层，而深度自适应网络(DAN)[21]的适用于最后3个FC层。CoGAN的[20]共享生成器的早期层参数和鉴别器的后期层参数，而不是最小化MMD。[23]模型将目标分类器预测作为源分类器预测和学习的残差函数的和[42]的中心矩离散（CMD）通过匹配源和目标特征的更高矩统计来扩展MMD。在前面的章节[10]中描述的对抗域自适应方法是另一种学习共享特征空间的方法，而不需要为源数据和目标数据单独分类。DANN [10]提出了一个共享编码器和两个用于域和类预测的编码器分支。这使得域分类器的边缘特征即将到来的作品[35，17]应用了相同的思想，但不是将梯度乘以负值，而是以交替的方式优化了阻尼器和发电机损耗。[34]建议用Wasserstein距离代替域差异损失来解决梯度消失问题。的工作[22]类似于我们的，他们也条件域对齐损失的标签。与我们不同，他们的领域判别器将特征和类预测的外积作为输入。类似地，[6]使用K个不同的类条件二元预测器而不是具有2K路对抗损失的一个预测器来我们的方法不仅允许对齐条件前推分布，而且还鼓励它们不相交。如果我们的唯一目标是对齐条件分布，那么常数编码器函数将是一个微不足道的解决方案。此外，这些方法不利用SSL正则化器，如VAT。多个假设。另一条工作线训练多个编码器和/或分类器，其中一些一致性损失连接它们。除了[31，17]的上述方法之外，[4]提出了域分离网络（DSN）。它们有两个私有编码器和一个共享编码器，用于源和目标样本。分类器用共享和私有特征的求和表示来训练。类似地，[38]为源数据和目标数据训练了两个编码器。在测试时，他们使用为目标数据学习的编码器和用源数据训练的分类器[32]有一个编码器和两个分类器。两个分类器都是在标记的源样本上训练的。两个分类器对同一目标样本的预测之间的距离由编码器最小化，并由分类器最大化。通过编码器的对抗训练，他们确保没有两个分类器可以对同一目标样本进行不同的预测我们的模型也有两个预测因子，但与这些方法不同的是，SEC的目的是映射制图表达（不对称要素基于）。这些方法应用从源域到目标域的转换，反之亦然[3]。[19]提出的用一阶统计量来映射域表示。在推理时间之前，它们通过网络传递所有目标样本，以学习每个激活的均值和方差，并应用这些学习到的统计数据来规范化测试实例。[36]Correlation Alignment（CORAL）。它们通过将白化的源数据与目标统计数据进行匹配，将源数据的二阶统计数据与目标数据进行匹配。使用SSL利用未标记的数据正则化器如果源域和目标域的功能是一致的，则可以应用标准的SSL方法。[9]使用平均教师[37]进行UDA，其中学生和教师网络之间目标数据的一致性损失最小化。即使有额外的技巧，如置信度阈值和一些数据增强，他们实现的MNIST→SVHN的准确率为34%。这表明，特别是当域差异很高时，如果不首先减少差异，SSL正则化器是不够的条件GAN。[25]提出了条件GAN，其中通过输入标签将生成和区分条件化到标签上。[29]相反，用预测类别标签的辅助任务来增强判别器。生成器还生成关于正确的类标签的样本。我们的方法不同于这些作品，因为我们没有在输入空间中生成假样本。6. 结论我们提出了一种新的UDA方法，其动机是有条件地对齐特征。我们通过引入一个额外的联合预测器来实现这一目标，该预测器可以学习类和域标签的分布。编码器被训练成在每个域的同类样本内欺骗该预测器。我们还采用了SSL的最新工具来提高泛化能力。所提出的想法在准确率仍低于90%的大多数具有挑战性的图像分类任务中实现了最先进的准确率。该代码将在审查过程后提供实现细节和证明在Supp.Mat.确认研究由ONR-N 00014 -17-1-2072和ARO MURI -W 911NF-17-1-0304支持1427引用[1] 巴勃罗·阿贝莱斯，迈克尔·梅尔，查利斯·福克斯，还有吉坦德拉·马利克.轮廓检测和分层图像分割。IEEETransactionsonPatternAnalysisandMachineIntelligence，33（5）：898[2] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论Machine learning，79（1-2）：151[3] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR），第1卷，第7页，2017年。[4] Konstantinos Bousmalis ， George Trigeorgis ， NathanSilber-man，Dilip Krishnan，and Dumitru Erhan.域分离网络。神经信息处理系统的进展，第343-351页，2016年[5] Olivier Chapelle、Bernhard Scholkopf和Alexander Zien。半监督学习（chapelle，o例如，eds.; 2006）[书评]。IEEE Transactions on Neural Net-works，20（3）：542[6] Yi-Hsin Chen ， Wei-Yu Chen ， Yu-Ting Chen ， Bo-Cheng Tsai，Yu-Chiang Frank Wang，and Min Sun.没有更多的歧视：道路场景分割器的跨城市适应在IEEE计算机视觉国际会议的Proceedings，第1992-2001页[7] Safa Cicek，Alhussein Fawzi和Stefano Soatto。Saas：作为半监督学习的监督者。在欧洲计算机视觉会议（ECCV）的Pro-ceedings中，第149-163页[8] Adam Coates，Andrew Ng，and Honglak Lee. 无监督特征学习中单层网络的分析第十四届人工智能和统计国际会议论文集，第215-223页，2011年[9] 杰夫·弗伦奇，迈克尔·麦凯维奇，马克·费舍尔。用于视觉域适应的自集成。2018年。[10] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督域自适应。arXiv 预印本arXiv ： 1409.7495 ，2014。[11] Muhammad Ghifary ， W Bastiaan Kleijn ， MengjieZhang，David Balduzzi，and Wen Li.用于无监督域自适应的深度重建-分类网络。欧洲计算机视觉会议，第597- 613页。施普林格，2016年。[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[13] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习。神经信息处理系统的进展，第529-536页，2005年[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[15] Andreas Krause，Pietro Perona，and Ryan G Gomes.基于正则化信息最大化的反聚类神经信息处理系统的进展，第775-783页，2010年[16] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。2009年[17] AbhishekKumar、PrasannaSattigeri、KahiniWadhawan 、 Leonid Karlinsky 、 Rogerio Feris 、 BillFreeman和Gregory Wornell。用于无监督域自适应的共正则化对齐神经信息处理系统的进展，第9366-9377页，2018年[18] YannLeCun，Le'onBottou，YoshuaBengio，PatrickHaf fner等人。基于梯度的学习应用于文档识别。Proceedingsof the IEEE，86（11）：2278[19] Yanghao Li，Naiyan Wang，Jianping Shi，Jiaying Liu，and Xiaodi Hou.重新审视批处理规范化以实现实际的域适应.arXiv预印本arXiv：1603.04779，2016。[20] 刘明宇和昂塞尔·图泽尔。耦合生成对抗网络。神经信息处理系统的进展，第469-477页，2016年[21] Mingsheng Long ， Yue Cao ， Jianmin Wang ， andMichael I Jordan.使用深度适应网络学习可转移特征。arXiv预印本arXiv：1502.02791，2015年。[22] Mingsheng Long ， Zhangjie Cao ， Jianmin Wang ， andMichael I Jordan.条件对抗域适应。神经信息处理系统进展，第1647-1657页，2018年[23] Mingsheng Long ， Han Zhu ， Jianmin Wang ， andMichael I

下载后可阅读完整内容，剩余1页未读，立即下载