无监督领域自适应中基于类别不可知簇的集成方法

98 浏览量更新于2023-10-24 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13867探索开集领域自适应的Yingwei Pan< $，Ting Yao< $，Yehao Li<$，Chong-Wah NgoYuan，and Tao Mei<$†JD AI Research，中国香港城市大学，香港九龙{panyw.ustc，tingyao.ustc，yehaoli.sysu}@ gmail.com，cscwngo@cityu.edu.hk，tmei@jd.com摘要无监督领域自适应近年来受到了广泛的关注。大多数现有的作品处理闭集场景，假设源和目标域共享完全相同的类别。然而，在实践中，目标域通常包含在源域中看不见的类的样本（即，未知类）。域适应从封闭的-(a) 闭集域自适应(b) 开集域自适应（现有）聚类(c) 使用类别不可知簇的开集域自适应（Ours）这样的开放式设置并不是微不足道的，因为焦油-获取未知类中的样本不应与源对齐。在本文中，我们解决了这个问题，通过增加国家的最先进的领域适应技术，自组装，与类别无关的集群在目标域。具体来说，我们提出了Self-Ensembling with Category-agnosticClusters（SE-CC）-一种新的架构，它通过特定于目标域的类别不可知簇的额外指导来引导域适应。这些聚类信息提供了特定领域的视觉线索，促进了封闭集和开放集场景的自我集成的一般化。从技术上讲，首先对所有未标记的目标样本进行聚类，以获得类别无关的聚类，这些聚类揭示了目标领域特有的底层数据空间结构。利用聚类分支来确保学习的表示通过将聚类上的估计分配分布与每个目标样本的固有聚类分布相匹配来保留这样的底层结构此外，SE-CC增强了互信息最大化的学习表示广泛的实验进行了开放集和闭集域自适应的Of-ESTA和VisDA数据集，并报告了优越的结果相比，国家的最先进的方法。1. 介绍卷积神经网络（CNN）推动视觉技术达到新的最先进水平。然而，这些成就是建立在以下假设之上的：图1.（a）闭集域自适应，(b)现有的开集域自适应方法，以及（c）我们的开集域自适应与类别无关的集群。大量带注释的数据可用于模型训练。当需要成本昂贵且劳动密集型的手动标记时，该假设变得不切实际。一种替代方案是在源域中回收现成的学习知识/模型用于新域。不幸的是，性能通常在新域上显著下降，这种现象称为“域转移”。缓解此问题的一种可行方法是利用无监督域自适应[3，6，17，21，35，37]，其利用标记的源样本和未标记的目标样本来概括目标模型。最关键的限制之一是，大多数现有的模型只是在源域和目标域之间对齐数据分布。因此，这些模型仅适用于封闭集场景（图1（a）），假设两个域应该共享完全相同的类别集。这不利地阻碍了这些模型在开集场景中的推广，以区分未知类的目标样本（在源域中看不到）与已知类的目标样本（在源域中看到）。开集域自适应的困难主要来源于两个方面：1）在对已知目标样本进行正确分类的同时，如何区分未知目标样本和已知目标样本？2)如何学习一个混合网络同时适应闭集域和开集域？一种简单的方法（图1（b）），以alleviate第一个问题是通过采用一个额外的二元分类器分配已知/未知的标签，以每个焦油。来源样本未知类别目标样本源域目标域源域目标域13868得到样本[22]。所有未知的目标样本被进一步视为离群值，并将在从源到目标的自适应过程中被丢弃。由于未知目标样本整体上被分组为一个通用类，因此没有充分利用固有的数据结构。当目标样本的分布是多样的或已知类和未知类之间的语义标签是不一致的时，二元分类的性能是次优的。相反，我们新颖地对所有未标记的目标样本进行聚类，以明确地对目标域中已知和未知类的不同语义进行建模，如图1（c）所示。所有的目标样本首先被分解成聚类，和学习的聚类，虽然类别不可知的，传达特定于目标域的未知和已知类的判别知识。因此，通过进一步用类别不可知的聚类引导域自适应，期望学习的表示对于已知类别是域不变的，并且对于目标域中的未知和已知类别是有区别的。为了解决第二个问题，我们用一个额外的聚类分支来改造Self-Ensembling [5]，以估计每个目标样本在所有聚类上的分配分布，这反过来又细化了学习的表示以保留目标域的固有结构。为此，我们提出了一种新的具有类别不可知簇的自集成（SE-CC），如图所示2. 具体而言，首先实现聚类，以将所有目标样本分解为一组类别不可知的聚类。每个目标样本的底层结构因此被公式化为其在所有聚类上的固有聚类分布，其最初是通过在该样本和每个聚类质心之间的余弦相似性上利用软最大值来获得的。在此基础上，将一个额外的聚类分支集成到自集成的学生模型中，以预测每个目标样本的聚类分配分布。对于每个目标样本，KL发散被用来模拟其估计的聚类分配分布和固有聚类分布之间的不匹配。通过最小化KL发散，学习的特征被强制保留目标域中的底层数据结构。此外，我们唯一地最大化输入的中间特征映射，输出的分类分布和学生中的目标样本的聚类分配整个SE-CC框架是联合优化的。2. 相关工作无监督域自适应。闭集场景中无监督域自适应的一种常见解决方案[34]是早期的作品之一，MMD到CNN中学习域不变表示。[17]另外将残差传递模块并入到分类器的基于MMD的自适应中。受[7]的启发，无监督域自适应的另一个方向是通过域自适应[4，6，33]鼓励不同域之间的域混淆特别是，域区分器中的域混淆损失[33]被设计为强制学习的表示是域不变的。[6]将域混淆作为一个二进制分类任务，并利用梯度反转算法优化域混淆。开集域自适应。的任务的开集域自适应超越了传统的域自适应，以处理现实的开集场景，其中目标域包括来自com的大量样本完全新的和未知的类不存在于源代码域中。[22]是解决现实开集场景的早期尝试之一Busto等人在学习已知类从源域到目标域的映射时，还将目标样本作为已知/未知类后来，[29]利用对抗训练来学习特征表示，这些特征表示可以将未知类别的目标样本与已知目标样本分开。此外，[2]将源数据和目标数据分解为共享子空间和私有子空间。共享子空间对来自已知类的目标和源样本进行建模，而来自未知类的目标样本则使用针对目标域定制的私有子空间进行建模。摘要总之，与以前的方法[2，22]的精神类似，SE-CC利用未标记的目标样本来学习开集场景中的任务特定分类器。与这些方法不同，SE-CC利用用于表示学习的类别不可知聚类。学习的特征被驱动以在域自适应期间保持目标数据结构。结构保持使得能够在已知和未知类别内有效地对齐样本分布，并且区分已知和未知类别之间的样本。作为一个副产品，保存，这是表示为集群概率分布，利用进一步增强表示学习。这是通过最大化输入特征、其聚类和类概率分布之间的互信息来实现的。据我们所知，目前还没有研究充分探讨开集域适应的类别不可知簇的优势。3. 我们的方法：SE-CC在本文中，我们重塑自集成，以适应闭集和开集的情况下，通过集成类别不可知的集群领域的适应过程。图2中描述了我们的具有类别不可知簇的自集成（SE-CC）模型的概述。13869不不图2.我们的SE-CC概述每个标记的源图像被送入学生模型，以训练交叉熵分类器每个未标记的目标图像Xt被变换为两个扰动样本，即，xS和xT，在注射到学生和教师t t模型分别将条件熵应用于学生路径中的xS，并采用自集成损失来对齐分类教师和学生之间的预测为了进一步利用目标域的底层数据结构，我们执行聚类，将整个未标记的目标样本分解为一组类别不可知的聚类（右上），这些聚类将被合并到自集成中，以促进闭集和开集场景。具体来说，一个额外的聚类分支被集成到student中，以推断每个目标样本xS在所有聚类上的分配分布。通过将估计的聚类分配分布与通过最小化原始聚类的KL发散而从原始聚类学习到的固有聚类分布对齐，强制执行特征表示以保留目标域中的底层数据结构。此外，通过最大化其特征图、分类和聚类分配分布之间的互信息来增强学生的特征表示（右下）。如图3所示，最大化在全球和本地级别进行。3.1. 符号班具体地，给定两个扰动目标样本，xS和xT从未标记的样本xt扩增，在开集域自适应中，我们给出标记t t源域中的样本Xs={（xs，ys）}和目标域中的未标记样本Xt={xt}属于N类，其中y 是样本x的类标签。的自组装损失惩罚了学生和教师的分类预测：LSE（xt）=||PS（xS）−PT（xT）||第二条第一款公司简介不CLSt2N个类的集合记为C，它由N-1个类组成where PS (xS) ∈ RN and PT （xT）∈RN表示两个域之间共享的已知类和addi-CLSTCLST一个集合了所有未标记类的样本的未知类。开集域自适应的目标是学习域不变的表示和分类器，以识别目标域中的N-1个已知类别，同时区分未知目标样本从已知的。3.2. 闭集自适应中的自集成我们首先简要回顾一下自我整合的方法[5]。Self-Ensembling主要基于Mean Teacher [32]进行半监督学习，它由具有相同网络架构的学生模型和教师模型通过N类的学生和教师的分类分支。在训练过程中，学生使用梯度下降进行训练，而教师的权重直接更新为学生权重的指数移动平均值受[31]的启发，我们还采用无监督条件熵损失来训练student中的分类分支，旨在使分类器的决策边界远离目标域中的高密度区域。因此，自集成的总体训练损失由源数据上的监督交叉熵损失（LCSE）、未标记目标数据的自集成损失（LSE）和条件熵损失（LCDE是的。自我组装背后的主要思想是鼓励ΣL=LΣ（x，y）+（L（x）+L（x））。（二）教师和学生SEC（xs，ys）∈SCSESSxt∈TSE不CDE不学生在输入图像的小扰动下。换句话说，尽管对目标样本施加了不同的增强，教师和学生模型都应该预测出相似的分类概率分布3.3. 用于开集自适应的开集域自适应比闭集域自适应更困难，因为它不仅需要分类内点，学生模型簇指派范畴不可知簇源图像.........交叉熵第5群集K第3第2聚类分支第1第2第3第4第1第61类2类3类......条件熵簇分配分布固有团簇KL-发散分布类别N-1未知群集K目标图像自组装损失全局/局部互信息鉴别器房......全局/局部互信息鉴别器假学生模式l教师模型互信息最大化......第3.................................13870不不不不不CLU不不不不k=1clueetkΣ也将离群值分为N-1个已知类和1个未知类。最典型的方法是通过学习一个二元分类器来识别每个目标样本作为已知/未知类。不-然而，通过假定所有未知样本属于一个类，同时使它们之间的固有数据分布未被利用，这种方法过度简化了问题当未知样本跨越多个未知类别并且可能不能正确地分组为一个通用类时，这种方法的鲁棒性是值得怀疑的称为聚类分支，专门设计用于预测每个目标样本xS的聚类分配在所有类别不可知的聚类上的分布。具体地说，我们将目标样本xS沿学生路径的特征表示为xS∈RM.因此，根据输入特征xS，聚类分支推断其聚类分配分布，不通过修改后的softmax层[15]，在所有K个集群分配Pclu（xS）∈RKeρ·cos（xS，Wk）课 To alleviate this issue, we perform clustering to ex-planetary模型中的目标领域的不同语义作为提取的类别不可知簇，这是进一步interte，k俱乐部（xS）=不ρ·cos（xS，W′）k′、（四）整合到自我集成中，以指导领域适应。具体来说，我们在学生自集成中设计了一个额外的聚类分支，以使其估计的聚类分配分布与类别不可知的聚类之间的固有聚类分布保持一致。因此，所学习的特征表示被强制为对于已知类是域不变的，并且同时对于目标域中的未知类和已知类更具区分性。分类不可知的集群。聚类是一种基本的数据分析技术，用于对未标记的数据进行分组，其中Pk（xS）是Pclu中的第k个元素，表示将目标样本xS分配到第k个聚类中的概率 Wk是修改的softmax层中的参数矩阵W ∈RK×M的第k行，其表示第k个聚类的聚类分配参数矩阵。KL-发散损失聚类分支的训练是由每个目标样本的固有聚类分布监督为了测量估计的集群分配分布和固有的集群分布，KL发散损失被定义为机器学习[11]。在这里，我们利用k-均值[19]，最流行的聚类方法，分解将所有未标记的目标样本Xt分成一组K个聚类LKL = Σxt∈T.ΣKLPclu（xt）||Pclu（xS）∫，（五）{C}K，其中C表示目标样本集Σ Σ波多克波多克（xt）kk=1k=clu（xt）log俱乐部从第k个集群中。因此，获得的集群Kxt∈TPKCLU （xS）{Ck}K虽然与类别无关，但仍然能够揭示针对目标域定制的底层结构，其中具有相似语义的目标样本与局部区分更接近。在我们的实现中，我们直接将每个tar getsamplext表示为在ImageNet [26]上预训练的CNN的输出特征（xt）我们还尝试根据所学习的特征周期性地刷新聚类（例如，每5个训练阶段），但这并没有造成重大差异。我们将每个目标样本的底层结构编码为该样本与所有类别不可知聚类之间的联合关系，即，固有的通过最小化KL-发散损失，学习表示被强制以保持目标域的底层数据结构，追求对未知和已知类都更具区分性。此外，我们将类间关系作为约束加入到KL-发散损失中，以保持类分配参数矩阵之间的内在关系后面的精神遵循的哲学，即两个语义相似的集群的集群分配参数矩阵应该是相似的。因此，具有集群间关系约束的KL发散损失公式为：在所有集群上。具体地，对于每个目标样本Xt，. ˜SΣ我们测量其固有的聚类分布PCLU（xt）∈RKLKL=KLxt∈TPclu（x t）||Pclu（x t）′（六）通过一个softmax来计算样本和每个聚类质心。第k个元素表示xt与第k个聚类的质心µkS.T. cos（Wk，Wk′）=cos（µ k，µ k′），1≤k，k ≤K.方程中的KL发散损失(6)进一步放宽为：Σ。Σ~S波多克（xt）=eρ·cos（xt，μk）ρ·cos（xt，μk′）k′，µk=1|Ck|Σxt∈Ck（3）第一次见面。LKL=KLxt∈T Σ+Pclu（x t）||Pclu（x t）|cos（Wk，Wk′）− cos（µk，µ k′）|.（七）其中cos（·）是余弦相似函数，ρ是softmax的温度参数。每个聚类的质心µk定义为该聚类中所有样本的平均值。集群分支。学生中的一个附加分支，1≤k，k′≤K3.4. 学生互信息最大化给定目标样本的输入特征，SE-CC中的学生通过两个并行分支产生分类和聚类分配分布，P13871空间空间复制复制房局部互信息鉴别器假不不不不CLS不不不tclstt多任务范式为了以无监督的方式进一步加强学习的目标特征，我们在student中利用互信息最大化（MIM）[10]来最大化输入特征和两个输出分布之间的互信息。背后的基本原理遵循这样的理念，即输入特征和输出高级特征之间的全局/局部互信息可以用于调整特征因此，我们在student中设计了一个MIM模块，同时估计和最大化输入特征图、输出分类分布和聚类分配分布之间的局部和全局互信息学生模式l学生模式l学生模式l（一）全球共同信息。从技术上讲，令xS∈RH×H×D0是输入目标样本x S的学生模型最后一个卷积层的输出特征图（H：高度和宽度的大小; D0：通道数）。我们把这个特征图编码成一个全局特征向量-学生模式l（b）第（1）款tor G（x S）∈RD1通过卷积层（核大小：3×3;步幅：1;过滤器编号：D1）加上平均池化层。接下来，我们连接全局特征vec-条件分类分布下的torG（xS）图3.（a）全球互信息估计以及（b）SE-CC中的局部互信息估计。它是由三个堆叠的卷积构成的，不PS S函数层（核大小：1×1）加非线性激活。cls（xt）和聚类分配分布Pclu（xt）。连接的特征将被馈送到全局Mu-因此，本地相互信息的最终输出得分图方程组为Vl（L（xS，PS（xS），Pclu（xS）∈一种用于判别是否RH×Htclst tS SS S将输入全局特征向量与给定的分类和聚类分配分布对准。本文采用三层全连接网络加非线性激励实现全局互信息融合全球互惠信息的最终输出得分. 第i个元素Vl（L（xt，Pcls（xt），Pclu（xt）表示在第i个空间位置区分真实输入局部特征的概率，匹配的分类和聚类分配分布。因此，局部互信息估计为：mation =Vg（[G（xS），PS（xS），Pclu（xS）]），2tclsttJSD2011年1月1日。我S S S S它代表了辨别真实的具有匹配分类和聚类分配输入特征L1=xt∈T-H2ϕi=1−Vl（L（xt，Pcls（xt），Pclu（xt）分布。因此，全球互信息-101H-2 。Vi（L（x∈S，PSΣ（xS），Pclu（xS）。通过Jensen-Shannon MI估计器估计[20]：x<$t∈T，x<$tH2lxti=1tcls不不（九）L JSD = 0。S SS S因此，MIM模块的最终目标是：g−−Vg（[G（xt），Pcls（xt），Pclu（xt）]）xt<$∈T−.Vg（[G（xΣ（xS），Pclu（xS）]），作为当地和全球相互保险的结合，x<$t∈T，x<$t/=xttcls不简体中文不（八）与权衡参数α平衡的信息估计：LMIM=αLJSD+ LJSD。（十）其中，f（·）是softplus函数，G（xt）表示gl不同目标图像x 的全局特征。本地相互信息。此外，我们还利用了每个空间位置的局部输入特征之间的局部互信息，以及输出分类和聚类分配分布。特别是，我们在空间上复制了两个分布PS（xS）和Pclu（xS）构造H×H×N和H×H×Kfea-真映射，然后将它们与沿着通道维度的输入特征图xS。将连接的特征映射L（xS，PS（xS），Pclu（xS））∈RH×H×（D0+N+K）送入局部互信息网络，以判别每个输入是否局部特征与给定的分类和聚类分配分布相匹配。当地的互助信息-图3从概念上描述了本地和全局互信息估计3.5. 培训我们的SE-CC的总体训练目标整合了源数据上的交叉熵损失、无监督自集成损失和等式中的条件熵损失。(2)，KL-方程中的聚类分支的发散损失。(7)，以及Eq.中的互信息估计。(10)目标数据：L=LSEC+LKL−βLMIM，（11房全局互信息鉴别器假..............................13872）其中β是权衡参数。13873表1.与Office上开放域适应的最新技术水平的性能比较。表示没有未知源示例的不同开集设置。方法一OS→ D操作系统*一OS→ W操作系统*DOS→ 一操作系统*DOS→ W操作系统*WOS→ 一操作系统*WOS→ D操作系统*OSAvg操作系统*只有源67.167.064.663.861.960.790.692.360.259.796.798.773.573.7RTN [17]76.674.773.070.857.253.889.088.162.460.298.898.376.274.3RevGrad [6]78.377.375.973.857.654.189.888.964.061.898.798.077.475.7[29]第二十九话76.676.474.974.362.562.394.494.681.481.296.896.981.180.9ATI-λ[22]79.879.277.676.571.370.093.593.276.776.598.399.282.982.4FRODA [2]88.0-78.7-76.5-98.0-73.7-94.6-84.9-公司简介80.684.082.484.283.290.392.996.682.785.996.899.186.490.0SE-CC85.384.585.184.387.989.597.797.886.887.599.499.690.490.5表2.与VisDA开放集适应的最新技术水平的性能比较（已知与未知比率= 1：10）。表示没有未知源示例的不同开集设置†表示结果来自官方排行榜[1]。方法Aero自行车总线车马刀姆比凯人植物斯克布尔德火车卡车UNK知道是说整体只有源53.8 54.2 50.3 48.772.75.382.027.049.643.478.05.144.246.947.344.8RevGrad [6]33.0 57.3 44.1 33.972.146.982.226.836.850.489.49.847.848.648.547.8RTN [17]49.2 72.6 66.5 39.580.818.873.856.847.445.274.04.548.752.452.149.0瑞典[5]94.2 74.1 86.1 68.191.026.195.246.085.040.479.211.051.066.465.252.7[29]第二十九话80.2 63.1 59.1 63.183.212.189.15.061.014.079.20.069.050.852.267.6ATI-λ[22]85.7 74.9 60.3 49.980.019.388.840.854.059.266.418.259.558.158.259.3公司简介82.1 80.7 59.7 50.080.636.783.156.256.621.957.74.070.655.856.969.2SE-CC94.2 79.0 83.4 70.791.043.589.373.369.458.879.412.871.670.470.571.64. 实验我们通过在Office[27]和VisDA[23]数据集上进行开集和闭集域适应的实验，从Office是域适应的标准基准，包含来自31个类别的4，110个图像。它们来自三个域：Amazon（A），DSLR（D）和Webcam（W）。六个方向的转移，其中包括开集和闭集的适应评估。对于开集自适应，如[22]所示，我们首先将10个类作为源域和目标域之间共享的已知类。按照字母顺序，标签为11-20的类被视为源中的未知类，标签为21-31的类被视为目标中的未知类。采用两种标准OS和OS* 进行评估（OS：在所有已知未知目标样本上的准确度&; OS*：10个已知类别的目标样品的准确度）。我们采用AlexNet [13]在ImageNet [26]上预训练作为聚类和自适应的基本CNN架构。对于闭集自适应，我们遵循[16]并报告所有31个类的目标域的准确性。用于聚类和自适应的CNN的基本架构是在ImageNet上预先训练的ResNet50 [9]。VisDA是一个用于具有挑战性的合成真实图像传输的大规模数据集，由来自三个领域的280k图像组成。从三维CAD模型生成的合成图像作为训练域。验证域包含来自COCO [14]的真实图像，测试域包括YTBB[25]中的视频帧。考虑到测试集的真实值不公开，以训练域的合成图像为源，以验证域的COCO图像为目标进行评估。特别是开集自适应，我们遵循[23]中的开集设置，并将12个类作为源目标域的已知类，33个背景类作为源中的未知类，其他69个COCO类别作为目标中的未知类。目标域中样本的已知与未知比例严格设定为1：10。三个度量，即，采用Knwn、Mean和Overall进行评价。这里，Knwn表示所有已知类的平均精度，Mean是所有已知未知类的平均精度，Overall是所有目标样本的精度。对于闭集自适应，我们报告了所有12个自适应类的准确性，如[23]的闭集设置。我们利用ResNet152作为CNN的骨干，在闭集和开集场景中进行聚类和自适应实施详情。我们的SE-CC主要是用PyTorch实现的，网络权重是可选的。与SGD混在一起我们将所有实验的学习率和小批量大小设置为0.001和56。Office和VisDA上的最大训练迭代分别设置为300和25 epoch。在AlexNet/ResNet的主干中，用于全局互信息估计的全局特征的维度D1被设置为使用Gap统计方法确定聚类数K（Office的K= 25，VisDA的K= 500）。与[10]一样，我们将每个数据集的超参数搜索限制在 α={1 ， 5 ， 10} 和 β 的范围内={10−4，10−3，10−2}（α= 1，Office的β= 10−3，VisDA的α= 5，β= 10−2）4.1. 性能比较Office上的Open-Set适应。表1显示了Office上用于开放集适应的不同模型的结果。值得注意的是，AODA采用了不同的开集设置，其中不存在未知源样本13874表3.与VisDA数据集上用于闭集域自适应的最新技术进行性能比较方法Aero自行车总线车马刀姆比凯人植物斯克布尔德火车卡车是说只有源67.151.450.864.583.413.089.934.478.847.088.12.055.9RevGrad [6]81.977.782.844.381.229.565.128.651.954.682.87.857.4RTN [17]89.156.472.469.777.949.587.713.088.177.486.77.264.6[28]第二十八话87.060.983.764.088.979.684.776.988.640.383.025.871.9SimNet [24]94.382.373.547.287.949.275.179.785.368.581.150.372.9TPN [21]93.785.169.281.693.561.989.381.493.581.684.549.980.4瑞典[5]96.287.884.466.596.196.190.581.595.391.587.551.685.4SE-CC96.386.582.481.396.197.291.284.794.494.188.353.487.2表4.与Office数据集上最先进的闭集域自适应性能比较。方法A →D A →W D →A D →W W →A W →D AvgRTN [17]77.584.566.296.864.899.481.6RevGrad [6]79.782.068.296.967.499.182.2JAN [16]85.186.069.296.770.799.784.6SimNet [24]85.388.673.498.271.899.786.2GTA [30]87.789.572.897.971.499.886.5iCAN [36]90.192.572.198.869.910087.2SE-CC91.490.774.099.072.910088.0为了与AODA进行公平的比较，我们还包括了SE-CC的一个变体（称为SE-CC），它可以在没有未知源样本的情况下学习分类器。具体而言，SE-CCSVM中的分类器自然能够仅识别N-1个已知类别，并且如果预测概率低于开集SVM [12]中任何类别的阈值，则目标样本将总体而言，两个指标的结果一致表明，我们的SE-CC在大多数传输方向上获得了优于其他最先进的闭集自适应模型（RTN和RevGrad）和开集自适应方法（AODA，ATI-λ和FRODA）的性能。还请注意，我们的SE-CC改进了分类，显然，在更难的转移上，例如，D→ A和W→ A，其中两个域基本上不同。结果通常突出了利用的关键优势将隐含在类别不可知的集群中的底层目标数据结构用于开集域适应。这种设计使得学习的特征表示对于已知类是域不变的，同时具有足够的区分性以将目标样本与已知和未知类分离。具体而言，通过对齐源域和目标域之间的数据分布，RTN和RevGrad表现出比仅源数据更好的性能，仅源数据训练分类器，而未标记的目标数据未被利用。通过拒绝未知目标样本作为离群值并仅对齐内点的数据分布，开集自适应技术（AODA、ATI-λ和FRODA）优于RTN和RevGrad。这证实了在开集场景中在域自适应期间从已知目标样本中排除未知目标样本的有效性。然而，AODA、ATI-λ和FRODA仍然不如我们的SE-CC，SE-CC通过注入类别不可知簇的分布作为特征学习和对齐的约束来引导域自适应VisDA上的Open-Set适应。在VisDA上进行开集自适应的性能比较是总结性的。表5.每个设计的性能贡献（即，条件熵（CE）、KL-发散损失（KL）和互信息最大化（MIM））。方法CEKLMIM知道是说整体SE66.465.252.7+CEC67.366.355.8+KLCC69.369.369.1SE-CCCCC70.470.571.6列在表2中。我们的SE-CC在所有三个指标上都比其他方法表现得更好。特别地，我们的SE-CC在12个已知类加一个未知类上的平均准确率可以达到70.5%，比最好的闭集自适应方法（SE）和开集自适应方法（ATI-λ）分别提高了5.3%和12.3%。与Office上开集自适应的观察结果类似，开集自适应方法（AODA和ATI-λ）通过额外地将未知目标样本与已知目标样本分离以进行开集自适应，表现出注意，尽管闭集技术SE实现了比开集技术（AODA和ATI-λ）更高的每类别平均准确度，但是SE的所有目标样本的总体准确度仍然比开集技术差。这是因为SE跨不同域对齐未知样本，因此无法识别未知目标样本。此外，通过将类别不可知的聚类集成到SE中并引导域自适应以保留已知和未知类别的底层目标数据结构，SE-CC提高了所有度量方面的性能。Office和VisDA上的封闭集适应。为了毛皮-为了验证我们提出的SE-CC的一般性，我们提出-在闭集场景下进行领域自适应实验。表4和表3显示了Office和VisDA数据集在闭集域自适应方面的性能比较。类似于在这两个数据集上的开集域自适应任务的观察，我们的SE-CC比其他最先进的闭集自适应技术实现了更好的性能。结果基本上证明了通过类别不可知的聚类在目标域中利用底层数据结构进行域自适应的优势，即使在没有任何多样和模糊的未知样本的闭集场景消融研究。在这里，我们将研究SE-CC中的每个设计如何影响整体性能。条件13875表6.评估（a）具有不同损失函数的聚类分支（即，L1：L1距离、L2：L2距离和KL：KL-发散度）来测量两个分布之间的失配，以及（b）在输入特征上估计的互信息，输入输出（即，CLS：分类分支的输出，CLU：聚类分支的输出，CLS+CLU：分类和聚类分支的组合输出）。（一）（b）第（1）款图4.通过VisDA上的（a）仅源，（b）SE和（c）SE-CC学习的特征的t-SNE可视化用于开集适应。输入特征和每个分支的输出之间的互信息。此外，CLS+CLU获得了更大的熵（CE）将无监督的条件熵损失引入到SE中，以驱动分类器的决策边界远离学生模型中的高密度目标数据区域。KL-发散损失（KL）将估计的聚类分配分布与每个目标样本的固有聚类分布对齐，旨在细化特征以保留目标域的底层结构。互信息最大化（MIM）通过最大化输入特征、输出分类和聚类分配分布之间的互信息，进一步增强了特征表5通过考虑不同的设计及其对SE-CC中开集域适应的贡献，详细介绍了VisDA的性能改进并行工程是一种通用的方法来增强目标领域的分类器，而不考虑任何主适配架构。在我们的案例中，CE将平均准确率从65.2%提高到66.3%，这表明CE是一种有效的选择。KL和MIM是我们SE-CC中的两个换句话说，我们的SE-CC在平均值度量方面总共导致了4.2%的大性能提升。实验结果验证了利用底层目标数据结构和互信息最大化进行开集自适应的思想聚类分支的评价。为了研究聚类分支中损失函数的设计对性能的影响，我们比较了在SE-CC中使用KL-发散度与L1和L2距离。表6（a）中的结果验证了KL发散度是分类和聚类分配分布之间不匹配的更好度量，而不是L1和L2距离，后者产生较差的性能。互信息最大化的评价。接下来，我们通过估计输入特征和不同输出之间的互信息来评估SE-CC中MIM模块的不同变体，如表6（b）所示。CLS、CLU和CLS+CLU分别估计输入特征与分类分支输出、聚类分支输出以及两个分支的组合输出之间的局部互信息和全局互信息。与不带 MIM 模块的 SE-CC （已知：69.3%，平均值：69.3%，总的来说：69.1%），CLS和CLU通过额外利用当组合来自两个分支的输出用于互信息估计时，性能提升。结果表明，利用输入特征和两个下游任务的组合输出之间的相互信息的优点（即，分类和集群分配）在我们的MIM模块。特征可视化。我们在图4（a）-（c）中可视化了在VisDA上使用t-SNE [18]通过仅源，SE和SE-CC与仅源而没有域自适应相比，SE使源和目标的两个分布更接近，导致域不变表示。然而，在SE中，包括未知样本在内的所有目标通过SE-CC对已知类和未知类的底层目标数据结构进行分解，将未知目标样本从已知目标样本中分离出来，同时使两个域中的已知样本不可区分。5. 结论我们提出了具有类别不可知簇的自集成（ SE-CC），它利用目标域中的类别不可知簇在开集和闭集场景中进行域适应。特别地，我们从如何将未知目标样本与已知样本分离以及如何学习将类别不可知聚类很好地集成到自集成中的混合网络的角度来研究这个问题。我们首先执行聚类-ING分解成一组类别不可知的集群的所有目标样本。接下来，将一个额外的聚类分支集成到学生模型中，以使估计的聚类分配分布与类别不可知聚类中隐含的固有聚类分布保持一致。这强制学习的特征保留目标域中的底层数据结构。此外，输入特征，分类和聚类分支的输出之间在Office和VisDA上进行的开集和闭集适应任务的实验验证了我们的建议。与最先进的技术相比，观察到性能改善。已知来源未知来源已知目标未知目标(a)只有源(b)SE(c)SE-CC方法总体已知平均值L168.668.770.1L268.368.470.1KL70.470.571.6方法总体已知平均值CLS69.369.469.4CLU70.070.170.8CLS+CLU 70.470.571.613876引用[1] VisDA，2018年。https://competitions.codalab的网站。org/competitions/19113#results.[2] MahsaBaktashmotlagh ， MasoudFaraki ， TomDrummond，and Mathieu Salzmann.学习开集域适应的因子分解表示。2019年，在ICLR[3] Qi Cai，Yingwei Pan，Chong-Wah Ngo，Xinmei Tian，Lingyu Duan，and Ting Yao.探索平均教师中的对象关系以进行跨域检测。在CVPR，2019年。[4] 杨晨，潘英伟，姚婷，田心梅，桃梅。摩赛可-甘：未配对的视频到视频转换。在ACMMM，2019。[5] Geoffrey French，Michal Mackiewicz和Mark Fisher。用于域适应的自组装。在ICLR，2018年。[6] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督ICML，2015。[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。[8] ArthurGretton，Karsten M Borgwardt，Malte J Rasch，Bern-hardSchoülk opf，andAl e xanderSmola. 一个核双样本检验。Journal of Machine Learning Research，2012。[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[10] R Devon Hjelm 、 Alex Fedorov 、 Samuel Lavoie-Marchildon 、 Karan Grew

下载后可阅读完整内容，剩余1页未读，立即下载