无监督领域自适应中的基于对比自适应网络的类间类内差异度量方法

5 浏览量更新于2023-10-19 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于无监督领域自适应的康国梁1，卢江2，杨毅1，3杨，Alexander G.Hauptmann41CAI、悉尼科技大学、2Google AI、3百度研究、4卡内基梅隆大学kgl. gmail.com，lujiang@google.com，Yi. uts.edu.au，alex@cs.cmu.edu摘要适应前以前的方法提议的方法无监督域自适应（UDA）对目标域数据进行预测，而人工标注仅在源域中可用。以前的方法忽略了类信息，使域差异最小化，这可能导致不对齐和较差的泛化性能。针对这一问题，本文提出了一种基于对比自适应网络（CAN）的类内域差异和类间域差异度量方法。我们设计了一种交替更新策略，以端到端的方式训练CAN。在两个真实世界基准Office-31和VisDA-2017上的实验表明，CAN与最先进的方法相比表现良好，并产生更具区分力的特征。1. 介绍深度神经网络的最新进展已经极大地改善了各种学习问题[40，8，26，19，20]。然而，对于监督学习，大量标记的训练数据仍然是学习准确深度模型的关键。虽然丰富的标签可能适用于一些预先指定的领域，例如ImageNet [7]，但对于每个特定的目标领域或任务，手动标签通常很难或昂贵。域内标注数据的缺乏阻碍了数据拟合模型在许多现实问题中的应用。在没有来自目标域的标记数据的情况下，出现了无监督域自适应（UDA）方法来减轻数据分布中的域偏移[2，1，5，37，30，18，3，17]。它涉及无监督学习，因为它只需要来自源域的手动标签和来自目标域的在最近的UDA工作中，Long等人提出了一系列开创性的工作。[22，25]旨在最大限度地减少深度神经网络中源域和目标域之间的差异，其中域差异由最大*通讯作者。其中一部分工作是杨毅在百度研究院进行职业体验项目时完成的来源：目标：接近：拆分：图1.比较以前的区域差异最小化方法和我们的。左：域转移存在于自适应之前的源数据和目标数据之间。中间：类不可知自适应在域级别对齐源和目标数据，忽略样本的类标签，因此可能导致次优解决方案。因此，一个标签的目标样本可能与不同标签的源样本未对准。右：我们的方法执行跨域的类感知对齐。为了避免错位，只有类内域差异最小化。最大化类间领域差异，提高模型平均离散度（MMD）[22]和联合MMD（JMMD）[25]。MMD和JMMD已被证明在许多计算机视觉问题中是有效的，并在几个UDA基准测试中展示了最先进的结果[22，25]。尽管基于MMD和JMMD的先前方法取得了成功，但它们中的大多数在域级别上测量域差异，忽略了从其中抽取样本的类。因此，这些类不可知的方法并不区分来自两个域的样本是否应该根据它们的类标签进行对齐（图12）。①的人。由于以下原因，这可能损害自适应性能。首先，不同类别的样本可能会被错误地对齐，例如，即使当目标域样本与不同类别的源域样本未对准时，也可以最小化第二，学习的决策边界可能对目标域的通用性很差。在决策边界附近存在许多次优解.这些解决方案可能过拟合源数据，但目标的区别48934894为了解决上述问题，我们引入了一个新的对比域离散（CDD）目标，使类感知的UDA。我们建议尽量减少类内差异，即。在同一类内的域差异，并最大化类间的边缘，即。不同类别之间的域差异。考虑图中CDD将使同一个底层类的源样本和目标样本更接近（例如，蓝色和红色三角形），同时将来自不同类别的样本分开（例如，蓝色三角形和红色星形）。不幸的是，要使用CDD进行估计和优化，我们可能无法开箱即用地训练深度网络，因为我们需要克服以下两个技术问题。首先，我们需要来自两个域的标签来计算CDD，然而，目标标签在UDA中是未知的。当然，一种直接的方法是在训练期间通过网络输出来估计目标标签然而，由于估计可能是噪声的，我们发现它可能损害自适应性能（参见第4.3节）。第二，在小批量训练期间，对于类C，小批量可能仅包含来自一个域（源或目标）的样本，使得估计C的类内域差异是不可行的。这可能导致不太有效的适配。上述问题需要专门设计网络和培训范式。在本文中，我们提出了对比自适应网络（CAN），以促进优化与CDD。在训练过程中，除了最小化标记源数据上的交叉熵损失外，CAN还通过聚类来估计目标样本的潜在标签假设，并根据CDD度量来调整特征表示。聚类后，模糊的目标数据（即，远离聚类中心）和模糊类（即，在聚类中心周围包含很少的目标样本）在估计CDD时被归零。根据经验，我们发现在训练过程中，将考虑越来越多的样本。这种渐进式学习可以帮助CAN捕获更准确的数据分布统计数据。此外，为了方便CAN的小批量训练，我们对源域和目标域都采用了类感知采样，即：在每次迭代中，我们对随机抽样的类子集内的每个类从两个域中抽样数据。类感知采样可以提高训练效率和自适应性能。我们在两个公共UDA基准上验证我们的方法：Office-31 [30]和VisDA-2017 [29]。实验结果表明，我们的方法对最先进的UDA方法，即。我们在Office-31基准测试中取得了最佳发布结果，在具有挑战性的VisDA- 2017基准测试中取得了非常有竞争力的结果消融研究，以验证我们的框架中的每个关键组件的贡献。简而言之，我们的贡献如下，• 我们引入了一个新的差异度量域离散（CDD），用于执行无监督域自适应的类感知对齐。• 我们提出了一个网络对比适应网络，以促进端到端的CDD培训。• 我们的方法在Office-31基准测试[30]和竞争性能上取得了最好的结果。与挑战性VisDA-2017基准测试中的最新技术水平相比[29]。2. 相关工作类无关域对齐。UDA的常见做法是最小化域之间的差异以获得域不变特征[10，4，25，22，24，36，21]。例如，Tzenget al. [38]提出了一种域混淆损失，以鼓励网络学习语义上有意义的和域不变的表示。Long等人提出了DAN [22]和JAN [25]，以在域特定层上最小化跨域的MMD和联合MMD距离Ganin等人[10]通过反向传播域分类器的反向梯度，使网络能够以对抗的方式学习域不变表示。与这些域差异最小化方法不同，我们的方法执行类感知域对齐。区分域不变特征学习。一些以前的工作付出努力，学习更多的disciminative 功能，同时执行域对齐[35，13，31，32，28、39]。对抗性丢弃正则化（ADR）[31]和最大分类器离散化（MCD）[32]被提出来以对抗的方式训练深度神经网络，以避免生成位于决策边界附近区域的非歧视性特征与我们相似，Longet al. [23]和Peiet al. [28]在测量域差异时考虑类别信息。然而，我们的方法与他们的方法主要有两点不同.首先，我们明确地建立了两种类型的域差异模型，即：类内域差异和类间域差异。类间域的差异性被大多数以前的方法所忽略，被证明是有益的，以提高模型的自适应性能。其次，在深度神经网络的背景下，我们将训练过程视为对目标标签假设和特征的替代类内紧性和类间可分性建模。本文还涉及到对类内紧性和类间可分性的显式建模工作，例如：[12][13][14][15][16][17这些方法已用于各种应用中e.G.人脸识别[6]，人的重新识别[16]等。与这些为单个领域设计的方法不同，我们的工作侧重于跨领域的适应。4895我我ΣΣΣnH12吨Ij3. 方法无监督域自适应（UDA）的目的是通过减轻源域和目标域数据分布的域偏移来提高模型形式上，给定一组其中x s∈S′ <$S，x t∈ T′ <$T，n s=| S′|，n t=| T ′|.S′和T ′分别表示从S和T采样的小批量源数据和目标数据。并且kl表示为深度神经网络的第l层选择的核。源域样本S={（xs，ys），· · ·，（xs，ys）}，1 1NsNs3.2.对比域差异以及目标域样本T={xt，· · ·，xt}，xs，xt1Nt表示输入数据，ys∈ {0，1，···，M−1}de-注意 M 类的源数据标签目标数据标签yt∈{0 ，1，···，M−1}是未知的。因此，在UDA中，我们感兴趣的是使用标记的源域数据S和未标记的目标域数据T来训练网络，以便对T进行准确的预测{y<$t}。我们在深度神经网络的背景下讨论我们的方法工程. 在深度神经网络中，样本拥有由每个样本层l∈ L。在下文中，我们使用φ1（x）来表示针对输入x的深度神经网络Φθ中的层1的输出，其中φ（·）表示由深度神经网络定义的从输入到特定层的映射在本节的其余部分中，我们首先简要回顾MMD中的相关概念，3.1. 第3.2节介绍了一个新的域差异满足-Ric. 最后，第3.3节和第3.4节讨论了目标-我们建议显式地考虑类信息，并测量跨域的类内和类间类内域差异被最小化以压缩类内样本的特征表示，而类间域差异被最大化以将彼此的表示类内和类间差异联合优化，以提高自适应性能。提出了基于条件数据分布差异没有对类型的任何限制（例如边际或条件）的数据分布，MMD是方便地衡量这种差异之间的P（φ（Xs）|Y s）和Q（φ（Xt）|Y t），即DH（P，Q），超f <$H（EXs [f（φ（Xs））|Y s）] − EXt [f（φ（Xt））|Y t）]）。以及所提出的深度网络的训练过程。假设µcc′（y，y′）=. 1如果y=c，则y′=c′;0否则。，对于3.1.最大平均不确定性复诊在最大平均离散度（MMD）中，{xs}和{xt}是i.i.d. 从边际分布中抽样两个类c1，c2（可以相同或不同），平方DH（P，Q）的核均值嵌入估计为P（Xs）和Q（Xt）。基于观察到的样本，MMD[34]执行核双样本检验以确定是否接受零假设P =Q。MMD的动机是，如果两个分布是相同的，那么它们的所有统计数据都应该是相同的。为了-哪里Dc1c2（yt，yt，···，yt，φ）=e1+e2−2e3（三）MMD定义了两个分布之间的差异sµcc（ys，ys）k（φ（xs），φ（xs））再生核中的平均嵌入e=11ijij1nsnsµ（ys，ys）Hilbert空间（RKHS），即i=1j=1i=1j=1c1c1Ijstntntµcc（yt，yt）k（φ（xt），φ（xt））DH（P，Q），sup（EXs[f（XfH[f（X）]）H、（1）e2=2 2Ijntnt µI j（yt，yt）i=1j =1i=1j=1c2c2Ij其中H是函数类。ΣnsΣntµcc（ys，yt）k（φ（xs），φ（xt））在实际应用中，对于第l层，用经验核均值嵌入e3=i=1j=11 2Ijnsnti=1j =1I jc1c2（ys，yt）.（四）Dmmd=1nsnskl（φl（xs），φl（xs））请注意，方程式（3）定义了两种类感知域l2ijsi=1j =1差异，1）当c1=c2=c时，它测量内部1Σnt+ntkl（φl（xt），φl（xt））类域差异; 2）当c1/=c2时，成为类间域差异。计算遮罩n2ijμ（yt，yt）和μ（ys，yt），我们需要估计tar gett i=1j =1c2c2Ijc1 c2Ijn n 个标签{yt}，这将在3.4节中讨论。ΣΣµ48962个小时−kl（φl（xs），φl（xt）），（2）我基于上述定义，CDD计算为ns ntIji=1j =1（yt，yt，···，yt缩写为yt）12nt1：nt4897D（y）L我L1：nt我我我我我我我′Dcdd=1ΣMM科马奇不1：nt，φ）其中β是差异惩罚项的权重。通过最小化Dcdd，类内域离散化，c=1联系我们帧内最大限度地减少了类间域差异，以执行类感知域对齐。1ΣM ΣM−Dcc′（yt，φ），（5）注意，我们独立地对标记源进行采样ceM（M−1）1：nt最小化交叉熵损失的数据和估计的数据。′c′=1c/=c联系我们除其他其中类内和类间域差异将在相反方向上被优化。注意，尽管标签{y_t}的估计可能是有噪声的，但CDD（其建立在MMD上）本身在一定程度上对噪声具有鲁棒性。由于MMD是由RKHS中分布的均值嵌入决定的，因此充分的统计量不太可能受到标签噪声的严重影响，特别是当数据量很大时。我们将在4.3节中讨论和验证这一点。3.3. 对比适应网络深度卷积神经网络（CNN）能够学习比浅层方法更多的可转移特征。然而，这种差异仍然存在于特定领域的层。具体来说，提取一般特征的卷积层更具可转移性，而表现出抽象和特定领域特征的全连接（FC）层应该适应[22，25]。在本文中，我们从ImageNet [7]预训练网络开始，例如。ResNet [14，15]，并将最后一个FC层替换为特定于任务的FC层。我们遵循最小化最后FC层的域差异的一般实践，并通过反向传播微调卷积层。然后，我们提出的CDD可以很容易地作为一个自适应模块在目标中，将CDDD配对。在这方面，我们能够设计更多的有效的采样策略（见第3.4节），在不影响传统的标记源数据交叉熵损失优化的情况下，利用CDD进行小批量随机优化3.4. 优化CANCAN的框架如图所示。二、在本节中，我们主要讨论如何最小化CAN中的CDD损失。替代优化（AO）。如等式1所示。（5），我们需要联合优化目标标签hypothesis和特征表示φ1：L。我们采用替代方案执行这种优化的步骤。详细地说，在每个循环中，给定当前的特征表示，即。固定θ，我们通过聚类来更新目标标签。然后，基于更新后的目标标签y*t，我们估计并最小化CDD以适应特征，即。通过反向传播更新θ我们使用第一任务特定层的输入动作φ1（·）例如在ResNet中，每个样本都可以表示为全局平均池化层的输出，这些输出也是后续特定任务层的输入。然后采用球形K-均值算法对目标样本进行聚类，并附加相应的标签.聚类器的数量与底层类的数量M相同。对于每个类，初始化目标聚类中心Otc作为源聚类中心Osc，i。e.. Otc←Osc，其中FC层的激活。我们将我们的网络命名为C对比Osc =Ns 1sφ1（xs），1秒1如果ys=c和适应性网络（CAN）。i=1yi=c<$φ1（xs）<$yi=c0否则总体目标。在深度CNN中，我们需要-在多个FC层上最小化CDD，即尽量减少c={0，1，· · ·，M−1}。对于度量的差异-在特征空间中的点a和b之间的距离，我们应用余弦相异度，即，dist（a，b）=1（1−（a，b））.第2aDcdd=Dcd d.（六）然后，聚类过程迭代地1）在-Lll=1塔兴标签为每个目标样品：你好←argmincdist（φ1（xt），Otc），和（二）更新俱乐部-此外，我们用标记的源数据φ（xt）中心：O tc←Nt 1t1我，直到收敛通过最小化交叉熵损失，i=1yi=cφ1（xt）=−1卢恩的logP θ（y s|（7）或者达到最大聚类步长。聚类后，每个目标样本xt被分配nsi′=1伊伊标签与其所属的簇不相同。更进一步，其中ys∈ {0，1，· · ·，M−1}是地面真值标签模糊的数据，这是远离其附属俱乐部-称为中心，被丢弃，即，我们选择一个子集T=样本xsP θ（y|x）表示在给定输入x的情况下，网络由θ参数化的标签y的预测概率。{（xt，yt）c=1我4898|dist（φ1（xt），OD0∈ [0，1]是一个常数.不t（y））D0，xt∈ T }，其中因此，总体目标可以表述为：min=βde+βDe（八）此外，为了更准确地估计差异，根据统计，我们假设最小数量应保证T中分配给每个类别的样本的θL4899聚类特征自适应CE损失采样ɸ1L/打开/关闭第1节：L第1节：L4 x2 x3 xCDD是的N>N0=24xN>N0=2N>N0=2是的没有3 x弃用第1节：L第1节：LK步更新来源/目标中心源/目标数据容器外圆：簇边界内圈：置信范围总和减去代表：1不L′CDD（内部）CDD（内部）图2. CAN的训练过程。为了最小化CDD，我们通过聚类更新目标标签假设和通过反向传播调整特征表示之间进行替代优化。对于聚类，我们应用基于目标样本当前特征表示的球形K均值聚类。聚类的数量等于基础类的数量然后是模棱两可的数据（即远离附属聚类中心）和模糊类（即，在附属聚类中心周围包含很少的目标样本）被丢弃。对于特征自适应，由聚类阶段提供的标记目标样本与标记源样本一起通过网络以实现其多层特征表示。采用特定于域的FC层的特征来估计CDD（等式2）。（5））。此外，我们对独立采样的源数据应用交叉熵损失。具有最小化CDD和交叉熵损失的反向传播（等式2）。（8）适配特征并提供类感知对齐。详细描述见第3.4节。泰迪不满足该条件的类在环路Te处，为每个选定的类创建。算法算法1示出了AO pro的一个循环。C类的选定子集Σ|T~|={c|不> N，c∈聚类阶段，即在聚类阶段（步骤1- 2）之间交替，Teiyi=c0{0，1，···，M−1}}，其中N0是常数。在训练开始时，由于域转移，更有可能排除部分类。然而，随着培训的进行，越来越多的课程被包括在内。原因有两个：1）随着训练的进行，模型变得更准确; 2）受益于CDD惩罚，类内域差异变得更小，类间域差异变得更大，使得硬（即，模糊的）类能够被考虑。步骤4），以及K步网络更新阶段（步骤5-11）。的AO循环在我们的实验中重复多次。由于特征自适应过程相对较慢，我们异步更新目标标签和网络参数，使训练更加稳定和有效。算法1：CAN在环路Te处的优化。输入：源数据：S={（xs，y s），· · ·，（xs，y s）}，1 1NsNs类感知采样（CAS）。在常规目标数据：T={xt，···，xt}在深度神经网络的训练中，程序：1Nt通常在每次迭代时采样，而不进行差异化，被他们的班级所吸引。然而，它将是计算CDD的效率较低。例如，对于类别C，在小批次中可能仅存在来自一个域（源或目标）的样本，因此类内差异不能被检测到。1 向前S并计算M个聚类中心Osc;2 初始化Otc：Otc←Osc;3 使用球形K均值对目标样本T进行4 过滤模糊目标样本和类别;5对于（k←1;k≤K;k←k+1），估计。˜我们提出使用类感知的采样策略来实现CDD网络的有效更新。很容易′来实施。我们随机选择类CTe然后对源数据和目标数据进行采样，′在CTe中的每个类。因此，在每一小批数据在训练过程中，我们能够估计类内差异-6基于CTe、T和S的类感知采样;7使用等式2计算D_dd。（6）;8从S采样，并使用等式计算采样率（7）;9反向传播与目标函数的关系式（等式2）（8））;10更新网络参数θ。11端部特征提取器（conv. ResNet、VGG等层）CDD（国际）CDD（国际）4900（1+ap）在源域和目标域数据之间共享网络参数，而不是在特定于域的批归一化层的数据之间共享网络参数。超参数的选择遵循与[22]中描述的相同的协议，即。我们训练域分类器，并通过联合评估源分类器和域分类器的测试误差来对（标记的源样本和未标记的目标样本的）验证集执行选择我们使用动量为0.9的小批量随机梯度下降（SGD）来训练网络。我们遵循与[10，22，25]中描述的相同的学习率计划，即图3. Office-31和VisDA-2017数据集库。4. 实验4.1. 设置数据集：我们在两个公共基准上验证了我们的方法。Office-31[30]是用于现实世界域适应任务的通用数据集。它由4，110幅图像组成，分为31类。该数据集包含三个不同的域，即分别从1）Amazon网站（Amazon域）、2）网络相机（Webcam域）和3）数码SLR相机（DSLR域）在不同设置下收集的图像数据集在不同域之间不平衡，A域中有2，817张图像，W域中有795张图像，D域中有498张图像。VisDA-2017[29]是UDA的一个具有挑战性的测试平台，其领域从合成数据转移到真实图像。在本文中，我们验证了我们的方法在其分类任务。总共有来自12个类别的28万张图片。图像分为三组，即。152，397个训练集合成图像，具有55，388个真实世界图像的验证集，以及具有72，372个真实世界图像的测试集。两个数据集的图库如图所示。3基线：我们将我们的方法与类无关的离散最小化方法进行比较： [ 10][11][12][13][14][15][16][17][18][19][1此外，我们将我们的方法与显式或隐式地考虑类信息或决策边界以学习更多判别特征的方法进行了比较：MADA [28]、MCD [32]和ADR [31]。这些方法的描述见第2节。我们执行DAN和JAN- 释放代码1。为了在最佳参数设置下进行比较，我们引用了相应论文中报告的MADA、RevGrad、MCD和ADR的性能[28，31，32，10]。实施详情：我们使用ResNet-50和ResNet- 101 [14，15]在ImageNet [ 7 ]上预训练作为我们的骨干网络。我们用任务特定的FC层替换最后一个FC层，并用标记的源域数据和未标记的目标域数据对模型进行微调。所有1https://github.com/thuml/Xlearn学习率ηp按照ηp=η0b进行调整，其中p从0线性增加到1。η0是初始学习率，即卷积层为0.001，任务特定FC层为0.01。对于Office-31，a=10，b=0。75，而对于VisDA-2017，a=10，b=2。二十五的选择的β为0.3。对于Office-31任务A→W和A→D，阈值（D0，N0）设置为（0.05，3）。在训练过程中，我们4.2. 与最新技术表1显示了Office-31六项任务的分类准确度。所有的域自适应方法都比ResNet模型（第一行）有显著的改进，ResNet模型只对标记的源数据进行了微调。CAN在所有任务上都优于其他基线方法，实现了最先进的性能。平均而言，它将JAN的准确性提高了6.3%，将MADA的准确性提高了5.4%。我们通过t-SNE可视化学习特征的分布[27]。图4示出了代表性任务W→A。与JAN相比，正如预期的那样，CAN学习的目标数据表示表现出更高的类内一致性，紧凑和更大的类间利润率。这表明我们的CDD为目标域产生了更多的判别特征，并证实了我们在表1中的改进。表2列出了VisDA-2017上12个类别的准确度，其中验证集为目标域。我们的方法优于其他基线方法。我们模型的平均准确度（87.2%）优于自集成（SE）方法[9]（84.3%），后者在VisDA-2017竞赛中获得第一名，高出2.9%。值得注意的是，SE主要通过集合和数据增强来处理UDA，这与本文的主题正交，因此可以很容易地结合起来，以进一步提高性能。此外，我们还对VisDA进行了调整2017年测试集（作为目标域），并提交我们的预-官方评测服务器。我们的目标是评估我们提出的基于香草主干（ResNet-101）的技术的有效性。我们选择不使用增强或额外的数据增强，这通常用于提高竞争中的表现无论如何，我们的单一模型达到了87.4%的非常有竞争力的准确性，这与排名第一的方法相当。阿马松D单反相机Webcam合成房办公室-31VisDA-20174901方法A →WD →WW →DA →DD →AW →A平均Source-细调68.4 ±0.296.7 ±0.199.3 ±0.168.9 ±0.262.5 ±0.360.7 ±0.376.1RevGrad [10，11]82.0 ±0.496.9 ±0.299.1 ±0.179.7 ±0.468.2 ±0.467.4 ±0.582.2丹麦[22]80.5 ±0.497.1 ±0.299.6 ±0.178.6 ±0.263.6 ±0.362.8 ±0.280.4JAN [25]85.4 ±0.397.4 ±0.299.8 ±0.284.7 ±0.368.6 ±0.370.0 ±0.484.3MADA [28]90.0 ±0.297.4 ±0.199.6 ±0.187.8 ±0.270.3 ±0.366.4 ±0.385.2我们的（仅限内部）93.2 ±0.298.4 ±0.299.8 ±0.292.9 ±0.276.5 ±0.376.0 ±0.389.5Ours（CAN）94.5±0.399.1±0.299.8±0.295.0±0.378.0±0.377.0±0.390.6表1.基于ResNet-50的Office-31数据集所有六个任务的分类准确度（%）[14，15]。我们的方法命名为方法airpBIC总线车何珥kni莫每计划skatraitruc平均Source-细调72.36.163.491.752.77.980.15.690.118.578.125.949.4RevGrad [10，11]81.977.782.844.381.229.565.128.651.954.682.87.857.4丹麦[22]68.115.476.587.071.148.982.351.588.733.288.942.262.8JAN [25]75.718.782.386.370.256.980.553.892.532.284.554.565.7丹麦[32]87.060.983.764.088.979.684.776.988.640.383.025.871.9ADR [31]87.879.583.765.392.361.888.973.287.860.085.532.374.8美国[9]95.987.485.258.696.295.790.680.094.890.888.447.984.3我们的（仅限内部）96.572.180.970.894.698.091.784.290.389.889.447.983.9Ours（CAN）97.087.282.574.397.896.290.880.796.696.387.559.987.2表2.基于ResNet-101的VisDA-2017验证集的分类准确度（%）[14，15]。我们的方法命名为图4.不同适应方法的t-SNE可视化（最佳彩色视图）。左：JAN的t-SNE。右：CAN。最后一个FC层的输入激活用于t-SNE的计算。结果在Office-31任务W →A上。排名第二（87.7%）。从表1和表2中，我们有两个观察结果：1）考虑类别信息/决策边界有利于自适应。可以看出，MADA，MCD，ADR和我们的方法取得了更好的性能比类无关的方法，例如。RevGrad、DAN、JAN等。2)我们利用类信息的方式更有效。我们实现了比MADA （ +5.4% ）， ADR （ +12.4% ）和 MCD（+15.3%）更好的准确性。4.3. 消融研究类间域差异的影响。我们将我们的方法（引入类间域差异测度。结果显示在表1和2的最后两行中。可以看出，引入类间域差异改善了自适应性能。我们认为这是因为不可能完全消除类内域差异，最大化类间域差异可以减少模型对源数据过拟合的可能性，有利于自适应。替代优化和类感知采样的效果。表3分析了CAN的两个关键组件，即可选优化（或“AO”）和类感知采样（或“CAS”）。我们进行消融研究，离开一个组成部分，我们的框架在一个时间。在表3中，方法AO它可以被看作是更新的特征表示和伪目标标签同时进行。方法CAS这两种特殊情况的比较验证了AO和CAS在我们的方法中的贡献。有趣的是，即使没有替代优化，该方法“w/o. AOe.G. DAN、JAN等。这表明我们提出的CDD本身在一定程度上对标签噪声具有鲁棒性，MMD是建立CDD的合适度量（见第3.2节）。车道循环seFe托奇儿子不特博德nK4902(a)（b）（c）（d）图5. (a-b)Office-31数据集任务A → D训练期间CDD和准确性曲线。“CDD-G”表示用真实目标标记计算的对比域差异。(c-d)CAN的精度对β. A→D（左）和D→A（右）的结果作为示例被示出。其他任务的趋势类似。数据集w/o。AOw/o。CAS可以办公室-3188.189.190.6VisDA-201777.581.687.2表3.替代优化（AO）和CAS的效果报告了Office-31上六个任务的平均准确度和VisDA-2017验证集上12个类的平均方法A→ W A→ D D→ A W→ A平均伪085.8 86.3 74.972.3 79.8伪1 90.2± 1.6 92.5± 0.4 75.7± 0.2 75.3± 0.6 83.4CAN 94.5± 0.3 95.0± 0.3 78.0± 0.3 77.0± 0.3表4.比较使用伪目标标签的不同方式。“伪0“表示直接使用伪目标标签（通过我们的初始聚类实现）进行训练。“伪1“是通过聚类交替地更新目标标签，并最小化伪标记目标数据上的交叉熵损失。在“伪1“中，源数据上的交叉熵损失也被最小化。使用伪目标标签的方法。对目标标签的估计可以通过聚类来实现，这使得能够以各种方式训练模型。在表4中，我们将我们的方法与两种不同的训练方法进行了比较，其中训练方法使用了通过聚类实现的伪目标标签。一种方法（另一种（如表4所示， “伪1”比“伪0”获得了更好的结果，但仍然比我们的CAN差，这验证了我们显式建模类感知域差异的方式使模型更好地训练期间的CDD值。在我们的训练中，我们生成目标标签假设来估计CDD。我们预计，使用地面实况目标标签计算的基础度量将在训练期间稳步下降，收敛为此，在训练期间，我们使用地面实况目标标签评估JAN和CAN的地面实况CDD（由CDD-G表示）训练过程中CDD的趋势和测试准确度如图所示。五、正如我们所看到的，对于JAN（蓝色曲线），地面真实CDD在短暂下降后迅速稳定在高水平。这表明JAN不能有效地最小化对于CAN（红色曲线），尽管我们只能使用不准确的目标标签假设来估计CDD，但其CDD值随着训练而稳步下降。结果表明，我们的估计工程作为一个很好的代理地面实况对比域的差异。从图5所示的精度曲线中，我们可以看到，与JAN相比，最小化CDD会导致CAN的精度显著提高。超参数敏感性。我们在图5中的两个示例任务A→D和D→A上研究了CAN对重要平衡权重β的敏感性。一般来说，我们的模型对β的变化不太敏感。在广阔的范围内，CAN的性能优于基线方法，并且具有较大的裕度（蓝色虚线曲线）。随着β变大，精度在下降之前稳定地增加钟形曲线说明了CDD的正则化效果。5. 结论在本文中，我们提出了对比自适应网络执行类感知对齐的UDA。类内和类间域差异通过端到端小批量训练显式建模和优化在真实世界基准测试上的实验表明，与强基线相比，我们的模型具有优越性。谢谢。这项工作得到了情报高级研究项目活动（IARPA）的部分支持，内政部 / 内政部商务中心（ DOI/IBC ）合同编号 D17 PC00340。美国政府被授权复制和分发重印为政府的目的，而不受任何版权注释/本文。免责声明：本文所载的观点和结论是作者的观点和结论，不应被解释为必然代表IARPA，DOI/IBC或美国政府的政策或认可，无论是明示还是暗示。4903引用[1] S. 本-戴维布利泽，K。克拉默，A。库莱萨河Pereira和J.W.沃恩从不同领域学习的理论。Machine learning，79（1-2）：151-175，2010. 1[2] S.本-戴维布利泽，K。Crammer和F.佩雷拉.域适应的表示分析。神经信息处理系统的进展，第137-144页，2007年。1[3] K. Bousmalis，N.Silberman，D.Dohan，D.Erhan和D.克-伊什南。无监督像素级域适应与生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR），第1卷，第7页，2017年。1[4] K. Bousmalis，G.Trigeorgis，N.Silberman ，D.Krishnan和D. 二汉域分离网络。神经信息处理系统进展，第343-351页，2016年2[5] L. Bruzzone和M.马康西尼域自适应问题：一种dasvm分类技术和循环验证策略。IEEE transactions on patternanalysis and machine intelligence，32（5）：770-787，2010。1[6] D. 郑，Y.贡，S.Zhou，J.Wang和N.郑基于改进三重损失函数的多通道部件cnn的人员再识别。在Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition，第1335-1344页2[7] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。一、四、六[8] X. Dong和Y.杨在4个GPU小时内搜索一个强大的神经在IEEE计算机视觉和模式识别会议论文集（CVPR），2019年。1[9] G.法语，M. Mackiewicz和M.费雪。用于域适应的自组装。ICLR，2018年。六、七[10] Y. Ganin和V.Lempitsky 通过反向传播的无监督域自ICML，2015. 二六七[11] Y. Ganin，E.乌斯蒂诺娃Ajakan山口Germain，H.拉罗谢尔F.拉维奥莱特M Marchand和V。Lempitsky神经网络的领域对抗训练。机器学习研究杂志，17（1）：2096-2030，2016。六、七[12] R. Hadsell，S.Chopra和Y.乐存。通过学习不变映射来降低维数。计算机视觉和模式识别，2006年IEEE计算机学会会议，第2卷，第1735-1742页。IEEE，2006年。2[13] P. Haeusser，T.Frerix，A.Mordvintsev和D.克莱姆斯自相关域适应.在国际计算机视觉会议，第2卷，第6页，2017年。2[14] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770-778，2016中。四、六、七[15] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。在欧洲计算机视觉会议上，第630-645页。施普林格，2016年。四、六、七[16] A.赫尔曼斯湖Beyer和B. Leibe为三胞胎的丢失辩护，进行人员重新鉴定。arXiv预印本arXiv： 1703.07737，2017。24904[17] J. Hoffman，E.Tzeng，T.帕克，J. -Y. Zhu、P.Isola，K.萨延科，A. A. Efros和T.达雷尔。Cycada：周期一致的对抗域适应。arXiv预印本arXiv：1711.03213，2017。1[18] J. Hoffman，D. Wang，F. Yu和T.达雷尔。野生动物：像素级对抗和基于约束的自适应。arXiv预印本arXiv：1612.02649，2016。1[19] L. Jiang，中国粘蝇D.孟氏T.Mitamura和A.G. 豪普特曼首先简单的样品：零示例多媒体搜索的自定进度重排序。第22届ACM国际多媒体会议论文集，第547-556页。ACM，2014年。1[20] G. Kang，J. Li，and D.涛. Shakeout：正则化深度神经网络训练的新方法。 IEEE transactions on patternanalysis and machine intelligence ， 40 （ 5 ）： 1245-1258，2018。1[21] G.康湖，澳-地Zheng，Y.郑氏，中国科学院植物研究所所长。Yan和Y.杨无监督领域自适应的深度对抗性注意对齐：目标期望最大化的好处。在欧洲计算机视觉会议（ECCV）的会议记录中，第401-416页，2018年。2[22] M.隆岛，澳-地Cao、J.Wang和M. I.约旦.使用深度适应网络学习可转移特征。 arXiv 预印本 arX

下载后可阅读完整内容，剩余1页未读，立即下载