无监督域自适应中基于渐进式特征对齐网络的方法

3 浏览量更新于2023-10-17 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

627用于无监督域自适应的陈超奇1、谢卫平1、黄文兵2、于荣2、丁兴浩1、黄跃<$1、徐廷洋<$2、黄俊洲21厦门大学信息科学与工程学院福建省智慧城市感知与计算重点实验室2腾讯AI实验室cqchen94@stu.xmu.edu.cn，xiewp@stu.xmu.edu.cn，www.example.com，hwenbing@126.com，yu.hotmail.comdxh@xmu.edu.cn，huangyue05@gmail.com，Tingyangxu@tencent.com，jzhuang@uta.edu摘要无监督域自适应（UDA）将知识从标签丰富的源域转移到完全无标签的目标域。为了解决这个问题，最近的方法借助于伪标签来实施跨源域和目标域的类级分布对齐，从而诉诸于区分域转移。然而，这些方法容易受到误差累积的影响，因此不能保持跨域类别的一致性，因为伪标记的准确性没有明确地保证。在本文中，我们提出了渐进式特征对齐网络（PFAN），通过利用目标域中的类内变化，渐进地和有效地对齐跨域的具体来说，我们首先开发了一个易到硬转移S策略（EHTS）和一个自适应原型对齐（APA）步骤来迭代地交替训练我们的模型。此外，在观察到良好的域自适应通常需要非饱和源分类器时，我们考虑了一种简单而有效的方法，通过进一步将温度变量引入soft-max函数来延迟源分类损失的收敛速度。广泛的实验结果表明，建议PFAN超过- S国家的最先进的性能在三个UDA数据集。1. 介绍Hiving 大规模标记数据集是深度卷积神经网络（CNN）最近成功然而，收集和注释各个领域的大量样本是一个极其昂贵和耗时的过程。同时，由于数据偏差或偏移，在一个大型数据集上训练的传统CNN在另一个数据集上显示出较低的泛化能力*表示平等缴款。†通讯作者图 1 ：（最佳彩色视图。）提议工作的动机（SVHN→MNIST）。分类边界首先由完全标记的源域绘制。在目标域中存在类内变化。[38]第30段。无监督域自适应（UDA）方法通过将知识从标签丰富的源域转移到完全无标签的目标域来解决上述问题[28，27]。深度UDA方法已经实现了显著的性能[40，22，9，10，2，39，25，33，30，16]，其通常寻求联合实现小的源概括误差和跨域分布差异。大多数先前的努力集中在匹配全局源和目标数据分布，以学习域不变表示。然而，学习的表示可能不仅使源和目标域更接近，而且还将具有不同类别标签的样本混合在一起。最近的研究[23，34，13，32，44，29，21，35，44，41]开始考虑-er学习目标域的判别表示。具体来说，他们中的一些人[34，32，44]提出使用伪标签来学习目标区分表示，这鼓励目标域中的类之间的低密度分离[20]。尽管这些方法有效，但它们面临两个关键限制。首先他们628需要强的预先假设，即正确伪标记的样本可以减少由错误伪标记的样本引起的偏差。然而，它是挑战，以满足该假设，特别是当域的差异是大的。学习的分类器可能无法自信地区分目标样本，或者以预期的准确度要求精确地伪标记它们。t.其次，基于伪标记样本对目标样本进行分类损失反向传播，使得目标性能容易受到误差累积的影响。在探索过程中，我们经验性地观察目标域中的不同数据模式。动机在图中被证明。1.一、类内分布方差存在于目标域中。一些目标样本，我们称之为简单样本，很可能被正确分类，因为它们足够接近源域，并且我们可以直接为它们分配伪标签而无需任何调整。有些目标样本，我们称之为硬样本，远离源域，它们是分类边界的缓冲器。此外，一些容易的样本，我们称之为假容易的样本，奠定了非对应的源类的支持，很容易被错误的伪标记与高置信度。这些错误标记的样本在类别比对中引入了错误的信息，并可能导致错误累积。因此，在UDA的背景下，减轻他们的负面影响是先决条件。在本文中，我们提出了一个渐进的特征对齐网络（PFAN），这在很大程度上扩展了能力的先验歧视性表示为基础的方法，明确地执行类别对齐在一个渐进的方式。首先，易到硬转移策略（EHT-S）逐步选择可靠的伪标记的目标样本与跨域相似性测量。然而，所选择的样本可能包括一些具有高置信度的误分类目标样本。然后，为了抑制错误标记样本的负面影响，我们提出了一个自适应原型对齐（APA）来对齐每个类别的源和目标原型。我们的工作不是基于伪标记样本反向传播目标样本的类别损失，而是基于源样本和选定的伪标记目标样本统计地对齐跨域类分布。EHTS和APA交替迭代更新，其中EHTS通过提供可靠的伪标记样本提高了APA的鲁棒性，APA学习的跨领域类别对齐可以有效地消除EHT引入的假标记样本S.此外，在观察到一个良好的自适应模型通常需要一个非饱和源分类器，我们考虑sider一个简单而有效的方法来延迟源分类损失的收敛速度，进一步涉及到软最大函数的温度变量。经验-实验结果表明，PFAN在三个UDA数据集上的性能优于现有的PFAN.2. 相关工作我们总结了与我们提出的方法最相关的工作。我们主要关注深度UDA方法，因为它们在这个问题上的经验优势。受生成对抗网络（GAN）[11]最近成功的启发，深度对抗域自适应在学习域不变表示以减少域差异并提供显着结果方面受到越来越多的关注[9，39，29，43，44，17，45]。这些方法试图找到一个特征空间，使得该空间中的源和目标分布之间的混淆最大。例如，[9]提出了一个梯度反转层来训练特征提取器，该特征提取器产生最大化域二元分类器损失的特征，同时最小化标签预测器损失。许多方法利用距离度量来测量源域和目标域之间的域差异，例如最大平均差异（MMD）、KL-发散或Wasserstein距离[12，22，37，24，42，6]。大多数现有的努力旨在通过匹配P（Xs）和P（Xt）来实现域对齐。然而，精确的域级对齐并不意味着细粒度的类到类重叠。因此，重要的是在不存在目标真实标签的情况下进行类别级比对[3，5，23，34，32，44，41]利用伪标签来补偿目标域中分类信息的缺乏。[23]联合匹配的边际分布和条件分布使用修订的MMD。[32]利用非对称三训练策略来学习目标域的区分表示。[44]基于来自先前训练时期的分类器迭代地选择伪标记的目标样本，并通过使用扩大的训练集来重新训练模型。[41]提出了分配伪标签的所有目标样本，并利用它们来实现跨域的语义对齐S.然而，这些方法高度依赖于正确伪标记的样本可以减少由错误伪标记的样本引起的偏差的假设。它们没有明确地减轻那些错误伪标记的样品。当虚假伪标记样本占据显著位置时，其性能将受到限制。3. 渐进式特征对齐网络在本节中，我们首先提供了拟议的PFAN的细节，然后从理论上研究我们的方法的有效性。PFAN的总体架构如图所示。2，它由三个组件组成，EHTS，APA，和软最大值函数与温度变量。EHTS提供可靠的伪标记样品629J∈ D|JJKK1伊伊斯图2：拟议PFAN的总体结构我们将网络分为三个模块：特征提取器G，标签预测器F，域预测器D和相关参数θg，θf，θd。左：从易到难策略（ETHS）。右：网络结构：PFAN中的虚线表示重量分担。通过迭代从容易到困难，APA明确地执行跨域类别对齐。3.1. 任务制定目标样本xt到相应的源原型，其中，xt计算如下，k（x t）= CS（G（x t），cS），k ={1，2，.，C}（2）在UDA中，我们给出一个源域Ds=Ssnsss其中CS（.，. ）表示余弦相似性函数be-两个向量之间的补间xt被添加到目标域中{（xi，yi）}i=1（xi ∈X s，yi ∈Ys）的ns个标记样本j并且给定目标域D={xt}nt（xt∈X）Dk类使用伪标签yt=k′，其中k′=tj j=1jttTJnt未标记样本[28]。源域和目标域从联合概率分布P（Xs，Ys）中提取和Q（Xt，Yt），且P1=Q. 我们假设arg最大值k（xj）。K然后，将未标记的目标样本Dt划分为-C类（即e. Dt={Dk}C={xt，yt}nt ）和每个tk=1j jj =1源域和目标域包含相同的对象类-是的，我们认为所有的C3.2. 从易到难的转移策略EHTS偏向于更容易的样本，这种偏向有助于避免包括更有可能被给予错误伪标签的硬样本。在我们的方法中，容易的样本逐渐增加。因此，S.通过EHTS选择的伪标记样本可以用于与它们相应的源类别对齐，如第3.3节所述。EHTS首先计算一个D维原型样本通过其相似性进行评分为了获得“简单”的因此，我们约束相似性得分应高于某个阈值τ。在训练过程中，相似度的值不断增加，因为随着训练的进行，源样本和目标样本在隐藏空间中变得更接近在较早阶段中的“硬”样本可以在较晚阶段中被选择为“容易”。然而，恒定的阈值会在每一步中将太多的“硬”样本变成为了控制“容易”样本的增长速度τ=1− 0。01，（3）1+e−μ·（m+1）S∈R D的源域中的每个类。源其中μ是常数，并且m（m ={0，1，2，. }）指─步骤。因此，样本选择函数被公式化为：prototype是嵌入源样本的平均向量在每个类中通过嵌入函数G（即图中的特征提取器）。2）具有可训练参数θ g，接着，xjKCtk=1.，wj=1如果ψ≥τ0如果ψτ<（四）ΣSsck=ks（xs，ys）∈DkG（xi），（1）其中wj=1指示要选择xj;否则，wj=0表示不选择xj最后，我们得到k是所选的伪标记的目标获取域Dt={xt，yt}nt 、其中，Ds表示用类别k标记的样本的集合，源域和Nk是相应J其中，n=t表示所选择的样本的数量j j=1SSC样品然后，得到一组原型{ck}k=1。嵌入的目标样本应该聚集在潜在特征空间中的源原型。因此，我们使用相似性度量来聚类第j个未标记的3.3. 自适应原型对准在本节中，我们将介绍所提出的APA，它考虑了跨域的成对语义相似性CN630（0）JKk（I）←ρtck（I−1）k（I）不Kk（I）不以明确地减轻那些伪易样本的负面影响，并加强跨域类别一致性。它可以通过将源样本的原型与每个类别的选定目标样本我们算法1渐进式特征对齐网络，m={0、1、…}表示训练步长，I表示迭代次数，Bs和Bt表示小批量训练集。需要：标记源样本D={（x s，y s）}ns ，un-测量两个原型之间的距离如下，S标记目标样本Dt={xt}nti i i=1¨ ¨ST？ ST？确保：θ、θ、θj j=1d（ck，ck）=<$ck−ck<$，（5）其中cS和cT表示源原型和目标原型，GD F1：m=02：第一阶段：K K分别我们选择平方欧几里德距离，距离测量功能。理由是，当使用Bregman散度（例如平方欧几里德距离和Mahalanobis距离）时，聚类均值产生最佳聚类代表[36]。原型对齐的可选方法是基于从Ds采样的小批量来计算和对齐局部原型，D在每次迭代中然而，这种方法是在一个位置，因为每一个分类信息第三章：使用Ds初始化G和F，输出：模型04：第二阶段：第五章：而不收敛6：m=m+17：基于模型m−1运行EHTS，输出：Dt8：计算初始全局原型cS使用基于模m−1的Ds和Dt9：对于I= 1到max iterdo10：从Ds和Dt采样的Div eBs和Bt不（0）小批量预计不足，甚至有一个假目标小批次中的标记样品可能会导致巨大的偏倚11：计算局部原型csS Tt k（I）计算原型和真实原型之间的区别为了克服上述问题，我们提出自适应地对准全球原型。APA首先基于所选择的伪标记的目标样本D_t如下计算初始全局原型，12：通过使用等式12更新：ck（I），ck（I）7、Eq.813：使用模型m-1微调的列车模型m，Bs和Bt通过优化12，输出：模型m14：结束15：Dt=k（0）=1德鲁克ΣG（x t）。（六）16：结束whilet（xt，yt）∈Dkjjt3.4. 培训损失在每次迭代中，我们计算一组局部原型{ct}C使用小批量样本。累计在这项工作中，我们根据经验发现，一个好的适配器，k k=1原型被计算为每次迭代中所有先前局部原型的平均值1美元不需要非饱和源分类器。这一经验性的重新-结果得到了3.5节中所述理论分析的支持。理由是自适应模型偏向于最小化源分类损失，k（I）=I i=1不k（i）、（7）通常会迅速收敛，因为来源真实标签然而，这种偏见可能导致过拟合-其中I表示当前训练步然后，如下更新新的cT从而导致有限的目标性能。受[15]的启发，我们建议增加一个高ρt=CS（ctk（I−1）），（八）温度变量T（T >1）到源分类器（如图1所2）的情况。这样我们就能延缓转化不k（I）2Tk（I） +（1−ρt2）cT，源分类损失的速度和有效其中CS（.，. ）是余弦距离，由方程式（2）和ρ是权衡参数。设cS为引导适配器达到更好的适配性能。我们通过下面的softmax函数实现该行为对于源域类似地更新为此，exp（zi/T）APA损失公式如下，qi=0J、（10）exp（zj/T）ΣCLapa（θg）=Sk（I）不k（I））的情况。（九）其中qi表示源SAM的类概率。k=1APA的动机是直观的：1）引入累积原型来估计错误标记样本引起的累积移位，然后利用它们与先前全局原型的相似性来确定新的全局原型cT; 2）统计对齐跨域类别分布，减少伪标记的错误累积。2和cCCC得双曲余切值.Cd（c得双曲余切值.和c631ples和z是由源分类器产生的logit使用更高的T值会产生更柔和的输出，自然会延迟收敛速度。对抗学习已经成功地引入到UDA中，通过提取域不变特征来实现主对齐[9]。然而，学习的表示不能确保类别对齐，这是性能降低的主要因此，我们的工作同时考虑域级和类别级对齐。632∗R（ h）+d在我们的PFAN中，输入x首先被G嵌入到D维特征向量f∈RD中，即， f = G（x; θ g）. 为了使f域不变，期望通过最大化特征提取器G的参数θg来优化参数θg。在通过最小化域损失θd来训练域损失θ d的同时，根据标准分类损失来优化θdLd（θg，θd）=Ex<$Ds[logD（G（x））]+Ex<$D<$ t[logD（1−G（x））]，（十一）图3：（a）类别调整之前：存在一个最优差距。（b）类别调整后：最优性此外，我们还需要同时最小化标记源样本的标记预测因子F的损失和APA损失。形式上，我们的最终目标是优化以下极大极小目标：ΣnsminmaxLc（F（G（xs;θg）;θf），ys）差距不再存在。目标真标签的缺失。因此，我们求助于伪标号来给出近似估计和最小化。定义1. 如果R′（·）表示相应的期望风险θg， θfθd我i=1我（十二）不选择的伪标记目标集D_（？）t，理想联合假设，+λLd（θg，θd）+γLapa（θg）其中Lc是标准交叉熵损失，λ和γ是控制源类之间的交互的信息化损失、域混淆损失和APA损失。训练PFAN的伪码如算法1所示esis是使组合误差h=arg minRS（h，fS）+RT′（h，fT），h∈H理想假设的综合误差为∗ ∗EHTS和APA交替且迭代地工作3.5. 理论分析在本节中，我们从理论上证明了我们的方法利用域自适应理论[1]改进了目标样本上的预期误差边界。形式上，设H为假设类，给定t-两个域S和T，误差的概率界假设h在目标域上的定义为，<$h∈H，RT（h）≤S1H<$H（S，T）+C（13）2其中，目标样本上的预期误差RT（h）由三项限定：（1）源域上的预期误差RS（h）;（2）dH H（S，T）是由两个分布S和T之间的差异距离测量的域发散。假设集H;（3）理想联合假设的共享误差C。在不等式（13）中，由于我们有源标签，因此RS（h）另一方面，先前的努力[9]旨在通过基于领域分类器的对抗学习，最小化dH H（S，T）。然而，一个小的dH H（S，T）和一个小的RS（h）并不保证小的RT（h）。有可能当跨域类别对齐不是明确地强制的（即，边缘分布被很好地对齐，但是类条件分布不被保证）。因此，C也需要有不幸的是，我们不能直接测量C，C=RS（h，fS）+RT′（h，fT），（14）其中fS和fT分别是源域和目标域的标记函数为了限制理想假设的组合误差，以下不等式成立：Theo rem1. 设fT为伪标号函数。给定RT′（fS ，fT）和RT′（fT，fT）作为最小共享误差，分别给出目标样本在Dt上被错误标记的程度. 我们有C≤ minRS（h，fS）+RT′（h，fT）+2RT′（fS，fT）+RT′（fT，fT）.h∈H（十五）我们在补充材料中说明了定理1的推导过程由于我们有源标签和目标伪标签，因此很容易在H中分别找到合适的h来近似fS和fT然而，我们假设当类别对齐尚未实现时，在fS和fT之间存在最优性差距（图1）。3（a））。而现有的方法大多没有考虑这一现象，而是直接极小化RS（h，fS），导致对源样本的过拟合。注1（极小化RS （h，fS ）+RT′（h，fT′））. 所提出的具有温度变量的softmax函数将过拟合应用于源样本（即，强制非饱和源分类器）。这将自适应模型引导到更好的目标性能，即，更小633（1+αp）βS不R S（h，fS）+R T′（h，fT）. 注意，当c r oss域类别分布很好地对齐时，上述最优性差距被移除（图2）。第3（b）段）。回想一下，标记函数f可以被分解为特征提取器G和标记分类器F。通过考虑RT′的0-1损失函数σ，我们有RT′（fS，fT<$）=Ex<$T ′[σ（FS（G（x）），FT<$（G（x）]通过[25]，我们在骨干上微调特征提取器G，并通过反向传播从头开始训练预测器F我们使用随机梯度下降（SGD）进行训练，动量为0.9，退火-学习率（lr）由lr p给出为lr0，其中p随着训练的进行从0线性增加到1lr0=0。01，α=10，β=0。75.为了补充-哪里=ExT’[|σ（FS（G（x）），y1）−σ（FT<$（十六）（G（x）），y2）|]特别是对于初始训练步骤，按压噪声信号; 我们使用与[9]类似的调度方法来自适应-|σ（FS（G（x）），y1）− σ（F<$（G（x）），y2）|为.1如果y1/=y2ly改变方程中λ和γ的值。(12)通过计算λ=γ=2−1，δ=10。我们设T = 1。8在E-的t0如果y1=y2（十七）1+exp（−δp）Q. （10）且μ = 0。8在Eq（3）所有实验。该批次备注2（最小化共享错误）。所提出的方法旨在在类别级别中逐步对齐特征，即，它将源域D k中的第k个类与相同的伪标记的目标类Dk 对齐。当猫元素对齐时，可以安全地假设y1=y2。因此，RT′（fS ，fT）被期望最小化。备注3（最小化靶样品在DET 上错误标记的程度）。所提出的EHTS算法的目标是在目标域中选择可靠的伪标记样本使RT′（fT，fT）最小。4. 实验4.1. 数据集和基线Office-31[31]是评估领域适应性的流行基准。它总共包含31个类别的4110幅图像，这些图像从三个域收集，包括Amazon（A）（包括从在线商家下载的2817幅图像）、Webcam（W）（包括从网络摄像头获取的795幅低分辨率图像）和DSLR（D）（包括498幅数码单反相机的高分辨率图像）。我们尝试两个域的所有6种组合进行评估。最初用于 ImageCLE-F 2014 域适应挑战的ImageCLEF-DA [4]由来自三个域的十二个常见类组成：ImageNet ILSVRC 2012（I）、Pascal VOC 2012（P）和Caltech-256（C）。每个doamin总共有600个图像，每个类包含50个图像。我们使用所有域组合测试6个任务。MNIST[19]、SVHN[26]和USPS[7]包含10个类别的数字图像。特别是，MNIST和SVHN中的图像是灰色的，尺寸分别为28×28和16×16;USPS由尺寸为32×32的彩色图像组成，并且在一个图像中经常有一个以上的数字。福尔-在前人工作的基础上，我们考虑了MNIST→SVHN、SVHN→MNIST和MNIST→USPS三种转移任务。4.2. 实现细节结合之前的实践，我们通过AlexNet实例化我们的骨干， AlexNet 已经在 ImageNet for Office-31 和ImageCLEF-DA上进行了预训练，并采用[39]的CNN架构用于数字数据集。按照建议634尺寸选择为128。平均值和标准偏差的所有结果都是在5次随机运行中获得的。所有的实验都是在Caffe框架下实现的。4.3. 与最新技术最先进的技术我们将我们的方法与各种最先进的UDA方法进行了比较，包括AlexNet [18]，深度域混淆（DDC）[40]，深度自适应网络（DAN）[22]，残差传输网络（RTN）[24]，反向梯度（RevGrad）[9]，对抗性判别域自适应（ADDA）[39]，联合自适应网络（JAN）[10]，联合自适应网络（JAN）[11]，联合自适应网络（JAN）[12]，联合自适应网络（JAN）[13]，联合自适应网络（JAN）[14]，联合自适应网络（ JAN ） [15] ，联合自适应网络（JAN）[16]，联合自适应网络（JAN）[17]。25]、非对称三训练（ ATT ） [32] 、多对抗域自适应（ MADA ） [29]和移动语义转移网络（ MSTN ）[41]。对于所有上述方法，我们总结了在他们的原始文件中报告的结果。为了相似，我们将我们的方法称为PFAN。表1显示了Office-31上的结果。所提出的PFAN优于所有比较的方法在一般情况下，并提高了国家的最先进的结果从79。1%至80。平均4%如果我们更多地关注硬迁移任务（如A→W和A→D），PFAN表现出更好的迁移能力。与JAN相比，MADA和MPEG4，我们的PFAN还考虑了目标类内变化和非饱和源分类器。我们对它们的更好的表现可以表明这两个组件的有效性。RevGrad也考虑了领域对抗适应，但其结果仍不如我们的结果。与RevGrad相比，我们的模型的优势在于，我们进一步执行EHTS和APA，这被我们的实验所支持，可以显式地执行跨域类别对齐，从而提供更好的性能。ImageCLEF-DA的结果报告于表2中。我们的方法在大多数传输任务上优于所有比较方法，这表明PFAN对于不同的数据集是可扩展的。足趾分类结果见表3。我们遵循[39]中建立的训练方案。对于MNIST和USPS之间的适应，我们随机抽样2000图像从MNIST和1800从USPS。为635表1：Office-31上基于AlexNet的方法（%）方法A→ WD→ WW→ DA →DD →AW→ AAvgAlexNet [18]61.5±0.595.1±0.399.0±0.264.4±0.548.8±0.347.0±0.469.3DDC [40]61.8±0.495.0±0.598.5±0.464.4±0.352.1±0.652.2±0.470.6丹麦[22]68.5±0.496.0±0.399.0±0.267.0±0.454.0±0.453.1±0.372.9RTN [24]73.3±0.396.8±0.299.6±0.171.0±0.250.5±0.351.0±0.173.7RevGrad [9]73.0±0.596.4±0.399.2±0.372.3±0.353.4±0.451.2±0.574.3JAN [25]74.9±0.396.6±0.299.5±0.271.8±0.258.3±0.355.0±0.476.0MADA [29]78.5±0.299.8±0.1100.0±.074.1±0.156.0±0.254.5±0.377.1[41]第四十一话80.5±0.496.9±0.199.9±0.174.5±0.462.5±0.460.0±0.679.1PFAN83.0±0.399.0±0.299.9±0.176.3±0.363.3±0.360.8±0.580.4表2：基于AlexNet的ImageCLEF-DA方法（%）方法I →PP →II →CC →IC →PP →CAvgAlexNet [18]66.2±0.270.0±0.284.3±0.271.3±0.459.3±0.584.5±0.373.9丹麦[22]67.3±0.280.5±0.387.7±0.376.0±0.361.6±0.388.4±0.276.9RevGrad [9]66.5±0.581.8±0.489.0±0.579.8±0.563.5±0.488.7±0.478.2JAN [25]67.2±0.582.8±0.491.3±0.580.0±0.563.5±0.491.0±0.479.3MADA [29]68.3±0.383.0±0.191.0±0.280.7±0.263.8±0.292.2±0.379.8[41]第四十一话67.3±0.382.8±0.291.5±0.181.7±0.365.3±0.291.2±0.280.0PFAN68.5±0.584.4±0.492.2±0.682.3±0.466.3±0.391.7±0.280.9表3：数字分类任务的准确性。表4：不同转移任务的PFAN消融。（%）源MNISTSVHNMNIST模型A→WI→PSVHN→MNIST目标SVHNMNISTUSPS源仅61.666.260.1源仅33.0±1.260.1±1.175.2±1.6PFAN（随机）77.067.087.2RevGrad [9]35.773.977.1±1.8PFAN（完整）81.968.092.5ADDA [39]-76.0±1.889.4±0.2PFAN（woAPA）76.467.182.0[32]第三十二话52.885.0-PFAN（woA）82.268.193.0[41]第四十一话不收敛91.7±1.592.9±1.1PFAN（woT）80.667.992.1PFAN57.6±1.893.9±0.895.0±1.3PFAN83.068.593.9SVHN和MNIST之间的适配，我们使用完整的l训练集。对于硬转移任务MNIST→SVHN，我们复制了MPERT [41]，但无法使其收敛，因为这种方法的性能强烈依赖于伪标记样本的准确性在这项任务中，它的得分较低。相比之下，我们的方法显著优于次优结果+4.8%，这清楚地表明了我们的方法在选择可靠的伪标记样本和减轻错误标记的样本对Chal-Challening场景的负面影响。对于较简单的SVHN→MNIST和MNIST→USPS任务，我们的方法也显示出优越性。4.4. 进一步的实证分析消融研究。为了分离我们工作的贡献，我们通过评估PFAN的几个变体来进行烧蚀研究：（1）PFAN（随机），它随机选择目标样本而不是使用从易到难的顺序;（2）PFAN（Full），其在训练时段使用所有目标样本;（3）PFAN（woAPA），表示完全没有APA的训练（即y=0，在等式(12))（4）PFAN（woA），其表示基于当前小批量对齐原型，而不考虑全局和累积原型;（5）PFAN（woT），它从我们的模型中移除温度（即，在等式中T=1（10））。结果示于表4中。我们可以观察到，所有组件都设计合理，当这些组件中的任何一个被移除时，性能都会下降。值得注意的是，PFAN优于PFAN（Random）和PFAN（Full），这表明EHTS可以为跨领域类别比对提供更可靠和信息量更大的目标样本。伪标签准确性。我们在图中显示了伪标记准确度和测试准确度之间的关系。5.我们发现：（1）随着训练的进行，伪标记准确率始终保持较高且稳定，这要归功于EHTS通过选择可靠的伪标记样本;（2）测试准确率随着标记样本的增加而增加，这意味着正确和错误标记样本的数量都成比例地增加，但我们的方法可以显着减轻负面影响假标签的样本6361.00.80.60.40.20.00 10 20 30 40502.01.81.61.41.21.0A-->WW-->D迭代次数（epoch）(a) 非饱和源分类器传送任务(b) 分布差异（c）RevGrad：目标=W（d）PFAN：目标=W图4：（a）不同温度设置下源分类损失的收敛速度。(b)分销分销商。（c）-（d）由RevGrad和PFAN生成的目标域W上的网络激活的t-SNE可视化并不意味着在目标域中性能更好这0.900.850.800.750.700.650.600.550 2 4 68训练步骤420400380360340320这种现象与第3.5节中的分析一致。特征可视化。我们利用t-SNE [8]来可视化RevGrad（机器人）学习的任务A→Wtleneck层）和PFAN（瓶颈层）。如图从图4（c）-4（d）可以看出，目标域上的RevGrad特征不能很好地区分，一些类别已经在特征空间中混合。通过con-图5：伪标记准确度和转移任务A→ W的测试准确度的比较。使用（正确标记的样本的数量）/（标记的样本的数量）来计算伪标记准确度。非饱和源分类器。为了进一步验证我们关于非饱和源分类器的假设，我们研究了不同温度设置下的源分类损失。结果报告于图1中第4（a）段。 T = 1模型比T = 1模型收敛得更快。8、特别是在训练开始。但随着训练的进行，这种差异逐渐减小。理由是我们使用更高的T来延迟源分类损失的收敛速度（即，减轻适配器对源样品的过拟合），从而显示出更好的适配。分布不一致。领域适应理论[1]认为A-距离可以作为领域差异的度量估计经验A-距离的方法被定义为dA=2（1−1），其中1是训练用于区分源和目标特征。我们利用一个核支持向量机来估计A-距离。图4（b）展示了在任务A→W和W→D上使用AlexNet、RevGrad和PFAN的特征计算的A-距离。我们可以观察到，我们的方法显着降低了与AlexNet的A距离通信。然而，与RevGrad，PFAN在A-距离方面显示出较小的改善，但通过大幅度提高性能，这表明低域分歧确实相比之下，PFAN可以学习更多的判别表示，这共同扩大了类间离散度并减少了类内变化。5. 结论在本文中，我们提出了一种新的方法称为渐进的特征对齐网络，利用目标领域的类内方差和跨域类别的一致性来解决UDA问题。EHTS和APA在选择可靠的伪标记样本和减轻由假标记样本引起的偏差通过延缓源分类损失的收敛速度，进一步提高了性能。广泛的实验表明，我们的方法优于国家的最先进的UDA方法在三个领域的适应数据集。6. 确认这项工作得到了国家自然科学基金 61571382 、81671766 、 61571005 、 81671674 、 61671309 和U1605252的部分支持，部分由中央大学基础研究基金资助20720160075和20720180059，部分由CCF-腾讯开放基金和中国福建省自然科学基金（No.2017J01126）资助。引用[1] Shai Ben-David、John Blitzer、Koby Crammer、AlexKulesza、Fernando Pereira和Jennifer WortmanVaughan。T=1T=1.8AlexNetRevGradPFAN伪标记准确度测试准确度标记样品源分类损失精度瞬间的标记样品637从不同领域学习的理论Machine learning，79（1-2）：151[2] Konstantinos Bousmalis ， George Trigeorgis ， NathanSilber-man，Dilip Krishnan，and Dumitru Erhan.域分离网络。神经信息处理系统的进展，第343-351页，2016年[3] 洛伦佐·布鲁佐尼和马蒂亚·马康西尼。Domain adapta-tion problems ： A dasvm classification technique and acircular validation strategy.IEEE transactions on patternanalysis and machine intelligence，32（5）：770[4] BarbaraCaputo ， HenningMüller ， JesusMartinez-Gomez ，Mauricio Villegas ， Burak Acar ， Novi Patricia ， NedaMar-vasti ， SuzanUüskuüdarlstan ， RobertoParedes ，MiguelCazorla ， et al. Imageclef 2014：结果综述与分析。在欧洲语言跨语言评估论坛上，第192Springer，2014.[5] Minmin Chen，Kilian Q Weinberger，and John Blitzer.领域适应的联合训练。神经信息处理系统的进展，第2456-2464页，2011年[6] Qingchao Chen ， Yang Liu ， Zhaowen Wang ， IanWassell，and Kevin Chetty.用于无监督域自适应的重加权对抗自适应网络。在IEEE计算机视觉和模式识别会议集，第7976-7985页[7] John S Denker，WR Gardner，Hans Peter Graf，DonnieHenderson，Richard E Howard，W Hubbard，LawrenceD Jackel，Henry S Baird，and Isabelle Guyon.手写邮政编码数字的神经网络识别器神经信息处理系统的进展，第323-331页，1989年[8] Jeff Donahue ， Yangqing Jia ， Oriol Vinyals ， JudyHoffman，Ning Zhang，Eric Tzeng，and Trevor Darrell.Decaf：用于通用视觉识别的深度卷积激活功能。机器学习国际会议，第647-655页，2014年[9] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督国际机器学习会议，第1180-1189页，2015年[10] Mingming Gong ， Kun Zhang ， Tongliang Liu ，DachengTao，ClarkGlymou r，andBernhardScho¨ l k opf.具有条件可转移组件的域自适应在机器学习国际会议上，第2839-2848页，2016年。[11] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing X-u 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。在神经信息处理系统的进展，第2672[12] ArthurGretton，Karsten M Borgwardt，Malte J Rasch，Bern-hardSchoülk opf，andAl e xanderSmola. 一个核双样本检验。 Journal of Machine Learning Research ， 13（Mar）：723[13] Philip Haeusser、Thomas Frerix、Alexander Mordvintsev和Daniel Cremers。关联域自适应。在国际计算机视觉会议（ICCV），第2卷，第6页，2017年。[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[15] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。arXiv预印本arX-iv：1503.

下载后可阅读完整内容，剩余1页未读，立即下载