没有合适的资源?快使用搜索试试~ 我知道了~
12706基于增强型传输网络的部分域自适应选择性传输浙江大学信息科学与电子工程研究所{zhihongchen,chench,chengzhaowei,byjiang,ke-fang,jinxy}@ zju.edu.cn摘要源样本目标样本分类器部分领域适应(PDA)的一个关键方面是如何选择共享类中的相关源样本进行知识转移。以前的PDA方法通过基于源样本的高级信息(深度特征)重新加权源样本来解决这个问题。然而,由于源域和目标域之间的域移动,仅使用深度特征进行样本选择是有缺陷的。我们认为,这是更合理的,另外利用PDA问题的像素级信息,离群源类和目标类之间的外观差异是显着的大。在本文中,我们提出了一个增强的传输网络(RTNet),它利用高层和像素级信息的PDA问题。我们的RTNet由一个基于强化学习(RL)的强化数据选择器(RDS)和一个域自适应模型组成,前者过滤掉离群源样本,后者最小化共享标签空间中的域差异。具体来说,在RDS中,我们设计了一种新的奖励的基础上重建错误的目标生成器上的选定的源样本,它引入像素级的信息来指导RDS的学习。此外,我们还开发了一个包含高级信息的状态,供RDS用于样本选择。建议的RDS是一个通用的模块,它可以很容易地集成到现有的DA模型,使他们适合PDA的情况。大量的实验表明,RTNet可以实现国家的最先进的性能PDA任务上的几个基准数据集。1. 介绍深度神经网络在各种应用中取得了令人印象深刻的性能。然而,当应用于相关但不同的域时,由于域转移的有害影响,学习模型的泛化能力可能会严重下降[3]。从即将到来的新域重新收集标记的数据是禁止的,(a) (b)拟议的RTNet图1:(a)负迁移是由不匹配触发的(b)通过滤除离群类来减轻负迁移这是因为数据标注的成本太高。域自适应技术通过将知识从具有丰富标记数据的源域这些DA方法通过矩匹配[18,25,9]或对抗训练[26,12]来学习域不变特征。先前的DA方法通常假设源域和目标域具有共享的标签空间,即,源域的类别集与目标域的类别集一致。然而,在实际应用中,找到一个与目标域具有相同标签空间的相关源域通常是困难的因此,更现实的方案是部分域自适应(PDA)[4],它放松了源和目标域共享相同标签空间的约束,并假设未知的目标标签空间是源标签空间的子集。 在这种情况下,如图1a所示,现有的DA方法通过将整个源域与目标域对齐来强制离群源类(蓝色三角形)和不相关的目标类(红色正方形)因此,可能由于失配而触发负转移。负迁移是一个两难问题,迁移模型的性能甚至比非适应(NoA)模型更差[21]。已经提出了几种方法来解决PDA根据选择器过滤12707i ii=1通过重新加权源样本来解决这个问题,其中权重可以从预测的目标标签概率的分布[5]或域的预测[4,32]中这些方法选择相关源样本时只考虑高层信息(深层特征),而忽略了隐藏在像素级信息中的最具鉴别力的特征,如外观、风格或背景等。由于离群源样本和目标样本之间的表现差异非常大,因此考虑离群样本选择的像素级信息预计将有利于自适应性能[13]。此外,这些基于对抗网络的PDA模块很难集成到缺乏区分器的基于匹配的DA方法中因此,大多数现有的基于匹配的方法很难扩展到解决PDA问题。在本文中,为了解决PDA问题,我们提出了一个增强传输网络(RTNet),如图1b所示,它利用增强学习(RL)来学习增强数据选择器(RDS)以过滤离群源样本。在这方面,来自RTNet的DA模型可以对齐共享标签空间中的分布以避免负传输。为了同时利用像素级和高层信息,我们设计了一个RDS。RDS根据样本状态采取措施(保留或删除样本)。然后,所选源样本在目标生成器上的重建误差被用作奖励,以通过演员-评论家算法指导RDS的学习[15]。注意,状态包含高级信息,而奖励包含像素级信息。具体地说,利用重构误差引入像素级信息的直观性在于,目标生成器缺少离群类的训练样本,而离群源样本与目标类又极其不相似,因此在用目标样本训练的生成器因此,重构误差可以很好地度量源样本与目标域之间的外观相似性,这是样本选择中的重要信息,也是高层信息难以获取的。2. 相关工作部分域自适应:近年来,深度DA方法得到了广泛的研究。这些方法通过嵌入用于矩匹配的自适应层[27,17,25,7,8]或添加用于对抗训练的域鉴别器[12,26]来扩展深度模型。然而,这些方法可能受到源域和目标域共享相同标签空间的假设的限制,这在PDA场景中是不存在的。已经提出了几种方法选择性对抗网络(SAN)[4]为每个类训练一个单独的域,并使用权重机制来抑制离群类的有害影响。部分对抗域自适应(Partial adversarial domain adaptation,PADA)[5]通过只采用一个主分类器来改进SAN 示例转移网络(ETN)[6]根据源示例与目标域的相似性量化源示例的权重。与以前的PDA方法不同,仅使用高级信息,RTNet将像素级和高级信息相结合,以实现更准确的样本过滤。强化学习:RL可以大致分为两类[1]:基于价值的方法和基于政策的方法。基于价值的方法估计未来通过状态的预期总回报,例如SARSA [23]和深度Q网络[19]。基于策略的方法试图直接找到当前状态下的下一个最佳操作,例如REINFORCE算法[30]。为了减少方差,一些方法结合了基于值和基于策略的方法以实现更稳定的训练,例如Actor-Critic算法[15]。到目前为止,基于RL的数据选择已经应用于主动学习[11],协同训练[31],文本匹配[22]等领域。然而,目前还缺乏一种增强的数据选择方法来解决PDA问题。3. 我们的方法问题定义和符号:在这项工作中,基于PDA设置,我们将标记的源数据集定义为{Xs,Ys}={(xs,y s)}ns从源域Ds作为-与...有关|Cs|类,并定义未标记的目标数据集为{Xt}={xt}nt从目标域Dtasso-本文的主要贡献是:(1)提出了一种新的PDA提出了一种结合样本选择和域差异最小化的RTNet框架。(2)设计了一种基于强化学习的强化数据选择器,通过综合考虑高层信息和像素级信息选择相关样本进行正迁移,解决了PDA问题据我们所知,这是第一个用RL技术解决PDA问题的工作。(3)大多数DA方法都可以通过与RDS的结合而扩展到求解PDA问题我们使用两种类型的基础网络来评估整合的有效性(4)RTNet在三个著名的基准测试中获得i i=1与...相连|Ct|班注意,目标标签空间包含在源标签空间中,即,Ct∈ Cs,Ct未知。这两个域分别遵循不同的边缘分布p和 q,我们进 一步得到pCt/=q。 pCt is thedistribution of source samples in the target label space. 目标是提高模型的性能,在Ds与Ct相关的知识的帮助下,3.1. RTNet概述如图2所示,RTNet由两个组件组成:一个域自适应模型(F和C)和一个增强模型。12708∈价值网络奖励积累BG奖励奖金S���′更新异常值样本相关样本选定的源批次中文(简体)低奖励FDA方法C′−���������更新目标批高回报Gt源批次政策网站地图国家统计局数据选择后的源批次行动计划领域适应模型增强型数据库图2:RTNet概述。F是共享特征提取器,C是共享分类器,Gs和Gt分别是源和目标生成器,V是值网络,π是策略网络。将Gs和Gt与F组合以分别构造源和目标自动编码器来重构样本。绿线表示获得奖励的流程强制数据选择器(Gs,t,V和π)。DA模型通过减少共享标签空间中的分布偏移来促进正迁移 基于RL的RDS通过过滤离群源类来减轻负传输。具体地,为了过滤离群源样本,策略网络π考虑由特征提取器F和分类器C提供的高级信息以用于决策以得到所选择的源样本Xs′。对于DA模型的主干,C以源迁移特征Zs′=F(Xs′) 为输入,产生标签预测Ys ,F 实现F(Xs′)和F(Xt)之间的差异对齐.与此同时,被选中的超出了我们的研究范围。此外,RDS具有通用性,因此CORAL可以被其他更好的DA方法所取代。在附录中,我们还提供了将RDS嵌入到DANN中的解决方案,以证明RDS也可以集成到基于对抗网络的方法 Inthe following, we will give a brief introduction ofCORAL.我们定义F的最后一层为适应层,并通过对齐源和目标特征的协方差矩阵来因此,CORAL目标函数为:源样本L=1<$Cov(Zs)−Cov(Zt)<$2,(1)t2cd2bbF基于Gt,用作奖励,以鼓励π选择-(F)选择具有小重建误差的样本。 为了舞台-其中·2表示平方矩阵Frobenius范数,训练能力,基于演员-评论家算法,我们使用与奖励相结合以优化π的价值网络V。ZsRBFn×d和Zt∈Rn×d表示源和目标此外,用重构源图像的重构误差训练特定领域的生成器Gs和Gt由适配层输出的可转移特征,b是批次ID,d是可转移特征的尺寸,n是批次大小。Cov(Zs)和Cov(Zt)Gs(F(Xs′))和目标图像Gt(F(Xt))。B b表示协方差矩阵,可以计算如Cov(Zs)=Zs<$Zs,Cov(Zt)=Zt<$Zt。3.2. 领域适应模型b b bb b b几乎所有的PDA框架都是基于对抗网络的[4,5,32,6],这导致许多现有的基于矩匹配的DA算法无法扩展到解决PDA问题。建议的RDS是一个通用的模块,可以集成到大多数DA框架。在这项工作中,我们使用深度CORAL[25]作为基础DA模型来证明RDS可以嵌入到基于匹配的DA框架中,以使其对PDA场景具有鲁棒性。我们选择CORAL的原因是它简单而有效。虽然CORAL有一些局限性,但它为了确保共享的特征提取器和分类器可以通过在标记样本上进行监督训练,我们定义了关于标记源样本的标准交叉熵分类损失Ls。形式上,域自适应模型的完整目标函数如下:LDA=Ls+λ1Lc,(2)其中超参数λ1控制相应目标函数的影响。然而,在PDA场景中,大多数DA方法(例如,CORAL)可能会引发负迁移,因为这些方法会迫使全局12709我BBB我我BnBB我1iti2我′在一些实施例中,可以使用分布p和q,即使pCs\Ct和q是不重叠的并且在转移期间不能对准。因此,增强的数据选择器的动机是通过过滤出离群源类来减轻负迁移其中δ是ReLU激活,Wk和bk是第k层的权重矩阵和偏置,并且ss是源样本的状态,其连接特征(1)、(2)和(3)。奖励:选择器采取行动,从Cs\Ct,然后执行分布对齐。Xs。 RTNet使用XsB更新DA模型,B b3.3. 增强型数据库我们认为RT- Net的源样本选择过程是一个马尔可夫决策过程,可以用RL来处理RDS是与DA模型创建的环境交互的代理代理根据策略函数采取措施保留或删除源样本DA模型评估Agent采取的行动,并提供奖励来指导Agent的学习。如图2所示,给定一批源sam-plesXs={xs}n,我们可以得到相应获得用于评估策略的奖励Rb相比之下对于通常的强化学习,其中一个奖励对应于一个动作,RTNet将一个奖励分配给一批动作,以提高模型训练的效率为了在选择源样本时充分利用像素级的信息,基于Gt,根据所选源样本的重构误差设计了新的奖励.使用这种重建误差的直觉因为重构误差为<$xs′−GF(xs′)<$2,异常源样本的数量很大,因为它们非常与目标阶级不同。 因此,选择器旨在bi i=1状态Ss={ss}n通过DA模型。 的RDS选择具有小重构误差的源样本,bi i=1然后利用策略π(Ss)来确定动作As={as}n取自源样本,其中as∈ {0,1}。分布对齐和分类器训练。但RL的目的是最大化奖励,所以我们设计了bi i=1ias= 0表示从Xs中过滤离群样本。 因此我们以下是基于重构误差的新颖奖励i′获取新的源批次X% sB与tar r getdomain有关。In-n′“b"s sss′2代替Xb,我们喂养Xb DA模型来解决rb=exp(−n′xi−Gt F(x)(2),(4)PDA问题。最后,DA模型移动到下一个′i=1状态s′更新为Xs和Xt后,并提供了一个重新其中xs′是由增强数据se选择的样本根据源重建误差,我选择器,n′ 是选定的样本数。如图所示在Gt上更新π和V。在以下各节中,我们将详细介绍状态、动作和奖励。状态:状态被定义为向量ss∈Rl。 为了为了在采取行动时同时考虑每个源样本的唯一信息和目标域的标签分布,ss串联了以下特征:(1)高级语义特征zs,它是外-s s s s由方程式4、重建误差越小,奖励越大,这符合我们的预期。 注意,为了准确地评估Xs的功效,在特征提取器F和分类器C被更新之后收集奖励,如在等式(1)中。 5并且在生成器G s,t如等式5中那样被更新之前,六、F,C和Gs,t可以训练如下:minLDA,(5)给定xi的F的放置,即,zi=F(xi). (2)源样本的标签yi,由独热向量表示(3)′1秒(F、C)s′2Σnt t2目标批次Xt的预测概率分布α,min′xi−GsF(xi)<$2+xi− GtF(xi)<$2。1tttb(Gs,t,F)ni=1n i=1可以计算为ni=1yi,yi =C(F(xi))。特征(1)表示源SAM的高级信息请。特征(3)基于将目标数据分配给异常源类别的概率应该很小的直觉,因为目标样本与异常源样本显著不同。因此,α量化了每个源类对目标域的贡献。特征(2)与特征(3)相结合来度量每个源样本与目标域之间的操作:操作a∈ {0,1},表示源样本是保留还是从源批次中筛选。选择器利用贪婪策略[19]对一个样本进行基于π(ss)。π(ss)∈R1表示(六)在选择的过程中,不仅最后一个行动有助于奖励,而且所有以前的行动都有助于奖励。因此,每个批次b的未来总回报r′可以形式化为:N−br′=γj rb+j,(7)j=0其中γ是奖励折扣因子,N是此事件中的批次数。最佳化:选择器基于演员进行优化-critic算法[15]。 在每一集里,选择者的目标是我我保留样品当火车从1衰减到0时-进步。π被定义为具有两个完全连接的层的策略网络。形式上,π(ss)计算为:π(ss)= sigmoid(W δ(W ss+b)+b),最大化预期的总回报。形式上,目标函数定义为:ΣNJ(θ)=Eπθ[rb],(8)我2 1我 1 2(三)b=1我′112710我我我BBBb bb我我我i i=1bb bbb bbBb其中θ是策略网络π的参数。通过对J(θ)执行(通常是近似的)梯度上升来更新θ。形式上,π的更新步长定义为:1Σn由于RDS和DA模型在训练过程中相互作用,我们联合训练它们。为了确保DA模型能够在训练的早期阶段提供准确的状态和奖励,我们首先通过θ=θ+lθn i=1viθlog(πθ(ss)),(9)源样本的分类损失Ls 6. 我们[22]第23话,你要做的是,尾训练过程在算法1中示出。其中l是学习率,n是批量大小,v是是基于未来总回报的优势函数的估计,其指导π的更新。注意,vi<$θlo g(πθ(ss))是<$θJ(θ)的无偏估计[30]。演员-评论家框架结合了π和V以实现稳定的训练。在这项工作中,我们利用V(s)来估计预期的特征总回报。 因此,Vi可以被认为是作为对行动优势的估计,其定义如下:v i=r′− V(ss).(十)3.4. 理论分析在本节中,我们从理论上证明了我们的方法通过使用域自适应理论[2]来改善目标样本上的预期误差边界。定理1. 假设H是源S和目标T的公共假设类,目标域的预期误差的上限,Wt(h),定义为:bi1价值网络V的架构类似于策略网络,不同之处在于最终输出层是回归函数。V被设计为估计每个状态的预期特征总回报,其可以通过以下方式优化:1Σnn(h)≤n(h)+2dH <$H(p,q)+C,n∈H,(12)其中,目标域的预期误差由三项限定:(1)δs(h)是源域的预期误差H δ H(p,q)是由源分布p和=∇Ωǁr′−VΩ(ss)ǁ2,(11)目标分布q;(3)C=min h[S(h)+S(h)]是nbi2i=1其中,R1是价值网络V的可训练参数。算法1RTNet的优化策略要求:事件数L,源数据{Xs,Ys}和目标数据Xt。1:初始化RTNet中的每个模块。2:对于发作= 1→Ldo3:对于每个(Xs,Ys),(Xt)∈(Xs,Ys),(Xt),理想联合假设的共同误差。由方程式12,由于它可以通过具有源标签的深度网络进行优化,因此预计它会很小先前的DA方法[27,17,25,12]试图通过对齐S和T的全局分布来最小化dH H(p,q)。然而,Eq。12假设源和目标的标签空间域是一致的,这在PDA系统中是不存在的。因此,盲目地对齐全局分布是一种错误的解决方案,它迫使目标样本与离群源类对齐(图1a),4:通过do获得状态Ss={ss}nbi i=1主适应模型,其中ss=[F(xs),ys,α]。5:利用双贪婪策略对As=在C中的大的Δt(h)中,并且触发负转移。到为此,我们需要确保来源的一致性{a s}n基于π(Ss)。b和目标标签空间。然而,这是不可能的-“”直接过滤离群源类作为6:从以下位置选择源训练批次(Xs,Ys)(Xs,Y s)根据A s。b b b 目标域未知。 因此,我们建议RT-NET的新方法,它扩展了DA方法以自动过滤7:更新域自适应模型(F 和C)其中(Xs′,Ys′)和(Xt)如等式中所示。五、′异常值源类,因此Eq. 12可以得到正确的结果。8:在G t上获得奖励r b,其中Xs如等式4.第一章9:用Xs更新Gs,tB和Xt,如等式中所示。6.4. 实验10:将(Ss,A s,r b)存储到情节历史H。11:结束4.1. 数据集12:对于每个(Ss,As,rb)∈H,b b′Office-31[24]是一个广泛使用的视觉领域适应13:获得未来的总回报rb,如等式13所示。7.第一次会议。14:获得估计的未来总奖励V(Ss)。15:将π更新为等式9并更新V为等式11个国家。16:结束17:结束′12711数据集,包含来自三个不同领域的31个类别的4,110张图像:亚马逊网站(A),网络摄像头(W)和数码单反相机(D)。按照[4]中的设置,我们在每个域中选择相同的10个类别来构建新的目标域,并创建6个传输场景,如表1所示12712表1:Office-31数据集和数字数据集的性能。RTNetadv表示将增强数据选择器集成到DANN中的模型。为了论文的完整性和可读性,在附录中将介绍RTNetadv类型方法 Office-31数字数据集A31→W10D31→W10W31→D10A31→D10D31→A10W31→A10平均SVHN 10→MNIST 5MNIST 10→MNIST-M5USPS10→ MNIST5公司简介→ MNIST5AvgNoaResNet/ LeNet76.5±0.399. 2± 0.297. 7± 0.187. 87.第八十七章. 2± 0.184. 1±0.388.779.6±0.360.2±0.476.6±0.6 91.3±0.4 76.9[17]第六十二章:一个女人7.5 ± 0.557.47.61. 2± 0.669. 7±0.558.863.5±0.548.61. 3±0.455.0±0.3 57.2DAPDADANN[12]62.8±0.671.6±0.465. 6±0.565. 第七十八章. 90 ± 0.379. 2±0.4 70.5 68.9±0.7 50.6±0.7 83.3±0.5 77.6±0.4 70.1珊瑚[25]52.1±0.565.2±0.264. 1± 0.758. 0± 0.573. 第七十七章. 9±0.3 65.1 60.8±0.6 43.4±0.5 61.7±0.5 74.4±0.4 60.1JDDA[7]73.5±0.693. 第八十九章. 3± 0.276.77. 6±0.1 82.8±0.2 82.1 72.1±0.4 54.3±0.2 71.7±0.4 85.2±0.2 70.8PADA[5]86.3±0.499. 3± 0.1100± 0.090. 4± 0.191. 92 .第九十二章6±0.193.390.4±0.389.1±0.297. 4± 0.396.5±0.1 93.4[6]1999. 3±0.199。2± 0.295。5± 0.495.4± 0.191. 7±0.295.893.6±0.292.5±0.196. 5± 0.197. 8±0.2 95.1RTNet95.1±0.3100± 0.0100± 0.097.8± 0.193. 9± 0.194. 1±0.1 96.8 95.3±0.1 94.2±0.298.9±0.1 99.2±0.0 96.9RTNetadv96.2± 0.3100± 0.0100± 0.097. 60 ±0.192. 3±0.195.4± 0.196.9 97.2± 0.194.6±0.2 98.5±0.199.7± 0.097.5表2:在P2P-Home数据集上的性能RTNetadv表示将增强数据选择器集成到DANN中的模型为了论文的完整性和可读性,在附录中将介绍RTNetadv类型方法Ar→ClAr→PrAr→RwCl→ArCl→PrCl→RwPr→ArPr→ClPr→RwRw→ArRw→ClRw→PrAvgNoaResNet47.2±0.266.8±0.3七十六。9±0.557.6±0.258.4±0.162.5±0.359.4±0.340.6±0.275.9±0.365.6±0.149.1±0.275.8±0.461.3丹麦[17]35.7±0.252岁9±0.463岁7±0.245.0±0.351.7±0.349.3±0.142.4±0.231.5±0.468.7±0.159.7±0.334.6±0.467.8±0.150.3DADANN[12]43.2±0.561.9±0.272.1±0.452.3±0.453.5±0.257.9±0.147.2±0.335.4±0.170.1±0.361.3±0.237.0±0.271.7±0.355.3珊瑚[25]38.2±0.155.6±0.365.9±0.248.4±0.452.5±0.151.3±0.248.9±0.332.6±0.167.1±0.263.8±0.435.9±0.269.8±0.152.5JDDA[7]45.8±0.463.9±0.274.1±0.351.8±0.255.2±0.360.3±0.253.7±0.238.3±0.172.6±0.262.5±0.143.3±0.371.3±0.157.7PADA[5]53.2±0.269.5±0.178岁6±0.161岁7±0.262.7±0.360.9±0.156.4±0.544.6±0.279.3±0.174.2±0.155.1±0.377.4±0.264.5PDAETN[6]60.4±0.376.5±0.2七十七。2±0.3六十四3±0.167.5±0.375.8±0.269.3±0.154.2±0.183.7±0.275.6±0.356.7±0.284.5±0.370.5RTNet62.7±0.179.3±0.281.2±0.165.1±0.168.4±0.376.5±0.170.8±0.255.3±0.185.2±0.376.9±0.259.1±0.283.4±0.372.0RTNetadv63.2±0.180.1±0.280.7±0.166.7±0.169.3±0.277.2±0.271.6±0.353.9±0.384.6±0.177.4±0.257.9±0.385.5±0.172.3数字数据集包括五个领域适应基准:街景房屋号码(SVHN)[20],MNIST [16],MNIST-M [12],USPS[14]和合成数字数据集(SYN)[12],由十个类别组成。我们在每个数据集中选择5个类别(数字0到数字4)作为目标域,并构建四个PDA任务,如表1所示。D-Home[28]是一个更具挑战性的DA数据集,它由4个不同的领域组成:艺术图像(Ar),剪贴画图像(Cl),产品图像(Pr)和真实世界图像(Rw)。对于每个转移任务,当一个域被用作源域时,我们使用所有65个类别的样本;当一个域被用作目标域时,我们从与[6]相同的25个类别中选择样本。因此,我们可以构建12个PDA任务,如表2所示。4.2. 实现细节RTNet通过Tensorflow实现,并使用Adam优化器进行训练。对于Office-31和Open-Home上的实验,我们使用在ImageNet上预训练的ResNet-50作为域自适应模型的骨干,并微调全连接层和最终块的参数。对于数字数据集上的实验,我们采用修改后的LeNet作为域适配器的骨干模型并更新所有权重。所有图像都转换为灰度,并调整为32 ×32。在RTNet中,每个模块的结构可以在阑尾为了保证公平比较,在所有比较方法中,对F和C使用相同的框架,12713每种方法训练五次,取平均值作为最终结果。 对于所有的超参数,我们设l = 1e − 4,λ1= 7,γ =0。85,其中通过使用网格搜索对所选集的性能进行了验证。参数敏感性分析见附录。缓和模型选择,比较方法的超参数逐渐从0变为1,如[18]所示。4.3. 结果和讨论表1和表2显示了三个数据集的分类结果。通过查看这些表格,可以得出几点意见。(1)以往的标准DA方法,包括基于对抗网络的DA方法(DANN)和基于矩匹配的DA方法(DAN、JDDA和CORAL)的性能甚至比非适应(NoA)模型更差,表明它们受到负迁移的影响(2)PDA方法(ETN和PADA)由于其加权机制可以减轻离群类别引起的负迁移,因此可以大幅度提高分类(3)通过对引入RDS的模型(RTNet和RTNetadv ) 和 未 引 入 RDS 的 模 型 ( CORAL 和DANN)进行比较,发现引入RDS的模型可以有效地这证明我们设计的选择器是一个通用的模型,可以很容易地集成到现有的DA模型,不仅包括基于匹配的方法,而且还包括基于对抗的方法。(4)RTNet /RTNetadv在大多数传输任务上实现了最佳精度不同于12714CC606040200−20−4040200−20−4040200−20−4040200−20−40−60−60−60 −40 −20 0 20 40−40 −20 0 20 40−60 −40 −20 0 20 40 60−40 −20 0 20 40(a) ResNet-50(b) 珊瑚(c) ETN(d) RTNet806060606040404040200−20200−20200−20200−20−40−40−60−40−60−40−60−60−60−40−20 0 20 4060−80−60−40−20 0 2040−60 −40 −20 0 20 4060−80−60−40−200 20 40 60(e) LeNet(f) 珊瑚(g) ETN(h) RTNet图3:A31→W10((a)-(d))和SVHN 10 → MNIST 5((e)-(h))上的t-SNE可视化。红点表示目标样本,蓝点表示源样本。根据类别信息生成的结果见附录。RTNet /RTNetadv采用高层信息来选择源样本,并以像素级信息作为评价标准来指导策略网络的学习,从而克服了以往PDA方法仅依靠高层信息来获取权重的缺点。因此,该选择机制可以更有效地检测离群源类并转移相关样本。4.4. 分析特征可视化:我们使用t-SNE [10]可视化适应层的特征。如图3所示,可以进行几项观察。(1)通过比较图3a、3e和图3b、3f,我们发现CORAL迫使目标域与整个源域对齐,包括在目标标签空间中不存在的离群值类 (2)如 图 3d 、 3h 所 示 , RTNet 通 过 将 RDS 集 成 到CORAL中以过滤离群值类来将目标样本正确地匹配到相关源样本,这证实了基于匹配的DA方法可以通过嵌入RDS来扩展以解决(3)与图3c、3g相比,RTNet更准确地匹配了相关的源域和目标域,表明它通过考虑高层和像素级信息,在抑制离群类的副作用方面比ETN收敛性能:分析了RTNet的收敛性。如图4a所示,由 于 负 迁 移 , DANN 和 CORAL 的 测 试 误 差 高 于ResNetRTNet快速稳定地收敛到最低测试错误,表明它可以有效地训练解决PDA问题。如图4b所示,随着情节的发展,奖励逐渐增加,这意味着RDS可以学习正确的策略来最大化奖励并过滤掉离群源类。4.5. 案例分析与绩效解读第4.3节中的结果证明了RTNet的有效性。然而,神经结构缺乏可解释性,使得难以推测RDS决策背后的原因。因此,我们介绍了总体性能和具体案例,以证明选择器的选择和过滤样本的能力。分类保留概率的统计:我们利用E(π θ(Ss))来验证选择器过滤样本的能力,平均每类源域的保留概率。S表示源样本集,其包含属于类别c的样本。如图4c所示,RTNet分配给共享类的保留概率比分配给离群类的保留概率大得多。这些结果证明了RTNet具有自动选择相关源类和过滤离群类的能力。此外,与共享类具有相似外观的离群类(如7和9)比其他离群类具有更大的保留概率,这表明我们开发的选择器确实可以基于像素级信息选择与目标域相似的源样本。按类别选择的比率和过滤的比率:将采样得到的SVHN样本输入RTNet进行样本选择。 如图4d所示,异常值样本(5,6与共享样本(0-4)在外观上显著不同的异常值类(7和8)可以平均被过滤掉92%,而与共享类具有较小外观差异的异常值类(7和9)对于共享类,12715选 定 比 例滤 过 比平均准确度(%)1.04001.21000.80.81.0900.63000.60.8800.42000.40.6700.20.00 5 10 1520迭代次数(×104)1000050100150200250300350400集0.20.002 4 68类Id0.40.20.00123456789类Id6050313025 20 15 10 5目标类别数量|阿勒 特|(a) 收敛(b) 学习曲线(c) 概率(单位:Cs)(d) 选择过滤器比率(e) 根据w.r.t.|Ct|图4:(a)SVHN 10 → MNIST 5的收敛性分析。(b)SVHN 10 → MNIST 5的学习曲线。(c)策略网络在SVHN 10 →MNIST 5上学习的源类保留概率。(d)通过在SVHN 10 → MNIST 5上训练的RDS评估的类选择比率和过滤比率。(e)在A→W上改变目标类数目的精度曲线。在每个类中没有太大的不同,平均8.2%的样本被错误过滤。这些结果表明,RTNet能够有效地过滤离群源样本,特别是那些与共享类在外观上有较大差异的样本,并很好地保留相关源样本。域之间的Wasserstein距离:Wasserstein距离测量两个概率分布之间的距离[29]。我们把最后一集中选择器的选择作为选择的结果,计算目标样本和源样本之间的Wasserstein距离,包括选择的和过滤的源样本。通过表3的结果,我们观察到两个任务的模式是相同的:(1)W选择 Wall,这表明选择器选择的样本更接近目标域,因此可能有助于转移过程。 (2) W filter> W all,这意味着标签空间是一致的(A31→W31),这表明我们的方法在没有离群值类时不会错误地过滤。如图5所示,在A31→W31任务中,我们分析了 一些由RDS并发现其中大部分是噪声样本,这些样本在标签和图像之间存在失配。例如,在Office-31数据集中,鼠标的图像被错误地标记为键盘实验结果表明,即使源域和目标域的标签空间是一致的,RDS也能滤除噪声样本以提高性能。滤波后的源样本与目标域极不相似,并且可能导致负转移。这些结果表明,我们的建议可以选择源样本的Wasserstein距离接近目标域。自行车键盘书架袋这是有意义的,因为这样的源样本可以更容易地转移到目标域,并对目标域有帮助。办公桌椅瓶台灯统治者表3:域之间的Wasserstein距离图5:A31→W31任务的案例研究。这些吵闹的山姆-标签和图像之间存在不匹配的情况是相同的。从RDS过滤的源样本中提取描述-域名SVHN 10A31→W10图像下面的部分是数据集提供的标签。5. 结论在这项工作中,我们提出了一个端到端的RTNet,它利用高层次和像素级的信息,广告,目标职业:我们进行实验,以评估RTNet的性能时,目标类的数量变化。如图4e所示,随着目标类别数量的减少,CORAL的性能迅速下降,表明随着标签分布变大,负迁移变得越来越RT- Net的表现优于其他方法,表明它能更有效地抑制负迁移。此外,RTNet优于CORAL时,源和目标穿着PDA的问题。RTNet应用强化学习训练了一个基于actor-critic框架的强化数据选择器,以过滤出异常源类,从而减轻负迁移。与以往的基于对抗的PDA方法不同,我们提出的RDS可以集成到几乎所有的DA模型中,包括基于对抗网络的模型和基于矩匹配的模型。请注意,基于对抗模型的RTNetadv最先进的实验结果证实了RTNet的有效性。ResNetDANNCORALRTNetETN→ MNIST510SVHND课程类别共享离群值不ResNe不ETNRTNeALCor测试误差(1 μ m精度)奖励保持概率比→ MNIST5WallT参与0.25744.3233W选择T参与选择0.16452.3179W滤波器T参与过滤器0.36795.630812716引用[1] KaiArulkenaran , MarcPeterDeisenroth , MilesBrundage,and Anil Anthony Bharath.深度强化学习:简短 的 调 查 。 IEEE Signal Processing Magazine , 34(6):26[2] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论Machine learning,79(1-2):151[3] J金 恩托 内 罗坎 德 尔 a ,Masashi杉 山AntonSchwaighthorn和Neil D Lawrence。机器学习中的数据集转移,2009年。[4] Zhangjie Cao , Mingsheng Long , Jianmin Wang , andMichael I Jordan.选择性对抗网络的部分迁移学习。在CVPR中,第2724-2732页[5] Zhangjie Cao,Lijia Ma,Mingsheng Long,and JianminWang.部分对抗域自适应。在ECCV,第135-150页[6] Zhangjie Cao,Kaichao You,Mingsheng Long,JianminWang,and Qiang Yang.学习转移部分域适应的示例。arXiv预印本arXiv:1903.12230,2019。[7] Chao Chen,Zhihong Chen,Boyuan Jiang,and XinyuJin.用于无监督深域自适应的联合域对齐和判别特征学习。在AAAI,第33卷,第3296-3303页[8] Chao Chen,Zhihang Fu,Zhihong Chen,Sheng Jin,ZhaoweiCheng , XinyuJin , andXian-ShengHua.Homm:高阶矩匹配无监督域适应.arXiv预印本arXiv:1912.11976,2019。[9] Zhihong Chen,Chao Chen,Xinyu Jin,Yifu Liu,andZhaowei Cheng.深度联合双流wasserstein自动编码器和选择性注意对齐无监督域适应。神经计算和应用,第1-14页[10] Jeff Donahu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功