没有合适的资源?快使用搜索试试~ 我知道了~
7191基于变换器的域自适应的安全自细化孙涛1、路成2、张天硕2、凌海滨1、石溪大学2、小鹏汽车{tao,hling} @ cs.stonybrook.edu,luc@xiaopeng.com,tonyzhang2035@gmail.com摘要无监督域自适应(UDA)的目的是利用一个标签丰富的源域来解决相关的未标记目标域上的任务。这是一个具有挑战性的问题,特别是当一个大的域之间的差距在于源和目标域。在本文中,我们提出了一种新的解决方案命名为SSRT(安全自完善的转换器为基础的域自适应),它带来了两个方面的改进。首先,在各种视觉任务中视觉转换器的成功鼓舞下,我们用一个转换器骨干武装SSRT。我们发现,视觉Transformer与简单对抗适应的结合,在具有挑战性的DomainNet基准测试中,超越了最佳报告的基于卷积神经网络(CNN)的结果,显示了其强大的可转移特征表示。其次,为了降低模型崩溃的风险,提高知识转移的有效性与大差距的领域之间,我们提出了一个安全的自求精策略。具体而言,SSRT利用扰动目标域数据的预测来细化模型。由于视觉Transformer的模型容量很大,并且在这样的训练任务中的预测可能是有噪声的,因此设计了一种安全的训练机制来自适应地调整学习配置。在几个广泛测试的UDA基准上进行了广泛的评估,SSRT始终获得最佳性能,包括在Bull-Home上的85.43%,VisDA-2017上的88.76%和DomainNet上的45.2%。1. 介绍深度神经网络在各种机器学习任务中取得了令人印象深刻的性能。然而,成功往往依赖于大量的标记训练数据,这可能是昂贵的或不切实际的获得。无监督域自适应(UDA)[36]通过将知识从标签丰富的源域转移到不同的未标记目标域来处理这个问题。在过去的几年里,许多UDA方法已被提出[4,12,14,24,44]。其中,adaptive adapta...[14]第四,学习域不变特征表示。使用对抗性学习思想的感知已经成为一种流行的范式。深度UDA方法通常与预训练的卷积神经网络(CNN,例如,ResNet [8])在视觉任务中的骨干。在中等规模的分类基准上,如Office- Home [33]和VisDA[20],报告的最新技术水平非常令人印象深刻[12]。然而,在像DomainNet [19]这样的大规模数据集上,我们提交的文献中的最新结果报告了33.3%的最佳平均准确度[10],这远远不能令人满意。基于上述观察,我们从两个方面集中调查具有挑战性的案例:首先,从表示方面来看,希望使用更强大的骨干网络。这将我们的注意力转向最近流行的视觉转换器,这些转换器已成功应用于各种视觉任务[2,3,42]。Vision Transformer将图像处理为一系列标记,并使用全局自我注意力来优化此表示。凭借其长期依赖性和大规模预训练,视觉Transformer获得了强大的特征表示,为下游任务做好了准备尽管如此,它在UDA中的应用仍然是探索不足。因此,我们建议将视觉Transformer集成到UDA中。我们发现,通过简单地将ViT-B/16 [3]与对抗适应相结合,它可以在DomainNet上实现38.5%的平均准确率,优于使用ResNet-101 [8 , 10] 的 现 有 技 术 这 表 明 , 视 觉Transformer的特征表示是可区分的,并且可以跨域传递。其次,从领域适应性方面,需要一个更可靠的策略来保护学习过程不会由于大的领域间隙而崩溃。由于像视觉Transformer这样具有大容量的强大骨干增加了对源域数据过拟合的机会,因此需要从目标域数据进行正则化。UDA中的常见做法是利用模型预测进行自训练或对目标域数据实施聚类结构[12,24,43]。虽然这通常是有帮助的,但是当域间隙很大时,监督可能是有噪声的。因此,自适应方法预计足够安全[11]以避免模型崩溃。··7192X → Z·Z → YZ◦·X XY我 我 i=1我 i=1D{}X × Y D{}基于上述讨论,本文提出了一种新的UDA解决方案SSRT(SafeSelf-RefinementforTransformer-basedDomainAdaptation)。SSRT采用视觉Transformer作为骨干网络,并利用对扰动目标域数据的预测来改进自适应模型。具体地说,我们在目标域数据的潜在标记序列中加入随机偏移量,并利用KullbackLeibler(KL)散度最小化模型预测概率在原始和扰动版本之间的差异. 这实际上对相应的Transformer层施加了正则化。此外,SSRT还具有多层扰动和双向监控等重要功能为了防止学习过程崩溃,我们提出了一种新的安全训练机制。由于UDA任务变化很大,即使它们是从同一数据集提取的,因此特定的学习配置(例如,在大多数任务上工作的超参数)可能在某些特定任务上失败。因此,期望学习配置是可自动调节的。例如,对于基于扰动的方法[17,25],小扰动可能未充分利用其益处,而大扰动可能导致崩溃。最近的作品[1,29]在训练开始时应用手动定义的斜升期。然而,当其最大值不适合当前任务时,这不能解决问题。相比之下,我们建议监控整个训练过程,并自适应地调整学习配置。我们使用目标域数据上的模型预测的多样性度量来检测模型崩溃。一旦发生这种情况,模型将恢复到先前实现的状态,并且重置配置。通过这种安全的训练策略,我们的SSRT避免了在具有大域间隙的自适 应 任 务 上 的 显 着 性 能 恶 化 该 代 码 可 在https://github.com/tsun/SSRT上获得。总之,我们做出以下贡献:我们开发了一种新的UDA解决方案SSRT,它采用了视觉Transformer骨干,其强大的可转移的特征表示,并利用对扰动的目标域数据的预测模型细化。我们提出了一个安全的训练策略,以保护学习过程中崩溃,由于大的领域差距。它在训练过程中自适应地调整学习配置,并对目标域数据进行模型预测的多样性度量SSRT是第一批探索视觉Transformer进行领域适应的公司之一。基于视觉变换器的UDA已经显示出有希望的结果,特别是在像DomainNet这样的大规模数据集上。广泛的实验进行了广泛的测试基准。我们的SSRT取得了最好的表现,其中包括85.43%的家庭,88.76%的VisDA- 2017和45.2%的DomainNet。2. 相关工作无监督域自适应。UDA方法有几个主要类别。基于差异的方法通过差异测量最小化源域和目标域之间的分布差异[15,28,32]。对抗性自适应方法通过在特征提取器和域匹配器之间玩两人最小-最大游戏来学习域不变表示[4,28,31,32]。最近,许多作品利用自我训练领域适应[16,45,46]。它们为目标领域数据生成伪标签,并将其作为标记数据来改进模型。Vision中的Transformer Vision Transformer(ViT)[3]是一项开创性的工作,它将无卷积的Transformer结构应用于图像分类。在此之后,已经提出了许多ViT变体[7,13,30,41]。Transformer已成功应用于各种视觉任务,包括图像分类[3,30],对象检测[2],语义分段[27]等。然而,视觉Transformer在领域自适应中的应用还很缺乏。值得注意的是,最近在arXiv上报告了两个并发的探索[39,40具体来说,CDTrans [39]是UDA的纯Transformer解决方案TVT [40]提出了一种可转移的多头自注意力模块,并将其与对抗适应相结合。我们的方法是不同的,因为它使用对目标域数据和它们的扰动版本来细化模型。这保证了相同的语义类。此外,我们精心设计了模型的组成部分和训练策略,以避免在具有挑战性的任务上崩溃。一致性正规化。一致性正则化是半监督学习中的一项重要技术,可以实现最先进的结果[25]。它利用了模型预测对于语义相同的数据应该相似的想法。一些方法通过对抗训练创建扰动输入[17],而其他方法则使用标准数据增强[1,25,37]。这些作品主要处理原始输入图像。相比之下,我们的研究重点是潜在的令牌序列表示的视觉Transformer。3. 该方法3.1. 问题公式化在无监督域自适应中,存在源域,其具有来自以及具有未标记数据的目标域t=(xt)ntfrom,其中是输入空间,是标签空间。UD A旨在学习分类器h=gf,其中f(;θf):表示特征提取器,g(; θg):表示类预测器,并且是潜在空间。广告对抗自适应通过双向自适应学习域不变特征····7193·Z →LLLXXXXRXL·XS不f、gd公司简介(iter)自适应标量模型快照恢复上次快照图1.SSRT概述(左)我们基于transformer的模型的自优化说明这两个分支共享参数。随机偏移被添加到Transformer(TF)块的输入令牌序列该模型使用KL散度监督的原始和扰动版本的预测进行改进(右)安全培训机制示意图。详情见正文nary domain discriminationd(;θd):[0,1],将特征映射到域标签。目标是minmaxL=LCE−Ld+βLtgt,(1)其中LCE是源域数据上的标准交叉熵损失,Ld是域对抗损失,定义为Ld=−Ex<$D<$logd(f(x))<$−Ex <$D<$logg(1−d(f(x)<$,3.3. Transformer的多层摄动虽然许多作品操纵原始输入图像[1,17,25],但在隐藏层[34]进行操作可能会更好。视觉Transformer由于其特殊的体系结构而具有一些特殊的属性由于补丁嵌入层仅仅是卷积层加上位置嵌入,因此对原始输入的线性操作可以等效地移位到第一个Transformer块。此外,由于Transformer块内的剩余连接,相邻块高度相关。最好添加β是权衡参数,并且tgt是目标域数据的损失。tgt的常见选择是相互信息最大化损失[6,23]。在我们的方法中,我们将其视为在第二节中介绍的自细化损失SR。三点四分。3.2.方法框架然而,扰动在不同的任务中是不同的从经验上讲,扰动相对较深的层性能更好,但模型崩溃的风险更高因此,我们从多个层中随机选择事实上,它同时对多个层进行正则化,使学习过程更安全。我们的目标是通过扰动目标域数据来细化模型,从而正则化变压器主干的潜在特征空间。图1说明了我们提出的SSRT的框架。此处仅显示目标域数据。该网络由视觉Transformer主干和分类器头组成。不打印域边界。对于每个目标域图像,补丁嵌入层将其转换为一个令牌序列,包括一个特殊的类来- ken和图像令牌。然后用一系列Transformer块对序列进行细化。分类器头获取类令牌并输出标签预测。我们随机选择一个Transformer块,并向其输入令牌序列添加随机偏移量。然后,原始版本和扰动版本的相应预测类概率用于双向自细化。为了避免嘈杂的监督,pervision,只有可靠的预测是通过使用置信度过滤器。为了降低模型崩溃的风险,我们使用安全的训练机制来学习模型。给定目标域图像x,令bl为其第l个B1可以被视为隐藏空间中x由于它的维数很高,而目标域数据的支持度在空间上是有限的,因此任意扰动是低效的相反,我们利用另一随机选择的目标域图像Xr的令牌序列bl来添加偏移。bl的扰动令牌序列被获得为:bl=bl+α[bl−b]×,(2)其中α是标量,[ ]×表示无梯度反向传播。注意,尽管梯度不能通过偏移反向传播,但是它们可以通过bl。这一点的重要性将在下一节中详细阐述。除了手动注入的扰动之外,分类器头部中的Dropout层也针对两个分支随机地工作。这为自精化损失创造了另一个不确定性来源。贴片EMBTF块TF块…TF块分类器SoftmaxF随机选择一个KL散度F随机偏移SoftmaxF可信度滤器TF挡TF挡…TF块分类器7194XX−MLMXMDD·L联系我们M ←MKL不S不ps[i]6:如果avg(divs[i+ 1])avg(divs[i])1,则<7:returnTrue显著下降XXL3.4. 双向自完善现在我们准备定义用于自精化的损失函数。 令px和px是对应于bl和bbl的预测概率向量,关于iv el y。 为了测量它们的距离,通常使用KL散度。D(pp)=p[i]logpt[i],(3)我其中pt是教师概率(也称为目标概率),ps是学生概率。注意,KL散度在pt和ps中是不对称的。虽然将px作为教师概率是很自然的,因为它对应于原始数据,但我们发现反过来也有效。此外,如图所示,在SEC。4.3,将它们结合在一起更健壮我们的双向自细化损失定义为LSR=EBt <$Dt,ωEx<$F[Bt;p]DKL(px<$p<$x)算法1安全训练机制。初始化:上次还原= 0,保存快照一曰: 程序CHECKD IVD ROP(div,L,T,iter)第二章:对于l=1到L,在多尺度3下进行重复检查:divs=div(iter T,. . .,iter)分集 4 :divs = split(divs,2l)偶数到偶数子区间5:对于i = 0到len(divs)-1,−8:如果结束9:结束10:结束11:returnFalse12:结束程序十三:14:过程SAFETRAINING(,div,T,L,iter)十五:如果iter%T==0且iter>=T,则16:如果CHECKD IVD ROP(div,L,T,iter),则+(1−ω)Ex<$F[Bt;p<$]DKL(p<$x<$px),(四)17:将M恢复到最后一个快照,tr=iter18:如果iter-last restore≤Tr,则19:Tr=Tr×2避免振荡其中ω是从伯努利分布B(0. F是置信度过滤器,定义为F[D; p]={x ∈ D|max(px)> max},(5)并且ε是预定义阈值。 SR用可信的预测来细化模型,并将其正则化,以在潜在特征空间中平滑地预测。20:如果结束21:last restore=iter22:如果结束23:保存快照24:如果结束25:返回,Tr,tr26:结束程序典型地, 损失梯度仅反向传播通过学生概率(即,在Eq.3)[1,17,18]。然而,我们发现,在我们的框架中,最好通过教师和学生概率工作。回想一下,R/b由方程式二、 因此,每个模型参数都根据在px和px的 联 合 效 应 上。这避免了来自任何单一概率的过大梯度我们观察到降级的性能时,无论是在KL发散或BI的教师概率的梯度被阻止。3.5. 通过自适应调整进行在所提出的自精化策略中,扰动标量α和自精化损失权β的取值是关键。过大的扰动导致预测的类分布的崩溃,而一个小的可能未充分利用其好处。由于目标域是完全未标记的,并且即使对于相同的数据集,域自适应任务也变化很大,因此期望自适应地有些作品[1,29]在训练开始时应用了一个斜坡期。虽然这缓解了在此期间崩溃的趋势,但它不能解决最大值不适合当前适应任务时的问题。算法2SSRT算法。输入:模型、源数据、目标数据t,confi-证据阈值λ,自精化损失权β,扰动标量α,安全训练参数T和L,多样性测度div()。Tr=T,tr=01:对于iter=0到max Iterdo2:从源数据和目标数据3:通过等式获得r6,αr=rα,βr=rβ4:随机选择10、4、8,通过等式(1)添加扰动。2使用αr,通过等式2获得SR。45:通过等式更新模型参数1例使用βr6:,Tr,tr SAFETRAINING(,div,T,L,iter)第七章: 端我们提出了一个安全培训机制。观察结果是,每当模型开始崩溃时,模型预测的多样性将同时减少。我们的目标是在监控训练过程的同时检测此类事件一旦发生这种情况,学习配置被重置,同时模型被恢复到先前的状态。MM7195成就国家。具体地,自适应标量r∈[0,1]是7196青岛港电力公司准确度(%)⭢ ⭢ ⭢ ⭢ ⭢ ⭢ ⭢ ⭢ ⭢ ⭢ ⭢⭢→→···..−r−rr表1.精确度(%),在初始位置。CDTrans使用DeiT-碱基骨架。CRTVT使用基于ViT的主干。“-S/B” indicates ViT- small/basebackbones,方法ArCLArPRArRw ClArCLPrClRw压力ArPRClPrRw RwAr RwCl RwPRAvg.ResNet-50 [8] 34.9 50.0 58.0 37.4 41.9 46.2 38.5 31.2 60.4 53.9 41.2 59.9四十六点一CDAN+E [14] 50.7 70.6 76.0 57.6 70.0 57.4 50.9 77.3 70.9 56.7 81.665.8302520150501001502002503003501.000.750.500.250.00400201510500 100 200 300 400一点五十30400.7525300.5020200.2510150.00 0图2.在DomainNet clp qdr和qdr clp上使用安全训练(ST)的代表性训练历史。(左)目标域数据和自适应标量r上的模型预测多样性图。为了更好地可视化,显示了多样性的原始值(浅色)和(右)目标域数据的比较测试准确度图。用于调节α和β,即,αr=rα,βr=rβ。我们定义一个固定的周期T,并将训练过程划分为连续的时间间隔。模型快照将在每个间隔结束时保存则r定义为sinπ(tt)if tt <不r(t)=2Tr ,(6)1 .一、0否则适应性调整过程。识别了两个多样性下降事件(用粉红色区域标记),导致两个模型恢复和r的重置。剩下的问题是使用哪种分集度量以及如何检测分集丢失。我们发现,每个目标训练批次Bt上的唯一模型预测标签的数量工作得很好。因此,我们定义了以下潜水员-其中t是当前训练步骤。初始时,Tr=T且Tr=0。因此,r上升到1.0需要T步。在每个间隔结束时,检查该间隔内的模型预测的多样性以发现突然下降。如果不存在,r的公式保持不变。否则,tr被重置为当前训练步骤t,并且模型被恢复到上一个快照。为了避免崩溃和恢复之间的振荡,Tr加倍,如果最后一次崩溃发生在Tr步骤内。图1说明了培训密度测量:div(t; Bt)=唯一标签(h(Bt))。(七)为了检测分集下降,我们将间隔分成子间隔,并检查平均分集值是否在每个子间隔上下降。我们在多尺度上实现这一点,以提高检测的灵敏度对于给定的整数L,检查T/2, 1,,T/2L步的每个连续子区间。详细信息见Alg。1和Alg。二、中华电力四季报中华电力四季报基线我们我们的青岛港电力公司基线我们我们的多样性多样性RR准确度(%)SAFN [38]52.071.776.364.269.971.963.751.477.170.957.181.5六十七点三CDAN+TN [35]50.271.477.459.372.773.161.053.179.571.959.082.9六十七点六[第12话]57.178.181.568.078.278.167.454.982.273.358.884.3七十一点八DCAN+SCDA [1]60.776.482.869.877.578.468.959.082.774.961.884.5七十三点一[39]第三十九话68.885.086.981.587.187.379.663.388.282.066.090.6八十点五TVT电视台 [40]74.8986.8289.4782.7887.9588.2779.8171.9490.1385.4674.6290.56八十三点五六VIT-S [3]47.0176.9883.5469.8477.1180.4268.1544.0882.8674.7847.9784.66六十九点七八基线-S59.5980.1184.6773.8478.4981.3674.4159.8286.2780.1062.5987.23七十五点七一0501001502002503003504000100200 300 400步长(×100)步长(× 100)7197表2.DomainNet上的准确率(%)。在每个子表中,按列表示源域,按行表示目标域。ResNet-101[8]CLPINF PNTQDRrelSKTAvg.MIMTFL[五]《中国日报》CLPINF PNT QDRrelSKT Avg.CDAN[14]CLPINF PNT QDRrel SKTAvg.CLPinfpntqdrrelsktAvg.-30.239.67.048.446.934.419.3-十八点七0.922.215.415.337.531.2-1.449.437.031.311.13.64.9-6.410.97.452.244.054.54.1-47.040.441.027.936.38.338.8-30.532.227.430.84.333.031.426.6CLPinfpntqdrrelsktAvg.-32.140.118.848.551.738.215.1-十四点七3.119.016.513.735.631.0-5.047.640.331.910.72.94.2-5.812.37.251.548.555.416.0-53.545.043.131.036.813.839.4-三十二点八31.229.130.211.332.134.928.1CLPinfpntqdrrelsktAvg.-27.542.621.051.950.838.820.4-20.04.523.320.317.736.625.7-8.150.443.032.89.01.82.5-5.42.94.350.734.755.614.3-50.841.242.320.138.515.741.4-31.631.822.031.812.734.533.627.7MDD+SCDA[10]CLPINF PNTQDRrelSKTAvg.CD-[39]第三十九话CLPINF PNT QDRrelSKT Avg.VIT-B[3]CLPINF PNT QDRrel SKTAvg.CLPinfpntqdrrelsktAvg.-32.746.431.155.555.844.320.4-十九点九6.623.720.118.143.334.5-18.052.946.539.015.26.38.1-9.515.010.859.347.658.828.8-56.750.246.529.242.922.045.2-三十七点二36.930.135.221.337.438.833.3CLPinfpntqdrrelsktAvg.-58.660.72.949.366.847.727.9-24.00.418.723.718.957.653.4-0.347.854.642.727.99.613.0-9.427.517.573.071.169.80.7-68.056.558.847.649.64.733.5-38.849.048.143.41.831.748.137.0CLPinfpntqdrrelsktAvg.-51.453.130.558.463.951.527.2-二十五点六4.529.023.822.053.149.3-16.060.052.346.113.24.04.8-6.014.48.571.266.370.027.0-67.460.453.341.141.819.345.8-40.343.642.439.119.539.944.438.1基线-BCLPINF PNTQDRrelSKTAvg.基线-B+MICLPINF PNT QDRrelSKT Avg.SSRT-B(我们的)CLPINF PNT QDRrel SKTAvg.CLPinfpntqdrrelsktAvg.-43.055.725.562.366.450.630.9-二十八点六5.232.530.625.653.340.8-9.762.558.044.916.37.87.4-8.218.111.672.756.470.515.5-70.157.055.435.948.317.150.7-41.545.736.842.114.643.248.638.5CLPinfpntqdrrelsktAvg.-53.256.831.665.768.955.230.5-二十七点六5.132.430.625.255.852.8-13.363.961.049.418.19.27.3-6.919.312.274.768.370.825.3-72.962.457.545.349.323.051.7-45.347.345.842.419.644.150.541.6CLPinfpntqdrrelsktAvg.-55.561.742.569.970.660.033.8-二十八点五8.837.132.828.260.254.0-二十四点二66.062.253.319.49.08.4-十点一21.713.775.868.271.437.6-73.265.359.844.755.233.658.9-50.449.846.345.029.348.452.145.2表3. VisDA-2017上的准确度(%)。方法平面bcycl总线车马刀麦克伊克勒人植物斯克特布尔德火车卡车Avg.ResNet-101 [8]55.153.361.959.180.617.979.731.281.026.573.58.552.4DANN [4]81.977.782.844.381.229.565.128.651.954.682.87.8五十七点四CDAN [14]85.266.983.050.884.274.988.174.583.476.081.938.0七十三点九SAFN [38]93.661.384.170.694.179.091.879.689.955.689.024.4七十六点一社会福利署[9]90.882.581.770.591.769.586.377.587.463.685.629.2七十六点四[第12话]94.388.580.157.393.194.980.780.391.589.186.358.2八十二点九[39]第三十九话97.190.582.477.596.696.193.688.697.986.990.362.8八十八点四TVT电视台 [40]92.9285.5877.5160.4893.6098.1789.3576.4093.5692.0291.6955.73八十三点九二VIT-B [3]99.0960.6670.5582.6696.5073.0697.1419.7364.4894.7497.2115.36七十二点六基线-B98.5582.5985.9757.0794.9397.2094.5876.6892.1196.5494.3152.24八十五点二三基线-B +MI98.6390.7981.8347.2896.2998.3684.6870.7093.3097.5494.5555.03八十四点零八分SSRT-B(我们的)98.9387.6089.1084.7798.3498.7096.2781.0894.8697.9094.5043.1388.764. 实验我们在四个流行的UDA基准上评估我们的方法。Office-31 [22]包含来自三个域的31个类的4,652张图像 : 亚 马 逊 ( A ) 、 数 码 单 反 ( D ) 和 We- bcam(W)。Office-Home [33]由来自四个域的65个类的15,500个图像组成:艺术(Ar)、剪贴画(Cl)、产品(Pr)和真实世界(Rw)图像。VisDA- 2017[20]是一个合成到真实的数据集,包含12个类别的约20万张图像 DomainNet [19]是最大的DA数据集,包含6个域中7198×345个类的约60万张图像:剪贴画(CLP)、信息图(INF)、绘画(PNT)、快速绘制(QDR)、真实(rel)、草图(SKT)。我们使用ViT-base和ViT-small,16 16补丁大小[3,26],在ImageNet上预先训练[21],作为视觉Transformer骨干。 对于所有任务,我们使用一组相同的超参数(α=0。3,β=0。2,λ=0。4,T=1000,L = 4)。对它们的消融研究见第四点六分。更多详情请参见补充材料。我们的比较方法包括DANN[4], CDAN [14],CDAN+E [14],SAFN [38],SAFN+ENT [38],CDAN+TN [35],SHOT [12],DCAN+SCDA [10],MDD+SCDA [10]、SWD [9]、MIMTFEL [5]、TVT [40][39]第39话“基线”是具有对抗性适应的ViT(见第二节)。第3.1节)。我们还将其与互信息(MI)损失相结合[6,23]。4.1. 基准测试结果表1-4给出了四个基准点的评价结果.我们使用“-S/B”分别表示使用ViT-小/碱基主链的结果。对于ESP-Home和Offce-31,基于CNN的方法使用ResNet-50作为其骨干;而对于DomainNet和VisDA,它们使用ResNet-101。一般来说,基于transformer的结果要好得多。这是由于它的强可传递特征表示。ViT-base优于ViT-small,因为模型复杂度更高显然,Baselines比仅使用源代码的培训有所改进。集成互信息7199Pr Cl= 0= 1(0.5)准确度(%)准确度(%)⭢ ⭢ ⭢ ⭢ ⭢⭢X--表4. Office-31上的准确度(%)。8080方法A W DW W D 一 D D一WA平均6060ResNet-50[8]68.496.799.368.962.560.7 七十六点一DANN[4]82.096.999.179.768.267.4 八十二点二[39]第三十九章:一个女人97.081.181.9 九十二点六[40] 100.第二次世界大战 96.484.986.1 九十三点八100.第二次世界大战88.676.075.9 八十七点七100.第100章大结局89.278.477.9 八十九点四100.第一次世界大战95.879.279.9 九十一点六[3] 100.90.481.180.690.4100.第一次约会93.680.780.7 九十一点一100.第一次世界大战98.683.582.293.5400.0 0.2 0.4 0.6 0.8403020100 50 100 150 200步长(× 100)40200.0 0.2 0.4 0.6 0.82520151050 50 100 150 200步长(× 100)表5.与扰动原始输入相比的精度(%)X†表示所有5个任务的平均值,X为目标域。OHDNclp †inf †pnt †qdr †rel<$ skt<$基线-B81.138.550.625.644.911.657.041.5SSRT-B(原始)85.044.258.626.751.713.763.950.8SSRT-B85.445.260.028.253.313.765.350.4图3.自细化损失的比较。(上)变化的置信阈值(下)测试目标域数据的准确性(Safe培训不适用)表6.使用比较损失的准确度(%)。所有结果均在训练步骤20k时报告。X†表示所有5个任务的平均值,X为目标域。使用安全培训。OHDNclp †inf †pnt †qdr † rel †简体中文在具有挑战性的DomainNet数据集上,SSRT-B达到了令人印象深刻的45.2%的平均准确率。值得一提的是,在DomainNet中,一些域与其他域有很大的差距,例如inf和qdr。在这些地方和其他地方之间转移是非常困难的。因此,期望安全地转移并且不显著地劣化性能在以qdr为目标域的任务中,SSRT-B获得了29.3%的平均准确率,而许多其他方法表现不佳。我们将在以下几节中说明有助于实现卓越性能的一些重要组件4.2. 多层扰动表5验证了将扰动应用于潜在令牌序列比应用于原始输入图像更好地执行在本地(OH)和域网(DN)上。图5a比较了当向每一层添加相同量的扰动而不使用安全训练时的性能。 可以看出,应用扰动的最佳层不同,4.3. 双向自细化我们的方法采用双向监督的自我完善方程。4.第一章主要考虑是提高方法的安全性。图3通过将ω固定为0或1与单向自细化进行比较 在上面的两个图中,对于相对较大的置信度阈值,它们的性能下降。在下面的两个图中,模型崩溃发生在训练一些步骤之后。相比之下,双向自细化更鲁棒,因为它结合了两种损失,从而减少了任何一种损失的负面影响。表6列出了一些定量结果。在主场,所有的损失都表现得很好。在DomainNet上,双向自细化工作得更好。但是,当目标域为qdr时,它们都无法执行验证任务。这是通过安全培训解决的。另一个重要的问题是什么时候反向传播gra。表7显示,当跨任务。 此外,用于一个任务的层可以或者B1由方程式2、老师可能会--在别人身上失败在我们的实验中,我们从0,4,8中均匀 地 选 择 相 比 之 下 , 从 它 扰 动 任 何 单 层 会 使DomainNet的平均准确率分别降低-1.0%,-1.5%和-1.5%。中华电力公司相关信息= 0= 1(0.5)QDR PNT准确度(%)准确度(%)SAFN+ENT [38]90.198.699.890.773.070.2 八十七点一20CDAN+TN [35]95.798.7100.94.073.474.2 八十九点三[第12话]90.198.499.994.074.774.3 八十八点六MDD+SCDA [10] 95.399.0100.95.477.275.9 90.5(MI)损失进一步改善。 与其他冰毒相比基线-B81.138.950.725.546.111.957.442.0ods、SSRT-B在本地、域上的性能最好,ω= 085.541.157.322.052.21.863.449.9Net和VisDA。它提高了4.38%,比Dall-Home,3.53%,ω= 185.740.156.623.448.10.363.349.0VisDA-2017和DomainNet上的6.7%超过基线-B,尽管基线-B已经非常强大。特别是(0. 第五章)(0. 5)85.485.441.843.457.057.026.628.253.051.81.813.063.262.949.547.47200方程中KL发散的性质四是堵。一个有趣的发现是,即使梯度被阻塞,双向自细化也显得更加鲁棒。我们认为这是因为这两种损失是互补的。7201Pr ArPr Cl中华电力公司准确度(%)→→→X-bXxvis表7.不同变量的阻塞梯度反向传播。请注意,表中的px和px仅指KL发散中的教师概率(不适用安全培训100 218020196018⭢ ⭢⭢40200 1 2 3 4 5 6 7 8 9 1011块17162 3 4 5L第0块第2块第四区第八(a) 不同层的扰动†212019(b) 安全培训参数2120191817160.00.10.20.30.4 0.51817160.00.10.20.30.4(c) 扰动标量(d)自细化损失权重图4.不同层扰动的可视化。4.4. 安全培训如前所述,普通训练策略可能会在某些任务上失败。其原因是,目标域数据上的预测类分布由于过度扰动或过大的损失重量而崩溃,即使它们在其他任务上工作得很安全训练自适应地调整它们的值图2展示了两个代表性任务的详细培训历史,以展示其工作原理。对于qdr clp,自适应标量r快速收敛到1.0,并且多样性稳定到相对高的值。有或没有安全训练的训练模型执行类似。对于clp qdr,分集在一些步骤之后下降,并且r重置为较小的值。可以观察到多样性和准确性之间的明显相关性例如,在10k的步长处,准确度突然下降并且多样性同时下降。如果没有安全训练,模型在大约10000次迭代后崩溃。通过安全训练,模型训练正常,最终超过基线应该注意的是,模型崩溃主要影响目标域数据。对于未经安全训练的clp qdr,源域的 最 终 准 确 率 为 96.9% , 而 目 标
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功