没有合适的资源?快使用搜索试试~ 我知道了~
8568无监督域自适应的对抗鲁棒性Muhammad Awais1,2*,Fengwei Zhou1,Hang Xu1,LanqingHong1,Ping Luo3,Sung-Ho Bae2†,Zhengguo Li11华为诺亚2部韩国庆熙大学计算机科学系3部门香港大学计算机科学系awais@khu.ac.kr,{zhoufengwei,xu.hang,honglanqing}@pluo@cs.hku.hk,www.example.com,shbae@khu.ac.kr,li. huawei.com摘要广泛的无监督域自适应(UDA)研究已经在实践中通过利用深度模型学习跨标记源域和未标记目标域的可转移表示而显示出巨大的成功。然而,目前的工作主要集中在提高UDA模型在干净样本上的泛化传统的对抗训练方法不适合UDA的未标记目标域上的对抗鲁棒性,在这项工作中,我们建议利用鲁棒ImageNet模型学 习的 中间 我们 的方 法通 过将UDA 模 型的 特征 与ImageNet预训练模型以及域自适应训练学习的鲁棒特征进行对齐来工作。它利用标记和未标记的域,并在域适应训练期间注入鲁棒性,而无需任何对抗性干预或标签要求。我们的实验结果表明,与基线相比,我们的方法显着提高了对抗鲁棒性,同时在各种UDA基准测试中保持了清晰的准确性。1. 介绍将知识从标记的源域转移到未标记的目标域在许多现实世界的应用中是期望的。然而,深度学习模型在存在这种域转移的情况下表现不例如是*这项工作是在华为诺亚方舟实验室完成的。项目网页:awaisrauf.github.io/robust_uda†通讯作者在合成数据上训练的模型可能无法很好地概括真实世界的数据。无监督域自适应(UDA)试图通过学习域不变特征来解决这个问题。最近的UDA方法利用了通过在ImageNet等大型数据集上预训练的深度模型学习的可转移特征[12,17,29,28,49,26,40,15,21,22]。然而,在这方面,大量的工作表明,这些深度模型容易受到输入中的小对抗性变化的影响,这些变化可以很容易地欺骗训练模型[5,39,14,7]。这些模型在敏感应用程序中的广泛使用要求它们对这些变化具有鲁棒性。大量的注意力已经投入到对抗性的例子中,并且已经设计了许多防御方法[14,16,42,30,6,25,33,37,41,46]。监督对抗训练是最成功的方法之一[30]。它基于在对抗性示例上训练模型的简单想法。它利用最小-最大优化,其中对抗性示例首先通过损失的迭代最大化生成,然后在这些示例上训练模型。然而,这些对抗性示例的生成需要标签,并且对抗性训练隐含地假设来自单个域的输入这些问题限制了对抗训练在UDA中的适用性。在本文中,我们提出了一个简单的,无监督的,并做主要的不可知的方法在UDA的鲁棒性。我们的方法不需要标签,并利用来自两个域的数据,使其可行的UDA。我们的工作受到最近关于鲁棒性可转移性的工作的激励[13,9],以及观察到对抗训练的模型从正常训练的计数器中学习“根本不同”的特征[43,20,36]。第一项工作已经证明了对抗鲁棒性从预先训练的鲁棒模型的可转移性。作者在[18,38]中表明,对抗性预训练模型可以提高迁移学习的鲁棒性; [13]表明,对抗性鲁棒性可以通过匹配由鲁棒预训练模型产生的软化标签8569图1.所提出方法的概述。源图像和目标图像通过主干模型和鲁棒教师来获得不同块的特征。中间特征被转移到鲁棒特征自适应(RFA)模块,其适应鲁棒性。主干模型的输出经过域自适应模块,该模块利用无监督域自适应算法。UDA特征提取器的参数被更新以最小化域自适应和鲁棒特征自适应损失。浅色示出了针对源域输入提取的特征,并且深色示出了针对目标域输入提取的特征。模型;[9]表明,可以通过将鲁棒模型的输入梯度与非鲁棒模型的输入梯度相匹配来提取鲁棒性这些工作专注于削减单域分类对抗训练的计算成本,并需要标记数据。我们提出的方法,鲁棒特征自适应(RFA),嵌入适应的鲁棒性域自适应训练,利用强大的预训练模型的特征空间RFA使用ImageNet对抗性预训练模型来提取源域和目标域输入的鲁棒特征。然后,它灌输鲁棒性UDA的特征提取器,通过最大限度地减少其差异与强大的RFA使模型能够学习域不变特征和鲁棒特征。与以前的作品的可转移性,我们的方法不需要标记的数据,因为它只使用中间的强大的模型和两个模型的特征空间之间的无标签的距离类似地,RFA在域适应训练期间不需要任何对抗性干预,因为它不生成对抗性示例。这些特征使得可以利用标记的源和未标记的靶结构域。此外,RFA是一种插件方法,可以与任何UDA方法一起使用,以增强其鲁棒性。它只需要对抗性的预训练模型,类似于需要正常预训练模型的UDA方法。实验结果表明,RFA可以使UDA模型具有较高的对抗鲁棒性,同时保持良好的泛化能力。我们的贡献可归纳如下:• 我们提出了一种插件方法,该方法将UDA模型的特征与多个对抗性预训练ImageNet模型的鲁棒特征对齐。通过这种方式,它在UDA模型中注入了鲁棒性,而没有对抗性干预或标签要求。• 据我们所知,我们是第一个证明目标任务的对抗鲁棒性可以从在不同任务上对抗训练的鲁棒模型的中间表示中提取出来,而无需任何微调。• 综合实验结果表明,我们的方法一致地提高了各种UDA算法的鲁棒性广泛例如,它将对抗鲁棒性从0%提高到43.49%,同时保持CDAN作为UDA算法在VisDA-2017数据集的挑战性模拟到真实适应任务上的干净准确性。2. 相关工作无监督域自适应。大多数非监督域自适应方法都是由[4,3]中的理论结果这些结果表明学习表示跨域不变。在深度学习中,这通常通过最小-最大训练来实现,其中预训练的深度神经网络被微调,使得它不仅最小化来自源域的标记数据的损失,而且还欺骗鉴别器。该鉴别器同时被训练以区分源域和目标域[12]。在最近的工作中,还表明在ImageNet等大规模数据集上预训练的大型模型可以改善无监督域自适应[27,12,17,29,28,49,26,40,15,21]。几个不确定因素-已经提出了利用预训练模型的监督域自适应算法[27,28,49,26]。然而,在这方面,8570×个/∼我 我 i=1VisDA-17办公室-31办公室-家庭C×43.05/0 71.34/0C×77.80/0.02 85.79/0C×58.29/0.06 63.39/0.05:正常预训练模型,C:不利预训练模型,PT:预训练。表1.鲁棒预训练(PT)可以在无监督域自适应设置中灌输鲁棒性吗? 正常与正常的比较对抗性预训练模型的干净准确性/对抗性鲁棒性(%)与六个UDA算法。对抗性预训练提高了对抗性鲁棒性,但也导致了准确性的下降。这些工作没有考虑鲁棒性。我们的工作是互补的,这些作品,因为它提高了这些方法的鲁棒性。对抗性攻击被认为是安全风险[5,39,14,7]。已经提出了许多方法来防御这样的例子[16,42,30,6,25,33,37,41,46,1]。对抗性训练-最有效的然而,对抗训练需要标签,因此不适合UDA训练。在另一个方向上,最近的工作也表明,对抗训练的模型学习任务,反向传播以获得梯度,以及基于鉴别器的学习。与[9]相比,我们提出的方法不需要任何微调,并且它适应来自预训练模型的鲁棒特征,而不需要任何额外的反向传播。此外,这两种蒸馏方法都需要标签,并且是为单域训练而设计的。3. 预赛无监督领域自适应的目的是通过减少源和目标之间的领域差异来提高目标领域的泛化能力。形式上,我们给出源域D s={(x s,y s)}ns中的标记数据P和目标域中的未标记数据Dt={xt}ntQ,代表性[43,20,11]。我们的工作就是以此为动力的哪里jj=1观察,我们提出了一种算法来利用这些强大的功能。知识和鲁棒性转移知识蒸馏的主要目的是减少大型模型的大小它的工作原理是将一个大的预先训练的教师模型的知识提取为同一数据集的紧凑的随机初始化的学生模型[19]。许多不同的设置已被探索,以实现这一目标[32,47,48,44]。我们的工作与这些工作不同,因为我们只想在没有标签的情况下适应教师的鲁棒性,同时还学习在两个域上表现良好的域不变特征P= Q。大多数无监督域自适应方法微调预训练的骨干模型f(x; θ)并在其上训练分类器C(f(x;θ); ψ)。训练是以这样的方式完成的,即它减少了标记源域上的错误以及学习在源域和目标域中不变的特征对抗性示例[39,14]是输入图像中的有界和不可感知的扰动,这些扰动改变了神经网络的正常行为。因此,模型的对抗鲁棒性是其对输入中的这种小的lp有界扰动的不变性。为了实现这种鲁棒性,通过最大化损失来创建对抗性示例,然后将其最小化以训练模型[30]:我们的工作是由[13,9,18,38],显示转移的动机-鲁棒性的能力然而,这些方法的主要动机是降低adversar的计算成本minE(x,y)D θMax||δ值||p≤L(x+δ,y;θ)Σ,简单培训和要求标签。在[13]中,作者表明鲁棒性可以从大型预训练模型中提取(例如,ResNet)到紧凑模型(例如,MobileNet)通过利用由教师模型产生的软班级分数与[13]中的工作相比,我们的方法仅从中间表示中提取此外,从在一个任务上训练的教师(即,监督分类)到需要在另一任务上训练的学生无监督域自适应),这在以前没有被探索过在[9]中,通过匹配教师和学生的梯度来执行蒸馏这种方法需要对目标进行微调其中ε是控制模型的对抗鲁棒性的扰动预算该模型被训练为在半径为ε的lp范数球中是鲁棒的。增加ε意味着模型对于更大的半径是稳定的然而,该框架不适合UDA,因为这需要标签并假设来自单个域的数据。在[30]之后,我们将对抗鲁棒性定义为目标数据集(Dt)在l∞范数球中以ε的扰动预算扰动的准确为了找到对抗性示例xadv,我们使用投影梯度下降(PGD)和20次迭代[30]。 我们可以互换使用鲁棒性和对抗鲁棒性这两个术语。数据集稳健PT仅源DANN [12]DAN [27]CDAN [28]JAN [29]MDD [49]61.79 /0.0174.23 /063.70 /072.20 /4.0365.79/38.2142.24 /22.1168.00 /41.6755.08 /3267.72 /39.5081.72 /086.90 /085.68 /088.31 /1.7077.30 /62.3873.71 /42.2979.67 /65.5375.12 /60.2480.72 /67.5459.64 /0.2367.03 /0.0464.61 /0.0767.91 /5.8158.10/37.2555.18 /24.2163.04 /43.8160.74 /33.0963.30 /43.42Σ85714. 预训练和鲁棒性我们从一个简单的问题开始:我们能否通过用一个鲁棒的特征提取器替换通常预先训练的特征提取器来在无监督域自适应中灌输鲁棒性为了回答这个问题,我们用一个经过对抗训练的主干模型代替了正常的主干模型。我们将此设置称为鲁棒预训练或鲁棒PT。为了证明鲁棒预训练的效果,我们用六种UDA方法和三种常见数据集进行了一组实验,即 , Office-31 [34] 、 Office-Home [45] 和 VisDA-2017[31]。我们采用了ResNet-50 [ 17 ],该ResNet-50 [17]使用第3节中定义的不同扰动预算进行对抗训练。除非另有说明,否则使用PGD-20和ε=3的扰动预算报告稳健性。为了进行公平的比较,我们使用所有超参数的默认设置,并报告三次独立运行的平均结果。我们在这里只报告了每个数据集所有可能任务的平均最佳结果。详细结果请参见补充资料。可以合理地预期,对抗性预训练不会增加无监督域自适应的鲁棒性先前的工作已经表明,鲁棒性的可转移性是由于由预训练模型学习的鲁棒特征表示。只有当我们不更新主干时才能保持鲁棒性[18,38]。具体地,为了保持鲁棒性,在标记数据的帮助下,仅在固定特征提取器的顶部上训练仿射层。然而,我们对主干模型进行了微调,使其在源域中准确,并且对于源域和目标域是不变的每个数据集中所有任务的平均最佳稳健性结果如表1所示。我们发现,对抗性预训练的主干可以提高UDA设置下的鲁棒性。例如,CDAN [28]的鲁棒性从0%提高到41.67%,在VisDA-2017数据集上的干净准确率降低了约5.5%。对于DAN算法,鲁棒性的改进为0%至22.11%,代价是干净准确度下降18%。在涉及Office-31和Office-Home数据集的实验中也可以看到鲁棒性的类似改进,如表1所示。然而,对抗性预训练的骨干降低了UDA设置的模型的泛化能力。准确度的下降可以高达20%。我们假设鲁棒的预训练不是利用骨干的鲁棒特征的最有效的方式。在下一节中,我们将设计一个算法来更有效地利用这些功能5. 鲁棒特征自适应在本节中,我们介绍我们的方法及其动机。鲁棒特征自适应(RobustFeatureAdaptation,RFA)的目标是提高无监督域图2.VisDA-2017数据集上弱对抗性预训练(具有小g的对抗性预训练)模型的干净准确性这可以在不导致准确度显著下降的情况下实现自适应(UDA)算法。基于我们在前一节中的实验,我们假设直接使用预训练模型作为骨干模型不是在UDA训练中保持鲁棒性的有效方式。这些预先训练的模型开始时的准确性明显较低[10]。这种低的预训练准确性使得UDA训练很难获得更好的任务概括。我们的假设是基于以前的观察结果[23],这些观察结果表明,预训练模型的准确性与其在给定任务上的最终表现之间存在直接关系在我们的方法中,我们建议采用强大的功能,而不是直接使用强大的模型作为骨干。该方法的主要思想是将UDA骨干模型的特征与多个对抗性预训练模型提供的鲁棒特征对齐。这种对齐是在我们进行域适应训练以学习域不变特征时完成的。我们的框架的每个部分是基于一个假设的基础上,从以前的作品和详细的实验研究的见解。在本节中,我们将描述我们提出的算法的每个组件及其动机。7.1节给出了支持我们方法的经验比较。所提出的方法的概述如图1所示。5.1. 用于领域自适应的如前所述,现有的UDA算法对正常预训练的ImageNet模型进行微调。然而,与其正常预训练的对应部分相比,adversally预训练的模型学习这种差异可能导致学生和教师模型的特征之间的不一致,这可能导致优化困难。因此,我们提出使用弱对抗预训练模型(用小扰动预算预训练的模型)作为骨干模型。如图2所示,这些健壮的模型不会伤害干净8572不|| ·||ΣL =LRFASLLSSSQS2,其中SL在教师模型的特征空间中产生类似激活的两个输入也应该在学生模型的特征空间具体地说,给定一小批训练数据,设Ql∈Rb×d,l∈Rb×d表示教师对第l层和学生模型,其中b是批大小d是再成形后激活的尺寸。第l层教师与学生的相似度矩阵模型定义为Gl=Ql·Ql|/||Ql·Ql|||2andGl=Ql· QL|/||QL· Tl|||TTT T|| ·||表2.使用稳健预训练和基线比较RFA的稳健性和清洁精度。与鲁棒预训练相比,RFA提高了鲁棒性,同时保持了良好的泛化能力。是逐行L2归一化。然后,我们将第l层的鲁棒特征自适应损失定义为l1l2L RFA= b2 ||GT − GS ||F,其中F是Frobenius范数。我们使用中间层的鲁棒特征自适应损失的总和:1月63.70/0 55.08/32.15 62.95 /32.81L射频消融,表3.五种UDA算法的鲁棒预训练和RFA与VisDA-2017数据集的比较。RFA显著提高了鲁棒性,同时保持了良好的清洁精度。准确性显著,但可以解决特征不一致性问题。实验比较见第7.1节。5.2. 鲁棒不变特征与局部不变特征的联合训练我们的鲁棒特征自适应方法旨在以这样的方式微调UDA特征提取器,即它自适应来自对抗训练模型的鲁棒特征以及来自UDA训练的域不变性特征。在知识蒸馏中,我们用随机权重初始化学生,并通过最小化特征之间的成对距离和/或软化的类分数来迫使学生模仿教师的特征空间另一方面,我们的UDA特征提取器也是预训练的,并且已经学习了一组特征。这意味着学生和教师可能已经以不同的方式学习了特征,或者学习的特征图的顺序可能不同。此外,由于教师不是直接在目标数据集上训练的,因此它不能提供软化的班级分数。这也是不直接最小化成对距离的另一个原因,因为教师是在不同的数据集上训练总之,我们只想使用教师的特征监督来将学生的特征与其对齐为了将学生的特征与鲁棒教师的特征对齐,我们使用相似性保持损失来匹配鲁棒和非鲁棒特征之间的激活相似性[44]。这种损失的主要思想是将学生的特征在这样的l=1其中L是中间层的数量。然后将联合训练损失定义为L= LC+ LDA+α LRFA,其中C是源域上的分类损失,DA是域自适应的损失项,并且α是平衡域自适应和鲁棒特征自适应的超参数。请注意,我们提出的方法可以通过使用相应的UDA算法来具有损失项LDA的域自适应方法。5.3. 适应不同的鲁棒特性图4示出了通过用不同扰动预算训练的相同模型更多详情见第7.1节。为了利用这些不同的强大功能,我们建议用多个老师来监督为了减少训练过程中的计算成本这意味着我们可以用多个教师的多样性来指导学生模型,而计算成本与使用一个教师相同。6. 实验6.1. 设置我们对来自3个主流无监督域自适应(UDA)数据集的19个不同任务进行了实验Office-31[34]是一个标准的领域 适 配 数 据 集 , 包 含 6 个 基 于 三 个 领 域 的 任 务 :Amazon(A),Webcam(W)和DSLR(D)。数据集在域之间不平衡Q2数据集方法精度稳健性基线88.311.70办公室-31鲁棒PT80.7267.54RFA84.2174.31基线72.204.03VisDA-2017鲁棒PT67.7239.50RFA72.9047.66基线67.915.81办公室-家庭鲁棒PT63.3043.42RFA65.3751.13UDA方法基线鲁棒PTRFA源仅43.05 /025.67 /6.6444.65 /11.10DANN71.34 /065.79 /38.2165.32 /34.11丹61.79 /042.24 /22.1155.70 /21.59CDAN74.23 /068.00 /41.6772.03 /43.498573L联系我们其中A域2,817幅图像,W域795幅图像,D域498幅图像。与Office-31相比,Office-Home[45]是一个更复杂的数据集,包含更多的图像(15,500)100500 1000 5000Acc.71.6173.6272.90七十点三一罗伯40.0746.3647.66 四十七点二七教师人数罗伯单人70.31 40.15倍数73.45 40.87基于4个更多样化领域的12项适应任务艺术(Ar)、剪贴画(Cl)、产品(Pr)和真实世界(Rw)。VisDA-2017[31]是一个模拟到真实的数据集,具有两个极其不同的领域:合成域,其中图像从3D渲染模型和真实世界图像中收集。它也是一个大规模的数据集,因为它包含合成域中的280k图像和真实世界域中的50k图像。由于领域和规模的差异,它是UDA中最具挑战性的数据集之一除非另有说明,否则我们使用ResNet-50 [17]作为我们的骨干模型,MDD[49]作为域自适应算法。我们使用这种设置来表明,我们的方法可以提高鲁棒性,而不会显着降低准确性。为了证明鲁棒特征自适应(RFA)可以作为插件方法工作,我们使用六种UDA算法进行实验:仅源(仅对源数据进行微调模型)、DAN [27]、DANN [12]、JAN[29]、CDAN [28]和MDD [49]。我们遵循UDA中常用的[12,28]的实验方案,并采用[22]中我们将RFA与UDA算法Baseline(采用正常预训练的ImageNet模型)和Robust PT(采用对抗预训练的ImageNet模型的UDA算法)进行了比较。为了进行公平比较,我们对UDA算法基线、稳健PT和RFA的所有超参数使用相同的值我们提出的方法的新超参数是α。我们根据域适应损失的大小来选择它。具体地,我们将鲁棒特征自适应损失RFA乘以1000,以使其具有与域自适应损失的幅度相等的幅度。我们报告所有实验的三次运行的平均结果。6.2. 主要结果提高鲁棒性。为了实现更好的鲁棒性,我们选择了四个强大的教师,即,ImageNet ResNet-50模型,使用不同的扰动预算进行训练。更具体地说,我们使用ε∈{3,5}的扰动预算,其中l2-范数和二、四l∞范数为了显示效果-为了确保我们的方法的有效性,我们选择了一个以ε=1进行对抗训练的骨干。对于我们的大部分实验,我们使用MDD作为域自适应算法。Office-31、Office-Home和VisDa- 2017的平均结果见表2。这些结果清楚地表明,我们的方法可以提高骨干模型的鲁棒性,通过适应强大的功能,而不会显着下降的清洁精度。鲁棒性的提高是由于鲁棒的教师,而清洁精度的提高是由于RFA中使用的骨干模型。与鲁棒预训练中使用的主干相比,该模型具有更高的准确性这样,我们的方法具有显著的(a)(b)第(1)款表4. 消融研究。(a)不同α对VisDA-2017数据集上RFA的准确性和稳健性(%)的影响。(b)多名教师对VisDA- 2017数据集的准确性和鲁棒性(%)的影响。图3.在Office-Home和VisDA-2017上比较MDD基线、稳健PT(培训前)和RFA的平均稳健性和准确性(%)X轴示出了预训练模型的扰动预算与Robust PT相比,它具有更高的优势,因为它可以使用具有更高清洁精度的骨干模型,同时适应任何教师的鲁棒性。作为插件方法的RFA。我们的方法的一个显着特点是,它可以补充使用ImageNet预训练模型的现有或新的为了 证明这一点, 我们在具有 挑战性的大 规模VisDA-2017数据集上使用六种不同的UDA算法(仅源,DAN,DANN,JAN,如表3所示,RFA提高了所有六种UDA算法的鲁棒性7. 讨论及分析7.1. 我们框架设计原则的实证研究选择学生模型我们的框架的一个主要见解是使用弱对抗预训练模型(具有小扰动预算的对抗预训练模型)作为特征提取器。为了查看弱对抗性预训练模型的效果,我们将其与表5(a)中的正常预训练学生进行通常,预先训练的学生可以提高鲁棒性,尽管不是很明显。另一方面,弱对抗性预训练的学生可以显著提高鲁棒为了进一步了解UDA特征提取器模型应该如何8574联系我们学生Acc.罗伯损失DANNCDANMDD方法WRN-50-2基线72.204.03L145.02 /9.5855.16 /13.5354.52 /18.89基线69.61/0.15 73.36 /5.47正常71.227.63L254.28 /1.4558.16 /1.7664.20 /8.29鲁棒PT64.44/24.40 71.20 /37.63Adv.72.7140.61SP65.32 /34.1172.03 /43.4972.90 /47.66我们的(RFA)65.05/36.46 74.98 /50.47(一)(b)第(1)款(c)第(1)款表5. 消融研究。(a)六种UDA算法的正常学生鲁棒性的影响。(b)最小化成对损失比较的效果在VisDA-2017上保持相似性以实现稳健性(c)在VisDA-2017上使用不同神经网络架构比较MDD基线、稳健PT和RFA的准确性/稳健性(%)RFA持续提高不同架构的稳健性。这里RN表示ResNet和WRN WideResNet。方法Ar› Cl Ar› Pr AR› Rw Cl› ArCl› Pr Cl› Rw Pr› ArPr› Cl Pr› Rw Rw› ArRw› Cl Rw› PrAvg基线54.5972.3877.1961.5271.1971.5463.0450.3179.072.557.6683.9267.91鲁棒PT55.0773.8778.2660.8271.8471.8860.6551.8979.0272.6460.5082.8168.27我们的(RFA)55.6577.1380.6964.4374.8175.5463.9953.0780.5971.8058.4184.3170.03表6.基于ResNet-50的Office-Home数据集的所有12个任务的分类准确率(%)。我们的方法提高了12个任务中的10个任务的准确率以及平均值。通过预先训练,我们比较了图3中具有不同预训练扰动水平的不同特征提取器模型的鲁棒性和准确性。成对和非成对损失的比较。我们的算法的一个重要方面是损失函数。我们假设保留激活之间的相似性的相似性保留损失与成对损失相比更好。这是因为我们的学生模型已经训练好了,我们只想对它进行微调,需要弱监督。为了说明这一点,我们比较了表5(b)中的两个成对损失与相似性保留损失的鲁棒性和干净准确性。多位教师的影响。我们假设用不同的扰动预算训练的同一模型可以指导学生模型的多样性特征。在图4中,我们示出了鲁棒ResNet-50模型的四个不同残差块的最大激活神经元第一行显示了正常预训练模型的残差块的激活,其他行表示用不同的ε值训练的鲁棒ResNet-50模型的激活。该图示出图4. Office- Home数据集图像的最大激活神经元。第一行示出了正常预训练模型,并且其他行示出了用不同扰动预算(g)训练的鲁棒预训练模型的激活突出显示的区域可以被解释为最激活神经元请注意,不同的模型已经学习了不同的判别特征。学习到的区别性特征的多样性为了说明多位教师的效果,我们进行了比较方法清洁FGSMPGD-k7.2. 消融研究鲁棒特征自适应的权重灵敏度(α)。我们在VisDA-2017上研究了我们的方法对鲁棒特征适应项α表4(a)通过改变α0,100,500,1000,5000展示了干净的准确性和对抗鲁棒性。增加α会降低清洁精度,同时增加鲁棒性。这表明α可以控制干净准确性和对抗鲁棒性之间的权衡。PGD迭代次数对鲁棒性的影响 到表7. PGD攻击的迭代次数增加的影响。所提出的方法的结果是一致的,显示了成功的收敛PGD攻击。进一步显示的鲁棒性的可转移性,我们测试我们的方法与PGD攻击(PGD-k)的迭代次数增加。如表7所示,我们的方法的耐用性是一致的。RFA的改进在不同架构中是一致的。在表5(c)中,我们证明了我们提出的方法可以使用不同的架构来提高鲁棒性。RFA将Wide-ResNet-50-2的鲁棒性从5.47%表4(b)中的单个教师。单模型监控102050100足以提取出鲁棒性。然而,多样性基线72.2041.1511.82 四点零三三点二四3.06多名教师的监督提高了两种准确性鲁棒PT71.9563.2339.5428.21 25.5524.69和鲁棒性。我们73.4567.8742.2540.87 40.2840.118575×个×个×个×个∈→→转转转方法A› WD› W W› D A› DD› AW平均值基线91.4098.74100.0092.1773.0674.4788.31鲁棒PT91.7899.12100.0092.7773.8574.1188.60我们的(RFA)92.8099.21100.0093.0478.0077.7490.15方法来源 DANN DAN CDAN JANMDD基线43.05 71.34 61.7974.23 63.7072.20鲁棒PT 47.20 72.81 62.56 75.85 63.0275.64我们的(RFA)59.0075.0565.5877.5466.68七十九点四二表8.(a)(b)第(1)款提高清洁精度。(a)基于ResNet-50的Office-31数据集的所有六个任务的分类准确度(%)。(b)第(1)款VisDA-2017数据集上基线、稳健PT和RFA与六种UDA算法的分类准确度(%)比较。RFA始终提高所有UDA算法的准确性。基线77.9380.2978.9094.5582.9200.132.240.180.64我们的(RFA)76.5676.8375.9794.6181.0023.1551.5862.8240.0044.38表9. PACS中所有四项任务的DecAug基线、稳健PT和RFA的准确性和稳健性基于ResNet-18。数据集罗伯源DANN DAN CDAN JAN MDD[12][27][28][29][49]VisDA 43.05 71.34 61.79 74.23 63.70 72.202017年C48.95 72.81 62.70 75.85 65.51 75.64办公室77.8085.79 81.72 86.90 85.68 88.3131C77.6686.06 82.08 88.05 86.05 88.60办公室58.29 63.39 59.64 67.03 64.61 67.91家C58.8764.0860.3867.6765.60六十八点二七:正常预训练模型,C:不利预训练模型,Rob。PT:稳健的预训练。表10.正常和对抗性预处理之间的比较使用不同的UDA算法训练模型的分类准确率(%)。对抗性预训练提高了UDA的分类准确性。ResNet 18的准确率为0.15%~ 36.46%。7.3. RFA能提高域生成的鲁棒性我们的方法的一个重要方面是,它是域不可知的,可以应用于涉及一个以上的域的任务为了说明这一点,我们还使用我们的方法在PACS [24]数据集上进行了域泛化(DG)DG方法[24,8,50,2]从多个域学习模型,以便它们可以很好地推广到看不见的域。PACS数据集包含四个具有不同图像样式的域:艺术绘画、卡通、素描、摄影。我们遵循与[24]中相同的留一域验证对于每一次,我们选择三个域进行训练,剩余的域进行 测 试 。 我 们 将 RFA 应 用 于 SOTA DG 方 法 DecAug[2],并在表9中报告结果。实验结果表明,该方法在保持良好的泛化精度的同时,还能显著提高算法的鲁棒性7.4. 逆向预训练模型能提高准确性吗?最近的一项工作[35]表明,弱对抗性预训练模型(AT具有小ε[0. 010 5])还可以提高迁移学习中的目标任务的干净准确度,例如,ImageNet到Pets数据集。在本节中,我们将探讨无监督域自适应(UDA)。具体来说,我们针对两种设置进行了实验:使用弱对抗性预训练模型作为特征提取器,并在我们提出的算法中使用它们作为教师。首先,我们使用弱对抗预训练模型作为特征提取器,同时保持其他一切与UDA训练相同。我们发现,这种简单的设置可以提高清洁精度。结果示于表10中。为了进一步了解鲁棒特征的效果,我们在鲁棒自适应算法中使用了这些弱对抗训练模型。来自Office-31、Office-家庭的不同任务的结果和VisDA-17上不同UDA算法的平均准确度分别示于表8(a)、6、8(b)中。RFA优于基线和稳健预训练,具有显著的边际。我们的方法实现了90.15%,而基线的88.31%和Office-31上的鲁棒预训练类似地,在更复杂的办公室-家庭数据集上,与基线的67.91%和稳健PT的68.27%在挑战VisDA-2017数据集时,我们实现了更高的改进。例如,使用正常预训练的ResNet-50的MDD实现了72.20%的准确率,但我们提出的算法实现了79.42%值得注意的是,我们的方法显著提高了对硬任务的准确性,例如,Office-31 、 D A ( 73.06%~ 78% ) 和 W A ( 74.47%~77.74% ) ; 对 于 办 公 室 - 家 庭 , Cl Ar ( 61.52% 至64.43%),Cl Pr(71.19%至74.81%)Cl Rw(71.54%~ 75.54%);对于VisDA-2017,模拟与真实(72.20%至79.42%)。这突出了适应UDA的强大功能的重要性。8. 结论对抗鲁棒性的现有干预需要标签,并假设从单个域学习这阻碍了它们在无监督域自适应中的应用。为了使无监督域适应鲁棒,我们引入了一种简单的,无监督的和域不可知的方法,在训练过程中不需要对抗性的例子。我们的方法是出于鲁棒性的可转移性。它利用对抗性预训练模型并从其内部表示中调整鲁棒性。我们的研究结果表明,它显着提高了UDA的鲁棒性。鸣谢。作者感谢匿名评论家,Faaiz,Teerath,Salman和Asim的帮助和建设性的反馈。方法艺术绘画卡通草图照片 平均8576引用[1] Muhammad Awais,Fahad Shamshad,和Sung-Ho Bae.一种 对 抗 性 强 的 归 一 化 方 法 。 arXiv 预 印 本 arXiv :2006.11007,2020。三个[2] Haoyue Bai,Rui Sun,Lanqing Hong,Fengwei Zhou,Nanyang Ye , Han-Jia Ye , S-H Gary Chan , andZhengguo Li. Decaug:通过分解的特征表示和语义增强进行分布外泛化。arXiv预印本arXiv:2012.09382,2020。八个[3] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza、Fernando Pereira和Jennifer Wortman Vaughan。从不同领域学习的理论。Machine learning,79(1-2):151-175,2010. 二个[4] Shai Ben-David , John Blitzer , Koby Crammer , andFernando Pereira.域适应的表示分析。神经信息处理系统进展,19:137二个[5] Battista Biggio,Igino Corona,Davide Maiorca,BlaineNel-son,NedimŠrndic´ ,PavelLaskov,Gior gioGiacinto,andFabioRoli.在测试时对机器学习的规避攻击在关于数据库中的机器学习和知识发现的中,第387Springer,2013.第1、3条[6] 雅各布·巴克曼,奥科·罗伊,科林·拉菲尔,伊恩·古德费尔-洛.温度计编码:一个抵抗敌对例子的好方法。在2018年国际学习代表会议上。第1、3条[7] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会(SP),第39-57页。IEEE,2017年。第1、3条[8] Fabio Maria Carlucci , Antonio D'Innocente , SilviaBucci,Barbara Caputo,and Tatiana Tommasi.通过解决拼图游戏进行领域概括。在IEEE计算机视觉和模式识别会议论文集,2019。八个[9] Alvin Chan,Yi Tay,and Yew-Soon Ong.它认为重要的东 西 才 是 重 要 的 : 鲁 棒 性 通 过 输 入 梯 度 传 递 。 在IEEE/CVF计算机视觉和模式识别会议论文集,第332-341页,2020年。一、二、三[10] 洛根·恩斯特罗姆,安德鲁·伊利亚斯,哈迪·萨勒曼,希巴 尼 · 圣 图 尔 卡 和 迪 米 特 里 斯 · 齐 普 拉 斯 。 鲁 棒 性(Python库),2019。四个[11] Logan Engstrom , Andrew Ilyas , Shibani Santurkar ,Dimitris Tsipras,Brandon Tran和Aleksander Madry。作为学习表示的先验的对抗鲁棒性。arXiv预印本arXiv:1906.00945,2019。三、四[12] Yaroslav Ganin , Evgeniya Ustinova , Hana Ajakan ,Pascal Germain,Hugo Larochelle,François Laviolette,Mario Marc- hand,and Vic
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功