没有合适的资源?快使用搜索试试~ 我知道了~
382−SALAD:用于分类、分割和检测的Divya Kothandaraman1,Sumit Shekhar3,Abhilasha Sancheti1,3,Manoj Ghuhan2,Tripti Shukla3,Dinesh Manocha1马里兰大学学院公园1,卡内基梅隆大学2,Adobe研究3摘要我们提出了一种新的方法,SALAD,用于使预训练的“源”域网络适应“目标”域的视觉任务,具有用于“目标”域中的符号此外,该任务假设由于隐私问题或其他原因,源数据不可用于适配。我们假设这样的系统需要联合优化双重任务:(i)从目标域中选择固定数量的样本进行注释,以及(ii)将知识从预训练的网络转移到目标域。为此,SALAD由一个新的引导注意力转移网络(GATN)和一个主动学习功能,HAL。GATN能够从预先训练的网络到目标网络进行特征提取,并使用可转移性和不确定性标准与HAL挖掘的目标样本进行补充 SALAD具有三个主要优点:(i)它是任务无关的,可以应用于各种视觉任务,如分类、分割和检测;(ii)它可以处理从预训练的源网络到目标域的输出标签空间的移位;(iii)它不需要访问源数据进行自适应。我们在3个视 觉 任 务 中 进 行 了 广 泛 的 实 验 , 即 数 字 分 类(MNIST,SVHN,VISDA),合成(GTA 5)到真实(CityScapes)图像分割和文档布局检测(PubLayNet到 DSSE ) 。 我 们 表 明 , 我 们 的 无 源 的方 法 ,SALAD,结果在改善0。百分之五31. 3%(跨数据集和任务),比以前的适应方法,假设访问大量的注释源数据进行适应。代码在这里可用。1. 介绍用于视觉应用的深度学习解决方案,如语义分割[43,40],图像分类和文档布局分析[18,32]需要大量的注释数据两个流行的趋势,以处理缺乏足够的注释数据是域适应(DA)和主动学习(AL)。在主动学习(AL)[2,28,36,33]中,模型在固定预算(例如,未标记数据的可用语料库的5%[7])内挖掘和注释样本,以最大限度地提高模型性能。典型的主动学习策略包括建模多样性和有效采样的不确定性[7,4]。领域适应[43]旨在将知识从“源”领域转移主动学习和领域自适应的融合主动域自适应(ADA)[4,39,28]已经探索了使用来自相关域的注释的“源”数据来适应“目标”域数据集,在注释“目标”数据的固定预算内。ADA的缺点是它需要访问带注释的源数据,由于隐私问题或存储限制,这可能是禁止的[16,17]。最近,也有关于无源适应的探索[12,1]。然而,这些方法1.1. 主要贡献:在这项工作中,我们专注于无源主动域自适应SF-ADA的新问题,其中我们可以访问预先训练的“源”网络,但由于隐私问题或其他原因,源数据不可用。此外,指定未标记的目标数据集和用于获取目标域中的标签的小预算。此外,目标域还可以具有标签空间中来自源域的移位。我们提出了SALAD,SF-ADA的一个通用的新框架,它联合优化了采样目标数据,用于神经网络对目标域的注释和无源自适应。SALAD全面解决了两个关键挑战,通过两个互补的组成部分设置问题:引导注意力转移网络(GATN),用于从预先训练的 网络到目标网络的无源适应。383main和主动学习算法HAL,用于从目标域中挖掘样本以进行注释:• 无源适应:GATN支持从预训练网络到目标网络的特征级自适应(图1)。GATN使用转换网络来调整预训练网络的特征,与目标域对齐,然后引导注意力选择性蒸馏到目标网络。目标网络通过主动学习选择的样本进行自适应。• 主动学习:GATN的有效性取决于从目标数据集中选择用于注释的样本。虽然选择与源分布相似的样本很重要,但我们需要确保所选样本对网络w.r.t.目标数据集。为此,HAL结合了预训练网络的适应性以及w.r.t.目标网络。我们的方法不尝试使用生成方法来模拟源数据,这在任务特定的无源域自适应中是常见的[16,21]。这使得我们的神经网络很容易训练。沙拉有很多好处。(i)该架构是任务不可知的,可以应用于各种视觉任务,如分类,检测和分割。(ii)自适应发生在特征空间(解码器之前的网络输出)。因此,我们的体系结构是标签空间不可知的,可以处理标签空间中的移位,其中源和目标域包含不同数量和类型的类(iii)源数据不需要适应。此外,在测试时不需要预先训练的源网络,并且可以在训练后丢弃。我们在三个任务中评估SALAD。 在classifica-通过对数据集(MNIST,SVHN)的分析,我们证明了即使没有源数据,SALAD的性能也类似于或优于使用大量注释源数据的现有主动域自适应方法[39,接下来,我们评估MNIST下的2个不同的情况下,在输出标签空间的移位,并显示SALAD是能够实现99。4%的准确度,在标签空间中没有移动的情况下,从而建立了我们的模型在标签移动的情况下的有效性。我们在CityScapes数据集上进行的语义分割实验将准确率提高了5。57%的微调。我们还在表7中强调了SALAD相对于其他适应范例的优势。最后,我们进行了实验,适应从PubLayNet到DSSE的文档布局检测,其中有一个标签空间的转变。SALAD给予31的相对改善。在小数据集上对目标网络进行了3%表1:问题设置:我们突出显示了各种域适配设置。Src.数据源模型,实验室。焦油,和Un。Tar.分别指丰富的标记源数据、源模型、稀缺的标记目标数据和未标记的丰富目标数据2. 相关工作据我们所知,没有太多关于无源主动适应方法的先前工作,该方法可以概括分类和检测等不同任务。主动学习主动学习(AL)旨在获得给定标记数据的小预算,同时最大化监督训练性能。基于不确定性的方法选择具有最高不确定性的示例[44,31],使用熵[44],最小分类边缘[31],最小置信度等。基于多样性的方法选择一些代表数据的点,例如。核心集选择[36,38]。最近的方法结合了这两个范例[2,28,51]。域适应域适应的目的是转移将源领域模型学习到的知识传递给未标记的目标领域。一些现有的工作通过基于发散的测量最小化[13,24]、对抗训练[35,37,41]、源或目标域数据重建[3,9]、图像到图像转换[26,11]或归一化统计[27,20]来学习域不变特征表示,从而对齐源域然而,域自适应方法通常需要访问带注释的源数据。主动域自适应目的是通过标注固定预算的目标域样本,使在源域数据上训练的模型适应[30]介绍了ADA的任务,并将其应用于文本数据的情感分类他们提出了一种基于模型不确定性和学习域分离器的采样策略的方法。 最近[39]在CNN的背景下研究ADA,并提出一种方法,其中基于样本的不确定性和目标性来选择样本,然后进行对抗性域适应。[34]提出了一种算法,识别不确定和不同的情况下,标记其次是半监督DA。[52]提出了一种神经网络的三阶段主动对抗训练,使用不变特征空间学习,不确定性和基于多样性的样本选择和重新训练标准[4]解决了领域自适应中特征的良好可移植性缺乏保证的问题。然而,上述所有作品都使用源代码数据,这在数据隐私方面是禁止的问题Src. 数据Src. 模型实验室Tar.Un. Tar.半监督DA(SSDA)[46]✓✓✓✓[40]第40话我爱你✓✓✗✓无源DA(SFDA)[16]✗✓✗✓[39]第39话✓✓✓✓无源活性DA(SF-ADA)✗✓✓✓384我我× ×无源域自适应[19]引入了域自适应的范例,其中源域数据由于隐私问题而不可用,并且只有在源域数据上预训练的模型可用。Ex-1000采用生成方法,其中训练的模型用于使用批量归一化[12]或基于能量的方法[17]生成源样本以用于分类任务[48,14,1]。其他人使用基于蒸馏的方法[23]或基于信息最大化的方法[21]的组合。然而,这些方法没有考虑使用主动学习来提高认知能力,并且通常不会在任务之间推广。3. 沙拉我们提出了一种新的方法,SALAD,为问题的陈述,我们假设(i)网络,N S,预先训练(和冻结)的源域,S(源数据不可用的适应)和(ii)一个未标记的目标域T,我们被允许注释B图像。目标是在总TotAL周期中从目标域挖掘B图像,以使网络NS适应目标网络NT,其学习目标域的鲁棒任务特定特征。对于每个循环,c=1,2,...,在主动学习的AL中,目标域中的标记集表示为T,L,c,未标记集表示为T,UL,c。建议的解决方案SALAD(图1)由两个部分组成:(i)引导注意力转移网络(GATN),用于从预训练的网络中进行调整;(ii)主动学习策略,HAL,用于从目标域优化采集样本。3.1. 沙拉描述SALAD由两个互补的组成部分:一个适应策略,引导注意力转移网络(GATN)和一个主动学习策略HAL。 GATN与HAL结合使用选定的样本实现目标网络的特定于领域的学习,其中相关的领域不可知知识通过引导注意力从预训练的源网络转移。GATN在功能级别执行自适应。如图1所示,冻结的预训练网络NS首先被分成生成特征图FP的冻结特征编码器和冻结任务头THP。类似地,目标网络的可训练特征编码器NT被分成目标特征映射FT和可训练任务头THT。FP和FT通过引导注意力转移网络(GATN)传递,GATN通过转移学习损失LTr来约束目标网络。引导的注意力使得能够从预训练的网络转移域不可知的特征,并且丢弃域特定的特征。GATN以及预训练的网络NS可以在训练之后被丢弃,即,在评估阶段不需要这些数据。在主动学习策略中,HAL使用源网络的适应性和目标网络中的不确定性的组合度量来选择样本,指示相对于目标网络的不确定性。目标领域[28]。3.2. 引导注意力转移网络(GATN)在本节中,我们将详细介绍引导注意力转移网络(GATN)。GATN首先通过调制网络τ将FP4层全卷积网络。尽管有trans.从预先训练的网络中获取特征,并不是FP-tr中包含的所有知识都对目标域有用。这是因为τ是CNN并且没有滤波层。只传输与领域无关的功能非常重要从FP-TR。这是由引导注意力网络完成的然后将变换后的特征FP-tr和目标网络特征FT馈送到两个引导注意力模块以计算在空间和渠道维度的关注。引导注意力模块由引导空间注意力(GSA)和引导通道注意力(GCA)[47,8]组成,分别计算空间和通道维度上的注意力。FP−tr和FT被传递给空间引导注意( GSA ) 和 通 道 引 导 注 意 ( Channel GuidedAttention)。(GCA)模块。注意力模块计算调制源特征图F P−tr和目标网络特征图F T在空间和信道级别上的对齐。目标网络包含有限的特定领域知识,通过标记的目标子集的边缘,这可以用来指导适应。我们建立了一个引导注意力模块来做这件事,它建立在自我注意力的数学同义词上[50]。我们希望反映出,引导注意的概念是建立在共同注意中描述的想法之上的[49]。注意力文献[42,47,8]将注意力函数描述为将查询和一组键值对映射到输出,其中键,查询,值和输出都是向量。我们将FP−tr表示为查询向量,并将键和值分配给目标网络特征映射FT。我们使用空间和通道级特征向量[8]结合了引导空间和通道注意力[47]的概念。引导空间注意力(GSA)模块(其生成注意力表示AGSA)的目标是突出经变换的预训练的空间区域。网络特征图FP−tr与目标特征图FT对齐。引导通道的目标是-注意力模块(其生成注意力表示AGCA)用于突出显示在每个空间位置处的与目标网络特征图FT良好对准的经变换的源网络特征FP-tr的属性(或每个空间位置处的通道级特征)。设特征图的维数为C HW。 在空间引导注意力中,1x1卷积层首先转换键、查询和值特征图。然后将这些特征映射重新整形为形状C×(H×W),用于计算385ΣΣ−⊤⊙Σ图1:我们提出了一种通用方法SALAD,用于在标签空间可能发生变化的情况下,以较小的预算从预先训练的源网络适应目标域。SALAD由两个互补的组成部分组成:引导注意力转移网络(GATN)和主动学习策略HAL。图2:引导空间注意力和通道注意力表示的计算概述。• 迁移学习损失LTr:LTr被计算为转换的预训练特征映射FP−tr和目标网络特征映射FT之间的注意力加权均方差。从数学上讲,LTr=AGSA<$[FP−tr−FT]2+AG CA(二)该损失被应用于所有标记和未标记的目标图像,并通过超参数λ Tr,L和λ Tr,UL进行缩放,根据经验选择为0。1或0。01、取决于任务。因此,标记和未标记图像的总损失为:注意力重量,一个GSA。对于信道注意力AGCA,使用尺寸为C×(H×W)的重新成形的特征图来λTr,LIT,L,c.LTr+λTr,ULIT,UL,cLTr计算注意力地图而不需要任何卷积。 图2显示了这些注意力地图的计算。从数学上讲,AGSA=S(Cq(FPtr)<$Ck(FT))<$Cv(FT),AG CA=S(FP−trFT. (一)其中,S和分别表示转置操作、softmax和矩阵乘法操作。Ck,Cq,Cv表示可训练的1×1卷积,然后进行整形• 任务特定损失LTask:为了学习目标域特定信息,我们计算目标域图像的任务特定损失,即用于分类和语义分割的多类交叉熵,以及用于对象检测的焦点损失。这是为标记和未标记的目标样本计算的。对于未标记的样本,通过对NS的软最大输出进行阈值化来计算伪标记.总体特定任务损失为:键、查询和值特征映射的集合。3.3. 培训损失我们共同训练GATN(由τ和引导IBUT,L,c.L任务+λ伪IT,UL,cL任务注意力网络)和目标网络,NT,具有以下损失项:• 整体损失:总的训练损失是上面计算的传输和任386务损失的总和。387−Σ−我我3.4. 主动学习策略HALGATN和目标网络的训练涉及目标域的标记子集上的任务特定损失因此,来自预训练网络的领域自适应的有效性以及目标网络对领域特定特征的学习取决于通过AL策略HAL挖掘的样本。因此,重要的是,HAL要标注(i)促进来自预训练网络的适应的样本以及(ii)编码目标领域特定知识的所有方面• 预训练网络的适应性:在计算目标域样本的输出时,预先训练的网络的预测置信度N S体现了目标样本与源域的相似性。具有高相似性的样本促进了从预训练网络到目标网络的知识转移。我们通过定义“适应性得分”来量化“相似性”。为了计算适应性得分,我们对预训练网络的最终softmax输出NS进行阈值化,以计算目标样本的伪标签映射。特定于任务的损失在预训练网络的输出和伪标签之间计算。梯度得分或适应性得分AG是网络NS的梯度(没有任何梯度更新-因为网络被冻结)的总l2范数,其中计算出的损失。低梯度意味着高置信度,因此意味着对NS的高适应性。• 目标网络的不确定性:我们需要选择目标域样本,为目标网络提供关于该域的详尽信息。因此,重要的是选择网络不确定的目标域样本,这可以使用目标网络的预测熵目标网络的softmax输出提供了类概率得分图p。这用于将熵得分AE计算为plogp。目标样品的高熵指示高不确定性,因此应被选择用于标记。最大化上述两个度量的组合,以挖掘用于标记的样本:HAL=−λGlogAG+λElogAE(3)其中λG、λE是切换用于采样的度量的二进制变量(0/1)。对于第一批AL,我们设置λG=1,λE=0,作为目标网络,NT不训练。对于进一步的时期,我们设置λG,λE=1。3.5. SALAD培训概述通过对目标领域数据集的样本挖掘,将目标网络、NT网络和GATN网络在小批量中使用HAL,直到实现期望的预算B。我们使用SGD优化器,学习率为2。5e4,动量为0。9和重量衰减为0。0005训练训练程序的步骤如下:• 使用预先训练的源网络的参数初始化目标网络NT,• 对于主动学习周期,c在范围(0,TotAL)中:– 使用AL策略HAL、预训练网络NS和目标网络 NT从目标数据集中挖掘B/TotAL样本,并累积标记的目标子集IT,L,c和未标记的目标子集IT,UL,c。– 创建组合T,L,c和T,UL,c的图像批次。针对给 定 的 时 期 数 或 直 到 收 敛 , 优 化 NT 和GATN的总体训练损失。– 使用HAL,使用当前版本的NT和GATN的下一个主动学习周期的样本。4. 实验和结果我们提出了分类,检测和分割任务的结果在分类设置下,SALAD即使不访问带注释的源数据,其性能也类似于或优于(方差为0。5%的准确度)使用大量注释源数据的现有主动域自适应方法[39,28]。此外,我们在MNIST上进行了实验,在两种不同的情况下,移位的输出标签空间,并表明SALAD可以实现99。当使用所有标签进行训练时,仅使用5%的采样预算时,达到了4%的准确度。因此,SALAD可以处理标签空间中的移位。我们在CityScapes上进行的各种预算下的语义分割实验显示出5. 57%的微调(即在没有Ltr的情况下训练模型)。最后,我们进行了实验,从PubLayNet到DSSE的文档布局自适应,其中输出标签空间有变化,SALAD提高了31。3%过度微调(即在没有Ltr的情况下训练模型)。对于MNIST,我们将循环次数TotAL设置为等于3,对于SVHN,设置为等于1000,对于CityScapes,设置为等于50,更多实施细节可参见补充材料。4.1. 图像分类我们提出了我们的结果数字分类数据集下的两个设置:(i)共享标签空间,和(ii)在标签空间的移位在共享标签空间设置中,预训练网络的标签空间和目标域的标签空间是相同的。在标签空间388方法预算精度SDDA(WACV 2021)[17]-75. 5SDDA-P(WACV 2021)[17]-七十六。3沙拉0的情况。百分之十六91. 64(a) SVHN至MNIST91. 六四 九五9697。16(a) 从SVHN到MNIST的调整结果:预算为300张图片(0。5%的目标数据MNIST,表的最后一列),我们表明,即使没有源数据,SALAD优于以前的工作,主动域自适应,使用注释的源数据。完全监督的准确率为99。2%,我们实现的准确度与仅使用0的完全监督准确度相当。数据集的5%方法100020004000 10000准确度:27。27FT+制服68岁0七十六。2八十084. 7FT+熵68岁075. 181.287岁8[2]第二章:一个人的世界179岁。283岁788. 1[36]第三十六章:一个女人078岁882岁8882[31]第三十一章:一个女人078岁083岁288. 4[28]第二十八章:一个女人1七十六。483岁0878(b) MNIST到SVHN表3:在数字数据集上比较SALAD与SFDA的现有技术。预算反映了用于主动学习的目标样本总数的百分比。我们证明了我们的SF-ADA方法在使用非常小比例的注释目标样品的情况下,在很大程度上优于SFDA的现有技术。类别/失效日期2019 - 01-24 00:00:00案例1:从源SVHN中删除数字74. honor 282岁286岁。688岁6(b)从MNIST到SVHN的调整结果:我们比较了主动学习的现有方法,并展示了最先进的性能。完全监督的准确度为90。44%,我们实现的准确度与仅使用1的完全监督准确度相当。数据集的8%表2:共享标签空间设置移位空间设置,目标数据集包含不用于训练源网络的标签我们在实验中使用了ResNet-101功能,与基线一致。我们设λ Tr=0。01,λ G为1。0,λ E为1。第一轮抽样后0我们设置λ pseudo=1。0为数据集。我们使用ResNet-101倒数第二层的功能头[10]分类器主干。共享标签空间设置,SVHN到MNIST:表2a包含在不同预算下从SVHN调整到MNIST的结果。与我们的直觉一致,预算越高,准确性越好。当以300个样本的萌芽为基准时,这是0。5%的样本,MNIST包含,我们观察到沙拉,即使没有任何注释的源数据都优于使用大量注释的源数据(600000个图像)的主动域自适应的先前工作。此外,我们观察到97的准确度。300张图片的16%是97。64%的完全监督精度,60k图像。与SFDA方法的比较(表3SALAD输出-使用非常小比例的注释目标样品以大幅度执行SFDA的现有技术。与SFDA + AL方法的比较。 沙拉出来了-案例2:从源SVHN中删除数字源仅41岁900的情况。00七十80六十五6089岁。600的情况。000的情况。0083岁000的情况。0066岁。00四十七60B=300九十七00九十九。20九十八90九十七20九十九。10九十六。20九十五70九十七50九十五3094 70九十六。30表4:从SVHN到MNIST的适应结果,标签空间移位。我们考虑两种情况:情况1-源数据不包含数字“3”和“9”,情况2 -源数据不包含数字“7”,“5”,“4”,“1”。SALAD,与HAL和GATN,达到99。4%,99。8%的准确性,在没有标签移位 预算为300张图像时的准确性,无标签换了,就是97。百分之十六在ADA上执行先前的工作。由于ADA(或AL + DA)方法优于AL + SFDA方法,因此通过传递性,SF-ADA的整体解决方案(如SALAD)比SFDA和AL的简单组合更有益。共享标签空间设置,MNIST到SVHN:我们在表2b中显示了从MNIST到SVHN的适应结果。SVHN的复杂度高于MNIST,这反映在仅来源的准确性上,该准确性为27%。根据之前的工作,我们将通过主动学习挖掘样本的净预算限制在10000张图像,即1。数据集总大小的8%。我们展示了在1000,2000,4000和10000图像的不同预算的最先进的性能。此外,在10k图像的精度为93。44%的完全监督精度,使用约500k图像。标签空间中的移位,SVHN到MNIST:在表4中,我们目前的结果适应从SVHN MNIST标签空间的转变。在案例1中,我们在移除对应于两个类(随机选择的类3和类9)的样本后,在SVHN上训练源网络。类似地,源仅五十六8869岁。2086岁。8079岁。100的情况。00五十三80九十五7041岁0078岁2063岁000的情况。00B= 10088. 29九十七80九十八90946083岁809430九十六。6084. 9091. 00九十三80四十八2096. history 27九十八50九十八60九十八109430九十六。70九十七80九十七90九十三6092. 80944096. history 61九十九。10九十八70九十八10九十五00九十七50九十七90九十八0091. 30九十五40九十七10方法源数据B=100B=200B=300准确度:62。25O-ALDA [33]✓79岁。1081. 4082岁70[39]第三十五话:我的世界✓九十三1094 60九十五00[39]第二十九话:我的世界✓94 20九十五00九十五90[28]第二十五话:一个人✓九十0094 0094 50[25]第二十五话✓92. 9094 90九十六。50SSDA MME [34]✓九十三00九十五00九十五50方法预算精度SDDA(WACV 2021)[17]-四十二2SDDA-P(WACV 2021)[17]-四十三6389在案例2中,我们从源数据集中删除了4个类直接测试表明,这些类的准确率为0。390∼××调制网络是94。15%,而与调制网络的精度为97。百分之十六表5:从SVHN到MNIST的传递损失参数(λTr,L,λTr,UL)和主动学习策略(AG,AE)变化的消融实验。使用我们的AL策略§3.3进行采样,并逐渐使用GATN进行训练,逐渐达到300张图像的预算(再次,0。5%的目标样本)将准确度恢复到96。61%,97。00%,分别为99。4%,99。8%的准确度在没有标签移位的情况下实现。HAL中的术语AE确保了阶级平衡,即,选择与未被预训练网络学习的类相对应的样本以及具有高预测不确定性的类。因此,我们的方法在标签空间中有移位时工作得很好HAL和GATN的烧蚀实验。 我们介绍了AB-从SVHN到MNIST的适应性实验见表5。我们将净主动学习预算设置为300张图像。由于网络没有关于目标域的先验知识,因此只能从第二轮主动采样应用不确定性度量在第一轮主动采样中,我们只应用适应性度量。 在第一个实验中,我们研究了训练目标网络的影响,没有GATN,所有样本都只使用适应性得分,准确率为88。百分之九十六 这证明,即使在没有来自预训练网络的自适应的情况下,使用预训练网络的置信度得分挖掘的样本也是有利的,因为目标网络是用预训练网络的权重初始化的。接下来,我们仅在标记的子集上应用由GATN指示的蒸馏损失,并且相应地设置L L,Tr= 0。01.我们观察到,知识转移,除了抽样使用的适应性得分提高性能0。百分之六。这增强了预先训练的网络挖掘的样本的质量接下来,我们将蒸馏损失也应用于未标记的子集(LTr,UL),这导致3%的绝对改进。这是GATN的选择性提取能力的指标,其中仅提取有用的特征以提高性能。最后,我们通过使用不确定性得分以及多样性得分进行实验,以达到97的准确性。16%,提高了34。91%,比基线提高了5。比实验3高出6%因此,当样本被智能地挖掘时,获得了使用GATN的最佳适应(实验4)。调制网络τ上的烧蚀实验。 的MNIST−→ SVHN上的精度,300张图像,无4.2. 自动驾驶:城市景观的合成与真实分割我们进行实验的密集像素级任务,分割,在那里我们适应从GTA5(25000图像)CityScapes。为了有效地从GTA 5转移并解决采样时目标网络的不确定性,我们从第二轮采样开始设置λG=λE=1 我们设λ Tr=0。01.我们使用来自底层DeepLabv 2 ResNet-101骨干的第3层的特征头[5]。我们在表6中给出了结果。在第一行中,我们直接测试预训练的GTA5模型,它给出了mIoU三十四91.接下来,我们将HAL应用于批量主动学习,并在每轮采样后使用GATN训练网络50张图像、100张图像、200张图像和500张图像的累积预算导致31的相对改进(仅在源上)。5%,46. 03%,52. 5%,62。1%的回报率。像‘Sign’, ‘Rider’, ‘Train’, ‘MBike’, ‘Bike’ have very lowmIoU ( 我们表明,SALAD提高性能3至25。 与SFDA的现有技术的类比较揭示了我们的AL启发式HAL策略性地选择具有低置信度或高不确定性的类如Bike和MBike以提高性能,而不会在性能方面妥协。可转移的类,如道路和天空。比较 与 SFDA 方法:表 7示出SALAD与先前SFDA方法的比较。SALAD的性能更好,预算只有50张图像(1。5%)。烧蚀实验我们目前的烧蚀实验,表8.在表8(a)中,我们研究了GATN在各种预算下的有效性在第二列中,我们将LTr仅应用于标记子集,以及使用HAL的主动学习。第三列反映了通过使用我们的完整模型获得的mIoU,通过对标记和未标记子集进行训练以及使用HAL进行主动学习。第二列和第三列的比较表明了使用GATN的选择性迁移学习的好处此外,我们的模型结果在16的改进。27%,16. 百分之九十二,十三。24%和5。在没有GATN的情况下,通过简单地微调目标网络(具有预先训练的权重初始化)以及通过随机抽样[46]获得的基线数字的57%[46],分别为50张图像,100张图像,200张图像和500张图像的在表8(b)中,我们研究了GATN不同组件的有效性,预算为50张图像。在第一个实验中,我们不使用GCA或GSA [46]。如果没有GATN,我们的系统将简化为使用带注释的目标样本对目标网络进行简单的微调。GATN形成一个GATN规范λT r,Lλ T r,ULAL规范AGA E预算ACC基线无源精度:62。百分之二十五00✓✗30088岁9600的情况。01✓✗30089岁。56391沙拉四十五93×− ×实验mIoUMACC来源只有3491七十七。84七十1421岁6七十六。27十八岁8十六岁2721岁31二十七岁85十五岁40七十七。6731岁2974岁83四十九473 .第三章。6079岁。4528岁7131岁394.第一章7012个。43二、10[45]第四十五话:三十八岁。9-87339079八点二十四。319六点 二十一。 225116683八点三十四。七七七。 757九点十七分 885024九点 二十82.016六四5[29]第二十九话:一个女人98比88244284. 428九点二十七638641五点 八486341079258七点二十五 385. 四块二十一百二十六4个6. 310八点八。4B = 50 45.9389岁。2292. 0952岁5783岁4323岁72十八岁37三十三岁。33三十五9044. 0184. 2439岁23八十五8255. 3920块1684. 02三十八岁。57三十七77二、72十六岁九点二十五分。26B= 10050。98九十33九十三6五十七7984. 1623岁421岁98三十六07三十八岁。12四十五8八十五3941岁3386岁。34五十七67三十4186岁。1四十三81四十五02二十六岁0219号。154648B= 20053. 3491. 1894 8263岁83八十五2929岁01二十七岁85三十六8439岁84四十七5386岁。33四十二1688岁4六十岁。1631岁8586岁。88四十八64四十八45二十六岁2920块四六四十八。91B= 50056. 5992. 09九十五5968岁7786岁。41三十三岁。08三十四8839岁49四十二5452岁4487岁30四十八1789岁。7362. 96三十三岁。9188岁18五十三6752岁4129岁0823岁四六五十三。15表6:GTA5到CityScapes的适应:我们表明,SALAD赋予31的相对改善。5%,46. 03%,52. 5%,62。在预算为50、100、200和500张图像的基线源模型上提高了1%,在特定类(如“Bike”、“Train”、“MBike”、“Sidewalk”等)上提高了325方法mIoU[15]第三十六章:一个女人1[15]第三十六章:一个人的世界5[45]第四十八章:一个女人86[45]第36章:你是谁?89SFDA(不含IPSM)[23](CVPR 2021)41. 35SFDA [23](CVPR 2021)43. 16[6]第45话. 1[29]第四十九章:一个人的世界98S4T + MS [29](ArXiv 2021)44. 83表7:从GTA到CityScapes的最新SFDA方法的比较。我们表明,SALAD 在50张图像的小预算下实现了最先进的mIoU,通过朴素微调[46]在50张图像上获得的mIoU为39。五、适应性评分w.r.t.预先训练的网络以及不确定性分数w.r.t.目标网络,而不是只使用适应性得分。4.3. 文档布局检测:DSSE在表9中,我们从医学文档数据集PubLayNet调整到属于DSSE的文档,DSSE是一个包含杂志、收据和海报的数据集这两个领域中的文件是完全不同的。医疗文件以两栏格式书写,具有统一的文本、图形和表格。相比之下,目标域DSSE是一个新的看不见的数据集,它很小(只有150个文档),并且非常多样化。PubLayNet有5个类,DSSE有6个类。因此,在拉贝尔空间中有一个移动。 在DSSE上直接测试PubLayNet的mAP为15。67岁由于数据集很小,我们不应用HAL,而是直接使用所有150个图像预算B(λTr,L,λTr,UL)(0.1,0)(0.1,0.1)5044. 624593一百四十八。七二五○。9820050 4953. 3450053. 四六五六。59(一)GSAGCA Miou39.honor 50✓45块4345岁。4545岁。93(b)第(1)款HALmIoU一辆G502956.第56章一夜情59(c)第(1)款关于GATN我们使用来自底层RetinaNet ResNet-101主干的FPN的功能头[22]。微调没有SALAD的情况下,mAP为23。11,而使用SALAD进行微调可将性能提高31。3%,至30。三十六5. 结论、局限性和未来工作表8:从GTA 5适应CityScapes的消融实验。在表(a)中,我们研究了GATN的转移损失消融,表(b)显示了在50张图像的萌芽状态下GATN组件的消融。在表(c)中,我们对主动学习进行了详细说明启发式,HAL在500张图像的预算实验mAP23.我的超次元帝国 1136121349256022. 二十四 二十九5711. 64FT W.30. honor 3644. 5911.61355724. 8037. 4828. 18表9:从Pub-LayNet到DSSE的文档布局检测适配:微调与SALAD提高性能,曼斯由31。3%的微调没有沙拉。它是预先训练的网络和目标网络之间的桥梁,移除它会破坏适应过程。在随后的实验中,我们展示了使用通道和空间特征的影响在表8(c)中,我们证明了使用融合AL启发式算法的有效性,文本路字幕人行道图建筑表壁围栏极列表光部分签署蔬菜地形天空人骑手车卡车总线火车MBike自行车392我们提出了一种通用的无源方法,SALAD,从一个预先训练的网络适应目标域的任务,在标签空间的可能的转变,与亲视觉注释一个小预算的样本在目标域。SALAD由两种互补成分组成:主动学习策略HAL和GATN,用于有效的适应和采样。我们评估了3个任务的性能,并显示使用源数据的方法的改进或同等性能。我们的方法的一个缺点是,我们在HAL中使用二进制权重的分数,使用可学习的权重可能是未来工作的此外,我们希望SALAD可以扩展到传统的Do- Main适应有用的任务和模式。这些包括文本分类,神经机器翻译,情感分析,跨语言问答和领域风格化。鸣谢: 这项研究得到了由 ARO 赠 款 W911NF 2110026 和 陆 军 合 作 协 议W911NF 2120076393引用[1] Peshal Agarwal,Danda Pani Paudel,Jan-Nico Zaech,and Luc Van Gool.无监督鲁棒域自适应,无需源数据。在IEEE/CVF Win-计算机视觉应用会议,2009-2018,2022页。[2] JordanTAsh,ChichengZhang,AkshayKrishnamurthy,John Langford,and Alekh Agarwal.通过不同的、不确定的梯度下限进行深度批量主动学习。arXiv预印本arXiv:1906.03671,2019。[3] Konstantinos Bousmalis , George Trigeorgis , NathanSilber-man,Dilip Krishnan,and Dumitru Erhan.域分离网络。神经信息处理系统的进展,29:343[4] 维克多·布维尔、菲利普·韦里、C le'mentChastagnol、Myr- iamTami和C e' lineHudelot。用于主动域自适应的随机自适应梯度arXiv预印本arXiv:2012.01843,2020。[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017.[6] Francois Fleuret等语义分割中模型自适应的不确定性降低。 在IEEE/CVF计算机视觉和模式识别会议论文集,第9613-9623页[7] Bo Fu,Zhangjie Cao,Jianmin Wang,and MingshengLong.用于主动域适配的可转移查询选择。在IEEE/CVF计算机视觉和模式识别会议论文集,第7272-7281页[8] Jun Fu , Jing Liu , Haijie Tian , Yong Li , YongjunBao,Zhivei Fang,and Hanqing Lu.用于场景分割的双注意网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第31
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功