细粒度领域自适应方法的综述及评估

197 浏览量更新于2023-10-23 收藏 4.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9213用于细粒度领域自适应的王思楠，陈新阳，王云波，龙明生，王健民清华大学软件学院清华大学大数据研究中心工业大数据系统及应用北京市重点实验室{wang-sn17，chenxiny17，wangyb15}@ mails.tsinghua.edu.cn，{mingsheng，jimwang}@tsinghua.edu.cn摘要细粒度的视觉分类一直被认为是一个重要的问题，然而，它的实际应用仍然受到限制，因为精确地标注一个大的细粒度的图像数据集是一个费力的任务，需要专家级的人类知识。这个问题的一个解决方案是将领域自适应方法应用于细粒度场景，其中的关键思想是发现现有细粒度图像数据集和野外大量未标记数据之间的主要的技术瓶颈在于，在域对齐过程中，大的域间变化会本文提出了渐进式广告网络（PAN），以调整细粒度的类别跨域与基于知识的对抗性学习框架。特别是，在整个学习过程中，通过所有多粒度特征进行域自适应，从粗到细逐步利用标签层次结构。渐进式学习应用于类别分类和领域对齐，提高了细粒度特征的可区分性和可转移性我们的方法进行了评估的三个基准，其中两个是由我们提出的，它执行的国家的最先进的域自适应方法。1. 介绍细粒度识别的目标是在同一根类别内的大量从属类别中对对象进行分类。这是一个有价值的问题，因为它可能赋予机器学习模型在某些任务上接近人类专家的强大认知能力。例如，我们可能会对太平洋鸥或黑尾鸥等鸟类的从属物种感兴趣。近年来，在细粒度识别的一些基本问题上取得了很大的进展一方面，深度网络识别高度相似对象之间细微差异的能力，图1.细粒度域自适应问题的特征在于大的域间变化、小的类间变化和大的类内变化的纠缠，这与经典的域自适应场景在粒度上不同.从左至右：红翅乌鸫、黄头乌鸫、食草鸟和棕色爬山虎。有很大的改善[23，43，45，16，46，25，13]。对另一方面，越来越多的细粒度图像数据集被收集，包括各种根类别，如鸟[55，54，50]，狗[18，27]，花[36，1]，飞机[52，32]，汽车[44，22，26，58]，和食物[4]。然而，覆盖所有的从属类别是不现实的，并且现有数据集的有限大小仍然阻碍了细粒度识别算法的可扩展性。用细粒度的标签标注大规模图像数据集是耗时的，并且需要很强的专业知识，特别是对于某些特定的应用领域。为了解决这个问题，一个有前途的想法是将域自适应方法[38]应用于细粒度识别任务。例如，学习在野外指南中对鸟类进行分类可能有助于识别野外的鸟类物种，如图1所示。这样，我们就可以将已有标记数据集上的常识转移到海量未标记数据上，从而节省了密集细粒度标注的工作量。然而，在这方面存在着新的挑战，细粒度的领域自适应：大目标源9214表1.不同细粒度传输方法之间的比较（要求越少越好）（-：部分）。方法是否需要图像级标签？源域目标域是否需要额外的注释？属性对象边界框零件界标Gebru等人 [14个]Xu等人 [五十七]✓-✓-✓✗ ✗✗ ✓ ✓Cui等人 [9]第一章✓ ✓✗ ✗ ✗我们✓ （hierarchical）✗ ✗ ✗域间变化、小的类间变化和大的类内变化。经典的域自适应算法通过使来自不同域的图像在特征空间中具有相似的分布来克服域间变化[40，28，47，12]。当涉及到细粒度领域适配时，情况变得更加复杂，因为我们必须面对细粒度分类带来的棘手问题。大的类内变化和小的类间变化的组合可能会恶化类间边界，从而使得经典的域自适应算法无法将相邻类别的对象从源域重新映射到目标域。如图1所示，黄头黑鸟和bobolinks在感知上是相似的，并且可能在域之间不匹配。本文旨在通过设计一种新的细粒度域自适应方法来解决这些挑战，并提出了渐进式对抗网络（PAN）。在细粒度场景中，自然对象在生物学中具有分类等级，人造对象也具有合理的层次标签。总体思路是整合课程学习[3]和对抗学习[15]，以使领域适应逐步从粗粒度类别（容易）到细粒度类别（困难）。这通过大的域间变化、小的类间变化和大的类内变化来解开我们模型的训练过程只依赖于源域上的层次类别标签我们在三个基准上评估我们的方法，其中两个是我们提出的，基于几个现有的细粒度视觉分类数据集和一个全新的数据集，我们从网络上收集和手动过滤。我们证明了所提出的方法优于最先进的域自适应方法。2. 相关工作2.1. 细粒度视觉分类近年来，细粒度的视觉分类已成为计算机视觉领域的一个普遍问题。由于需要专业知识来识别同一根类别内的从属类别之间的细微差异，因此一些方法引入了额外的标签，例如部件注释和视觉属性，以增强细粒度识别[5，59，60，53，14]。而不是使用成本高昂的部件注释或附加属性，一些工作试图以其他方式提高细粒度识别性能Krause等人。 [20]试图通过使用共同分割和对齐生成部分来解决细粒度识别问题。Lin等人。 [25]提出了一种基于双线性池的双流CNN模型，该模型也使用分类标签进行训练Gao等人。 [13]提出了紧凑双线性池化方法作为[25]的扩展，以降低计算复杂性，同时保持相当的准确性。最初的双线性池方法的其他变体很快被提出并应用于神经网络模型以进行细粒度识别[24，19]。Dubey等人在激活中引入了混淆[10]并重新访问了最大熵[11]。为了进一步减轻手动收集专家级注释的困难，提出了一些方法来使细粒度识别模型受益于大规模但有噪声的Web数据[21，14，57]。即使没有部分注释，上述方法也取得了相当好的性能，但是，它们的可扩展性受到现实世界中大量下级类别缺乏细粒度注释的限制。2.2. 域适应领域自适应是将知识从源领域转移到目标领域，这节省了手动注释的成本[38]。源域与目标域的差异是知识转移的主要困难。为了学习域不变的可转移特征，一些工作提出了基于深度网络的不同适配层[49，28，30]。最近的一些工作研究了领域对抗方法，将对抗学习[15]纳入领域适应框架[47，12]。这些模型通过试图欺骗域统计来对齐不同域的特征分布。通过进一步调节对抗适应模型对类别预测中的判别信息的影响，CDAN [29]揭示了解决细粒度跨域识别问题的方向。PFAN [7]采用与我们的工作的一个基本区别是，PFAN从渐进样本中学习，而不探索粒度信息，而我们的方法从渐进粒度中直接学习。9215Cck=1K^yk^^C^CC上面这些方法很有见地。不幸的是，所有这些都不是专门为细粒度的跨域视觉分类而设计的，并且没有探索细粒度识别场景中特定的标签层次结构。2.3. 细粒度域自适应细粒度域自适应首先由Ge- bru等人研究。 [14 ]第10段。他们提出了一个模型，该模型使用带注释的Web图像进行训练，并使用真实世界的数据进行评估，使用[47]中提出的领域自适应方法，并需要额外的属性注释。只有当目标域上的标记图像可用时，才能执行其半监督自适应丢失，这只是针对细粒度域自适应的量身定制设计。Xu等人 [57]采用了利用强监督的独特设计，除了标准图像级标签外，还使用了详细的注释，包括对象边界框和部分地标将尽可能多的知识从现有的强监督数据集转移到弱监督网络图像。此外，Cui等人。 [9]通过微调在大规模iNaturalist2017数据集上预训练的性能良好的CNN，在几个细粒度视觉基准上取得了明显的改进[51]。他们提出了一种估计域相似性的方法，并从源域中选择一个与目标域更相似的子集。上述方法均取得了良好的效果。然而，问题设置与我们的完全不同，如表1所示。我们的方法不需要属性，边界框或部分地标，但依赖于层次标签，更容易获得细粒度的任务。据我们所知，我们的工作是第一个无监督的细粒度域自适应设计的方法，只依赖于分层图像级标签从源域。3. 方法在细粒度域自适应问题中，我们g iven源域S={（x，yf，yk|K）}ofns ex-具有细粒度标签yf和粗粒度标签y f的样本训练特征提取器F以区分源域和目标域，而训练特征提取器F以混淆D，使其无法做出正确的判断。渐进对抗网络（PAN）利用细粒度对象的分层标签。与标签层次结构底层的细粒度标签chy，我们将标签层次结构中的更高级别的标签称为粗粒度标签。细粒度域自适应是非常困难的，因为它的大域间变化，小类间变化，和大类内变化。相比之下，粗粒度的域自适应很容易。受课程学习[3]的启发，我们从简单的粒度开始，然后逐步转向困难的粒度。跨域的准确的子类对齐是子类对齐的坚实基础。3.1. 渐进式粒度学习在渐进粒度学习（PGL）中，我们在训练期间渐进地将源域上识别任务的监督粒度从粗粒度改变为我们将细粒度的地面真实值标签替换为细粒度的地面真实值标签和粗粒度的预测分布的动态混合，这些分布由在相应的粗糙度下训练的识别模型给出，表示为渐进标签，如图所示。二、预测的分布传达了类之间的关系信息，这被认为有利于域适应[47]。粗粒度标签可以是多个级别，比如K（K≥1）。粗粒度的CNN是一种有效的辅助网络，在推理时被移除，引入特征提取器G和K个标签预测器Ck，k=1，.，K. 具有粗粒度标签yk 的数据点x，k =1，.， K被馈送到粗粒度CNN中。通过最小化识别目标，在源域上训练粗粒度CNN你好。yk，yk，（1）k=1其中yk=Ck（G（x））是第k个粗粒度预测的标签{yc}k=1，在K层类层次结构中，目标domainT={（x，？，？）}的nt个未标记的示例。联合分布P（x，y）之间存在很大的差异以及源域和目标域的Q（x，y）。由于分布的变化，细粒度的识别-C分布，Ly是交叉熵（CE）损失。所有图像的细粒度标签都由细粒度CNN探索，该CNN通过最小化我们在本文中提出的一种新的粗-细混合损失来在S上训练的模型不能在T上准确地执行。域对抗网络[12]是高性能的L（yk|K，y，y ）=D.εy+（1−ε）我的天，领域适应模型它们通常由三个网络模块组成：特征提取器F，域DIS-S，h^c k=1^f fKLfk=1克夫（二）criminatorD和label predictorY。的组合其中DKL是Kullback-Leibler偏差，并且yf=F和Y使用识别目标进行训练（仅使用来自源域的标签）。同时，为了提取Y（F（xi））是细粒度预测分布，yf是对应的地面实况标签。而且，yk一直在域可转移功能，F和D一起工作，e延伸到与yf相同的维度根据一个类玩对抗游戏域名是如图3所示的从属策略。K9216C^^hf f KLffck=1^^^^标签分类器Ck10.500 0.5 1课程表图2.渐进对抗网络（PAN）。共享特征提取器G和K标签预测器Ck|k = 1，…K共同形成粗粒度CNN（顶部），用于粗粒度识别。类似地，细粒度CNN（底部）包含特征提取器F和标签预测器Y。渐进粒度学习（PGL，红色）：细粒度的地面实况标签yf和粗粒度的预测分布y^c按照一个良好建立的课程学习时间表[12]按比例ε混合我们将粗粒和通过标签层次结构中的类从属关系，将细粒度标签转换为渐进标签（详细信息见图3）。渐进式对抗学习（PAL，绿色）：由粗到细的分类器预测（由渐进标签监督）通过内积和残差连接与特征表示相结合，并被馈送到域CIDD中。GRL是梯度反转层[12]。原始分布扩展分布（归一化前）图3. 每个粗粒度类y^k的概率被复制到其从属细粒度类的对应位置。扩展元素被归一化为概率。在训练过程中，ε从0逐渐变为1，遵循[12]中研究的通用课程表ε=1− exp（−10ρ），（3）1 + exp（−10ρ）其中ρ是当前次数与最大迭代次数之比。最终，随着ε的衰减，粗粒度标签的影响将消失，粗-细混合损失将收敛到细粒度损失：L （ yk|K ， y ， y ） =D（ y=y ），（4）其与交叉熵（CE）损失起相同的作用。粗精混合损耗起作用的原因可以从另一个角度来分析。首先，如果标签预测器在训练期间对其输出过于自信，则其可能是过拟合的。由于类间变化小而类内变化大，因此标签预测器将全概率分配给地面真实标签是不合理的。其次，过度拟合地面实况标签可能破坏了特性的可转移性，因为类之间的微妙关系被破坏了。当小的类间变化极大地增加了域对齐的不确定性时，这些微妙的关系有望在域自适应中发挥重要作用。3.2. 渐进式对抗学习虽然渐进粒度学习（PGL）使得源域上的受监督任务能够渐进地从粗略移动到精细，但它不一定保证分层类跨域渐进地对齐，首先是子类，然后是子类。幸运的是，预测分布y=Y（F（x））传达了重要的判别信息。它是渐进的，因为Y和F被训练以最小化粗-细混合损失。受将条件信息并入GAN的学习器[35]的启发，我们将具有特征f=F（x）的渐进标签y馈送到域RND中，以实现渐进对抗学习（PAL）。虽然选择y和f的级联作为域CIDD的输入是很自然的，正如条件GAN所采用的那样[34，42，17，37]，但这种融合策略的表达能力不足以对y和f之间的复杂关系进行建模。巧妙地，CDAN [29]使用外积来代替级联。然而，exploding特征维度需要过多的内存。为了实现渐进式对抗学习，我们采用不同的双线性变换来组合预测分布y和特征f。然而，虽然功能特征提取器GCE损失Ly标签分类器C1PGL培训，PAL间接使用CE损失Ly（粗粒度CNN）阶级从属渐进标签X平均标号分类器Y特征提取器F混合损耗Lh（1−Ω+GRL内积域CSDD（细粒度CNN）级联CE损失Ld1K粗标号编码粗标号编码coarseactivationc精细标签域标号Dƒ9217XC|k=1ΣΣΣCΣk=1k=1k=1k=1XXk=1G，Ck|Kk=1Σ表2.三个基准中的图像数量X具有预测类信息的嵌入可以增强可辨别性，但它具有副作用，可能完全破坏细粒度场景中特征之间的细微差异，特别是当样本被错误分类时。而错误分类更容易发生在细粒度的任务中。因此，有必要通过连接特征来另外引入残差连接最后，融合结果被馈送到域CIDD：Bi（y^，f）=.y^TAf+bf，（5）其中，A和b是双变量的可学习权重和偏差3.4. 理论解释粗粒度模型具有更高的泛化能力，更容易在粗粒度类别上进行领域自适应。Dubey等人 [11]将特征的多样性定义为等价协方差矩阵的特征值之和。细粒度问题被表征为具有以下属性的特征分布：.ν（ΦF，PF）ν（ΦG，PG），（8）线性变换，并且是残差级联。3.3.渐进对抗网络渐进式对抗网络（PAN）的架构如图2所示。粗粒度预测器其中ν表示特征的多样性，PF是由特征提取器产生的细粒度数据分布PG是由特征提取器ΦG产生的通用数据分布。细粒度视觉分类任务的多样性被认为是小于粗粒度视觉分类任务的多样性。kk=1 ，细粒度标签预测器Y，以及域grained任务最终分类器[11]（H是熵）：通过统一的渐进式训练，粒度学习和渐进式对抗学习：log（C）−Ex<$Px（H（P（·|x;Θ）O. G，Ck|K、F、Y、DK||2 ≥||2≥2πν（Φ，Px.（九））=1Lnsyx∈Sk=1. Ck（G（x）），yk≠与粗粒度的分类任务不同，细粒度的任务通常具有较小的特征多样性，这将扩大分类器权重Θ的范数，并且使得分类器权重θ的多样性降低。+1升nshx∈S. Ck（G（x））|K，Y（F（x）），yf≠（六）学习更加困难。因此，我们引入了渐进粒度学习和渐进对抗学习。λ− nx∈S <$TLd（D（Bi（Y（F（x）），F（x），d），从粗粒度的领域自适应学习（易）至细粒（硬）。这种渐进的策略可以降低细粒度领域自适应的难度。其中d是x的域标签，λ是超参数，并且n= ns+ nt。 Ly是粗粒度识别的交叉熵损失，通过G和C k使其最小化|K. Lh是4. 实验提出的粗-细混合损失的细粒度识别，点火，由Y和F最小化Ld是域区分的交叉熵损失，通过D最小化并最大化我们评估了拟议的PAN与国家的最先进的IM-基于深度学习架构的年龄分类和领域适应模型。实验是在由F. 最终G，C，k|K，F，Y，D收敛到：一个现有的基准CompCars[58]和两个全新的我们构建的基准，CUB-PaintingsandBirds-31。（G^，C^k |K）=argminO. G，Ck|Kk=1，F，Y，D，数据集域图像数量（F^，Y^）=a rgminO. G，Ck|K，F，Y，D，（七）[58]第五十八话Web33,780监控44,481F、Y（D^）=a rgmax0。G，Ck|K，F，Y，D.D与以前的域对抗网络相比PAN通过从粗粒度到细粒度逐步对齐跨域的特征分布来实现细粒度子类中的域对齐。请注意，超类的正确粗粒度对齐是细粒度子类的相应对齐的基础虽然辅助多任务网络似乎使体系结构变得复杂（图2），但PAN的所有分支在推理阶段，除了细粒度CNN中的特征提取器F和标签分类器Y之外，k=1CUB-绘画Cub-200-201111,788CUB-200-油漆3,0479218Cub-200-20111,848鸟类-31NABirds2,988iNaturalist 20172,8574.1. 数据集4.1.1基准一：CompCars我们在CompCars上评估PAN[58]，它可以分为两个域：Web（W）和监视（S），如表2所示。只有两个级别的课程：28192191+exp（−10ρ）图4. CompCars的前31个类别的示例：Web（顶部）和监视（底部）。图5.CUB-绘画的前31个类别的示例：CUB-200-2011（顶部）和CUB-200-绘画（底部）。图6.Birds-31中31个类别的示例：CUB-200-2011（顶部），NABirds（中间）和iNaturalist 2017（底部）。models（更精细）和68Makes（更粗糙）。图4是前31个类别（模型）的示例图像。请注意，汽车监控图像都是前视图，具有各种环境条件，如雾，在晚上，这与Web图像有很大不同，这表明转移任务S →W非常具有挑战性。这可能不利于评估方法.因此，我们构建了另外两个新的基准。4.1.2基准II：CUB-绘画CUB-Paintings 包含两个域： CUB-200-2011 （ C ）和CUB-200-绘画（P），如表2所示。图5是前31个类别的示例图像，具有明显的视觉域差距。图像以四级层次结构组织。从细到粗，有200种，122属，38科，14目。CUB-200-2011[54]是一个细粒度的视觉分类基准，包含200个物种的11，CUB-200-Paintings是我们从网络上收集并手动过滤的鸟类绘画数据集。CUB-200-Paintings和CUB-200-2011的类别列表相同。我们搜索互联网收集候选图像，共200类。检索关键词采用英文通用名和二项水彩画、油画、铅笔画、邮票、漫画都在入选范围之内.然后对候选图像进行人工滤波。只有具有明显的物种特征或有可靠标签的画作才被保留下来。然而，这个数据集需要进一步完善。考虑到有200个类别，3047张图像需要消除潜在的标签噪音4.1.3基准三：鸟类----31Birds-31中有三个域：CUB-200-2011（C）、NABirds（N）和iNaturalist 2017（I）。并不是所有来自原始数据集的图像都被合并到鸟类中-31.选择的图像数量分别为1， 848、2， 988和2，857。图6显示了Birds-31中所有31个类别的示例图像。与CUB-绘画相比，Birds-31的域间变化相对较小。更小标签分为四个级别。具体来说，有314目16科 25属 25种。NABirds[50]是一个细粒度的视觉分类数据集，由400个物种的48，000张图像组成。iNaturalist 2017[51]是iNaturalist 2017竞赛的基准。其中有5，089个类别，579，184张训练图像和95，986张验证图像。我们使用二项命名法对这三个数据集的对象进行分类，然后得到交集，123个类别。由于Benchmark II包含多达200个类别，样本数量在不同领域之间差异很大，最终选择了31个样本量均衡的4.2. 执行我们在 PyTorch 中实现所有深度方法，并使用NVIDIA Titan RTX进行训练。我们微调ResNet-50[16]在ImageNet上预训练的模型。分类器层是从头开始训练的，它们的学习率是其他层的10倍。我们采用小批量SGD，动量为0.9。批量固定为36。学习率策略与[12]相同。与[12]一致，在所有实验中，超参数λ从0到1的变化遵循λ=1−exp（−10ρ）的时间表为了公平比较，所有参数在所有传输任务中均未发生变化4.3. 结果我们评估了渐进式对抗网络（PAN），并基于三个随机实验报告了平均分类准确率除了广泛使用的基线域对抗神经网络（DANN）[12]之外，我们还将PAN与通用视觉分类，细粒度视觉分类和域适应方法进行了比较：ResNet-50 [16]，Inception-v3 [46]，双线性CNN[25]，深度自适应网络（DAN）[28]，联合自适应网络（JAN）[31]，对抗性判别域自适应（ADDA）[48]，多对抗域自适应（MADA）[39]，最大分类器离散度（MCD）[41]，条件对抗域自适应（CDAN）[29]、批量频谱惩罚（ BSP ） [8] 和逐步自适应特征范数（SAFN）[56]。9220表3.Birds-31（ResNet-50）的分类准确率（%）方法C →II →CI →NN →IC →NN →CAvgResNet-50 [16]64.25±0.2887.19±0.1582.46±0.4571.08±0.2379.92±0.2189.96±0.2979.14[46]第四十六话62.09±0.4986.20±0.5279.88±0.1768.00±0.1676.79±0.2290.42±0.2277.23双线性CNN [25]64.82±0.3988.43±0.3083.37±0.4371.37±0.4879.86±0.2591.22±0.3779.85丹麦[28]63.90±0.4985.86±0.6682.91±0.6070.67±0.3380.64±0.4889.40±0.2378.90DANN [12]64.59±0.3485.64±0.2980.53±0.2571.00±0.2479.37±0.2489.53±0.1978.44JAN [31]63.69±0.9986.29±0.2583.34±0.2071.09±0.4881.06±0.3989.55±0.3879.17ADDA [48]63.03±0.4287.26±0.2584.36±0.4772.39±0.3179.69±0.1189.28±0.2679.33MADA [39]62.03±0.3789.99±0.2187.05±0.2970.99±0.1781.36±0.4092.09±0.2580.50[41]第四十一话66.43±0.4488.02±0.2885.57±0.2573.06±0.4382.37±0.1990.99±0.1781.07CDAN [29]68.67±0.2589.74±0.4586.17±0.2673.80±0.1783.18±0.2891.56±0.2482.18CDAN+BSP [8]68.64±0.3789.71±0.2685.72±0.3274.11±0.1683.22±0.3391.42±0.4582.13SAFN [56]65.23±0.2690.18±0.3284.71±0.3573.00±0.4081.65±0.2191.47±0.0881.08PAN（拟议）69.79±0.1090.46±0.3588.10±0.0875.03±0.1884.19±0.1592.51±0.3183.34表4. CompCars（ResNet-50）上的准确度（%）表5.精度（%）在立方体绘画（ResNet-50）.方法W →SS →WAvg方法C →PP →CAvgResNet-50 [16]34.22±0.205.93±0.2220.08ResNet-50 [16]47.88±0.3136.62±0.2342.25[46]第四十六话29.74±0.174.58±0.3117.16[46]第四十六话51.59±0.2140.72±0.1545.88双线性CNN [25]36.51±0.236.74±0.3521.63双线性CNN [25]54.09±0.3541.59±0.5747.84丹麦[28]33.73±0.2911.70±0.2422.72丹麦[28]58.95±0.4339.33±0.3549.14DANN [12]33.67±0.3212.38±0.1223.02DANN [12]57.54±0.3843.01±0.2950.28JAN [31]44.16±0.1811.01±0.2627.59JAN [31]62.42±0.2940.37±0.3951.40ADDA [48]34.01±0.2712.96±0.3023.49ADDA [48]60.12±0.3140.65±0.1750.36MADA [39]41.77±0.2011.89±0.2926.83MADA [39]63.67±0.2344.28±0.3053.98[41]第四十一话40.25±0.3713.66±0.4226.96[41]第四十一话63.40±0.6543.63±0.7753.52CDAN [29]42.37±0.2114.56±0.1728.47CDAN [29]63.18±0.1645.42±0.2554.30CDAN+BSP [8]43.35±0.3414.91±0.1529.13CDAN+BSP [8]63.27±0.1946.62±0.3954.95SAFN [56]41.75±0.3614.29±0.2528.02SAFN [56]61.38±0.3348.86±0.3555.12潘47.05±0.1215.57±0.2331.31潘67.40±0.0250.92±0.2659.16在如表4所示的CompCars上，我们的方法在两个转移任务中表现最好。它比第二好的方法CDAN+BSP高出2.1%。在如表5所示的CUB-Paintings上，我们的方法在所有两个传输任务中实现了最佳性能。我们从基线DANN的50提高了平均准确度。28%至59。16%，涨幅超过8%。如表3所示，在Birds-31上，我们的方法在所有六个任务中实现了最高的平均准确度和最佳性能。与DANN相比，精度提高了约5%。请注意，PAN在CompCars和CUB-Paintings上产生的提升比Birds-31更大。有两个原因。首先，前者的域间变化比后者大得多，如图4、5和6所示。小的域间变化意味着通过桥接域间隙获得的增益较小。第二，Birds-31的分类精度是一般来说，我们的进步空间相对较小。例如，在任务N→C中，大多数方法的准确率约为90%。而且，作为一些邻国，类别在视觉上无法区分，专家注释器的性能仅为93%[6]。4.4. 分析消融研究。去除PGL并保留PAL，我们将PAN的剩余部分表示为PAN-w.o.。Pro. 或仅PAL。请注意，如果没有PGL，PAL Only不再是进步的。仅使用PAL时，精度急剧下降（表6）。我们还证明了PAL中的级联运算符。PAL优于PAL（w/o concat），证明串联运算符可以防止模型破坏特征之间的细微差异PGL Only仍然比基线DANN高出4个百分点。层次结构选择。PAN在所有级别上利用标签。在数据集CUB-Paintings上，粗粒度标签分为三个级别：属，科，目。我们分析了仅在一个级别上具有粗粒度标签的PAN变体，PAN的改进结果如表7所示。课程表。课程表，9221ResNet-50DANNPAN-w.o.-ProPANResNet-50DANNPAN-w.o.-ProPAN1.80.40231.61.40.35220.30210.25200.201.20.15191.00.10180.05170.8C->P P->C(a) 分布差异0.00源错误目标误差平均误差(b) 理想联合假设52 53 54 55 56 57PC1(c) 特征多样性图7.分析了跨域分布差异、理想联合假设的误差和细粒度特征的多样性公式（2）中的ε与公式（6）中的λ这种简单且常用的策略[12]优于其他策略，如表8所示。表6.消融术研究：准确度（%）在立方体绘画。方法C→P P → C平均值PAL（w/oconcat）62.46±0.30 45.32±0.37 53.89PAL仅63.05±0.19 45.83±0.33 54.44PGL仅61.04±0.29 46.69±0.12 53.87PAN（PGL+PAL）67.40±0.02 50.92±0.26 59.16表7.在CUB绘画上具有不同粗粒度标签水平的PAN的准确性（%）。水平C→P P → C平均膝122 65.37±0.46 48.33±0.35 56.85家庭38 65.51±0.37 48.02±0.16 56.76订单14 66.32±0.34 49.43±0.23 57.88第一类64.68±0.23 46.92±0.30 55.80G+F+O表8.不同课程策略下，对立方体绘画的PAN准确率（%）。附表我们线性步骤指数Avg59.1654.6754.8855.19分布不一致。在域自适应理论[2，33]中，A-距离是域间变化的度量：dA=2（1−2err），（ 10）其中Err是被训练以区分源域和目标域的分类器的错误率图7（a）描绘了转移任务C→P和P→C上的dA，其中特征由ResNet-50、DANN、PAN-w.o.Pro.和PAN。值得注意的是，由PAN提取的特征上的dA是在两个转移任务上都是最小的，这意味着这些特征在域之间更可转移。理想联合假设假设h在目标域上的期望误差ET（h）可以有界为[2]1ET（h）≤ ES（h）+2dH <$H（S，T）+E理想，（11）其中E S（h）是源误差，dH H（S，T）是测量域偏移的HH-距离，E理想是在标记的源和目标域上的理想联合假设h=min hE S（h）+E T（h）的误差。E理想定义为E理想 =ES （ h ） +ET （ h ），（ 12）其测量特征的可辨别性为了进一步分析我们的方法，我们调查了这个指标的区分。在源域和目标域的标记数据上训练的新分类器的平均错误率为理想的一半。结果如图7（b）所示。正如预期的那样，PAN增强了特征的可辨别性。功能多样性。图7（c）是根据[11]中的实验，从CUB-200-2011上的细粒度（红色）和粗粒度（蓝色）标签训练的ResNet-50特征的前2个prin-unr分量（PC）的图。细粒度的特征集中，多样性较小，与第3.4节中的理论分析一致。重量分担特征提取器不应共享权重。细粒度特征之间的差异是微妙的，共享权重破坏了对可辨别性至关重要的细微差异。使用权重分配，平均CUB-绘画的准确率从59.16%下降到51.48%。5. 结论在本文中，我们提出了渐进对抗网络（PAN），以解决细粒度的域自适应问题，只有分层图像级标签。我们的模型的核心思想是对齐相应的类跨域从粗粒度到细粒度，首先子类，然后子类。并从特征多样性的角度对该方法进行了理论解释。我们比较了PAN与以前的作品在三个基准的细粒度域适应。实验结果证明了该方法的有效性6. 致谢本研究得到了国家自然科学基金（ 61772299 ，71690231）和MoE战略研究项目“面向大数据分析的人工智能算法”的部分支持。罚款粗瞬间的新分类器的错误率PC29222引用[1] Anelia Angelova，Shenghuo Zhu，and Yuanqing Lin.大规模子类花卉识别的图像分割WACV研讨会，第39-45页，2013年[2] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论Machine learning，79（1-2）：151[3] YoshuaBengio ， Je´ ro meLouradour， RonanCollobert ，andJa-son Weston.课程学习。在ICML ，第41-48页，2009中。[4] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-101-用随机森林挖掘判别成分。在ECCV，第446-461页[5] Steve Branson，Grant Van Horn，Serge Belongie，andPietro Perona.使用姿势归一化深度卷积网络进行鸟类分类。arXiv预印本arXiv：1406.2952，2014年。[6] Steve Branson，Grant Van Horn，Catherine Wah，PietroPerona，and Serge Belongie.无知的人被瞎子领着：一种用于细粒度分类的人机混合视觉系统。InternationalJournal of Computer Vision，108（1- 2）：3[7] Chaoqi Chen ， Weiping Xie ， Wenbing Huang ， YuRong ， Xinghao Ding ， Yue Huang ， Tingyang Xu ，Junzhou Huang.无监督局部自适应的渐进式特征对齐。在CVPR，2019年。[8] Xinyang Chen ， Sinan Wang ， Mingsheng Long ， andJianmin Wang.可转让性与可辨别性：对抗域适应的批量频谱惩罚。在ICML，2019。[9] Yin Cui，Yang Song，Chen Sun，Andrew Howard，andSerge Belongie.大规模细粒度分类和特定领域迁移学习。在CVPR中，第4109- 4118页[10] Abhimanyu Dubey 、 Otkrist Gupta 、 Pei Guo 、 RameshRaskar、Ryan Farrell和Nikhil Naik。细粒度视觉分类的成对混淆。参见ECCV，第71-88页[11] Abhimanyu Dubey，Otkrist Gupta，Ramesh Raskar，andNikhil Naik.最大熵细粒度分类在NeurIPS，第635-645页[12] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志，17（1）：2096[13] 杨高、奥斯卡·贝博姆、张宁和特雷弗·达雷尔。紧凑的双线性池。在CVPR，第317-326页[14] Timnit Gebru，Judy Hoffman，and Li Fei-Fei.在野外的精细识别：一种多任务域自适应方法。在ICCV，第1358-1367页[15] Ian J. Goodfellow，Jean Pougetabadie，Mehdi Mirza，Bing Xu ， David Wardefarley ， Sherjil Ozair ， AaronCourville ， and Yoonne Bengio. 生成对抗网络。在NeurIPS，第2672-2680页[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[17] Phillip Isola，Junyan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR中，第5967-597

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

细粒度领域自适应方法的综述及评估

基于模型的自适应方法综述.pdf

适合细粒度图像分类的方法，以及能提升细粒度图像分类精度的具体方法，以及如何进行数据处理

细粒度图像识别开源算法有

ai challenger 细粒度情感分析 数据集

细粒度图像分类的研究背景和意义

python细粒度情感分析

细粒度图像分类训练代码

差异化的细粒度是什么意思

细粒度分类双线性模型

基于注意力机制的细粒度视觉分类

细粒度图像分类GUI

细粒度图像分类准确率曲线结果分析

细粒度特征融合是什么

细粒度图像分类的预训练模型有哪些

细粒度特征和粗粒度特征有什么区别

细粒度图像分类 swin transformercsdn

图像细粒度分类开源算法

细粒度情感分析python

直接用resnet细粒度分类的代码

最新资源

ai challenger 细粒度情感分析数据集