“面向任务的领域自适应目标检测中的不一致性对齐机制(TIA)的研究”

138 浏览量更新于2023-10-25 收藏 13.31MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

performance of the detector would typically suffer dramaticdegradation. A practical strategy to cope with this dilemmais to adopt Unsupervised Domain Adaptation (UDA). Gen-erally, by narrowing the divergence in pixel or feature-levelbetween the source and target domains, a detector trainedon source labeled domain can be then well-generalized tounlabeled target domain. This classic strategy of domainalignment, which originated from cross-domain classifica-tion [11,20,21,30,37,39], establishes a solid foundation fordownstream domain adaptive detection [3,4,8,16,29,32].Often, as an extension of domain adaptive classifiers, ex-isting domain adaptive detectors focus solely on decreasingthe generalization error of their classifiers. Yet, they tendto ignore the potential improvement of their localizationerrors [4, 19]. As shown in Fig. 1, compared to vanilla de-tector, it is observed that the state-of-the-art domain adap-tive detector (i.e. UMT [8]) is capable of correctly identi-fying and classifying more foreground objects, but deliver-ing relatively lower quality bounding boxes for them. Onepossible reason is that, by applying domain alignment viaan external binary classifier, the resulted transferable (i.e.cross-domain invariant) features grown in the classificationspace might be harmful for the localization in regressionspace. Intuitively, the regression space is usually contin-uous and sparse and has no obvious decision boundaries,hence significantly differs from the classification space.142170面向任务的领域自适应目标检测0赵亮，王立民0南京大学新软件技术国家重点实验室，中国0liangzhao@smail.nju.edu.cn，lmwang@nju.edu.cn0摘要0使用大量标记数据训练的检测器在某些具体场景中往往表现出明显的性能下降，原因是数据分布差异。为了缓解这种领域转移问题，传统方法通常仅关注通过附加领域分类器来减小源域和目标域之间的差异，而忽视了这种可转移特征在目标检测中处理分类和定位子任务的困难。为了解决这个问题，本文提出了任务特定的不一致性对齐（TIA），通过在单独的任务空间中开发一种新的对齐机制，提高检测器在两个子任务上的性能。具体而言，我们为分类和定位分支添加了一组辅助预测器，并利用它们的行为不一致性作为更细粒度的领域特定度量。然后，我们设计了任务特定的损失函数来对齐这两个子任务的跨领域不一致性。通过分别优化它们，我们能够很好地近似每个任务空间中的类别和边界的差异，并以解耦的方式缩小它们。TIA在各种场景上展示了优越的结果，超过了先前最先进的方法。还观察到检测器的分类和定位能力得到了充分的增强，进一步证明了我们的TIA方法的有效性。代码和训练模型可以在https://github.com/MCG-NJU/TIA上公开获取。01. 引言0目标检测[13, 14, 25,28]对大量注释数据的需求日益增加，然而，由于经济或技术原因，某些场景下很难满足这种需求。另一种方法是从描述一般或合成场景的源域中转移知识到描述特定感兴趣场景的目标域。然而，由于领域转移的结果[33]，检测器的性能通常会出现显著的下降。应对这一困境的一种实用策略是采用无监督领域自适应（UDA）。通常情况下，通过缩小源域和目标域之间的像素或特征级别的差异，可以将在源标记域上训练的检测器很好地推广到未标记的目标域。这种经典的领域对齐策略起源于跨领域分类[11, 20, 21, 30, 37, 39]，为下游的领域自适应检测[3, 4, 8, 16, 29,32]奠定了坚实的基础。通常情况下，作为领域自适应分类器的扩展，现有的领域自适应检测器仅关注减小其分类器的泛化误差。然而，它们往往忽视了其定位误差的潜在改进[4,19]。如图1所示，与普通检测器相比，观察到最先进的领域自适应检测器（即UMT[8]）能够正确识别和分类更多的前景对象，但对它们的边界框质量相对较低。一个可能的原因是，通过外部二元分类器进行领域对齐时，在分类空间中产生的可转移特征可能对回归空间中的定位有害。直观地说，回归空间通常是连续和稀疏的，并且没有明显的决策边界，因此与分类空间显著不同。0�：通讯作者。0(a) Vanilla [28]0(b) UMT [8]0(c) 我们的TIA0图1. 来自PASCAL VOC [10]到Cli-part[18]的示例图像。与普通检测器[28]相比，UMT[8]和TIA都能够识别更多的前景对象（第一行），但分别提供更低和更高质量的边界框（第二行）。142180基于这一观察，我们认为以前的自适应检测器产生的可转移特征无法很好地处理分类和定位子任务。因此，本文首次明确在单独的任务空间中开展特征对齐，以在分类和定位分支上寻求一致的性能提升。常见的两阶段检测器为两个子任务生成一个耦合的感兴趣区域（ROI）特征，使我们无法直接对每个任务的特征进行传统的对齐。为了解决这个问题，我们建立了多个辅助分类器和定位器，并引入它们的行为不一致性来构成两个任务特定的判别器。通过这种方式，我们能够通过分别优化它们来实现一种新的解耦和细粒度的特征对齐。0具体而言，我们设计了一个通用的任务特定不一致性对齐（TIA）模块，用于利用这些新的辅助预测器之间的不一致性，并将其应用于检测器的两个子任务。其中，设计了两个任务特定的损失函数，以更好地感知预测器之间的行为不一致性，并且容易进行优化。特别地，对于分类，我们利用香农熵（SE）的稳定近似来衡量辅助分类器决策边界的多样性，以有效缩小跨领域的类别差异。同时，对于定位，考虑到回归空间的连续性和稀疏性，我们实际上利用标准差（SD）来获取各个定位器在每个边界上的预测的模糊性。这使得能够有效地提升定位器对边界的感知。总体而言，通过最大化这两个损失函数，我们能够在完全解耦的任务空间中直接进行不一致性对齐，从而持续提高特征在分类和定位任务中的可转移性。0总之，我们的贡献可以归结为三个方面：（1）我们经验性地观察到现有特征对齐方法产生的特征未能改善领域自适应目标检测中的分类和定位任务的性能。据我们所知，我们是第一个通过将领域自适应引入这两个分支并在这两个任务空间（而不是特征空间）中直接进行对齐来解决这个困境的研究。（2）为了在任务空间中有效进行对齐，我们提出建立一组辅助预测器，并利用它们的行为不一致性进行跨领域对齐。这些新的不一致性度量是任务特定和更细粒度的，因此预计能更好地捕捉领域差异。（3）我们在各种领域转移场景下进行了详尽的实验，证明了我们的框架优于最先进的领域自适应检测器的性能。如图1（c）所示，我们的TIA在两个任务中取得了显著的进展。02. 相关工作0无监督领域自适应（UDA）。根据基本假设[1]，已经提出了大量的领域自适应方法[11, 20, 21, 30, 37,39]，旨在学习可转移的特征以缩小领域之间的差异。最近，一些方法[20, 21, 30,39]采用了半监督学习中的共识正则化[26]策略。通常，引入具有不同初始化的多个分类器，并将它们的输出不一致性视为衡量领域之间差异的指标。通过这种方式，[20]减少了这种不一致性，并同时使构建的多个特征嵌入多样化。[30]简化了这个过程，通过迭代地最大化和最小化不一致性。在此基础上，[21]引入了Wasserstein度量来挖掘预测之间的自然差异，而[39,41]扩展了[30]的形式，并详细探讨了多类情况下的评分不一致性。这些方法进一步推广到下游领域自适应任务，包括语义分割[27, 44]和关键点检测[19,45]。相比之下，目标检测是一项更具挑战性的任务，因为它在结构上更复杂，需要同时优化两个无法比拟的子任务。因此，我们的TIA深入研究了任务特定的对齐，并深入探讨了如何准确地限制和减少类别差异和边界模糊。目标检测的UDA。在领域自适应分类器的基础上，领域自适应检测器的重点主要集中在两个领域之间的像素或特征级别差异的弥合上。许多方法[3, 8, 17, 18,42]利用CycleGAN[46]生成的类似目标的标记图像来追求像素级一致性。然而，更多的方法[3, 4, 8, 16, 29,32]致力于逐步加强特征级一致性。几乎所有这些方法都明确地将领域对抗神经网络[11]集成到检测器中，从而通过简单的领域分类器实现特征对齐。[4]首先在骨干特征（图像级）和ROI特征（实例级）上进行领域对齐。之后，大量的方法[3, 8, 16, 29,32]不断加强这两个对齐，并通过多尺度[16]、上下文[3,29]、空间注意力[22]、类别注意力[38]和跨领域拓扑关系[2]信息进一步改进检测器的性能。此外，[43]和[42]专注于增强区域建议网络（RPN）的跨领域性能，以生成高质量的ROI，前者通过与[30]的协作训练和RPN和区域建议分类器的自训练，后者构建一组可学习的RPN原型进行对齐。问题是，几乎所有现有的领域自适应检测器都专注于调节领域之间的差异。…… …… Lda =K � 1L Dk fk,i , dsk,i + 1L Dk fk,i , dtk,i�,L = Ldet + λ1Lda,(3)142190RPN0ROI Align分类器0辅助分类器0GRL0基线模型0定位器0辅助定位器0GRL0定位特定的不一致性对齐0分类特定的不一致性对齐0类别C0类别D 类别B0类别E0上0左下0右0源流0目标流0混合流0特征空间0源特征0目标特征0类别级0边界级0ia �0等式（7）0等式（6）0等式（2）0类别A0cls = da�0loc = da�0ia �0ia �0ia �0判别器0GRLs0da �0等式（5）0等式（5）0FCs0图2.框架概述。最佳观看颜色。我们将高级特征对齐到单独的任务空间中，通过将所提出的任务特定的不一致性对齐模块应用于基线检测器的分类（绿色部分）和定位（蓝色部分）分支。在每个分支中，通过相应的不一致性感知损失优化多个辅助预测器的行为不一致性，从而实现跨域之间的类别级或边界级间隔的桥接。0分类器内的决策边界，但忽略了其定位器的行为异常。相反，我们的TIA首先考虑了这个问题，并将一般的特征对齐转化为独立的任务空间，从而保证了每个标签预测器的准确性。03. 方法论0按照无监督域适应的常规设置，我们定义了一个有标签的源域Ds和一个无标签的目标域Dt。我们的目标是在目标检测中从Ds到Dt建立知识传递，并保证在目标域上有良好的泛化能力。在本节中，我们介绍了所提出框架的技术细节，其总体架构如图2所示。我们首先简要回顾基线模型（左侧灰色部分），然后详细描述了所提出的任务特定的不一致性对齐（右侧蓝色和绿色部分）。最后，我们提出了一些理论见解，解释了我们的方法如何改善检测器内部两个子任务的可转移性。03.1. 基线模型0我们的框架是基于流行的两阶段检测器Faster R-CNN[28]实现的，图2中的灰色区域代表检测器的核心结构。首先将来自两个域的图像输入到主干网络中，生成图像级特征，然后通过RPN生成大量的候选框，然后通过ROI Align[14]将候选框与主干特征聚合，生成一定数量的ROI。在右侧的两个ROI预测器上0FC的总检测损失可以形式化定义为0L det = L rpn + L roi. (1)0为了追求后续模块的语义一致性，我们坚持源域和目标域上特征的对齐，包括主干网络的中上层（即图像级）和ROI层（即实例级）。与[3, 4,32]类似，所有这些特征对齐都是通过对抗训练实现的，即通过领域对抗神经网络（DANN）[11]。具体而言，特征通过梯度反转层（GRL）传递给判别器Dk，用于区分它们的域标签。目标如下：0ns0ns �0nt0nt �0(2)其中L通常是二元交叉熵损失，fk，i表示第k层的第i个特征输出，dk，i表示其对应的域标签，ns和nt分别表示源域和目标域中小批量特征的总数，K表示特征对齐的总数。在最小化上述域自适应损失之后，从判别器向生成器（例如骨干网络）反向传播的梯度的符号通过GRL进行反转，引导生成器提供跨域不变特征，以混淆判别器并最大化损失。基线模型的总体目标可以表示为：Lroi = 1ns� Nj=1Lcls Caj ˆri , ysi+Mj=1Lloc Laj ˆri , bsi�,− 1ns(5)142200其中λ1是权衡参数。根据[3,8]的方法，我们进一步插值输入以鼓励像素级一致性。具体来说，我们通过将原始源图像与使用CycleGAN[46]生成的类似目标源图像混合来增强源域。总之，我们建立了一个具有特征级和像素级一致性的非常有竞争力的基线模型。03.2. 任务特定的不一致对齐0传统的目标检测器在分类和定位任务中，通过全连接层（FCs）后只生成一个ROI特征，这使得在这个耦合空间中应用之前的特征对齐变得困难。一种直观的执行任务特定对齐的方法是简单地复制FCs，然后将它们的输出与DANN[11]中的每个预测器对齐。然而，正如第5.1节中讨论的那样，这种替代方法无法很好地解耦任务空间，并导致对齐不足。更重要的是，它仍然缺乏任务特定的处理，特别是对于定位任务。我们提出了任务特定的不一致对齐（Task-specificInconsistencyAlignment），直接缩小源域和目标域之间的任务特定差异。该模块可以独立应用于分类和定位头部，如蓝色和绿色区域所示。我们不是外部附加额外的判别器，而是使用一组辅助预测器来估计每个域的不一致性。通过对齐它们，我们的方法不仅可以产生对领域距离更容易的近似，而且可以提供一个更自然和直接的解决方案，以便为具有多个预测头的检测器在每个任务空间中执行对齐。辅助预测器。我们的核心思想是使用多个辅助预测器构建域之间的对齐机制。因此，除了原始分类器Cp和定位器Lp之外，还在FCs之上构建了两组额外的辅助分类器Ca和定位器La，分别由N个分类器Cai（1≤i≤N）和M个定位器Laj（1≤j≤M）组成。为了确保高预测准确性，它们都是通过与主要预测器相同的目标函数使用标记的源数据进行训练的：0ns �0(4)其中ˆri表示由FCs处理的ROI补丁ri的更高级特征，yi和bi分别表示相应的类别标签和边界框。对于Lcls和Lloc，使用传统的交叉熵和平滑L1损失。值得注意的是，这些辅助预测器的梯度在反向传播时被分离，以避免影响原始预测器的训练。此外，为了使用这些辅助预测器在源域和目标域之间执行不一致对齐，我们在FCs和它们之间插入了一些GRLs来进行对抗性训练，提出了所提出的方法：0任务特定的不一致性感知损失。03.2.1 不一致性对齐机制0之前的基于DANN的方法[11]仅依赖于附加的二进制判别器来优化任务无关的损失。相反，我们的方法通过由各种辅助预测器组成的判别器，优化细粒度类别和边界的多类别损失[9,40]，以实现域之间的不一致性对齐。从本质上讲，我们的目标是对辅助预测器行为（例如分类器的决策边界）的不一致性进行更精确的估计，从而更好地描述域之间的边界[39]。为了更好地感知这种不一致性并进行对齐，我们使用GRL构建了一个完整的对抗性、单阶段训练机制，以应对像[30]那样过于复杂以至于无法执行多阶段迭代优化的检测器。具体而言，我们首先检测在源域上训练的辅助预测器在目标域上的行为不一致性，并最大化所提出的任务特定的不一致性感知损失L 任务ia。通过GRL，反向传播到生成器（即FCs）的梯度被反转，因此对于生成器来说，损失实际上是最小化的。在这种对抗性训练中，框架达到了一个动态平衡，其中预测器多样化以更好地区分域之间的差异，而生成器产生足够可转移的特征以阻止这些预测器的判断。此外，辅助预测器在源域上的行为一致性也以类似的方式被利用。我们最大化一致性感知损失（即L 任务ia的负值），以同时使源域分布多样化并增强预测器的能力。整个域适应目标可以描述如下：0L 任务 da = −10i =1 L 任务 ia � P a 1 � ˆ r i � , P a 2 � ˆ r i � , ..., Pa N � ˆ r i � �0i =1 ( −L 任务 ia ) � P a 1 � ˆ r i � , P a 2 � ˆ r i � , ..., Pa N � ˆ r i � � .0其中任务 ∈ { cls, loc } ，而 P ∈ { C, L }，具体的不一致性度量将在下一小节中解释。03.2.2 特定分类损失0第一个问题是如何捕捉辅助分类器决策边界之间的行为不一致性。不同的距离包括L1[30]，Kullback-Leibler（KL）[39]和Sliced WassersteinDiscrepancy（SWD）[21]已被用于衡量一对分类器输出之间的差异，但它们很难推广到处理多分类器情况。对于由辅助分类在0.40.50.60.60.50.40.10.50.90.90.50.1(a)(b)(c)0.90.10.90.90.10.1[ 0.5 0.5 ][ 0.5 0.5 ][ 0.9 0.1 ]-1.1[ 1.1 1.1 ][ 1.0 1.0 ][ 1.1 1.1 ]-1.0-1.1pqEq. (6)Eq. (6)clsiaclsiaclsiaLlocia =Mmij(7)L = Ldet + λ1Lda + λ2Lclsda + λ3Llocda ,(8)142210源类别A0源类别B0目标类别A0决策边界0最大化0最小化0图3. 在一个包含两个类别和三个辅助分类器的示例中，最大化L clsia在目标域上的效果的说明。最佳观看效果为彩色。（a）最初，分类器的行为基本上与相似的决策边界一致；经过最大化优化后，我们发现：（b）分类器的决策边界是互斥的，使得每个类别上的概率分布更加尖锐，熵更低，从而最大化损失；（c）类别A上生成的特征差异减小，概率分布变平，熵增加，从而最小化损失。0对于每个类别，期望对其的尖锐度或平坦度进行简单评估。考虑到优化的稳定性，以及受到[6,34]的启发，我们将其与香农熵（SE）绑定在一起。具体而言，对于辅助预测的概率矩阵M ∈ R N ×C，其中的每个列向量m i ∈ R N（1 ≤ i ≤C）表示所有分类器对于特定类别i的预测概率。我们可以计算一个熵向量p ∈ RC，其中每个元素是从相应的softmaxed m i计算得到的熵，以描述多个辅助分类器的各种决策边界之间的类别变化。形式上，基于SE的分类特定的不一致性感知损失L cls ia定义如下：0L cls ia = - p 乘 q =-0C乘0j =1 - ˆ m ij 乘 log ˆ mij 乘乘 10j =1 m ij乘 ,0(6)其中 ˆ m i = softmax( m i)，q表示平均概率向量。值得注意的是，熵向量和平均概率向量之间的内积运算至关重要，通过将熵按不同类别的置信度加权，保持对正确类别的关注。由于我们的主要目标是优化目标域上的不一致性，我们以此过程为例，如图3所示。在解决L clsia上的最大最小博弈后，辅助分类器的行为首先发生变化，并驱使每个类别的概率分布朝着更尖锐和更确定的方向流动。0在这种情况下，分类器的决策边界是多样化的，如图3(b)所示。同时，生成的目标域特征向源域特征偏移，使概率分布变得平坦。在这种情况下，特征在分类空间中按类别对齐，从而同时实现更大的可转移性和可区分性，如图3(c)所示。03.2.3 定位特定的损失0第二个问题在于如何在回归空间中捕捉各种本地化器之间的行为不一致。与分类不同，回归空间通常呈现连续性和稀疏性，并且预测位置通常在某些区域中异质地聚集，这使得正确评估预测的分散性具有挑战性。一些领域自适应方法[19,45]处理关键点检测时认为，通过变换缩小回归空间有助于减轻稀疏性对本地化器对抗学习的负面影响。此外，最近提出的方法[23,24]利用多个本地化器在对象边界上的预测的模糊性来检测异常边界框，将前k个值及其均值视为稳健的表示来处理模糊性。在本研究中，我们建议选择最直接的统计量，即标准差（SD），来衡量辅助定位结果之间的行为不一致性。这个选择有两个原因。首先，自R-CNN[13]以来，两阶段检测器已经通过线性变换很好地约束了回归空间。其次，SD内的L2范数对异常值更敏感，这对于表示本地化器的行为不一致性至关重要。基于SD的定位特定的不一致性感知损失L loc ia可以定义为04 乘04乘0不适用的m i − 10M乘0ε t (h, ft )≤ εs (0其中m i ∈ R M表示由M个辅助定位器构建的预测矩阵M ∈R M × 4的第i列向量，∥∙∥ 2表示L2范数。03.2.4 总体目标0结合基线模型，所提出框架的最终目标变为0其中λ 1 ，λ 2 和λ 3是用于平衡各种损失组成部分的权衡参数。03.3. 理论洞察0追溯其根源，广泛的无监督领域自适应方法受到[1]中的理论分析的启发，该理论分析如下所述：εt(h, ft) ≤ εs(h, fs) + 12dH∆H(Ds, Dt) + λ∗,(9)εt(h, f ct ) ≤ εs(h, f cs) + 12dH∆H(Ds, Dt) + λ∗,εt(h, f lt) ≤ εs(h, f ls) + 12dH∆H(Ds, Dt) + λ∗.(10)εt(h1, f ct ) ≤ εs(h1, f cs) + 12dclsMCSD(Ds, Dt) + λ∗,εt(h2, f lt) ≤ εs(h2, f ls) + 12dlocMCSD(Ds, Dt) + λ∗,(11)142220方法 aero bcycle bird boat bottle bus car cat chair cow table dog hrs bike prsn plnt sheep sofa train tv mAP0DAF [4] 38.0 47.5 27.7 24.8 41.3 41.2 38.2 11.4 36.8 39.7 12.7 12.7 31.9 47.8 55.6 46.3 12.1 25.6 51.1 45.5 34.7 SWDA [29] 26.248.5 32.6 33.7 38.5 54.3 37.1 18.6 34.8 58.3 12.5 12.5 33.8 65.5 54.5 52.0 9.3 24.9 54.1 49.1 38.1 SCL [32] 44.7 50.0 33.6 27.442.2 55.6 38.3 19.2 37.9 69.0 30.1 26.3 34.4 67.3 61.0 47.9 21.4 26.3 50.1 47.3 41.5 HTCN [3] 33.6 58.9 34.0 23.4 45.6 57.0 39.812.0 39.7 51.3 20.1 20.1 39.1 72.8 61.3 43.1 19.3 30.1 50.2 51.8 40.3 SAP [22] 27.4 70.8 32.0 27.9 42.4 63.5 47.5 14.3 48.246.1 31.8 17.9 43.8 68.0 68.1 49.0 18.7 20.4 55.8 51.3 42.2 UMT [8] 39.6 59.1 32.4 35.0 45.1 61.9 48.4 7.5 46.0 67.6 21.429.5 48.2 75.9 70.5 56.7 25.9 28.9 39.4 43.6 44.1 DBGL [2] 28.5 52.3 34.3 32.8 38.6 66.4 38.2 25.3 39.9 47.4 23.9 17.9 38.978.3 61.2 51.7 26.2 28.9 56.8 44.5 41.60仅源域 35.6 52.5 24.3 23.0 20.0 43.9 32.8 10.7 30.6 11.7 13.8 6.0 36.8 45.9 48.7 41.9 16.5 7.3 22.9 32.0 27.8 基线 31.9 56.3 33.426.3 40.2 53.3 42.7 17.9 42.3 59.1 15.5 23.6 35.1 85.2 63.2 46.3 22.0 28.4 51.0 48.2 41.1 TIA CLS 38.3 51.0 38.3 33.2 43.0 65.743.8 22.2 43.3 57.1 20.9 23.7 38.9 89.4 64.2 53.8 38.2 25.0 52.4 50.5 44.7 TIA LOC 37.5 55.8 35.3 32.2 45.6 63.1 44.1 15.644.4 62.1 15.1 26.3 38.5 74.3 65.3 46.9 30.7 27.2 55.5 48.9 43.2 TIA 42.2 66.0 36.9 37.3 43.7 71.8 49.7 18.2 44.9 58.9 18.2 29.140.7 87.8 67.4 49.7 27.4 27.8 57.1 50.6 46.30表1. Real-to-Artistic 场景，PASCAL VOC → Clipart的实验结果（%）。0定理1 令H为假设空间，令�Ds, fs�和�Dt,ft�为由分布D和标签函数f组成的两个领域。因此，对于任意h∈H：0其中ϵ s （分别为ϵ t ）表示标签函数f s （分别为f t）与假设h在源（分别为目标）域上的不一致（即错误），dH ∆ H 表示域之间的H∆H散度，λ�表示理想假设h�的错误。0大多数现有的跨领域检测器继续使用DANN[11]中的做法，并致力于通过最小化Jensen-Shannon散度[35]来逼近最优的H-散度（包括H∆H-散度）。然后，对于所有检测器拥有的两个标签函数（分类器fc和定位器fl），我们有0在这种情况下，通过缩小单个散度，限制了两个标签函数的目标误差，但这很难做到。由于分类和回归空间的巨大差异使得单个假设很难同时与两个函数一致，我们还经验性地发现定位器的目标域误差通常较差。针对这个问题，我们的框架实际上将上述散度的优化解耦，并通过在每个标签函数上指定假设，一致地减小两个目标误差。具体而言，我们有0其中，d cls MCSD（分别为d locMCSD）表示分类（分别为定位）特定的多类别评分不一致性[ 39 ]差异，在最大化我们提出的L cls da（分别为L locda）时缩小。04. 实验04.1. 实验设置0按照[ 4 , 29]中的默认设置，在所有实验中，首先将输入图像调整为较短边长为600，然后将其输入到带有ROI Align [ 14 ]的FasterR-CNN [ 28]中。我们使用SGD优化器训练模型，初始学习率为0.001，每50k次迭代除以10。批量大小设置为2，一个用于源域，一个用于目标域。对于“Normal-to-Foggy”和“Cross-Camera”的实验，使用在ImageNet [ 7 ]上预训练的VGG16[ 36]作为检测骨干，总共训练70k次迭代。而对于“Real-to-Artistic”，我们使用预训练的ResNet101 [ 15]，总共训练120k次迭代。辅助分类器（N）和定位器（M）的数量设置为8和4，权衡参数λ1，λ2和λ3分别设置为1.0，1.0和0.01。我们报告平均精度（mAP），阈值为0.5进行评估。0各种最先进的领域自适应检测器用于比较，包括DAF [ 4]，SWDA [ 29 ]，MAF [ 16 ]，SCL [ 32 ]，HTCN [ 3]，CST [ 43 ]，SAP [ 22 ]，RP-NPA [ 42 ]，UMT [ 8]，DBGL [ 2 ]，MeGA [ 38]。对于所有这些方法，我们引用它们原始论文中的结果。为了验证我们方法的有效性，我们依次报告了基线模型和我们的TIA的性能。我们还训练了仅使用源图像的FasterR-CNN，以及仅使用标注的目标图像的FasterR-CNN，并将它们在不同场景下的性能统一称为“仅源域”和“仅目标域”。DAF [4]35.3 27.1 40.5 20.0 25.0 31.0 20.2 22.1 27.6SWDA [29] 36.2 35.3 43.5 30.0 29.9 42.3 32.6 24.5 34.3MAF [16] 39.9 33.9 43.9 29.2 28.2 39.5 33.3 23.8 34.0SCL [32] 41.8 36.2 44.8 33.6 31.6 44.0 40.7 30.4 37.9HTCN [3] 47.4 37.1 47.9 32.3 33.2 47.5 40.9 31.6 39.8CST [43] 45.6 36.8 50.1 30.1 32.7 44.4 25.4 21.7 35.9SAP [22] 46.8 40.7 59.8 30.4 40.8 46.7 37.5 24.3 40.9RPNPA [42]43.6 36.8 50.5 29.7 33.3 45.6 42.0 30.4 39.0UMT [8]56.5 37.3 48.6 30.4 33.0 46.7 46.8 34.1 41.7MeGA [38] 49.2 39.0 52.4 34.5 37.7 49.0 46.9 25.4 41.8142230方法 bus bcycle car cyclepersonridertraintruckmAP0仅源域22.3 26.5 34.3 15.3 24.1 33.1 3.0 4.1 20.3 基线模型33.0 45.7 47.9 33.3 45.5 36.0 35.0 37.0 39.2 TIA 52.138.1 49.7 37.7 34.8 46.3 48.6 31.1 42.30仅目标 53.1 36.4 52.8 36.0 36.2 46.5 40.2 34.0 41.90表2. “Normal-to-Foggy”场景的实验结果（%），Cityscapes→ Foggy Cityscapes。04.2. 真实到艺术的转换0在这种情况下，我们专注于从平凡的真实领域迁移到风格化的艺术领域。通常，为了模拟这种适应性，我们使用PASCAL VOC [ 10]中的VOC2007-trainval和VOC2012-trainval构建自然源域，并使用Clipart [ 18 ]代表艺术目标域，根据[ 3 , 18 , 29]。Clipart与PASCALVOC共享20个类别，总共1k张图像，用于训练（无标签）和评估。表1显示了从PASCALVOC到Clipart的适应结果。可以看到，我们的方法相比先前的最先进方法有显著的优势（+2.2%），达到了46.3%的mAP。值得注意的是，定位准确性的提高在所有类别上都带来了一致的改进，使得有限类别的平均AP达到最高AP。整体结果表明，在完全不同的场景中，朝着高级抽象语义不一致性的细粒度特征对齐是至关重要的。此外，考虑到类别分布和边界框的空间分布中的跨域标签偏移，我们缩小了类别差异和边界差异，解释了TIA的优越性。04.3. 正常到雾0适应各种天气条件成为检测器的新期望。在这个实验中，我们使用Cityscapes [5]和Foggy Cityscapes[31]作为源域和目标域，从常规场景转移到雾天场景。Cityscapes包含3,475张图像，其中2,975张是训练集，剩下的500张是验证集。FoggyCityscapes是基于Cityscapes构建的，并使用物理模型渲染。0方法 KITTI → City KITTI ← City0DAF [4] 38.5 64.1 SWDA [29] 37.9 71.0 MAF[16] 41.0 72.1 SCL [32] 41.9 72.7 HTCN [3] 42.173.2 CST [43] 43.6 - SAP [22] 43.4 75.2 RPNPA[42] - 75.1 MeGA [38] 43.0 75.50仅源域 30.2 53.5 基线 42.4 73.0 TIA 44.0 75.90表3. 跨摄像机场景，KITTI � Cityscapes的实验结果（%）。0雾和晴朗的城市景观在场景和注释上是相同的。根据表2，我们提出的TIA框架在所有比较方法中获得了最高的mAP（42.3%），特别是我们的方法首次超过了仅目标域（+0.4%）。这些结果表明了对齐任务特定的不一致性的重要性。此外，考虑到基准接近饱和，我们相对于最先进方法的性能改进（+0.5%）相当可观。04.4. 跨摄像机0由于摄像机差异导致的领域差距限制了许多深度学习算法的应用。在这部分中，我们采用包含7,481张图像的KITTI[12]和Cityscapes作为源域和目标域，并在两个适应方向上进行转移。根据[4]的协议，我们仅评估它们共同类别car的检测性能。在表3中报告了各种自适应检测器检测汽车的AP。我们的方法在两个适应中均取得了44.0%和75.9%的最新成果，相对于基线分别提高了1.6%和2.9%，再次证明了我们方法的有效性和泛化性。05. 分析05.1. 消融研究0子任务影响。表1还展示了TIA在分类和定位两个子任务上的有效性。如TIA CLS和TIALOC所示，我们提出的分类和定位特定的不一致性对齐带来了一致的改进（+3.6%和+2.1%）。这些结果表明，在每个任务空间中对齐不一致性对于增强两个任务都是有效的。0248163241424344450208010023.2%29.3%35.8%41.3%43.4%45.1%6.8%7.3%8.9%8.0%8.1%6.5%70.0%63.4%55.3%50.7%48.5%48.4%CorrectMisLocalizationBack

下载后可阅读完整内容，剩余1页未读，立即下载