自适应对象检测中的协调可转移性和可辨别性

189 浏览量更新于2023-10-23 收藏 1.77MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8869用于自适应对象检测器的协调可转移性和可辨别性陈超奇1，郑泽标1，丁兴浩1，黄跃1，齐斗21厦门大学信息学院福建省智慧城市感知与计算重点实验室2香港中文大学计算机科学与工程系cqchen94@stu.xmu.edu.cn，zbzheng@stu.xmu.edu.cndxh@xmu.edu.cnhuangyue05@gmail.com，qdou@cse.cuhk.edu.hk摘要自适应目标检测的最新进展已经取得了引人注目的成果，凭借对抗性特征自适应，以减轻沿检测管道的分布移位虽然对抗性自适应显著增强了特征表示的可转移性，但对象检测器的特征可辨别性仍然较少研究。此外，由于对象的复杂组合和域之间的不同场景布局，可转移性和可区分性可能在对抗适应中出现矛盾。本文提出了一种层次化的可传递性校准网络（HTCN），该网络对特征表示的可传递性进行层次化（局部区域/图像/实例）校准，以协调可传递性和可区分性。拟议的模式由三个部分组成：（1）具有输入插值的重要性加权对抗训练（IWAT-I），其通过对插值的图像级特征重新加权来增强全局区分度;（2）上下文感知的实例级对齐（CILA）模块，其通过捕获实例级特征与全局上下文信息之间的潜在互补效应来增强局部可区分性，以用于实例级特征对齐;（3）局部特征掩模，其校准局部可转移性以提供用于随后的区别性图案对准的语义指导。实验结果表明，HTCN显着优于国家的最先进的方法对基准数据集。1. 介绍对象检测在深度学习时代已经显示出巨大的成功，依赖于从*通讯作者大量标记的训练数据。然而，由于域偏移的存在，在源域上训练的对象检测器不能很好地生成新的目标域[50]。这阻碍了在真实世界的情况下部署模型- s，其中数据分布通常从一个域到另一个域是不同的。无监督域自适应（UDA）[36]通过将知识从标记的源域转移到完全未标记的目标域来解决这个问题UDA的一般做法是通过显式学习域之间的不变表示来弥合域差距，并在源域上实现小误差，这在图像分类[15，55，13，49，54，45，23，5]和语义上分割[52，19，64，63，28，29]。这些UDA方法可以分为两大类。第一类是统计匹配，其目的是匹配具有统计分布差异的跨域特征[15，12，33，35、60、40]。第二类是对抗学习，其目的是通过领域对抗训练[13，54，47，34，58，5]或GAN来学习领域不变表示。基于像素级自适应[3，31，43，20，19]。关于用于跨域对象检测的UDA，最近有几项工作[7，44，62，4，26，18]试图将对抗性学习纳入事实上的检测框架，例如，更快的R-CNN [42].由于检测任务的局部性质，当前方法通常通过对抗性特征自适应来最小化多个级别的域差异，例如图像和实例级别对齐[7]，强局部和弱全局对齐[44]，基于区域建议的局部区域对齐[62]，具有预测引导的实例级别约束的多级特征对齐[18]。他们有一个共同的信念，即利用对抗性适应有助于产生吸引人的可转移性。然而，可转让性是有代价的，即，对抗性适应可能会损害辨别力8870因为不是所有的特征都是同样可转移的。请注意，在本文中，可转移性是指学习的表示跨域的不变性，可区分性是指检测器定位和区分不同实例的能力。最近的一些研究[6，53]也暗示了类似的发现，但如何识别和校准特征可转移性仍然不清楚。这种现象在跨域检测中会更加严重，因为各种对象的复杂换句话说，通过对抗性学习严格对齐域之间的整个特征分布容易导致负转移，因为不同级别的可转移性（即，局部区域、实例和图像）在对象检测器中没有被明确地阐述在这项工作中，我们提出通过开发一种新的分层可转移性校准网络（HTCN）来协调跨域对象检测的可转移性和可辨别性，该网络通过分层校准具有改进的可辨别性的表示的可转移性来规范对抗性自适应具体来说，我们首先提出了一种输入插值的重要性加权对抗训练（IWAT-I）策略，其目的是通过重新加权插值特征空间来增强全局可区分性，这是基于并非所有样本都是平等可转移的动机，特别是在插值之后。其次，考虑到结构化场景布局和检测任务的局部性，设计了一个上下文感知的实例级对齐（CILA）模块，通过捕捉实例级特征和全局上下文信息之间的互补作用来增强局部判别能力。特别是，而不是简单地连接这两个术语，我们的方法诉诸张量积更多的信息融合。最后，在观察到整个图像的一些局部区域比其他区域更具描述性和主导性时，我们通过提出基于浅层特征计算两个域中的局部特征掩模来进一步增强局部区分度，以用于在随后的对齐中近似地引导语义一致性，这可以被视为以无监督方式捕获可转移区域的类注意力模块。提出的HTCN显着扩展了以前的基于对抗的自适应检测方法的能力，通过协调之间的潜在矛盾的转移能力和可辨别性。大量的实验表明，该方法超过了国家的最先进的性能在几个基准数据集的跨域检测。例如，我们在从Cityscapes到Foggy-Cityscapes的自适应上实现了39.8%的mAP，大大优于最新的基于最新技术水平的对抗性自适应方法 [44 ， 62 ， 26 ， 18]（平均5.6%），并接近上限（40.3%）。我们的代码可用-可以在https://github.com/chaoqichen/HTCN上找到。2. 相关工作无监督域自适应域适应（UDA）试图通过减轻分布变化将知识从一个域转移到另一个域近年来，UDA在图像分类和语义分割方面取得了广泛的成功。通常，UDA方法建议通过匹配潜在空间中的源和目标特征分布的高阶统计来桥接不同的域，例如最大平均离散度（ MMD ） [55 ， 33] ，二阶矩 [49]，中心矩离散度（CMD）[60]和Wasserstein距离[46]。通过对生成对抗网（GAN）[16]实践的深入了解，已经通过杠杆化两人游戏来完成大量工作[14，54，38，45，56，5]，以实现与梯度恢复层（GRL）的域混淆，以进行特征对齐。此外，其他基于GAN的作品[3，31，43，20，19，51]旨在凭借图像到图像转换技术实现像素级自适应，例如，CycleGAN [61].相比之下，有相对的-对于对象检测任务的域自适应研究非常有限，尽管单域检测的性能令人印象深刻[42，32，41，30，39]。按照传统智慧的做法，陈等人。[7]开创了这一研究路线，提出了一种域自适应Faster R-CNN，通过将对抗性特征自适应嵌入到两阶段检测管道中来减少图像级和实例级的分布发散。Saito等人 [44]提出在浅层上对齐局部感受野，在深层上对齐图像级特征，即强局部和弱全局对齐。类似地，He等人。 [18]提出了一个分层域特征对齐模块和一个加权GRL来重新加权训练样本。 Zhu等人 Cai等人[62，4]提出利用对象提议挖掘或对象关系来实现深层中的详细局部区域对齐。Kim等人 [26]从域多样化的角度解决了自适应问题，方法是将源域和目标域随机扩充为多个域，然后学习域之间的不变表示。然而，所有这些UDA方法在对抗适应的上下文中适应对象检测器时都没有正确处理可转移性和可辨别性之间的潜在矛盾。3. 分层可传递性校准网络（HTCN）在本节中，我们介绍了所提出的方法的技术细节。所提出的HTCN的总体架构如图所示。1的局部特征掩模，包括IWAT-I、CILA和局部特征掩模三个模块，并给出了局部特征掩模的局部特征掩8871DD我我我 i=1我我J j=1tNtD{}SsSN ssk×1sk×4图1：拟议的HTCN的总体结构D1是逐像素域的双线性，而D2和D3是逐图像域的双线性。G1、G2和G3表示不同级别的特征提取器。mantic一致性IWAT-I正则化图像级对抗适应，通过重新加权插值特征空间来校准全局可传递性。CILA通过张量积对实例级对抗自适应进行正则化，以校准局部可传递性，从而实现实例级特征与聚合上下文向量之间的信息交互。3.1. 问题公式化对于跨域对象检测，需要同时预测边界框位置和对象类别。形式上，我们可以访问标记的源数据集Ds={（x，y，b）}（yE ∈ R，b E ∈ R）的N s个样本，以及目标数据集t= x，共N t个未标记样本。源域和目标域共享相同的标签空间，但违反了I.I.D.假设它们是从不同的数据分布中采样的本文的目标是学习一个自适应的目标检测器，具有标记的s和未标记的t，它可以在目标域上表现良好。遵循主流跨域检测方法[7，44，62，4，18]，所提出的HTCN基于Faster-RCNN [42]框架。如第1节所示，当使用对抗性适应时，可转移性和可区分性可能在跨域检测任务中出现矛盾。受此启发，我们的跨域检测方法从两个角度解决了这个问题：1）通过分层识别和匹配可转移的局部区域特征来校准可转移性3.4），整体图像级功能（第3.2）和基于ROI的实例级功能（第3.2节）。3.3），以及2）基于分层可转移性的跨域特征比对，进而将在多个层次上提高特征的可辨别性。图2：通过从其对应域生成合成样本来填充域之间的分布间隙，从而改善源偏置决策边界的插值操作的动机。3.2. 基于输入插值的领域对抗训练[13]是一种典型的强大的领域对齐方法，通过两人游戏来对齐特征然而，纯粹的域对齐可能会潜在地恶化语义一致性并导致负迁移，这已经被许多先前的工作广泛地探索[58，64，34，27，5，57，10]在图像分类和语义分割任务。相比之下，由于不同的场景布局、对象共现和域间背景，很难甚至不可能明确地鼓励对象检测中的跨域语义一致性。S.代表性的语义对齐策略（例如，原型对齐[58，5，37，10]或熵正则化[64，47，8]）将不再适用。为了克服跨域检测中的负迁移问题，IWAT-I通过在域间生成插值样本，使源偏向的决策边界适应目标数据，隐式地诱导对抗训练收敛到更好的鞍点，并显式地校准全局可迁移性8872ins⊗×⊙S不123fusfuckingcins促进正迁移。基于插值的对抗训练的动机如图所示。2.在没有插值的情况下，通过对抗训练学习的决策边界容易是源偏向的，这将恶化其在目标域中的可区分性。插值是用CycleGAN [61]通过从其对应域生成合成样本来实现的，以填充域之间的分布间隙接下来，我们的目标是根据以下内容重新加权插值数据空间：域之间。相比之下，上下文向量是从较低层聚集的，这在域之间是相对不变的（可转移性）。因此，如果我们合理地融合这两种特征，它们是可以互补的。受上述发现的启发，我们提出了一种上下文感知的实例级对齐（CILA）损失，该损失基于上下文向量和实例级表示的融合来显式地在形式上，我们表示不同的水平-1 2 3他们的重要性。重要性与跨域相似性，即，相似度越高，上下文向量的元素分别为fc、fc和fc。的实例级特征w.r.t. 第i个im中的第j个样本的重要性更大我们的关键见解是，年龄表示为fi，j我们省略了sim所有图像在可转移性方面都是平等地创建的。阴谋论，真的。这种融合的一个简单方法是concate-1 2 3特别是在插值之后。我们的目标是增加重量最国家，即，将fc、fc、fc和fins连接为单个1 2 3期望的样本，同时降低不相关样本的以校准图像级可转移性。具体来说，我们利用域鉴别器相对于输入样本的不确定性来发现可转移样本。CSD2的输出w.r.t. 输入xi是di= D2（G1<$G2（xi））。然后，通过信息熵来度量每个xi的不确定性viw.r.t. 域鉴别器的输出，vi=H（di）=−di·log（di）−（1−di）·log（1−di）（1）其中H（·）是entropy函数。每个图像xi的权重可以计算为1 +vi。图像与高不确定性（难以通过D2区分）应达到-向量[fc，fc，fc，fins]。这是一个令人兴奋的战略-[18]《易经》中的“道”字，是指“道”字。使域平滑以实现更好的适应。然而，这些方法面临着严重的限制。当使用拼接策略时，上下文特征和实例级特征彼此独立，因此它们忽略了潜在的互补效应，而互补效应对于良好的领域适应至关重要。此外，这两个特征在我们的情况下是不对称的，这妨碍了一些常用的融合方法的使用，例如，逐元素乘积或平均。为了克服上述问题，我们提出了一种具有以下公式的非线性融合策略加权，反之亦然。然后使用1 2 3f=[f，f，f]f（四）为了如下重新加权特征表示，FUSC c cinsg i=f i×（1 + v i）（2）其中f i是馈入D2之前的特征。的输入D3是G3（gi），其对抗损失定义为，Lga=E[log（D3（G3（gi））] +E[1−log（D3（G3（gi））]（3）3.3. 上下文感知实例级对齐实例级对齐指的是基于ROI池虽然这些方法能够减轻跨域的本地实例偏差（例如，对象尺度、视点、变形和外观）在某种程度上，它们可能面临一个关键的限制，即ROI层的每个特征向量独立地表示局部对象，而不考虑整体上下文信息，这是后续检测的信息和决定性因素，并且是引起域之间的精确局部实例对齐的先决条件。另一方面，Yosinski等人 [59]揭示了深层特征必须沿着网络最终从领域不可知过渡到领域特定。因此，从深层获得的实例级特征可能是不同的（可辨别性）哪里表示张量积运算，ffus为融合特征向量。通过这样做，我们能够支持-在所述上下文特征和所述实例级特征之间引入信息交互这种非线性策略对于一些复杂问题的建模不过，这一策略仍面临维度爆炸的困境。让我们将聚集的离散向量[fc，fc，fc]记为fc，将其维数记为dc。类似地，fins的维数表示为dins，因此ffus的维数将为dc dins。为了解决维数爆炸问题，我们建议利用随机化方法[34，24]作为张量积的无偏估计量。最终制剂定义如下，1f =（R1f）<$（R2f）（5）这里是Hadamard乘积。R1和R2是随机矩阵并且它们的每个元素遵循对称分布（例如，高斯分布和均匀分布）具有单变量。在我们的实验中，我们遵循以前的工作[34]，采用均匀分布。R1和R2仅从均匀分布中采样一次，并且在训练期间不更新。更多关于Eq.（5）在我们的补充材料中显示8873FUSLLLIk··Ik我我我FF我我我−我形式上，CA-ILA损失定义如下，其中，fs和ft表示整个逐像素重新加权的1Lins= −ΣNsΣ log（Dins（fi，j）s）我我特征图。i=1i，j1Nt=− Nti=1i，jFUSlog（1−Dins（fi，j）t）（六）3.5. 训练损失检测损失包括cls和reg，它们测量分类的准确程度，以及预测和地面实况边界框的重叠。组合所有3.4. 用于语义一致性的局部特征掩码虽然场景布局，物体共现，和所提出的部分，所提出的模型的总体目标函数是，背景可能在域之间是不同的，描述MaxminLcls+Lreg−λ（Lla+Lma+Lga+Lins），（9）同一对象在不同域中的位置应该是语义不变的并且可以匹配，例如，不同城市场景中的汽车应该有相似的草图。因此，我们假设整个图像的一些局部区域比其他区域更具描述性和主导性。受此启发，我们提出基于浅层特征计算两个域中的局部特征掩模，以近似地引导后续自适应中的语义一致性，这可以被视为以无监督方式捕获可转移区域的注意力模块。从技术上讲，计算特征掩码ms和mtD1，D2，D3G1，G2，G3其中λ是平衡损耗分量的参数。3.6.理论见解我们提供我们的方法w.r.t.理论见解。领域适应理论我们假设通过无约束对抗训练的保守领域适应[2]是指学习者只需要找到一个合适的领域关于标记的源样本的f最小假设，通过利用局部域区分的不确定性natorD1.D1是一个像素级的图像处理器。假设来自G1的特征图的宽度为W，高度为H。因此，逐像素对抗训练损失la被公式化如下，通过使用未标记的目标样本来评估该假设在目标域上的性能。定义1. 设H为假设类。给定两个不同的域S，T，在非保守域adap中，Lla=1Ns·HW中文（简体）i=1k=1log（D1（G1（xs）））2因此，我们有以下不等式：RT（ht）

下载后可阅读完整内容，剩余1页未读，立即下载