H2FAR-CNN:跨域弱监督目标检测的整体和层次特征对齐

102 浏览量更新于2023-10-25 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14329H2FA R-CNN：跨域弱监督目标检测的整体和层次特征对齐徐云秋1，2*孙一凡1杨宗欣3苗嘉旭3杨毅31百度研究2ReLER，AAII，悉尼科技大学3CCAI，浙江大学imyunqiuxu@gmail.comsunyf15@tsinghua.org.cn{yangzongxin，jiaxumiao，yangyics} @ zju.edu.cn摘要跨域弱监督目标检测（CD-WSOD）旨在使检测模型适应于具有容易获取的图像级注释的新目标域。如何对齐源域和目标域是CDWSOD准确性的关键。现有方法通常集中在用于域对准的部分检测组件。与此相反，本文认为所有的检测组件都是重要的，并提出了一种整体和层次特征对齐（H2FA）R-CNN。H2FA R-CNN对骨干特征执行两个图像级对齐，以及对RPN和检测头执行两个实例级对齐。这种从粗到细的对准层次与检测流水线同步，即，从下到上处理图像级特征和实例级特征。重要的是，我们设计了一种新的混合监督方法来学习两个实例级对齐。它使RPN和检测头能够同时接收来自目标/源域的弱/完全监控。结合所有这些特征对齐，H2FA R-CNN有效地缓解了源域和目标域之间的差距。实验结果表明，H2FA R-CNN显着提高了跨域对象检测的准确性，并在流行的基准测试中树立了新的艺术水平。代码和预训练模型可在https://github.com/XuYunqiu/H2FA_R-CNN上获得。1. 介绍跨域弱监督目标检测（CD-WSOD）在实际检测应用中具有重要价值具体地，训练数据和测试数据有时在不同的域（即，分别为源为了减轻畴移，有三种可能的解决方案，即，有监督的，无监督的*在百度研究院实习期间完成的工作。顶部RoI特征提案图像级特征骨干底部目标源猫猫，人阶级不可知论者映像级实例级前台实例级类方式RPN检测头IIR单元图像级类方式空间语义监管罚款按类的实例混合前景类式映像图像类无关域粗整体和分层特征对齐图1.我们的H2FAR-CNN采用四个特征对齐，即，CDW-SOD的图像级（类不可知和类方式）对齐和实例级（前景和类方式）对齐。从空间粒度、语义粒度和监控信号的角度来看，从粗到细有一个清晰的层次，与自下而上的检测流水线同步。新颖的实例级和图像级识别（IIR）单元基于RPN和检测头，可兼容完整和弱监控信号。和弱监督的方法。监督方法需要附加的密集注释样本（即，实例级边界框），这可能非常麻烦。相比之下，无监督方法[10，15，50]减轻了注释成本，但通常实现较差的检测精度。因此，许多文献[27，30，43]探索弱监督方法（即，CDWSOD），它提供了准确性和注释效率之间的良好权衡。通常，CDWSOD通过利用附加的弱监视信号（即，图像级注释）。我们认为，重要的是利用检测管道的特性，在域自适应CDWSOD。具体而言，流行的跨域检测基线采用两阶段流水线[45]，并由主干、区域建议网络（RPN）和检测头组成。虽然常识是所有这三个分量对检测精度至关重要，但实验方法通常集中在用于检测的部分分量上。14330→→→→⇒主要路线例如，[27]对齐主干特征，忽略了RPN和探测头的对齐。一些基于自训练的方法[30，43]使用实例级伪标签进行自适应训练，并且可以被视为直接对准检测头中的特征。与以前的文献相比，我们认为，所有这些组件是重要的域对齐。出于这种动机，我们提出了一种新的CDWSOD方法，称为整体和分层特征对齐（H2 FA）R-CNN，如图1所示。H2FAR-CNN不仅包括整体检测组件（即，主干、RPN和检测头）进行域对齐，而且还按照与检测流水线同步的分层我们解释分层序列如下：1) 主干的两个图像级对齐：当检测管道位于主干内时，网络将每个图像作为一个整体进行处理。相应地，我们强制两个图像级对齐（类不可知和类明智的）的骨干功能。这种类不可知的类方式的序列与骨干特征从底层到顶层逐渐发展类方式的具体地，类不可知的比对使用对立域分类器来拉近两个域，而不对每个图像进行分类。相比之下，类域对齐采用多标签分类任务来学习一组类原型（相应类的单个原型）。在训练过程中，每个原型从两个域中拉近（相应类的）特征，从而促进类对齐。2) RPN和检测头的两个实例级对齐：当检测流水线前进到RPN和检测头时，网络切换到实例级对象识别。相应地，我们分别对RPN实施实例级前景对齐，并对检测头实施实例级类对齐。由于目标域不提供实例级注释，而是提供图像级注释，因此我们将普通RPN和检测头转换为新颖的实例级和图像级识别（IIR）单元（如下所述），其兼容弱监督和完全监督。这样的前地类顺序与检测基线的两阶段层次结构步调一致。除了整体框架外，H2 FA R-CNN的另一个重要特性是新颖的实例级和图像级识别（IIR）单元。IIR单元有两个功能：1）IIR保留了RPN和探测头原有的实例级识别功能; 2）IIR合并来自RPN和检测头的输出以用于图像级识别。因此，IIR可以同时接收来自源/目标域的全/弱监督，从而促进所需的实例级对齐。在上面的图像级（类不可知的）对齐流水线中存在清晰的层次结构类）实例级（前台类）。与从下到上的检测流水线同步，对齐的语义和空间粒度从粗到细（参见图1）。同时，用于学习这些对准的监督信号是从弱到强（即，域标签、映像级标签以及混合映像级加实例级标签）。我们的经验表明，整体性和层次性特征对H2FA都很重要（见§4.4）.实验结果表明，H2FA R-CNN显着提高了跨域对象检测性能，并在流行的基准测试中树立了新的艺术水平。我们的主要贡献可概括如下：• 我们提出了整体和层次特征对齐（H2FA）R-CNN的CDWSOD任务。H2 FA R-CNN以分层方式组织两个图像级和两个实例级对齐。• 作为一个重要组成部分，我们设计了一个实例和图像级识别（IIR）单元，以取代香草RPN和检测头。IIR接收来自源域和目标域的混合监督，并促进实例级对齐。• 我们通过对比实验来评估所提出的H2FA R-CNN实验结果表明，H2FA R-CNN不仅具有最佳的跨域目标检测性能，而且具有较强的噪声鲁棒性.2. 相关工作目标检测。现代目标检测方法[6，40，45]已经基于一些大规模数据集[17，21，41，52]实现了有希望的检测精度。然而，部署一个训练有素的检测器到另一个新的领域可能会带来灾难性的性能下降。本文旨在通过对目标域的额外弱监督来缩小检测和跨域检测之间的准确性差距。我们使用Faster R-CNN [45]作为我们的基线模型。这种选择与大多数现有的跨域对象检测工作一致[10，15，27，30，50，68]。弱监督目标检测。大多数现有的弱监督对象检测（WSOD）技术[3，12，29，31，46，53，54，58，62，63，73，75，77]集中于学习仅具有图像级注释的对象检测器。他们将WSOD表述为多实例学习问题。最近，一些作品[2，5，5，16，18，26，33，47，82]尝试使用一些实例级注释来提高WSOD性能。他们中的大多数[5，16，26，33，60，82]专注于将检测器扩展到具有图像级注释的新类别与WSOD相比，本文的主题（即，CDWSOD）14331猫，人猫(a)实例级识别路径阿前景（）*实例标签图像标签高级语义#$t骨干(b)图像级识别路径猫，人低级语义输入图像A.C s域内标签图像标签A：聚合实例级和图像级识别（IIR）单元源目标源目标监督前向路径RPN检测头检测头猫RPNI分类器LL目标#年源D分类器影像级要素对齐实例级要素对齐图2. H2 FA R-CNN从下到上执行两个图像级对齐和两个实例级对齐。我们使用源域上的全监督和目标域上的弱监督来训练H2FA R-CNN。在主干中，我们分别使用D-分类器和I-分类器来执行图像级的类不可知和类对齐。在主干之后，我们使用实例级和图像级识别（IIR）单元进一步执行两个实例级对齐。IIR基于RPN和探测头构造两个不同且并行的路径：1）它使用香草实例级识别路径进行检测，并在源域上接受全面监督; 2）它使用图像级识别路径在目标域上接受弱监督。由于严重的域转移，更具挑战性提出的H2 FA R-CNN具有整体和层次特征对齐的特点，这在很大程度上缓解了域偏移问题。跨域对象检测。跨域目标检测的目的是检测跨域的目标。大多数以前解决跨域对象检测的工作主要集中在UDAOD [4，7，15，20，24，25，42，55，57、61、65、76、79、84]。现有的UDAOD方法可以大致分为两组，即，对抗性特征对齐[9自我训练[34，35，37，44，49]。除了标准UDAOD设置外，无源和多源UDAOD任务分别在[38]和[48，74]中进行了研究。此外，在[39，64]中探索了对象检测中的域泛化。与UDAOD相比，CDWSOD [27，30，43]在目标域上提供额外的图像级注释，并且通常实现较高的准确性。本文充分利用目标域上的弱监督信号，在四个特征层次上进行域对齐。3. H2 FA R-CNN3.1. 概述如图2所示，H2 FA R-CNN采用两阶段检测框架[45]，由主干，RPN和检测头组成H2FA R-CNN将混合物以源图像和目标图像作为其输入，并以整体和分层的方式寻求域对齐。为此，H2 FA R-CNN对基线结构进行了两处修改：1）它将额外的域分类器（D-分类器）和图像分类器（I-分类器）附加到骨干以用于图像级特征对准。2)它将RPN和检测头转换为实例级和图像级识别（IIR）单元，用于实例级对齐。当检测管道位于主干内时，H2 FA R-CNN使用D-分类器和I-分类器执行两个图像级对齐（参见§3.2）。具体而言，D-分类器通过学习识别具有流行对抗性损失dc的每个图像的底层域，对底层特征实施图像级类别不可知对齐[50]。I-Classifier通过二进制交叉熵损失ic学习多标签分类，对顶层特征执行图像级类对齐。我们将I-Classifier（用于类对齐）安排在D-Classifier（用于类不可知对齐）之后。这样的安排是因为分类一般要求较高的语义信息，从而有利于顶层特征。在图像级对齐之后，H2 FA R-CNN通过将RPN和检测头转换为实例级和图像级识别（IIR）单元（参见§3.3）来进一步实施实例级对齐。所提出的IIR单元通过在共享RPN和检测头上路由不同的路径来实现两种不同的功能。第一条道路主要是--14332LLLLL保留源域的普通检测管道，并以流行的检测损失[45]进行监督，即，rpn（用于RPN）和det（用于探测头）。第二条路径将RPN和探测头的实例级预测在训练过程中，IIR将目标域特征输入到第二路径中，并监督相应的图像级预测与二进制交叉熵损失cls。在训练过程中，H2FA R-CNN聚合了所有上述损失函数，以进行端到端优化：L =λ dc L dc +λicL ic + L rpn + L det + λclsLc ls。（一）0.30.20.10.00.30.20.10.0车源目标人源目标0 20 400 20 400 20 40(a) 仅基线来源。车源目标人源目标`image-levelalignx`instance-instance-instance-instance-instanceX0 20 400 20 400 20 40(b) 使用I-Classifier仅源基线在推理过程中，H2FA R-CNN采用标准的推断，[45 ]第45章：你是谁？换句话说，我们删除了 D-Classifier，I-Classifier，并将IIR单元恢复为vanilla RPN和检测头。3.2. 图像级特征对齐0.30.20.10.00 20 40020 400 20 40与域监督的类无关对齐。Do- main标签可免费用于所有数据。使用域标签，我们通过对抗训练执行图像级类不可知特征与[50]类似，我们在主干上附加两个域分类器（D-Classifier）。D-分类器试图区分输入图像属于哪个域。同时，梯度反转层[19]反转由D分类器传播的梯度以混淆主干。通过引入主监督和对抗损失dc对D分类器进行优化，在[50]中，主干参数逐渐失去区分域的能力。因此，这些参数成为域无关的，使得跨域特征能够在统一空间中对齐。班级管理薄弱。以类不可知的方式执行跨域特征对齐仅确保两个域的全局分布对齐[61]。然而，它是宽容的类明智的误对准，这妥协的识别精度。由于主干的顶层包含高级语义，并且已经获得了每个单独类的区分能力，因此我们进一步实施类对齐以利用两个域的图像级注释具体来说，我们在主干的顶部增加了一个多标签图像分类器（I-Classifier）。在二进制交叉熵损失ic的监督下，I-Classifier学习一组原型类型（每个对象类一个）。在训练过程中，这些原型将相应类中的特性拉向自己，而不管底层域是什么。因此，同一类的源域特征和目标域特征被拉向彼此靠近，所需的类式特征对齐。我们注意到，我们的H2 FA R-CNN中的I-Classifier与以前的UDAOD中的I-Classifier有很大不同（c）H FA R-CNN。图3. Watercolor [30]数据集上车辆，动物和人类的在（a）中，模型仅在源域上训练，因此在每个类上都会产生显著的域间隙在（b）中，添加I分类器减轻了类域间隙。在（c）中，结合所有特征对齐的H2FA R-CNN进一步减轻了类域差距。更多可视化示例见附录。作品[9，71，80]，在动机和机制方面。这些方法不使用图像级分类器来直接对齐源域和目标域。相反，他们只在源域上训练图像级分类器，并使用它来增强域分类器的效果。相反，我们的I-分类器明确地沿着每个单独的类对齐两个域，如图3b所示。3.3. 实例级要素对齐实例级和图像级识别单元。在图像级粗对齐之后，H2FA R-CNN进一步寻求实例级对齐。在每个类中强制执行实例级对齐是非常重要的，因为目标域没有实例级注释。现有的基于自训练的方法[30，43]试图通过使用伪标签来解决这个问题，并且容易受到伪标签噪声的影响。相比之下，H2FA R-CNN直接用混合监督来解决这个问题（即，组合对源域的完全监督和对目标域的弱监督），因此不需要伪标签。为此，我们提出了一种新颖的实例和图像级识别（IIR）单元，它共享完全相同的模块（即，RPN和检测头）和用于两个域的参数，还通过路由不同的路径执行两个不同的功能。对于源域，IIR独立处理每个提案并生成实例-车源目标狗源目标人源目标密度密度密度14333softmax一长排图像级预测编码总和argmax客观性softmax沿列联系分配给104猫，人·Σ·∈∈⊙··LLLL∈C∈⊙∼水平预测作为常规检测模型。对于目标域，IIR切换到图像级识别功能，该功能将RPN和检测头的多个输出聚合到图像级多标签预测中，从而实现弱监督。我们提供的细节如下：实例级识别路径采用标准的两阶段流水线[45]来生成实例级预测。RPN首先生成粗略对象提议候选。然后，检测头从这些建议中提取实例级特征以供进一步细化。由于源域的实例级注释已经可用，我们使用标准对象检测损失来训练IIR，如[45]对象类logits综合得分$4314类别索引类式对象图像级监控（即，RPN的rpn用于检测头的DET图像级识别路径重用来自RPN和检测头的实例级预测以生成图像级预测。为此，它考虑用一些信息实例来表示整个图像，1)更有可能覆盖完整的对象，以及2）具有属于单个类的高概率。让我们假设对于图像，RPN预测对象性logitsoRN，而检测头预测分类logitsxRN×C（是对象类的总数）。我们为单个多类预测聚合o和x，如图4所示。具体来说，我们首先根据xnRC将第n个对象分配给特定的对象类：如果xn的最大值条目的索引是i，我们将on分配给第i个条目，并将0对象分配给所有其他条目。通过这种方式，我们获得了一个类特定的对象矩阵。RN×C。我们使用o和分类logitsx来生成图像级预测我们先从提案中提取问题通过沿着对象类的softmax属于每个对象类的能力（即，softmax along row in Figure4）。给定来自多个建议的这些概率得分，我们使用加权和将它们收集到单个图像级概率中。为此，我们利用softmax 沿亲（即，softmax（图4中沿列的softmax）用于分配权重，因为它提供了标准化效果，并自然突出显示最具代表性的建议。最后，通过累积所有建议来获得图像级预测。形式上，上述图像级预测聚合可以给出为：NPc=（σrow（xn，c）<$σcol（o<$n，c）），（2）n=1其中Pc是类别c的预测概率（指示当前图像是否包含类别c的对象），σrow（）和σcol（）分别是沿着行和列的softmax运算，并且是逐元素乘积运算。在获得图像级多标签预测后，我们采用二进制交叉熵损失cls进行优化。如果类c存在于当前图像中，则最小化cls把Pc推向1相反，如果类c不存在于当前图像中，则最小化Lcls将Pc推向0。图4.图像级预测识别路径中的图像级预测聚合的流水线对象类日志来自探测头，对象性日志来自RPN。为什么IIR强制执行实例级对齐。在 IIR中，实例级和图像级识别路径共享相同的RPN和检测头。它使RPN和检测头能够识别源域和目标域上的对象，因此减轻了域间隙，如图3c所示。更具体地说，我们注意到RPN中有一个可学习的前台原型为了识别两个域上的前景，前景原型将来自两个域的对象向自身对齐。类似地，检测头包含一组类原型。这些类式原型将每个对应类的对象拉向自己，因此沿着每个类对齐两个域。4. 实验4.1. 数据集在[8，27，30，43，50]之后，我们使用四个数据集，即、 PASCAL VOC （ VOC ） [17] 、 Clipart 、Watercolor和Comic [30]进行评估。我们使用通用对象检测基准VOC作为源域，并使用其余三个艺术绘画数据集作为目标域。根据CDWSOD，源域提供用于训练的实例级注释，而目标域仅提供图像级注释。VOC 0712的训练分割被用作源域训练数据，其包含20个对象类别的16.5k真实世界图像。剪贴画有一个火车分裂和一个测试分裂。每个分割包含20个对象类别的500个图像。根据现有技术[8，27，50]，两个分割都用于训练和测试（我们将这种适应任务称为Clipartall）。同时，与[15，30，43]一样，我们也只使用训练分割进行训练，并在测试分割上进行评估（我们将这种适应任务称为Clipart 测试）。Watercolor和Comic都包含6个类的2k图像. . -是14334Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视是说只有源23.945.226.221.333.444.225.818.437.919.827.212.524.645.430.241.19.117.145.835.429.2PCL [58]3.410.62.31.75.23.423.31.25.60.47.83.75.60.324.519.711.93.69.225.48.4EDRN [54]2.713.51.24.21.810.325.70.48.40.33.22.71.10.729.417.25.21.62.919.17.6SWDA [50]26.248.532.633.738.554.337.118.634.858.317.012.533.865.561.652.09.324.954.149.138.1HKD [8]33.658.934.023.445.657.039.812.039.751.321.120.139.172.863.043.119.330.150.251.840.3[第67话]41.552.734.528.143.758.541.815.340.154.426.728.537.775.463.748.716.530.854.548.742.1[9]第九届全国政协委员30.067.032.521.829.262.541.311.637.139.427.419.325.067.455.242.919.536.250.739.337.8香港[7]28.552.334.332.838.666.438.225.339.947.423.917.938.978.361.251.726.228.956.844.541.6[30]第三十话50.175.037.038.758.183.450.138.055.267.351.134.849.889.960.263.428.842.462.670.955.3ICCM [27]39.866.737.242.543.348.148.121.346.573.029.029.857.378.667.848.746.319.342.848.546.7H2F A R-CNN58.173.056.850.461.298.669.557.866.477.156.184.164.3100.078.178.243.565.477.379.769.8表1. 所有Clipart的平均AP性能（%）。Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视是说只有源23.352.522.226.134.446.528.213.643.315.938.93.029.448.136.744.714.35.538.624.929.5WSDDN [3]1.63.60.62.30.111.74.50.03.20.12.82.30.90.114.416.04.50.71.218.34.4CLNet [32]3.222.32.20.74.64.817.50.24.81.66.40.64.70.612.513.114.14.18.029.77.8DM [36]28.563.224.542.447.943.137.59.147.046.726.824.948.178.763.045.021.336.152.353.441.8ATF [25]41.967.027.436.441.048.542.013.139.275.133.47.941.256.261.450.642.025.053.139.142.1城市轨道交通[15]39.659.132.435.045.161.948.47.546.067.621.429.548.275.970.556.725.928.939.443.644.1[30]第三十话51.684.030.041.152.382.050.219.051.858.341.314.647.086.261.958.624.922.547.452.848.9PLGE [43]43.452.529.440.130.471.954.93.652.473.853.524.054.889.165.140.532.333.845.461.047.6H2F A R-CNN38.570.638.947.459.683.547.029.351.576.344.448.147.379.275.754.453.932.056.651.155.3Oracle55.278.351.158.160.758.461.527.360.971.760.540.756.982.582.865.949.246.159.758.159.3表2. Clipart测试的平均AP性能（%）。我们使用来自训练分割的1k个图像进行训练，使用来自测试分割的1k个图像进行测试。4.2. 实现细节我们提出的方法是使用 Detectron2[69] 和PaddleDetection[1]实现和评估的。基本框架是一个两阶段检测器Faster R-CNN [45]和RoIAlign [22]，遵循[8 ，15， 27，50，68]。 Ima-geNet [14]预训练的ResNet-101 [23]在所有实验中都用作我们的网络骨干，除非另有说明。我们在2个GPU中使用8个小批量（每个域4个图像），初始学习率设置为0.005。损失权重λdc、λic和λcls根据经验设置为1，0.1和1.其他超参数是Detectron 2中的默认设置，我们不会专门调整它们。对于Clipart1k，我们训练了36k次迭代，在24k和32k次迭代时，学习率乘以0.1对于剩下的三个数据分割，我们训练了24k次迭代，在16k和21.5k次迭代时，4.3. 主要结果我们将H2 FA R-CNN与几种基线和最先进的方法进行比较，包括：1）在具有实例级标签的源域上训练的仅源基线; 2）WSOD方法[3，32，54，58]在仅具有图像级标签的目标域上训练; 3）UDAOD方法[7，15，25，50]用完全标记的源域和未标记的目标域训练; 4）CDWSOD方法[27，30，43]用完全标记的源域和图像级标记的目标域训练; 5）用全标记源域和全标记目标域训练的 oracle 模型。为了公平比较，我们使用ResNet-101重新实现 DT+PL [30]的Faster-RCNN变体，并使用亲自行车鸟车猫狗人是说只有源77.639.046.721.516.247.541.4PCL [58]6.728.820.29.55.427.416.3EDRN [54]5.229.315.31.40.934.914.5SWDA [50]82.355.946.532.735.566.753.3HKD [8]69.249.549.534.930.861.249.2ATF [25]78.859.947.941.034.866.954.9MCAR [80]87.952.151.841.633.868.856.0[第67话]95.854.348.342.435.165.856.9城市轨道交通[15]88.255.351.739.843.669.958.1[9]第九届全国政协委员81.149.346.235.031.965.751.5VDD [68]90.056.649.239.538.865.356.6香港[7]83.149.350.639.838.751.353.8[30]第三十话81.049.539.532.328.462.448.8ICCM [27]86.664.252.632.441.267.457.4PLGE [43]73.756.150.642.541.874.656.5H2F A R-CNN88.652.453.646.444.573.859.9Oracle73.365.557.345.737.380.559.9表3.水彩上的平均AP性能（%）作者公布的中间数据1.全部剪贴画。表1报告了Clipartall上的跨域检测结果，其中目标域训练数据和测试数据相同。我们观察到H 2FA R- CNN达到69. 8%mAP，超过所有比较方法。值得注意的是，H2 FA R-CNN比先前最先进的CDWSOD方法[30]好14。百分之五剪贴画测试。Clipart测试中可获得的目标域训练和测试数据较少。与传统艺术的比较见表2。H 2 FA R-CNN带来了显著的改进（从29. 5%至55。3%mAP），高于仅源模型。与之前的最新技术水平[30]相比，H2 FA R-CNN还显示了6. 4%的mAP改善。1https://github.com/naoto0804/cross- domain-detection/tree/master/datasets14335−−∼∼A1A2A3A4克利帕全部剪贴板试验水彩漫画（一）29.229.541.419.9（b）第（1）款✓37.1 （+7.9）39.5 （+10.0）49.6 （+8.2）33.3（+13.4）(c)✓39.0 （+9.8）33.0 （+3.5）53.8 （+12.4）31.8（+11.9）(d)✓50.8 （+21.6）39.2 （+9.7）42.0 （+0.6）27.1（+7.2）(e)✓30.8 （+1.6）27.3 （-2.2）53.4 （+12.0）34.5（+14.6）(f)✓ ✓48.0 （+18.8）44.2 （+14.7）53.3 （+11.9）39.6（+19.7）（g）✓ ✓ ✓63.1 （+33.9）50.3 （+20.8）49.3 （+7.9）41.6（+21.7）(h)✓✓59.1 （+29.9）37.8 (+8.3)55.0 （+13.6）38.3（+18.4）(i)✓ ✓ ✓✓69.8 （+40.6）55.3 （+25.8）59.9 （+18.5）46.4（+26.5）表4.平均AP性能（%）漫画。水彩画。表3总结了关于水色的比较。虽然之前的最先进方法已经接近预言准确性，但H2 FA R-CNN仍然比最具竞争力的UMT [15]和ICCM [27]表现出102%的mAP。漫画册如表4所示，Comic基准测试是一个非常具有挑战性的基准测试，其中仅源代码模型仅达到 19。9%mAP。H2FA R-CNN超越了所有的传统方法，并在很大程度上缩小了与Oracle模型的差距具体地，H 2 FAR-CNN获得46. 4% mAP，超过第二名PLGE [43] 4。百分之七。4.4. 消融研究表5研究了H2 FA R-CNN通过消融在四个基准上的特性。为了简洁起见，我们使用A1、A2、A3和A4分别表示从下到上的图像级类不可知、图像级类方式、实例级前景和实例级类方式对齐。我们得出三个重要的结论：每一个单独的对齐都是有益的。将行（b）-（e）中的方法与行（a）中的仅源基线进行比较，我们观察到大多数个体对齐带来或多或少的改进。例如，在Comic上，A1到A4的对齐将仅源基线提高了+13。4%，+11。百分之九，+7。2%和+14。6%mAP，re-分别为。虽然A4本身有时会降低仅源基线（例如，、2. 2%的Clipart测试），增加A4超过A4有时会降低基线的原因是层级结构恶化，稍后将进行分析。整体协调很重要。比较线（i）（整体对齐）与线（a）-（e），我们发现采用整体对齐实现了最大的改善。具体而言，第（一）行的整体改善大大超过了任何单独的改善。层级对齐很重要。虽然第（i）行（在第（g）行中的“A1+A2+A3”上添加A4表5. H2 FA R-CNN中不同特征对齐的有效性，其中报告了所有类别的平均AP性能（%）。A1-A4表示从下到上的四种不同类型的特征对齐，其中A1和A2是图像级对齐，A3和A4是实例级对齐。更详细的消融见附录。额外自行车鸟车猫狗人是说[30]第三十话81.049.539.532.328.462.448.8H2F A R-CNN88.652.453.646.444.573.859.9[30]第三十话✓89.148.747.439.233.564.153.7H2F A R-CNN✓90.257.549.848.053.077.262.6(a) 水彩上的平均AP性能（%）额外自行车鸟车猫狗人是说[30]第三十话53.023.734.427.427.244.035.0H2F A R-CNN55.326.645.938.145.666.846.4[30]第三十话✓60.728.838.637.933.551.041.7H2F A R-CNN✓60.236.647.659.648.765.353.0(b) 平均AP性能（%）漫画表6.基于额外噪声目标训练数据的比较非常不稳定换句话说，A4依赖于“A1+A2+A3”的粗略对齐如果没有粗对准，细粒度的A4可能是不稳定的。例如，在 Clipart all 上，改进是轻微的（ +1 。6%mAP）。在Clipart测试中，A4甚至在仅源基线上下降（2。2%mAP）。这表明，如果在底部没有粗对准，则在顶部的细粒度对准可能不稳定，甚至恶化对准效果。4.5. 进一步的实证分析噪声目标数据评估。我们在噪声目标域下评估H2FAR-CNN，其中图像级标签具有相当大的噪声。为此，我们使用水彩和漫画数据集的额外分割来获得额外的15.8k和50.8k噪声训练样本。结果分别总结在表6a和6b中，我们提出两点意见。首先，在目标域上使用额外的（有噪声的）训练样本进一步改进了H2 FA R-CNN。例如，在Watercolor上，H 2 FA R-CNN达到2. 7%的mAP改善，额外的数据。其次，与DT+PL [30]相比，H2 FA R-CNN在有和没有额外噪声数据的情况下都表现出一致和巨大的改进。推广到类似的领域。我们在小域间隙场景下评估H 2FA R- CNN（即，[13 ]第13话：城市之光[51] FoggyCityscapes是一个从Cityscapes和模拟渲染的数据集，自行车鸟车猫狗人是说只有源43.210.724.19.111.720.919.9PCL [58]1.20.48.92.92.315.65.2EDRN [54]1.60.513.27.22.513.26.4SWDA [50]30.319.628.815.224.946.927.6HKD [8]35.414.826.613.726.940.026.2MCAR [80]47.920.537.420.624.550.233.5[9]第九届全国政协委员47.519.933.211.419.449.130.1香港[7]35.620.333.916.426.645.329.7[30]第三十话53.023.734.427.427.244.035.0ICCM [27]50.623.335.432.333.847.137.1PLGE [43]55.021.240.035.137.960.941.7H2F A R-CNN55.326.645.938.145.666.846.414336源DT+PLH2 FA R-CNNOracleDT+PLDT+PLSWDA只有源最大平均接入点（%）∼∼70606040502040H2 FA R-CNN0人骑手车汽车客车火车摩托车自行车装置300 10 20 30 40培训时间（小时）图5. Foggy Cityscapes的平均AP（%）性能。6040200图7.训练时间和检测精度的比较Clipart所有。所有模型都在2个NVIDIA V100 GPU上使用ResNet-101主干进行训练。对于DT+PL†，我们只计算其检测器训练的时间，并排除CycleGAN训练的时间。端到端的培训方式。具体来说，H2FAR-CNN直接在源和目标(a) 剪贴画全部6040200VGG16R-101X-101(c)水彩VGG16R-101X-101（b）剪贴板试验40200VGG16R-101X-101(d)漫画没有热身训练。因此，尽管H2 FA R-CNN中的特征对齐增加了几个额外的模块用于训练，但总体消耗相对较低。相比之下，基于自我训练的CDWSOD方法[30，43]通常需要对源域进行热身训练，有时需要使用特定于网络的CycleGAN进行额外的风格转换[83]。在推理过程中，我们可以直接删除所有用于特征对齐的附加组件，使结构图6.H2FA R-CNN具有各种骨干。中的源legends表示仅源代码下限。我们省略了Clipart all的oracle，因为它的训练集和测试集是相同的。画出雾幕。如图5所示，H2 FA R-CNN在所有类别上都取得了显着的改进（例如，，+19。7%的汽车上的mAP），与仅源基线相比。它也以明显的优势超过了最近最先进的CDWSOD方法[30]。因此，我们推断H2FA R-CNN对类似领域具有很强的泛化能力。推广到不同的骨干。我们研究了不同的骨干，包括VGG 16 [56]，ResNet-50，ResNet-101 [23]和ResNeXt-101 [70]用于H2 FA R-CNN。如图6所示，H2 FA R-CNN在所有四个基准测试中的多个主干上实现了对于最大的ResNeXt-101骨干，H2 FA R-CNN和oracle的改进相对较小。这可能是因为目标域上的小规模训练集（例如，仅500个训练样本用于Clipart测试）成为瓶颈。训练和推理效率分析。图7描述了性能和时间消耗

下载后可阅读完整内容，剩余1页未读，立即下载