多源域自适应目标检测及其有效性

32 浏览量更新于2023-10-13 收藏 1.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3273多源域自适应目标检测姚兴旭1、3、赵思成2、徐鹏飞3、杨巨峰11南开大学2哥伦比亚大学3滴滴出行yxxhbgd@163.com，schzhao@gmail.com，xupengfeipf@didiglobal.com，yangjufeng@nankai.edu.cn摘要为了减少与对象检测相关的注释劳动，越来越多的研究集中在将所学习的知识从标记的源域转移到另一个未标记的目标域。然而，现有的方法假设标记数据是从单个源域采样的，这忽略了更一般化的场景，其中标记数据来自多个源域。对于更具挑战性的任务，我们提出了一个统一的基于Faster R-CNN的框架，称为Divide-and-Merge Spindle Network（DMSN），它可以同时增强域不变性并保持区分能力。具体地，该框架包含多个源子网和一个伪目标子网。首先，我们提出了一个层次-标记的源域Sj未标记的靶结构域T标记源域Skcal特征对齐策略，分别对低层和高层特征进行强对齐和弱对齐，考虑它们对目标检测的不同影响。其次，我们提出了一种新的伪子网学习算法，通过对不同源节点的参数进行加权组合来逼近伪目标子集的最优参数。最后，提出了一种区域建议网络的一致性正则化，以便于每个子网学习更多的抽象不变性。在不同的适应场景下进行的大量实验证明了该模型的有效性。1. 介绍作为计算机视觉中的基本任务，物体检测在过去十年中引起了广泛关注[34，32，25]。随着卷积神经网络（CNN）的发展，一些现代的基于CNN的检测器（如Faster R-CNN [35]）已经出现，并成功应用于许多任务，如自动驾驶[10，38]，人脸和行人检测[17，27]等。然而，检测器的高质量性能是基于具有注释边界框的大规模训练图像。在现实世界中，训练图像和测试图像在许多方面存在差异，包括对象外观，背景，甚至所花费的时间。由于这些领域的差异，图1.多源场景中的域转移示例用于物体检测。上述图像是从BDD100k [50]的不同子集中采样源域Sj和Sk分别在白天和夜晚拍摄，而目标域T中的图像在黎明/黄昏拍摄。如以上结果所示，与仅使用最佳单个源域相比，直接组合来自多个源的图像并进行单源域自适应（DA）将导致性能下降注意，mAP表示平均平均精度。因此，在测试图像上的性能可能显著降低。虽然注释新领域的更多训练数据能够缓解这种现象，但由于大量的时间和劳动力成本，这不是为了减轻域间隙，无监督域自适应（UDA）已被广泛用于对象检测[6，20，22，19]。域自适应Faster R-CNN [6]是为解决对象检测中的域偏移问题而开发的里程碑研究。在工作中，图像级特征和实例级特征通过对抗的方式分别对齐继[6]之后，最近出现了一系列基于Faster R-CNN的自适应模型[57，56]。考虑到图像级配准传递了大量不必要的背景信息用于目标检测，Zhu等人.[56]和Saitoet al. [37]更加注意对齐信息丰富的局部区域。最小化3274域分布不一致的每个块，他等。[14]提出多对抗性Faster R-CNN来进行逐层域特征对齐。然而，现有的区域自适应目标检测算法假设源数据是从单个区域采样的，这限制了模型的推广。我们考虑一个更实际的情况下，源数据收集从多个域具有不同的分布。如图1所示，与单域的最佳结果相比，直接组合两个I.E. 29.9%对 31.4%。这主要是由于存在严重域差异的不同源之间的相互干扰造成的，这在其他任务中也得到了证明[54，29，36]。因此，我们需要设计一个特殊的自适应域目标检测框架，从多个来源。虽然多源域自适应已经被探索用于其他任务，例如图像分类[54，48]和分割[53]，但它们都属于直接分类任务，而不管图像级或像素级。然而，像Faster R-CNN这样的检测模型对于回归和分类都是一个复杂的系统，并且它包含多个组件，包括特征提取器，区域建议网络（RPN）等。在本文中，对于新的任务，我们开发了一个框架，称为划分和合并主轴网络（DMSN），其中包括多个首先，我们提出了一个分层的特征对齐策略。由于低级特征具有对局部化很重要的高分辨率[30]，因此我们对不同域的它们执行强对齐。对于对目标识别有重要意义的高级特征，我们在相应的监督源子网中弱对齐每个源其次，为了近似目标域的最优参数，我们开发了一种伪子网学习（PSL）算法，其中伪子网通过不同源子网的指数移动平均（EMA）[42]参数最后，在每个源子网和伪目标之间进行新的区域建议的一致性正则化，这使得模型能够捕获更鲁棒的实例级不变性用于对象检测。在测试阶段，每个子网的预测被合并到最终的推断中。总之，我们的贡献有三方面。我们建议进行域自适应对象检测从多个来源。据我们所知，这是第一个工作的多源do-main适应对象检测，包含分类和回归。我们提出了一个统一的框架，称为DMSN来解决这个新问题。每个人的特点源域被保存在每个独立受监督源子网中。同时，通过聚合不同源子网的参数来近似最优设计了一种新的一致性正则化方法，使每个源子网都能提出与伪子网相似的区域建议，从而使模型能够学习到更多的抽象不变性。大量实验结果表明了该框架的有效性。2. 相关工作2.1. 对象检测目标检测[35，12]是计算机视觉中的一项基本任务，并且在过去十年中得到了蓬勃发展基于深度卷积神经网络（CNN）的方法可以分为两种类型：一阶段模型[25，32，33]和两阶段模型[35]。两阶段模型采用基于区域提议的检测器，其中预先生成大量区域提议以用于精炼和修正。最初，Fast R-CNN [11]利用选择性搜索来获得候选边界框。稍后在Faster R-CNN [35]中，区域建议由所提出的RPN学习，这明显节省了计算消耗。近年来，一些单阶段模型被引入，以加快检测速度.这些方法应用预定义的锚框或对象中心附近的点来预测边界框。在本文中，我们使用Faster R-CNN作为我们的基本检测器[39，56，16]，并将知识从多个源域转移到新的目标域。2.2. 用于目标检测的由于存在于不同领域中的数据注释和域移位的劳动消耗，已经出现了领域自适应对象检测[47，1，44，45域自适应Faster R-CNN [6]是一个里程碑式的两阶段对象检测器，用于减少不同数据集之间的域间隙。该工作基于Faster R-CNN [35]，并通过对抗学习通过域分类器对齐图像级和实例级的分布。此外，图像级和实例级对齐之间的一致性沿着这个想法，一系列的框架[4，20，18]被定义为域自适应对象检测。例如，Heet al. [14]提出在多个层中进行特征对准，而Saito等。[37]分别在局部和强特征中利用强和弱适应。除了在特征水平上比对不同的结构域之外，Hsuet al. [16]还采用CycleGAN [16]通过在像素级上合成目标分布将源图像映射到中间域。直接应用···3275G1G关于我们L我我我 j=1我j j Nij图2. 拟议DMSN的管道。特征提取器分为两部分，包括G1 和G2，其中G2 为SiM TG2i=1，G2。在第一训练阶段中，来自Gl的特征通过GRL和由最小二乘损失训练的域鉴别器Dl来对齐。然后，域Sj和T的图像被馈送到源子网Si，i = 1，… M来执行高级源-目标域对齐和源域检测学习。在第二个训练阶段，我们保持第一个阶段的学习目标并为RPN和伪子网学习（PSL）添加一致性正则化（con）。LMB表示丢失存储体。请注意，紫色的箭头或线条表示第二个训练阶段中的操作。对于具有多个源的自适应对象检测（更实际的情况），这些方法中的大多数遭受低性能。在本文中，我们开发了一个专门的网络来处理来自多个域的源图像。2.3. 多信源域自适应多源域自适应（MSDA）[41，52，31，49，21]假设训练实例来自多个域。最近，一些研究遵循单源DA的常规，利用共享网络来强制对齐多个源分布。例如，多源域对抗网络（MDAN）[51]训练鉴别器以区分源数据和目标数据，而特征提取器旨在通过对抗学习获得域不变特征。为了更好地减少结构域之间的差异，Penget al. [29]建议通过对齐其特征分布的矩将知识从多个源转移到目标。然而，这些方法可能会导致性能下降，由于每个域的区分能力的损失。此外，还有另一个基于MSDA理论分析[2，3，26]的例程，该例程表明目标分布可以由多个源分布的混合来近似。为了计算源域的更准确的组合权重，Hoffmanet al. [15]使用DC编程开发新的边界。因此，多源加权组合确实-电源已广泛用于MSDA [43]。Xu等[48]开发一个深度鸡尾酒网络（DCTN），为每个源域训练一个分类器，并结合由困惑分数加权的不同分类器的预测。在[54]中，Zhaoet al.首先确定每个源的专用特征提取器，并将目标数据逆向映射到每个源的特征空间中。然后，通过聚合由每个源和目标之间的差异加权的不同源预测来与之不同的是，我们在目标域中引入了一个伪子网，通过直接对每个源子网的参数进行加权来更新。此外，现有的MSDA算法[54，23，48]强制对齐不同的域，而不考虑特征区分度的损失。在本文中，我们不仅可以学习更多的域不变性，而且还保持了特征的鉴别性。此外，我们是第一个专注于MSDA的对象检测。3. 方法3.1. 概述在无监督MSDA中，我们考虑存在M个标记源域S1，S2，…SM和一个未标记的靶结构域T。在第i个源域Si={（x，B）}，假设x表示第j个图像而Bj表示相应的边界框注释。注意，Ni是第i个源中的图像数量源子网SSjRPNFCGSj2ROI AlignSSSDJjHSoftmax足球会JGRLHG1伪子网RPNFCGT2TTROI AlignGRLSK源子网RPNFCFCFCSKGSk2ROI AlignHGRLDSkSk HHconcon分类回归PSLPSLLMBLMB327632773278N城市景观。Cityscapes数据集[7]包含在城市中拍摄的驾驶场景。训练集中有2,975个图像，验证集中有500个图像，具有像素级标签。所有这些都被转换为边界框注释。BDD100k。BDD100k数据集[50]包含100k个图像，包括70k个训练图像和10k个带有边界框注释的验证图像。这些图像是在一天中的不同时间拍摄的，包括白天、夜晚和黎明/黄昏。以白天拍摄的图像为目标进行跨摄像机自适应，包括36，728张训练图像和5，258张验证图像。此外，我们使用在跨时间适应的所有时间拍摄的图像。4.2. 比较基线在本文中，我们将DMSN与以下基线进行比较：（1）仅源，即直接在源图像上进行训练，在目标图像上进行测试，给出了域适应的下界。原始的Faster R-CNN被视为检测模型。(2)单源DA，通过单源DA进行MSDA ，包括强 - 弱 [37] 、 SCL [39] 、 DA-ICR-CCR[46]、SW-ICR-CCR [46]，GPA [47]。(3)多源DA，扩展了已有的MSDA方法用于分类。MDAN [51]和M3SDA [29]，通过在特征提取器上利用这些算法来执行MSDA用于对象检测请注意，本文中的所有DA方法都是无监督的，其中目标训练集的标签在训练期间不可用。此外，我们还通过使用训练目标数据直接训练Faster R-CNN来报告oracle结果。对于仅源域和单源域的自适应，我们采用两种策略：（1）单源域，即：对每个单源域进行适配;（2）合源，即直接将所有源合并到统一域中。4.3. 实现细节在我们的实验中，采用Faster R-CNN [35]作为基础对象检测器，其中采用预训练的VGG 16 [40]作为骨干，遵循[6，46，37]。除非另有说明，图像的短边具有600像素的长度，遵循具有ROI对齐[13]的[35，37]的实现。学习率初始化为0.001，所有模型都训练了20个epoch，学习率呈余弦衰减。在第10个时期，开始执行PSL和一致性正则化，直到训练结束。根据[37]，我们将等式⑷的γ设置为5.0并且将等式⑺的λ设置为1.0，而等式⑸和等式⑹的α分别设置为0.99和256在测试阶段，目标域的测试镜像将被馈入G1之后的所有子网。通过整合来自不同子网的结果获得的最终预测。我们使用Pytorch实现了所有实验[28]。表1.从Cityscapes和KITTI到BDD 100k（白天）的适应实验结果。评估目标域中汽车类别的平均精度（AP，%）最好的结果是用b old加亮。标准方法AP汽车城市景观44.6只有源KITTI城市景观+KITTI28.643.2[37]第三十七话45.5仅限城市景观DA沙中线[39]DA-ICR-CCR [46]46.345.3SW-ICR-CCR [46]46.5[37]第三十七话29.6仅KITTI DA沙中线[39]DA-ICR-CCR [46]31.129.2SW-ICR-CCR [46]30.8[37]第三十七话41.9源组合DA沙中线[39]DA-ICR-CCR [46]43.041.3SW-ICR-CCR [46]43.6MDAN [51]43.2多源DAM3SDA [29]DMSN（我们的）44.149.2Oracle更快的R-CNN [35] 60.24.4. 交叉摄像机自适应不同的数据集由不同的设备或装置捕获在这个实验中，我们展示了不同相机收集的数据集之间具体而言，KITTI和Cityscapes被用作两个源域，而BDD 100k白天拍摄的子集被视为目标域。该实验是从小规模数据集到大规模数据集的在表1中，我们报告了根据平均精度（AP）对汽车在仅源代码中，KITTI和Cityscapes+KITTI的结果比Cityscapes更差，其中“Cityscapes+KITTI”是指直接将Cityscapes和KITTI结合起来添加KITTI后的性能下降主要有两个原因：（1）两个源之间的域差异没有被很好地桥接。（2）与Cityscapes相比，KITTI的域分布比BDD100k的域分布更远，简单地将KITTI与Cityscapes结合会降低性能。同时，无论是单源还是单源DA方法，简单地将多源图像组合起来训练一个模型的结果都不如单域训练的最佳结果。特别地，从城市景观转移的强弱模型达到45.5% AP，而源组合下降到41.1%AP。这主要是因为在不同的领域也存在着差异3279表2.在BDD100k数据集中不同子集之间的自适应。白天和夜晚是源，而黎明/黄昏是目标域。对10个类别的平均精度（mAP，%）进行了评估，每个类别的最佳结果用粗体突出显示。标准方法自行车总线车电机人骑手光签署火车卡车地图白天35.151.752.69.931.917.821.636.3047.130.4只有源夜间白天+夜间27.931.532.546.949.452.915.08.428.729.521.821.614.021.730.534.30030.742.225.028.9[37]第三十七话34.951.252.715.132.823.621.635.6047.131.4沙中线[39]29.151.352.817.232.019.121.836.3047.230.7仅限日间DAGPA [47]36.652.153.115.633.023.021.735.4048.031.8DA-ICR-CCR [46]35.647.552.713.932.222.722.835.5045.730.9SW-ICR-CCR [46]32.851.453.015.432.522.321.235.4047.931.2[37]第三十七话31.438.251.09.929.522.218.732.5035.726.9沙中线[39]25.331.749.38.925.821.215.028.6026.223.2夜间DAGPA [47]32.738.351.814.129.021.517.131.1040.027.6DA-ICR-CCR [46]30.032.450.114.429.122.817.432.2029.725.8SW-ICR-CCR [46]32.345.151.67.229.224.919.933.0041.128.4[37]第三十七话29.750.052.911.031.421.123.335.1044.929.9沙中线[39]33.947.852.514.031.423.822.335.4045.130.9源组合DAGPA [47]31.748.853.920.832.021.620.533.7043.130.6DA-ICR-CCR [46]28.247.651.617.628.821.917.433.2045.829.2SW-ICR-CCR [46]25.351.352.117.033.418.920.734.8047.930.2MDAN [51]37.129.952.815.835.121.624.738.8020.127.6多源DAM3SDA [29]DMSN（我们的）36.936.525.954.351.955.515.120.435.736.920.527.724.726.438.141.60015.950.826.535.0Oracle更快的R-CNN [35] 27.2 39.6 51.9 12.7 29.0 15.2 20.0 33.1 0 37.5 26.6不同的源，因此源组合图像可能在训练期间相互干扰[36]。与其他任务的现有多源DA方法[51，29]相比，我们用于对象检测的DMSN获得了明显更好的性能。4.5. 跨时间适应在这种情况下，我们进行我们的域适应不同的时间条件之间。具体来说，我们进行实验，使用三个不同的时间相关的子集BDD100k，即。白天、夜晚、黎明/黄昏。将白天的36，728幅训练图像和夜间的27，971幅训练图像作为源数据，而将黎明/黄昏的5，027幅训练图像作为目标数据。该评估是在总共778个验证黎明/黄昏图像上进行的。与跨相机自适应不同，该自适应场景是从大规模数据集到小规模数据集。表2显示，我们的模型有效地减少了时间条件下的主偏差，并且与最先进的方法相比表现良好[37，39，46]。直观地，当夜晚被视为源域时，适应性能比白天作为源差。这符合人类的认知，即在夜间难以识别和定位物体。由于白天和夜晚之间的域间隙，与除了SCL之外的仅白天DA相比，源组合DA的性能下降[39]。我们的适应模型实现了考虑-可改善的最佳结果的源组合DA和多源DA分别降低4.1%mAP和7.4%mAP。虽然多源DA（即，MDAN和M3SDA）采用不同的方法来对准不同的域，对准在图像级上受到限制。然而，实例级信息在对象检测中起着至关重要的作用。仅使用强制的图像级对齐可能会降低局部特征对对象的区分能力结果表明，MDAN和M3SDA在外观相似的客车和卡车上的测试结果非常差值得强调的是，我们的结果超过oracle的约10% mAP，这揭示了一个现象，oracle的结果可能不是在所有情况下的域适应的上限。我们得出结论，上述现象与训练数据的数量密切相关。在我们的实验中，共有超过60，000张白天和夜晚的图像参与训练模型，大大超过了Oracle实验中的5，027张黎明/黄昏4.6. 分析消融研究。我们对跨时间适应进行了详细的消融研究，其结果如表3所示。基于DMSN的骨架，基线仅通过在所有源子网（SS）中进行对象检测的监督学习来实现，而不进行任何其他操作。当在低级别和高级别特征上连续添加域鉴别器损失时，性能不佳。3280表3.在BDD 100 k数据集内从白天和夜晚到黎明/黄昏的适应消融研究。SS表示源子网，PS表示伪子网。DW代表动态加权策略。每个类别的最佳结果用粗体突出显示。√√ √√ √ √√ √ √ √√ √ √ √ √√ √ √ √ √ √(b)仅源（b）强-弱（c）我们的（d）地面实况图3.从白天和夜晚子集到黎明/黄昏的适应的定性结果的示例。从左到右列，通过强-弱[37]的仅源、源组合DA的结果，我们的框架DMSN和地面实况。分别为1.9%mAP和1.8%。在第四行中，我们的DW策略不能应用于没有一致性正则化的PSL，所以当更新伪子网的参数时，我们平等地对待每个源域。实验结果表明了伪子网的有效性值得强调的是，新设计的区域命题的实例级一致性正则化具有明显的有效性，即。1.3%的mAP增益。最后，DW策略加权参数的不同来源的数据流也有助于轻微的性能增益。可视化。在图3中，我们展示了三个仅源代码的示例，比较了跨时间适应场景中的强-弱方法和我们的方法。与现有方法相比，该算法具有三个方面的优点。首先，该算法准确地检测到小目标，即。在第一个例子中，汽车在远处对于第二种情况，我们的模型正确地定位了对象，即卡车，其在训练数据中具有较少的样本。最后，在强背光的情况下，即。第三个例子，结果表明，我们的模型也可以很好地解决困难的情况。因此，它是说明该算法具有强大的推广能力，这些困难的情况下。5. 结论在本文中，我们开发了一个框架，即。DMSN提出了一种新的目标检测任务，即多源域自适应目标检测.我们提出了分层特征对齐的不同级别的功能。同时，我们打算通过在一个独立的子网中的监督学习来保持每个源的特性。我们还引入了一个伪子网，它是由指数移动平均参数更新在不同的适应场景下的结果表明，我们的方法的有效性。我们还发现，只要收集到足够的源图像，适应结果可能超过甲骨文的。确认本工作得到国家重点研究发展项目（国家自然科学基金项目）的资助. 2018AAA0100403）、国家自然科学基金（NO.61876094，U1933114，61701273），天津市自然科学基金项目（ NO.20JCJQJC00020 ， 18JCYBJC15400 ，18ZXZNGX 00110）。SSLlLhPSDWLcon自行车总线车电机人骑手光签署火车卡车地图31.423.052.318.435.321.424.539.2035.028.032.933.453.218.236.023.827.140.2034.529.930.452.754.712.234.522.624.938.0046.931.733.047.454.814.536.426.027.641.4047.832.933.154.355.618.536.224.827.141.1050.434.236.554.355.520.436.927.726.441.6050.835.03281引用[1] ViniciusFArruda ， ThiagoMP aixao ， RodrigoFBerriel ，AlbertoF De Souza，Claudine Badue，Nicu Sebe，andThiago Oliveira-Santos.使用无监督图像到图像转换的跨域汽车检测：从白天到晚上。InIJCNN，2019. 2[2] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论。Machine Learning，79（1-2）：151-175，2010. 三、四[3] John Blitzer，Koby Crammer，Alex Kulesza，FernandoPereira ， and Jennifer Wortman. 学习领域适应的界限InNeurIPS，2008. 三、四[4] Qi Cai，Yingwei Pan，Chong-Wah Ngo，Xinmei Tian，Lingyu Duan，and Ting Yao.探索平均教师中的对象关系以进行跨域检测。在CVPR，2019年。二、五[5] Chen Chen，Mengyuan Liu，Xiandong Meng，WanpengXiao，and Qi Ju.精制硅藻土：一个轻量级的单级对象检测框架，用于只有cpu的设备。在CVPRW，2020年。4[6] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在CVPR，2018年。一、二、六[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。6[8] Geoffrey French，Michal Mackiewicz和Mark Fisher。视觉域自适应的自组装。在ICLR，2018年。5[9] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督ICML，2015。4[10] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。一、五[11] 罗斯·格希克。快速R-CNN。在ICCV，2015年。2[12] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。2[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017. 6[14] 何振伟和张磊。多对抗faster-rcnn用于无限制目标检测。在ICCV，2019年。2[15] Judy Hoffman，Mehryar Mohri，and Ningshan Zhang.多源自适应算法和理论。NeurIPS，2018。3[16] Han-Kai Hsu ， Chun-Han Yao ， Yi-Hsuan Tsai ， Wei-Chih Hung ， Hung-Yu Tseng ， Maneesh Singh ， andMing-Hsuan Yang.用于对象检测的渐进域适应。在WACV，2020年。2[17] Huaizu Jiang和Erik Learned-Miller。用更快的r-cnn进行人脸检测。在FG，2017年。1[18] Mehran Khodabandeh，Arash Vahdat，Mani Ranjbar，and William G Macready.域自适应目标检测的鲁棒学习方法在CVPR，2019年。2[19] Seunghyeon Kim，Jaehoon Choi，Taekyung Kim，andChang- ick Kim.用于无监督域自适应一阶段对象检测的自训练和对抗背景正则化。在ICCV，2019年。1[20] Taekyung Kim、Minki Jeong、Seunhyeon Kim、SeokeonChoi和Changick Kim。多样化和匹配：一种用于目标检测的领域自适应表示学习范例。在CVPR，2019年。一、二[21] 作者声明：David M.医院用于多源和半监督域适应的在线元学习。在ECCV，2020年。3[22] 李万义，李富裕，罗永康，王鹏，等.深域自适应对象检测：一个调查。在IEEE Sym-Series on ComputationalIntelligence，第1808- 1813页，2020年。1[23] Yitong Li，Michael Murias，Samantha Major，GeraldineDawson，and David E Carlson. 通过多域匹配提取关系。在NeurIPS，第6799-6810页，2018年。3[24] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。InICCV，2017.4[25] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在ECCV，2016年。一、二[26] YishayMansour ， MehryarMohri ， andAfshinRostamizadeh.多源域适配InNeurIPS，2009.三、四[27] 毛嘉源，肖特特，姜宇宁，曹志敏。什么可以帮助行人检测？在CVPR，2017年。1[28] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017. 6[29] Xingchao Peng，Qinxun Bai，Xide Xia，Zijun Huang，Kate Saenko，and Bo Wang.用于多源域适应的矩匹配。在ICCV，2019年。二三六七[30] Zheng Qin，Zeming Li，Zhaoning Zhang，Yiping Bao，Gang Yu，Yuxing Peng，and Jian Sun. Thundernet：面向移动设备上的实时通用对象检测。在ICCV，2019年。二、四[31] Sayan Rakshit 、 Dipesh Tamboli 、 Pragati ShuddhodhanMeshram 、 Biplab Banerjee 、 Gemma Roig 和 SubhasisChaudhuri。多源开放集深度对抗域自适应。在ECCV，2020年。3[32] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在CVPR，2016年。一、二[33] 约瑟夫·雷德蒙和阿里·法哈迪Yolo9000：更好，更快，更强。在CVPR，2017年。2[34] 约瑟夫·雷德蒙和阿里·法哈迪Yolov3：一个渐进的改进。arXiv预印本arXiv：1804.02767，2018。1[35] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn ：利用区域建议网络进行实时目标检测。InNeurIPS，2015. 一、二、六、七3282[36] Matthew Riemer，Ignacio Cases，Robert Ajemian，MiaoLiu，Irina Rish，Yuhai Tu，and Gerald Tesauro.通过最大化迁移和最小化干扰，学会2019年，在ICLR。二、七[37] Kuniaki Saito，Yoshitaka Ushiku，Tatsuya Harada，andKate Saenko.用于自适应目标检测的强弱分布对准在CVPR，2019年。一、二、四、六、七、八[38] 玉壶山，文峰路，和Chee Meng Chew自动驾驶中基于像素和特征级的目标检测域自适应神经计算，367：31-38，2019。1[39] Zhiqiang Shen，Harsh Maheshwari，Weichen Yao，andMarios Savvides.Scl：通过基于梯度分离的堆叠互补损失实现精确的域自适应对象检测。arXiv预印本arXiv：1911.02559，2019。二六七[40] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。6[41] Shiliang Sun，Honglei Shi，and Yuanbin Wu.多源域自适应研究综述。Information Fusion，24：843[42] 安蒂·塔尔瓦宁和哈里·瓦尔波拉。教师是更好的榜样：加权平均一致性目标改善了半监督深度学习结果。NeurIPS，2017。二、五[43] Hang Wang，Minghao Xu，Bingbing Ni，and WenjunZhang. 学习结合：多源领域适应的知识聚合。在ECCV，2020年。3[44] Tao Wang，Xiaopeng Zhang，Li Yuan，and Jiashi Feng.少拍自适应快速r-cnn。在CVPR，2019年。2[45] 王旭东，蔡兆伟，高大山，和努诺.通过领域注意力实现通用对象检测。在CVPR，2019年。2[46] 徐昌东，赵兴然，金鑫，魏秀申。探索领域自适应对象检测的分类正则化。在CVPR，2020年。六、七[47] Minghao Xu，Hang Wang，Bingbing Ni，Qi Tian，andWenjun Zhang.通过图形诱导原型对齐的跨域检测在CVPR，2020年。二六七[48] Ruijia Xu，Ziliang Chen，Wangmeng Zuo，Junjie Yan，and Liang Lin.深度鸡尾酒网络：具有类别转移的多源无监督域自适应。在CVPR，2018年。二三五[49] Luyu Yang，Yogesh Balaji，Ser-Nam Lim，and AbhinavShri- vastava.多源域适应中源选择的课程管理器。在ECCV，2020年。3[50] Fisher Yu ， Wenqi Xian ， Yingying Chen ， FangchenLiu ， Mike Liao ， Vashisht Madhavan ， and TrevorDarrell.Bdd100k：一个多样化的驾驶视频数据库，具有可扩展的注释工具。arXiv预印本arXiv：1805.04687，2018。1、6[53] 赵思成、李波、岳翔宇、顾扬、徐鹏飞、胡润波、柴华和库尔特·库茨。语义分割的多源域自适应。NeurIPS，2019。2[54] 赵思成、王广志、张上杭、顾阳、李亚贤、宋志超、徐鹏飞、胡润波、柴华和库尔特·科伊策。多源提取领域自适应。在AAAI，2020年。二三五[55] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。InICCV，2017. 4[56] Xinge Zhu ， Jiangmiao Pang ， Ceyuan Yang ， JianpingShi，and Dahua Lin.经由选择性跨域对准来适配对象检测器。在CVPR，2019年。一、二[57] Chenfan Zhuang ， Xintong Han ， Weilin Huang ， andMatthew R Scott. ifan：用于自适应对象检测的图像实例全对准网络。在AAAI，2020年。1[51] 赵汉，张上杭，吴冠航，Jose´ MFMoura，Joao P Costeira，and Geoffrey J Gordon.对抗性多源域自适应。NeurIPS，2018。三六7[52] 赵思成，李波，徐鹏飞，库尔特·库茨。深度学习时代的多源域适配：系统调查。 arXiv 预印本 arXiv ：2002.12169，2020。3

下载后可阅读完整内容，剩余1页未读，立即下载