自适应目标检测的无监督方法

123 浏览量更新于2023-10-18 收藏 2.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1自适应目标检测齐藤邦明1，牛久义孝2，原田达也2，3和凯特Saenko11波士顿大学2东京大学3理研{keisaito，saenko} @ bu.edu，{ushiku，harada} @ mi.t.u-tokyo.ac.jp摘要我们提出了一种无监督的适应对象检测器从标签丰富的标签穷人的领域，可以显着降低与检测相关的注释成本的方法。最近，使用对抗性损失来对齐源图像和目标图像的分布的方法已经被证明对于适应对象分类器是有效的。然而，对于对象检测，在全局图像级将源图像和目标图像的整个分布彼此完全匹配可能失败，因为域可能具有不同的场景布局和对象的不同组合。另一方面，纹理和颜色等局部特征的强匹配是有意义的，因为它不会改变类别级语义。这促使我们提出了一种新的方法检测器自适应强局部对齐和弱全局对齐的基础上我们的主要贡献是弱对齐模型，它将对抗性对齐损失集中在全局相似的图像上，而不太强调全局不一致的图像。此外，我们设计的强域对齐模型，只看局部的感受域的特征图。我们经验验证了我们的方法的有效性，包括大和小的域转移的四个数据集。我们的代码可在 https://github.com/VisionLearningGroup/DA_Detection上找到。1. 介绍深度卷积神经网络极大地提高了对象识别的准确性[17]，但仍然依赖于大量的标记训练数据。对于对象检测，注释是特别繁重的：每个图像中的对象类别的每个实例必须用精确的边界框来注释。从标签丰富的领域转移预先训练的模型是一个有吸引力的解决方案，但数据集偏差往往会降低它们对新数据的泛化能力[30]。用于无监督域自适应源鸟局部特征全局特征类Bbox目标类Bbox弱对齐强对齐拟定方法概述源目标全局弱对齐图1.上：我们的强-弱模型学习域不变特征，这些特征在局部补丁级别上是强对齐的，在全局场景级别上是弱（部分）对齐的下图：通过我们提出的Pas- cal to Clipart弱对齐方法获得的全局特征目标特征与源部分对齐(UDA)已经提出了解决数据集偏差问题[10，40，39，24]，其中大多数是基于特征[31]或图像[20，14]分布的域不变对齐。最近的方法使用对抗学习来对齐示例的源和目标分布，并且受到理论结果的激励，这些理论结果部分地通过域之间的差异大小来限制泛化误差[2，1]。因此，传统观点认为，69566957必须不惜一切代价减少差异，而这只有在分配完全一致的情况下才能做到。在本文中，我们认为，这种强大的域对齐是唯一合理的封闭的问题，如对象分类设置，其中源和目标的例子共享相同的类别和先验标签分布。在开集分类[4，33]或部分域自适应[41]等设置中，强对齐可能是不可行的，实际上可能会损害性能。在对象检测中，这一点尤其明显，因为对齐全局（图像级）特征意味着不仅对象类别，而且背景和场景布局必须在域之间相似。然而，这正是当前最先进的UDA检测方法自适应更快RCNN [5]试图做到的。它使用经过训练的域分类器来训练Faster RCNN，以区分源和目标示例，而特征提取器则学习识别域分类器。特征对齐在全局图像比例和实例（对象）比例下完成。虽然全局匹配可能对于仅影响物体的外观/纹理的小域移位（例如，与天气相关的偏移），对于影响场景布局、对象数量和/或它们的共同出现的较大偏移，可能损害性能。例如，源图像可以包含单个对象，而目标图像可以包含多个较小的对象。另一方面，局部特征的强对齐将匹配域的纹理或颜色，并且在大多数情况下应该提高在本文中，受这些观察的启发，我们提出了一种用于对象检测的非监督自适应方法，该方法将弱全局对齐与强局部对齐相结合，称为强-弱域对齐模型（图1顶部）。①的人。我们建议将弱对齐应用于全局特征，部分对齐它们以减少域间隙而不损害模型的性能。我们在图的底部显示了弱全局对齐的示例。1，其中仅包含一个对象的目标图像与源对准。我们的主要贡献是弱全局对齐模型，该模型将adversar- ial对齐损失集中在全局相似的图像上，而远离全局不相似的图像。此外，我们通过构建一个域分类器来实现强大的局部对齐，该域分类器旨在仅查看局部特征并将其与其他域严格对齐。我们验证了我们的方法在适应相似和不相似的域之间的有效性。2. 相关工作物体检测。深度卷积神经网络的发展提高了目标检测的性能。拥有强大的主干特征提取器是准确检测模型的关键。电流检测网络可以分为两种类型：两级和一级。Faster-RCNN（FRCNN）[29]是一个代表性的两阶段检测器，它使用区域建议网络（RPN）作为第一阶段生成粗略的对象建议在本文中，我们使用FRCNN作为基本检测器，但是，我们的方法应该适用于其他两级检测器和一级检测器，如YOLO [28]或SSD [21]。检测器骨干网络通常在ImageNet上进行预训练[7]，并且需要使用大量带注释的对象边界框再次进行微调为此目的，已经公布了各种数据集[8，7，19]。为了解决这种大型注释数据集的不足，文献[38，3]中提出了弱监督和半监督对象检测。虽然跨域对象检测，特别是无监督跨域对象检测也可以帮助解决这个问题，但据我们所知，只有一项工作解决了深度对象检测器的无监督域转移的任务[5]。在这项工作中，在实例（对象）规模的功能对齐是由区域建议裁剪的功能为了有效地进行特征对齐，区域建议必须精确地定位感兴趣的对象。然而，这对于目标域来说是很难做到的，因为我们没有给出地面实况建议。因此，正如我们在实验中所示，特征对齐可能会损害模型的性能，这就是为什么我们在工作中不进行实例规模对齐。域适配。桥接域之间的差距的问题已经研究了各种视觉应用，如图像分类和语义分割，心理学[30，40，43，35]。为了解决这个问题，大量的方法利用训练域和测试域之间的特征分布匹配其基本思想是测量不同域的特征分布之间的某种类型的距离，并训练特征提取器以最小化该距离。已经提出了测量距离的各种方法[9，40，39，22，24，32]。受理论结果[2，1]的启发，各种方法利用域分类器[9，40，39]来测量域差异。他们以对抗的方式训练域分类器和特征提取器，就像训练GAN一样[11]。这样的方法被设计成严格地将目标的特征分布与源的特征分布此外，Longet al.设计了域分类器的损失函数，以完全匹配域之间的特征[23]用于图像分类。在本文中，我们提出了一种全局特征的弱特征对齐模型，并使用强对齐6958仅在局部级别上严格对齐跨域的图像样式。对GAN和领域自适应语义分割的一些研究表明，使用特定于任务的分类损失来正则化领域分类器可以稳定对抗训练[26，35]。受这种方法的启发，我们进一步提出了一种方法来规范的主分类器的检测损失源的例子。与目标相似源靶域分类器基线DC易于分类提出3. 方法我们提出的强-弱DA模型的架构如图所示。3.第三章。我们在RPN之前提取全局特征，从较低层提取局部特征，并在高层特征空间中执行弱全局对齐，在低层特征空间中执行强局部对齐。我们进一步提出用检测损失来稳定域分类器的训练（第二节）。3.3）。3.1. 弱全局特征对齐我们利用领域分类器来对齐目标特征与全局级要素对齐的源代码在特征空间中，容易分类的目标样本远离源样本，而难以分类的目标样本靠近源样本，如图2左侧所示二、因此，关注难以分类的示例应该实现域之间的弱对齐。我们建议训练一个领域分类器，忽略容易分类的例子，而专注于难以分类的例子，相对于分类。图2.左：使用域分类器的弱分布对齐。右：标准交叉熵损失和焦点损失。分布，这在域自适应对象检测中是不期望的。相反，我们希望领域分类器忽略容易分类的示例，而专注于难以分类的示例。交叉熵（ CE ）损失（−logp）的问题在于，它将易于分类的示例的不可忽略值置于其中，p∈[0，1]是模型对于标签为d=1的类。我们建议增加一个modu-将因子f（pt）与交叉熵损失相关联，导致-f（pt）log（pt）（2）这里我们定义pt： .如果d=1，则为p域的定义我们可以访问一个标记的源图像xs和边界-pt=（三）1-p否则。对于从一组注释的源图像{Xs，Ys}中绘制的每个图像ys以及从未标记的目标图像Xt中绘制的未标记的目标图像Xt，绘制框。通过F.域分类器Dg被训练以预测输入全局特征的域。我们的学习公式优化了F，使得特征对于对象检测的主要任务是有区别的，但是对于域分类的任务是没有信息的。域标签d对于源是1，对于目标是0。网络R从F获取特征，并输出带有类标签的边界框。R包括区域建议网络（RPN）和Faster RCNN中的其他模块。检测损失的目标概括为：我们选择一个随pt增加而减少的函数。这种损失函数的一个例子是焦点损失（FL）[18]。FL（pt）=−f（pt）log（pt），f（pt）=（1−pt）γ（4）其中γ控制难以分类的示例的权重。FL的设计是为了在训练过程中对难以分类的例子比容易分类的例子给予更多的权重，如图3右边所示。二、特征提取器试图欺骗主分类器，即试图增加损失。然而，特征提取器不能将良好分类的目标示例与源对齐，因为这样的示例的梯度的尺度非常小。也是如此1Lcls（F，R）=−Σns Ldet（R（F（xis）），yis）（1）将源示例与目标对齐。 f（pt）可以取其他如果它满足上述要求，则可以使用配方。nsi=1在实验中，我们将展示另一个损失函数的结果这里我们假设Ldet 包含检测满足条件的。我们将失去弱全局级域分类器作为L全局如下，例如分类损失和边界框回归损失ns表示源示例的数量。在现有方法[5]中，域分类的目标是交叉熵损失。如图2.在交叉熵损失中，概率较高的易分类样本的损失是不可忽略的这个indi-L全球难以分类的样本易于分类的样品6959霖国际1s=− nsi=11Σnt=−（1−Dg（F（xis））γlog（Dg（F（xis）（5）Dg（F（xit））γlog（1−Dg（F（xit）（6）说明Dg和F说明了训练nti=1procedure. 因此，F尝试匹配整个特征不6960GRL域预测局部域分类器网络GRL局部对准目标全球协调目标目标检测目标RPN更快的RCNN模块源鸟目标局部特征全局特征Conv或FC各区域的特点上下文向量BBox类梯度反射层源或目标域预测全局域分类器网络图3.建议的网络架构。我们的方法执行强局部对齐的局部域分类器网络和弱全局对齐的全局域分类器。上下文向量由域分类器提取，并在最终全连接层之前的层中连接。L（F，D）=1（ L+L）（7）其中D1（F1（xis））wh表示域的输出全球g2全球全局t分类器在每个位置。损失是为了使每个其中nt表示目标示例的数量。这种损失的梯度应该改变低级别层的参数，这也应该对准低级别特征，但效果可能不够强。因此，我们建议在下一小节中直接执行局部级别特征的对齐3.2. 强局部特征对齐局部域分类器D1的结构被分解为签署了专注于本地特征而不是全球特征的协议。Dl是具有等于1的内核大小的全卷积网络。特征提取器F被分解为：如图3所示，F2≠F1，F1的输出是D1的输入。F1输出宽度和高度均为W的H分别。D1输出具有与输入特征相同的宽度和高度的域预测图。我们采用最小二乘损失来训练域分类器[25，42]。该损失函数稳定了域分类器的训练，并且经验上被证明对于对齐低级特征是有用的。损失函数-强局部对准L_loc的作用概括为：感受域的特征与其他域。3.3. 基于上下文向量的正则化我们进一步提出了一个正则化技术，以提高我们模型的性能如上所述，用分割损失规则化域分类器对于稳定域自适应分割中的对抗训练是有效的[35]。作者设计了一个领域分类器，它输出领域标签和语义分割图。受这种方法的启发，我们建议通过在源示例上计算的检测损失来稳定域分类器的训练我们分别从两个域分类器的中间层提取向量v1和v2这些向量应该包含关于整个输入图像的信息，我们称之为然后，我们将矢量与所有区域特征连接起来，如图所3，并训练领域分类器，以最小化对源示例的检测损失以及最小化领域分类损失。在测试阶段，矢量，tors被转发，以获得输出。3.4. 总体目标我们将检测模块的目标表示为Ldet，1小时后L=ΣH D（F（xs））2（八）其中包含区域提案网络的损失，最终分类和定位误差。诉讼辩护禄斯ns硬件l1iwhi=1w=1h =1损失Ladv（F，D）总结为，1 ΣHL（F，D）=L（F，D）+L（法、丁）（11）L=（1−D（F（xt））第二章（九）Adv位置1l全球g洛克特nt硬件i=1w=1h=1l1i wh结合源示例的检测丢失，总体目标是，L（F，D）=1（ L+L）（10）max minLcls（F，R）−λLadv（F，D）（12）locl2锁定洛克特DF 、R6961表1.从PASCAL VOC到Clipart数据集的适配结果在目标图像上评价平均精度（%）G、I、CTX、L分别表示全局对齐、实例级对齐、基于上下文向量的正则化和局部对齐。方法G 我CTX L Aerobcycle 捕鸟船瓶总线汽车猫椅子牛表狗小时自行车prsn广场羊沙发火车电视地图源仅BDC-更快C35.620.252.546.424.3 23.020.4 19.320.018.743.9 32.8 10.741.3 26.5 6.430.633.211.711.713.826.06.036.845.9 48.71.7 36.6 41.5 37.7 44.516.510.67.320.422.933.332.015.527.825.6DA-更快C C15.0 34.6 12.4 11.9 19.8 21.1 23.2 3.122.1 26.3 10.610.0 19.6 39.4 34.6 1.0 17.1 19.7 24.8 19.8C30.5 48.533.624.8 41.2 48.9 32.4 17.2 34.5 55.0 19.013.6 35.1 66.2 63.0 12.5 22.6 45.0 38.9 36.4提出CCCCC31.726.255.248.530.9 26.832.633.743.438.547.540.07.954.337.118.636.734.850.058.314.317.018.029.268.1 62.3 50.412.5 33.8 65.5 61.652.013.49.324.524.954.254.145.849.137.538.1表2.从PASCAL VOC到Clipart数据集的PASCAL VOC结果。在PASCAL上评价平均精密度（%）。我们的方法不会降低源的性能，而BDC-Faster和DC-Faster会降低它。方法G我CTX L 地图源仅BDC-更快C77.573.6DA-更快C C66.4C78.0提出CCCCC77.677.0其中λ控制检测损失和对抗训练损失之间的权衡。梯度的符号由[9]提出的梯度反转层翻转每个小批处理都有一个标记的源和一个未标记的目标示例。4. 实验我们评估我们的方法在四个领域的转变Cityscapes [6]到FoggyCityscapes [34]，GTA [16]到此外，我们提供了实验来验证我们的主张，完整的特征匹配可以降低模型在目标域中的性能实施详情。在所有实验中，我们将图像的短边设置为600，然后使用ROI对齐[12]实现更快的RCNN [29]。我们首先以学习率0训练网络。001进行50K次迭代，然后学习率为0。0001进行了20K次以上的迭代，并报告了最终性能。所有的模型都是用这个调度训练的，我们报告了70 K次迭代后训练的per-center。在没有特殊符号的情况下，我们将λ设为1.0，γ设为5.0。我们使用Pytorch实现了所有方法[27]。有关网络架构的详细信息，请参阅我们的补充材料。我们将我们的方法与三个基线进行了比较：FRCNN模型，具有基线域分类器的FRCNN，以及自适应FRCNN（DA-更快）[5]。FRCNN模型仅在源示例上训练，而没有任何自适应。具有基线域分类器的FRCNN具有与我们提出的弱全局对齐模型完全相同的架构，但其域分类器在等式中使用交叉熵损失进行训练。5和6.该模型没有本地级别的域分类器。通过与该模型的比较，我们可以直接观察到我们提出的弱对齐方法的有效性此后，我们称基线为BDC-更快。DA-Faster[5]采用了两个域分类器，一个用于高级特征的图像级分类器和一个用于区域建议网络裁剪的特征的实例级分类器。两个域分类器都是通过交叉熵损失来训练的。此外，它利用了一种称为共识正则化的技术由于我们没有观察到该技术的任何好处，我们报告了没有它的结果。由于我们自己实现了该方法，因此本文和原论文中的结果是不同的。我们将其报告的性能表示为DA-更快 *。4.1. 不同领域之间的适应我们首先展示了不同领域的实验，具体来说，从真实图像到艺术图像的适应。我们使用Pascal VOC数据集作为真正的源域[8]。该数据集包含20类图像及其边界框注释。根据普遍的评估协议，我们采用PASCALVOC 2007和2012训练和验证分割进行训练，产生约15k图像。目标域由Cli部分或Watercolor数据集组成[15]。剪贴画包含漫画图像，而水彩画有艺术图像。Clipart总共包含1K图像，与PASCAL VOC具有相同的20个类别。所有图像均用于训练（无标签）和测试。水彩包含6个类别与PASCAL和2K图像的共同之处。在训练过程中使用了1K个训练图像，我们的模型在1K个测试图像上进行评估。在这个实验中，我们使用ResNet101 [13]作为骨干网络。有关其他详细信息，请参阅我们的补充材料。结果在Clipart。如表1所示，我们提出的方法优于所有基线。仅通过将领域分类器的目标替换此外，基于上下文向量的正则化和局部对齐（C，L，6962(a) 拟定（MAP：36.4）（b）基线DC（MAP：25.6）（c）拟定（MAP：29.1）（d）基线DC（MAP：27.6）图4.通过两种不同模型获得的特征的可视化。蓝色：源代码示例，红色：目标示例。图（a）和（b）是不同领域（从pascal到clipart）之间的适应结果。对于图（a），绿线图像来自PASCAL VOC（来源）。带有橙色线条的图像来自剪贴画（目标）。我们的方法不严格匹配特征分布，而基线方法匹配。然而，我们的方法以较大的幅度优于基线，这证明了全局弱对齐的有效性。图（d）和（c）是相似领域之间的适应（从城市景观到雾城景观）。当域非常相似时，基线方法工作得很好，尽管我们的方法性能更好。表），进一步改进MAP。在源域PASCAL VOC上的性能如表2所示。与仅源模型的性能相比，BDC- Faster和DA-Fastster显著降低了其性能。这一事实表明，严格对齐不同域之间的特征分布可能会干扰目标检测的训练，而我们的方法不会降低源域的性能。我们进一步可视化了由两个模型获得的特征，我们提出的全局级适应模型和图中的BDC- Faster。第四条（a）和（b）款。由基线域分类器获得的目标特征与源域进行匹配（图1）。第四条（b）款）。另一方面，我们提出的方法（图。4（a）），一些特征与源特征对齐，但它们中的大多数与源特征分离。源图像通常聚焦于一个或两个对象，而目标图像通常包含多个图像。聚焦于单个对象的一些目标图像可能与源对准，如图所示。现有的许多图像分类方法的目标是紧密匹配的特征分布然而，这种可视化意味着这种分布匹配并不总是有助于域自适应对象检测。水彩画的结果根据表3，我们的方法优于基线方法。这方面有了很大的改进.通过局部对准的改进特别大，大约3%，因为目标图像具有特征性的因此，基于局部特征的域间隙的减小提高了性能。4.2. 相似域之间的适应在这个实验中，我们的目标是通过评估非常相似的领域之间的适应性来分析我们的方法。我们使用Cityscape [6]作为源域。的图像表3.从PASCAL VOC到WaterColor的AP （ % ）。 G 、I 、CTX、L的定义如下表1所示。方法G 我 CTX L目标域自行车鸟车猫狗prsn 地图源仅BDC-更快C68.8 46.8 37.2 32.7 21.368.6 48.3 47.2 26.5 21.7 60.544.645.5DA-更快C C75.2 40.648.0 31.5 20.646.0C66.4 53.7 43.837.9 31.949.8提出CCCCC71.3 52.0 46.6 36.2 29.267.382.3 55.946.5 32.735.5 66.750.453.3表4.从都市风景到雾中都市风景的适应性（%）。我们的方法的性能非常接近oracle，它是在标记的目标图像上训练的。方法G 我CTX L 总线 bcycleAP瞄准目标汽车自行车prsn域乘骑列车卡车地图Faster RCNN22.326.5 34.3 15.3 24.1 33.1 3.04.120.3BDC-更快C29.228.9 42.4 22.6 26.4 37.2 12.3 21.2 27.5DA-更快C C33.123.3 25.5 15.6 23.4 29.0 10.9 19.6 22.5DA-更快 *C C25.031.040.5 22.135.3 20.2 20.0 27.1 27.6C33.533.3 42.7 22.2 27.1 40.3 11.6 22.3 29.1提出CCC 34.338.032.231.236.2 23.7 27.541.8 20.7 26.639.337.65.419.724.420.527.929.5CCC 36.235.343.5 30.029.9 42.3 32.6 24.5 34.3Oracle50.036.2 49.7 34.7 33.2 45.9 37.4 35.6 40.3在数据集中，由车载摄像机捕获。作为目标域，我们使用FoggyCityscape数据集[34]。这些图像是使用深度信息从Cityscape渲染的，它模拟了天气条件的变化。与其他适应场景的重要区别在于源图像和目标图像最初是同一图像。通过添加雾噪声从源图像生成目标图像在这种自适应场景中，严格对齐特征分布应该是有效的，因为源图像和目标图像之间存在正确的匹配。两个数据集在训练集中都有2975张图像6963表5.从Sim10k到Cityscape数据集的适配结果（%）。在目标图像上评估平均精度。FL（γ= 3）* 表示在训练和测试期间将图像的短边缩放到1000的实验。P表示像素级对齐，无论我们在训练过程中是否使用cyclegan生成的图像†表示上下文向量被零填充且不用于输出时的性能。方法G我 CTXLPAP汽车Faster RCNNBDC-更快C34.631.8DA-更快CC34.2DA-更快 *CC38.9弱对齐CC35.8C36.4CC38.2（38.3）†建议（FL）CCCCCC40.141.5CCCC40.7采用不同参数的EFLFL（γ=3）FL（γ=3）*C CC CC c C38.742.347.7Oracle53.1和500张图片。我们在训练过程中使用了训练集，并在验证集上进行了评估。由于Cityscapes数据集没有边界框注释，因此我们将其实例掩码的最紧密矩形作为地面实况边界框。我们使用VGG16模型[37]作为骨干网络，遵循[5]。如表4所示，我们提出的方法比基线方法性能好得多。仅具有强局部比对的模型的MAP为27.9。结合强局部和弱全局对齐，34.3.域偏移是由雾噪声引起的，是一种局部水平偏移。因此，强有力的地方协调在很大程度上有助于改善。在这种自适应场景中，具有基线域分类器的方法比仅源模型执行得更好。这是因为目标图像具有完全相同的对象布局和数量/组合因此，不同结构域之间的强比对是有效的。图中的可视化特征。4显示了与PASCAL到Clipart数据集上的实验完全不同的特征。这两种方法的特征是匹配的。结果表明，我们提出的方法执行时，两个域是不相似的和相似的。4.3. 从合成图像到真实图像的调整我们评估我们的模型在从合成图像到真实图像的自适应中的性能作为合成域，我们使用Sim10k [16]。该数据集包含合成驾驶场景的图像，10，000个训练图像，这些图像是从计算机游戏 Grand Theft Auto（GTA）中收集的。我们采用了与上一节中使用的相同的架构根据[5]的协议，我们评估-汽车检测性能评估。作为一个真正的域，我们使用了Cityscape。所有的训练图像在训练期间用于两个域。根据Cityscape的验证分割评价平均精密度我们设定λ = 0。[5]中的一个[1]。12个。我们在补充材料中显示了改变λ值时的这两个域具有相似的布局，因为这两个域都是驾驶场景图像。但是，颜色和灯光明显不同。在这方面，这两个域比 Cityscape 和Foggycityscape更不同我们通过烧蚀一些组件对我们的方法进行了广泛的评估。此外，我们使用[5]中提出的实例级自适应来显示结果我们还展示了与CycleGAN [42]翻译的图像训练的模型相结合的比较和结果我们训练了Cycle-GAN来翻译不同领域我们是否使用了翻译后的图像由表5中P的列表示。详情见补充材料。此外，我们证明了我们的想法弱对齐可以实现与损失函数以外的焦点损失。由方程式2，我们设置f（p t）= e−ηpt，这是一个关于p t值的递减函数。我们称损失函数为指数焦点损失（EFL）。我们设η= 5。0的情况。结果总结于表5中。我们的方法始终比基线模型表现得更好比较 BDC-Faster （ 31.8 ）和我们的方法（36.4）的结果，弱特征分布对齐优于严格对齐。设γ= 3。0in Focal Loss显著改善演出此外，关于训练的模型通过EFL，我们可以观察到基线模型的改进结果表明，我们的弱全局对齐的想法是有效的，可以实现的功能以外的焦点损失。基于上下文向量的正则化和局部对齐进一步提高了性能。如表所示，当我们在测试阶段不使用上下文向量时，性能不会降低这意味着网络不使用向量进行预测，而与没有正则化的模型相比，性能有所改善。因此，上下文向量似乎有助于域分类器的正则化。我们看不到实例级自适应的积极效果（表5中的弱对齐）。实例级对齐利用区域建议网络裁剪的特征，但建议可能无法很好地定位目标区域中的对象，因此会影响模型的性能。4.4. 分析检测结果示例。我们在图中显示了检测结果的例子。五、即使当风格的图像在源和目标之间是不同的，我们的6964图5.上图：目标域上的检测结果示例。从左到右依次为Clipart、Watercolor、FoggyCityscape和Cityscape数据集。下图：使用Grad-Cam的领域证据可视化。证据由全局域分类器获得。图片显示了目标图像（顶部）和源图像（底部）上的结果。从左到右，输入图像，图像为目标证据域，图像为源证据域。特征提取器似乎专注于在有汽车的区域欺骗域分类器模型在这些情况下正确地定位对象。如Clipart的示例所示，当对象的外观相差很大时，检测结果不成功。此外，如在Watercolor的情况下所见，检测器倾向于向一个对象输出多个预测。在FoggyCityscape的例子中领域证据的可视化。为了分析特征提取器和域分类器的性能，我们使用图中的Grad-cam [ 36 ]可视化了全局级域分类器预测的证据五、我们使用Grad-cam来显示为什么领域分类器认为图像来自源或目标的证据（热图），用于从Sim 10 k到Cityscapes的适应。请参阅我们的补充材料的其他例子。对于目标图像，域分类器不将汽车视为目标的证据。同样，对于源图像，它也不会将汽车视为源的证据。这表明特征提取器似乎专注于汽车以欺骗域分类器，这意味着特征提取器学习部分对齐全局图像特征，特别是围绕汽车。5. 结论在这项工作中，我们提出了一种新的方法，检测器适应基于强局部对齐和弱全局对齐的对象检测器的无监督适应。我们的主要贡献是弱对齐模型，它将对抗性对齐损失集中在全局相似的图像此外，我们设计的强域对齐模型，只看局部的感受域的特征图。我们的方法优于其他现有的方法，在几个数据集的大利润率。通过大量的实验，验证了弱全局和强局部对齐的有效性。6. 确认这项工作得到了Honda，DARPA和NSF Award No.1535797 的支持，并得到了 JST CREST Grant No.JPMJCR 1403的部分支持。人数：1.0瓶：0.88摩托车：1.00人：0.99Cat：LPESP鸟：1.00鸟：0.91鸟：1.00鸟：1.00人人人车车车车车自行车自行车自行车车车车车车6965引用[1] S. 本-戴维布利泽，K。克拉默，A。库莱萨河Pereira和J.W.沃恩从不同领域学习的理论。Machine learning，79（1-2）：151-175，2010. 一、二[2] S. 本-戴维布利泽，K。Crammer，F.Pereira等人域适应的表示分析NIPS，2007年。一、二[3] H. Bilen和A.维达尔迪弱监督深度检测网络在CVPR，2016年。2[4] P. P. Busto和J.胆开集域自适应。InICCV，2017.2[5] Y.陈威Li，C. Sakaridis，D. Dai和L.范古尔用于野外目标检测的自适应快速r-cnn在CVPR，2018年。二三五七[6] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集在CVPR，2016年。五、六[7] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在CVPR中。二、五[8] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。IJCV，88（2）：303-338，2010. 二、五[9] Y. Ganin和V.Lempitsky 通过反向传播的无监督域自InICML，2014. 二、五[10] Y. Ganin，E.乌斯蒂诺娃Ajakan山口Germain，H.拉罗谢尔F.拉维奥莱特M Marchand和V。Lempitsky神经网络的领域对抗训练。JMLR，17（59）：11[11] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。2[12] K. 他，G. Gkioxari，P. Doll a'r和R. 娘娘腔。面具r-cnn。InICCV，2017. 5[13] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。5[14] J. Hoffman，E.Tzeng，T.帕克，J. -Y. Zhu、P.Isola，K.萨延科，A. A. Efros和T.达雷尔。Cycada：周期一致的对抗域适应。在ICML，2018。1[15] N.井上河Furuta，T. Yamasaki和K.相泽通过渐进域自适应进行跨域弱监督对象检测5[16] M.约翰逊-罗伯森角巴托河梅塔，S。N. 斯里达K. Rosaen和R.瓦苏德万矩阵中的驱动：虚拟世界能否取代人类为现实世界任务生成的注释？arXiv预印本arXiv：1610.01983，2016。五、七[17] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。1[18] T.- Y. Lin，P. 戈亚尔河格希克角He和P. 娃娃。密集目标检测的焦面损失。InICCV，2017. 3[19] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan，P. Doll a'r 和C. L. 齐特尼克Microsoftcoco：上下文中的通用对象。2014年，在ECCV。2[20] M.- Y. Liu，T. Breuel和J.考茨无监督图像到图像翻译网络。在NIPS，2017年。16966[21] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角，澳-地Y. Fu和A. C.伯格。Ssd：单发多盒探测器。在ECCV，2016年。2[22] M. 隆岛，澳-地Cao，J.Wang和M.I. 约旦. 使用深度自适应网络学习可转移特征。ICML，2015。2[23] M.朗，Z. Cao、J.Wang和M. I.约旦.条件对抗域适应。在NIPS，2018年。2[24] M.龙，H. Zhu，J.Wang和M. I.约旦.无监督域自适应残差传输网络。在NIPS，2016年。一、二[25] X.茅角，澳-地Li，H.谢河，巴西-地Y. Lau，Z.Wang 和 S. 史莫利。最小二乘生成对抗网络。InICCV，2017.4[26] A. 奥德纳角，澳-地Olah，和J。史伦斯条件图像合成与辅助分类器gans，2017。3[27] A. Paszke，S.格罗斯，S。钦塔拉湾Chanan、E.杨，Z.De Vito ， Z. Lin ， L. 德迈松湖 Antiga 和 A. Lererpytorch中的自动微分。2017. 5[28] J.雷德蒙，S.迪夫拉河，巴西-地Girshick和A.法哈迪。你只看一次：统一的实时物体检测。在CVPR，2016年。2[29] S. Ren ， K.赫利河 Girshick 和 J. 太阳 Faster r-cnn ：Towards real-time object detection with region proposalnetworks.2015年，在NIPS中。二、五[30] K.萨延科湾库利斯，M。Fritz和T.达雷尔。使视觉类别模型适应新领域。ECCV，2010年。一、二[31] K. 斋藤 Ushiku ， T. Harada 和 K. 萨恩科 Adversarialdropout regularization。在ICLR，2018年。1[32] K. Saito、K.渡边，Y.Ushiku和T.原田。无监督域自适应的最大分类器差异在CVPR，2018年。2[33] K.斋藤山本，Y. Ushiku和T.原田。开集域自适应反向传播。在ECCV，2018。2[34] C. Sakaridis，D.Dai和L.范古尔基于合成数据的语义模糊IJCV，2018年。五、六[35] S. Sankaranarayanan，Y.巴拉吉A.Jain，S.N. 林，R.切拉帕从合成数据中学习：用于语义分割的寻址域移位。在CVPR，2018年。二、三、四[36] R. R. 塞尔瓦拉朱 M. 科格斯韦尔A. 达斯R. 韦丹坦D. Parikh，D. Batra等人Grad-cam：通过基于梯度的定位从深度网络中获得视觉效果。InICCV，2017. 8[37] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。7[38] Y. Tang，J.Wang，B.Gao，E.德兰德河Gaizauskas，L.尘使用视觉和语义知识转移的大规模半监督对象检测在CVPR，2016年。2[39] E. Tzeng，J.Hoffman，K.Saenko和T.达雷尔。对抗性判别域自适应。在CVPR，2017年。一、二[40] E. Tzeng，J. Hoffman，N. Zhang，K. Saenko和T.达雷尔。深度域混淆：最大化域不变性。arXiv：1412.3474，2014年。一、二6967[41] J. Zhang，Z.张军，等.丁，W. Li，and P. Ogunbona.局部域适应的重要性加权对抗网。在CVPR，2018年。2[42] J. - Y. Zhu，T.帕克山口Isola和A.A. 埃夫罗

下载后可阅读完整内容，剩余1页未读，立即下载