面向多源域自适应目标检测的目标相关知识保留

60 浏览量更新于2023-10-25 收藏 12.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{wujiaxi,jiaxinchen,dhuang}@buaa.edu.cn, {hemz, yl.wang}@siat.ac.cn,{libo, mabingqi, wuwei}@senseauto.com, {wangyiru, ganweihao}@sensetime.com53010面向多源域自适应目标检测的目标相关知识保留0吴佳熙1,2,陈佳鑫2*,何梦哲3,王怡如4,李波4,马炳琦4,甘伟豪4,5,吴威4,5,王亚丽3,黄迪1,201 北京航空航天大学软件发展环境国家重点实验室，中国北京 2北京航空航天大学计算机学院，中国北京 3 中国科学院深圳先进技术研究院 4 商汤科技研究院 5上海人工智能实验室0摘要0域自适应目标检测（DAOD）是缓解检测器在新场景中性能下降的一种有希望的方法。尽管在单源域自适应方面已经做出了很大努力，但多源域的更广义任务仍未得到很好的探索，因为在它们的组合过程中知识会降解。为了解决这个问题，我们提出了一种新颖的方法，即目标相关知识保留（TRKP），用于无监督的多源DAOD。具体而言，TRKP采用了教师-学生框架，其中多头教师网络用于从标记的源域中提取知识，并指导学生网络在未标记的目标域中学习检测器。教师网络还配备了一个对抗性多源解缠（AMSD）模块，以保留源域特定的知识并同时进行跨域对齐。此外，还开发了一种整体目标相关挖掘（HTRM）方案，根据源-目标相关性重新加权源图像。通过这种方式，教师网络被强制捕捉目标相关知识，从而有利于在目标域中指导目标检测时减少域漂移。在各种广泛使用的基准测试上进行了大量实验，报告了新的最先进得分，突出了其有效性。01. 引言0在过去的十年中，卷积神经网络[11, 26,037 ]（CNN）在视觉目标检测[18, 20,24]方面取得了巨大进展和显著改进。0* 通讯作者。0不幸的是，当应用于未知场景时，良好构建的检测器会出现显著的性能下降，这是由于域漂移引起的[39,47]。由于注释新收集的数据非常昂贵和耗时，域自适应目标检测（DAOD）[3, 5,47]受到越来越多的关注。它起源于无监督域自适应（UDA）[1, 6,30]，在只有未标记图像用于分类的情况下，证明了从已学习的域（称为源域）向新颖域（称为目标域）转移知识的有效性。与UDA相比，DAOD更具挑战性，因为它需要在存在复杂的前景和背景变化的图像中同时定位和分类不同对象的所有实例，并生成域不变表示以减少这种差异。在文献中已经对DAOD进行了许多努力，方法主要在对抗特征对齐[15,25, 39, 47]或半监督学习[2, 5,43]的范式中解决它。前者通过对抗性判别器通过梯度反转层混淆源域和目标域的特征进行直接对齐[25,47]，并且可以在图像级别[3, 15]、实例级别[3,25]或/和类别级别[39,47]上实现。后者根据在源域训练的模型预测伪标签，并将其作为指导应用于目标域的方法[2,5]，并且可以通过强制模型一致性来弥合域差距。这两种类型的方法在单个源和目标对的DAOD中显示出有希望的结果。多源域自适应（MSDA）被认为是UDA中更实际的场景，因为它假设有多种源可用于更好地适应目标域[12, 23,45]。除了源域和目标域之间的差距[12, 40,44]之外，MSDA还处理不同源之间的差异以避免负面影响。<<53020目标域 �0RPN0RoI Align0特征提取器0� � 的监督0� � 的监督0来自 � � 的知识0来自 � � 的知识0保留的与 �相关的知识0教师检测器全局目标相关挖掘0来自 � � ， � � ， �的目标实例0� � 的预测0� � 的预测0对抗解缠0多源知识适应0目标相关KNN实例0学生检测器0特征提取器0RoI Head � �0源域 � �0源域 � �0< K ′, 0, w Sk i ≤ K ′, (4)0其中γ和β控制α S ki的大小。从公式（4）可以看出，如果源图像I S ki与目标密切相关，则α S k i变大，否则变为0。基于{α S ki}，我们可以重新加权来自多个源的图像的重要性，如图1所示，并将其应用于训练与目标相关的师傅检测器，通过将公式（2）中的损失函数重新定义为以下形式：0K �0i =1 α S k i L H S k i. (5)0根据公式（5），TeDet（∙）明确地被强制从与目标相关的样本中学习，从而抑制了与目标无关的信息的干扰。04. 实验0在本节中，我们按照[41]中的设置评估TRKP的性能，包括第4.1节中的跨摄像头自适应和第4.2节中的跨时间自适应。此外，我们提出了一个新的设置，其中包含了更多具有混合域差距的源域，在第4.3节中进行了介绍。我们还进行了消融研究，如第4.4节中所总结的实现细节。与[41, 47]类似，我们采用Faster R-CNN [24]作为基本检测器，使用RoI Align[10]和VGG16[26]骨干网络进行公平比较。所有输入图像都被调整大小，使得较短的边长为600像素。至于师生学习框架，我们采用了与UBT[21]相同的设置，它是半监督目标检测的代表。具体来说，伪标签的置信度阈值被设置为0.7。EMA中的平滑系数设置为0.9999。对于AMSD，超参数λ和µ分别固定为0.2和0.01。对于HTRM，最近邻居的数量K'设置为5。方程（4）中的缩放因子γ和β默认固定为1.0和0.5。学习率为0.01，批量大小为16。我们使用20个epochs进行训练，其中前10个epochs单独训练师傅检测器，之后进行HTRM来重新加权源图像，然后训练StDet（∙）进行域自适应。所有实验都在8个NVIDIA 1080TiGPU上进行。比较方法。我们将TRKP与以下最先进的方法进行比较：（1）仅源域方法，将基本的Faster R-CNN[24]检测器应用于目标域而不进行自适应；（2）单源和源组合方法，包括SW [25]，GPA[39]，UMT [5]和UBT[21]，它们使用单源假设进行DAOD；（3）MSDA方法，包括MDAN [44]，M 3SDA和DMSN[41]。我们还报告了由完全标记的目标图像训练的Oracle的性能，作为估计的上限。0设置源方法 AP0仅源域0K 28.60C+K 43.20单源 C0SW [25] 45.50CRDA [38] 46.50UMT [5] 47.50UBT [21]（基准）48.40单源K0SW [25] 29.60CRDA [38] 30.80UMT [5] 35.40UBT [21]（基准）33.80源组合 C+K0SW [25] 41.90CRDA [38] 43.60UMT [5] 47.00UBT [21]（基准）47.60MSDA C+K0M 3 SDA [23] 44.10DMSN [41] 49.20HTRM（我们的方法）52.90AMSD（我们的方法）56.80TRKP（我们的方法）58.40Oracle BDD100K FRCNN [24] 60.20表1.跨摄像头自适应结果。'C'和'K'分别表示Cityscapes和KITTI，它们构成源域。BDD100K是目标域。报告了汽车的AP（%）。0λ和µ的超参数分别固定为0.2和0.01。对于HTRM，最近邻居的数量K'设置为5。方程（4）中的缩放因子γ和β默认固定为1.0和0.5。学习率为0.01，批量大小为16。我们使用20个epochs进行训练，其中前10个epochs单独训练师傅检测器，之后进行HTRM来重新加权源图像，然后训练StDet（∙）进行域自适应。所有实验都在8个NVIDIA 1080TiGPU上进行。比较方法。我们将TRKP与以下最先进的方法进行比较：（1）仅源域方法，将基本的Faster R-CNN[24]检测器应用于目标域而不进行自适应；（2）单源和源组合方法，包括SW [25]，GPA [39]，UMT [5]和UBT[21]，它们使用单源假设进行DAOD；（3）MSDA方法，包括MDAN [44]，M 3 SDA和DMSN[41]。我们还报告了由完全标记的目标图像训练的Oracle的性能，作为估计的上限。04.1. 跨摄像机适应0设置。由于不同摄像机的设置不同，数据采集过程中的摄像机参数、视点和场景的差异导致了域偏移问题。为了解决这个问题，我们在跨摄像机适应的设置下评估我们的方法。按照[ 41 ]的方法，我们选择Cityscapes [ 4 ]和KITTI [ 7]作为源域。DFRCNN [24]30.4N25.0D+N28.9SW [25]31.4GPA [39]31.8CRDA [38]31.2UMT [5]33.8SW [25]26.9GPA [39]27.6CRDA [38]28.4UMT [5]21.6SW [25]29.9GPA [39]30.6CRDA [38]30.2UMT [5]33.5MSDAD+NMDAN [44]27.6M3SDA [23]26.5DMSN [41]35.0OracleBDD100KFRCNN [24]26.653070前所述，我们将Cityscapes和BDD100K [ 42]作为源域，同时只使用汽车类别的图像进行训练和评估。Cityscapes [ 4 ]是用于语义城市场景理解的基准测试，KITTI [7]是用于自动驾驶的广泛使用的数据集，分别包含2,975张和7,481张注释的训练图像。BDD100K是一个用于自动驾驶的大规模数据集，只采用了白天子集，包括36,728张无标签图像用于训练和5,258张验证图像用于评估。采用广泛使用的平均精度(AP)作为评估指标。结果。如表1所示，先前的DAOD方法在训练过程中简单地将Cityscapes和KITTI组合在一起(参见“源组合”行)，通常相对于仅采用Cityscapes(参见“单一源”行)的方法报告了更差的性能。原因在于从Cityscapes传递到BDD100K的知识可能受到Cityscapes和KITTI之间的域偏移的干扰，在适应过程中导致严重的知识退化。尽管存在多个源的数据量增加，但大多数现有的基于MSDA的方法只能获得微小的增益，甚至表现更差，与源组合方法相比。相比之下，我们的方法大幅提高了准确性。例如，应用TRKP的AP比第二好的方法DMSN高出9.2%。值得注意的是，我们的方法基于UBT基线。将提出的AMSD和HTRM模块分别应用于UBT时，增益分别为5.3%和9.2%，清楚地显示了它们的有效性。通过结合AMSD和HTRM，TRKP实现了58.4%的AP，达到了新的最先进水平，将与Oracle(完全监督)之间的差距缩小到1.8%。04.2. 跨时间适应0设置。在实际应用中，检测器通常在不同的时间部署，其中照明和场景的变化可能非常大。为了评估我们的方法对这种因素的性能，我们遵循[ 41]中的设置，将在白天和夜晚学习到的知识适应到黎明或黄昏等特殊情况下。具体而言，BDD100K [ 42]按时间分为三个子集，包括白天、夜晚和黎明/黄昏。白天的36,728张图像和夜晚的27,971张图像构成了两个源域。通过排除白天和夜晚的图像收集的图像相对较少，其中5,027张无标签图像用于训练，778张验证图像用于作为目标域的黎明/黄昏进行评估。报告了10个类别的平均精度(mAP)进行比较。结果。交叉时间适应的结果总结在表2中，由于空间限制，更详细的比较在补充材料中提供。如0设置源方法 mAP0仅源域0单一源 D0UBT [ 21 ] (基线) 33.20单一源 N0UBT [ 21 ] (基线) 24.20源组合 D+N0UBT [ 21 ] (基线) 33.10HTRM (我们的) 35.50AMSD (我们的) 38.00TRKP (我们的) 39.80表2.跨时间适应结果。'D'和'N'分别表示BDD100K的白天和夜晚子集。报告了BDD100K黎明/黄昏上10个类别的mAP(%)。0如表2所示，以前的DAOD方法在使用白天和夜晚子集的图像时无法提高性能，因为两个域之间的巨大差异干扰了性能。通过多源解缠，我们的TRKP大幅提高了性能，例如相对于基于DMSN的第二好的性能提高了4.8%。HTRM和AMSD模块也取得了显著的性能提升。具体而言，AMSD解开了多个源并防止它们之间的干扰，从而将UBT基线提高了4.9%。HTRM在全局级别进行重新加权，比采用动态加权策略的DMSN [ 41]获得更好的性能。此外，值得注意的是，TRKP显著超过了Oracle，并将检测准确性提高到39.8%的mAP。Oracle的相对较差的性能是由于目标域中训练图像不足，而我们显著的性能提升显示了在这种情况下通过目标相关知识适应进行转移学习的有效性。04.3. 扩展到混合域适应0设置。由于实际中存在多个导致域漂移的因素，我们扩展了现有的跨摄像头/时间适应设置，只使用两个源域，并提出了一种考虑混合域差距的更复杂情况的新设置。具体而言，基于[ 38 ]中的场景适应方案，选择了OracleBDD100KFRCNN [24]38.653080设置源方法 mAP0仅源域 C FRCNN [ 24 ] 23.4 单源 C UBT [ 21 ] (基线) 29.70仅源域 C+M FRCNN [ 24 ] 29.7 源组合 C+M UBT [ 21 ] (基线)18.5 MSDA C+M TRKP (我们的) 35.30仅源域 C+M+S FRCNN [ 24 ] 30.9 源组合 C+M+S UBT [ 21 ](基线) 25.1 MSDA C+M+S TRKP (我们的) 37.10表3. 混合领域适应结果。'C'/'M'/'S'表示Cityscapes/MSCOCO/Synscapes，分别。0Cityscapes [ 4 ] 作为源，BDD100K [ 42 ]作为目标，我们使用MS COCO [ 19 ] 和Synscapes [ 36 ]作为两个额外的源。MSCOCO包含与街景不同的常见场景，Synscapes是一个合成数据集，两者都扩大了数据规模并引入了更多种类的域差异和类别转移。使用Cityscapes/MSCOCO/Synscapes的2,975/71,749/25,000张图像进行训练。来自BDD100K白天子集的36,728张图像用作无标签目标数据。来自BDD100K白天子集的5,258张图像用于评估。报告了7个类别的mAP。结果。如表3所总结的，通过采用更多的源，仅源域检测器，即FRCNN的性能得到了持续的改进。然而，源组合方法，即UBT，由于混合域差距引起的严重负迁移而表现不佳。相反，TRKP取得了显著的性能提升，例如使用两个源时mAP提高了5.6%，使用三个源时mAP提高了6.2%，证明了其在应用于混合源域时的有效性。04.4. 消融研究0我们在跨时间适应设置中详细分析了TRKP的模块和超参数。关于解缠。如表4所示，为每个源域训练一个单独的检测器的性能要比

下载后可阅读完整内容，剩余1页未读，立即下载