通过目标感知的双分支蒸馏实现跨域目标检测

145 浏览量更新于2023-10-25 收藏 33.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{hemz,yl.wang,yu.qiao}@siat.ac.cn, wujiaxi@buaa.edu.cn{lihanqing,libo,wuwei}@senseauto.com, {wangyiru,ganweihao}@sensetime.com95700通过目标感知的双分支蒸馏进行跨域目标检测0何孟哲 1 , 3 , 王亚丽 � 1 , 6 , 吴佳熙 5 , 王怡茹 2 ,0李汉清 2 , 李波 2 , 甘伟豪 2 , 4 , 吴伟 2 , 4 , 乔宇 † 1 , 401 深圳高级技术研究院计算机视觉与模式识别重点实验室，中国科学院02 商汤研究院 3 中国科学院大学 4 上海人工智能实验室，中国上海05 北京航空航天大学 6 深圳人工智能与机器人研究院0摘要0跨域目标检测是一项现实且具有挑战性的任务。由于数据分布的大幅偏移和目标域中缺乏实例级别的注释，它在性能上会受到降低。现有的方法主要集中在这两个困难之一，尽管在跨域目标检测中它们是紧密耦合的。为了解决这个问题，我们提出了一种新颖的目标感知的双分支蒸馏（TDD）框架。通过在统一的师生学习方案中集成源域和目标域的检测分支，它可以有效地减少域偏移并生成可靠的监督。特别地，我们首先在两个域之间引入了一个独特的目标提议感知器。它可以通过利用迭代交叉注意力中的目标提议上下文，自适应地增强源检测器来感知目标图像中的物体。然后，我们设计了一种简洁的双分支自蒸馏策略来进行模型训练，它可以通过两个分支中的自蒸馏逐步整合来自不同域的互补物体知识。最后，我们在跨域目标检测中进行了大量实验。结果表明，我们的TDD在所有基准测试中明显优于现有方法。代码和模型将在之后发布。01. 引言0在先进的深度神经网络的帮助下，目标检测取得了显著的成功[2, 12-14, 26, 28-31,36]。然而，在现实应用中，如自动驾驶和移动机器人等领域，目标检测仍面临挑战，因为由于天气、光照、物体外观等各种条件的不同，数据的变异性通常很大。因此，0� 相等贡献. † 通讯作者.0UBT [29] GPA [51] 我们的方法0图1.在不同方法的恶劣天气条件适应实验中的检测结果的两个典型示例。半监督方法UBT [27]在雾中缺乏对物体的感知。基于对抗的GPA[49]试图利用雾中的物体，但会产生一些错误的预测，例如第一行的摩托车和第二行的人。我们的方法可以更准确地预测边界框和类别。0跨域目标检测近年来引起了广泛关注。一般来说，这个问题有两个困难。首先，目标检测更容易受到域偏移的影响。主要原因是目标检测侧重于实例级别的预测，对各种图像风格和内容中的目标变化更为敏感。其次，获取目标注释更加昂贵和劳动密集，导致新域中具有区分性的目标监督的稀缺性。这两个困难都不可避免地会降低目标域中的检测性能。最近，已经提出了几种用于跨域目标检测的方法[5, 24, 32, 34,49]。不幸的是，其中大多数方法都集中在域偏移或标签缺失的一个方面，这限制了它们在跨域目标检测中的能力。例如，领域自适应方法[5, 34,49]提出通过对抗训练来减少域偏移。除了模型优化不稳定外，在这种对抗设计中，网络的判别能力也受到限制。如图1所示，基于对抗的GPA[49]倾向于在区域上产生错误的预测。95710其中目标域特征显著。或者，基于自训练的方法[1, 16, 22,23,55]从半监督学习的角度研究该问题，并提出通过标签蒸馏生成伪目标监督。这样，许多先进的半监督方法可以应用于这个任务。然而，这些方法通常无法处理复杂的域偏移。在图1中，对于像UBT[27]这样的半监督方法来说，很难意识到目标域中的对象。因此，这两种解决方案在跨域目标检测中都不令人满意。基于这些讨论，我们提出了一种新颖的目标感知双分支蒸馏（TDD）框架，通过目标感知和知识蒸馏在简洁的双分支检测网络中有效地解决域偏移和标签不足的问题。具体而言，我们的网络由一个源自适应分支和一个类似目标的分支组成，两者都经过精心设计，以减少域偏移。对于源自适应分支，我们引入了一个独特的目标提议感知器，它利用迭代的交叉注意力来发现每个提议的目标域上下文。因此，它可以自适应地增强源分支以感知目标域图像中的对象。对于类似目标的分支，我们将源图像转化为类似目标的图像。通过使用这些带标签的图像训练这个分支，我们可以可靠地学习目标域的有区别的对象知识。最后，我们设计了一个简洁的双分支自蒸馏策略来进行网络训练。它是一个定制的均值教师风格的框架，可以从源自适应分支和类似目标分支生成目标图像的伪标注。通过三个精心设计的训练步骤，即联合域预训练、跨域蒸馏和双教师精炼，我们可以逐步整合来自不同域的互补目标知识，提升跨域目标检测性能。总之，本文的贡献如下。首先，我们开发了一种新颖的目标感知双分支蒸馏（TDD）框架，利用两个不同的检测分支来统一解决域偏移和标签不足的问题。其次，我们引入了一个智能的目标提议感知器模块，通过提议上下文上的交叉注意力式变换器，可以自适应地引导源检测分支感知目标域对象。最后，我们在一些广泛使用的基准测试中进行了大量实验，结果表明我们的TDD方法在性能上明显优于现有方法。02. 相关工作0目标检测。目标检测是计算机视觉中的基本任务之一。由于深度神经网络具有强大的表示能力，目标检测得到了提升。0近年来，目标检测取得了令人期待的性能。以前的工作可以大致分为两阶段[2, 12-14, 31]和一阶段[28-30,36]检测器。最近，一些无锚[10, 40, 51, 53]和变换器[3, 45,58]的基于方法在检测任务中也表现出色。跨域目标检测。[5]首次提出了图像和实例级域分类器，以对特征进行对抗性对齐。在此之后，[34]分别对局部特征和全局特征实施强弱对齐策略。[15]和[47]采用多级域特征对齐。[48]利用多标签分类模型的图像级和实例级预测之间的范畴一致性。[17]提出了一种中心感知特征对齐方法，允许鉴别器关注来自目标区域的特征。其他一些工作[16, 24, 32, 38,57]在对抗学习阶段添加了额外的约束。[54,56]强调了处理前景和背景特征的不同策略。另一种主流方法[1, 16, 22, 23,55]致力于解决目标域中不准确标签的问题。[22]使用原始标记数据和目标域中经过改进的机器生成的注释重新训练目标检测器。[1]从半监督学习的角度研究该问题，并将目标关系整合到教师和学生模块之间的一致性成本度量中。[9]提出了一种跨域蒸馏方法，利用源样式和目标样式图像。它使用软标签和实例选择来修复均值教师中的模型偏差。与[9]不同，我们的方法提出了一个双分支框架，其中包含一个跨域感知器，用于教师-学生相互学习。半监督目标检测。半监督目标检测试图解决训练集中只有部分注释的问题。在这种设置下，[20]提出了一种基于一致性的方法，强制输入图像和其翻转版本之间的预测一致性。[37]使用少量标记数据预训练检测器，并在未标记数据上生成伪标签来微调预训练的检测器。[27]提出使用强和弱数据增强来改进均值教师方法，并通过EMA训练获得更准确的伪标签。由于相似的数据设置，这些方法可以很容易地应用于跨域目标检测问题。但是，它们没有考虑到域差异，这不可避免地限制了它们的检测性能。03. 提出的方法03.1. 概述0如图2所示，我们提出了一种新颖的目标感知双分支蒸馏框架（TDD）。Shared Weights95720RPN ROI0HEAD0真值0RPN ROI0HEAD0自蒸馏0HEAD RPN ROI 自蒸馏0HEAD RPN ROI 真值0源0目标0目标样式0风格0转换0目标样式（TL）分支0FC FC0FC FC0目标提议0感知器0双分支监督提议提取器0图2.目标感知双分支蒸馏框架的概述。为了简化描述，ROI指的是获取每个图像的提议特征的操作。首先，将源域图像转换为目标样式域。将三个域的所有图像输入到共享的提议提取器中，以获取提议和提议特征。然后，使用源图像和目标样式图像的提议特征来训练相应的分支，并进行地面真值监督。此外，将真实目标域图像的提议特征同时输入到两个分支中，以从源域和目标样式域学习目标知识。由于目标域的图像没有注释，模型通过自蒸馏进行优化。0在跨域目标检测任务中同时解决领域偏移和标签不足的问题。首先，我们从输入图像的角度引入了一个风格转换模块。它用于将源图像转换为接近目标域的风格。在这种情况下，我们可以通过这种接近目标域的目标样式来弥合领域差距。此外，由于目标样式图像继承了相应源图像的标签注释，它们可以作为目标样式域中的额外对象监督。在本文中，我们主要使用一种简洁有效的傅里叶变换方法作为这个模块。其次，我们从模型架构的角度设计了一种新颖的双分支检测网络。通过这种设计，我们可以有效地从不同领域中提取互补的目标知识，以提升目标图像上的目标检测效果。基本上，我们的网络由一个共享的提议提取器和两个独立的检测分支组成。前者允许我们构建所有图像的领域不变特征空间，以实现领域泛化，而后者保留每个图像的领域特定目标特征，以实现领域区分。具体而言，两个检测分支分别是源自适应（SA）分支和目标样式（TL）分支。我们将源图像的提议输入用于训练SA分支，而将目标样式图像的提议输入用于训练TL分支。此外，一个真实目标图像的提议被同时送入两个分支，以从源域和目标样式域学习目标知识。然而，源域可能与目标域显著不同。在这种情况下，在没有任何面向目标的指导的情况下，目标图像的提议在SA分支中无法准确检测。为了解决这个问题，我们设计了一种新颖的目标提议感知器。受[19]中感知器的启发，它可以巧妙地使用TL分支的上下文提议作为指导，有效地引导SA分支感知目标域中的目标提议。我们将在3.2中详细解释该模块的细节。最后，我们从监督的角度引入了一种简洁的双分支自蒸馏方法。如前所述，所有图像在目标域中都没有任何注释。因此，在该域中生成可靠的监督是至关重要的。由于我们的双分支网络，我们可以从合作的SA和TL分支中构建每个目标图像的有区分性的伪标签。为了有效利用这些伪标签，我们的自蒸馏基于师生相互学习，可以在训练过程中动态调整教师，逐步提升我们的两个分支对目标域的监督。我们将在3.3中详细解释这些细节。0使用两个分支中提议特征之间的迭代交叉注意力。在这种情况下，我们利用TL分支的上下文提议作为指导，可以有效地引导SA分支感知目标域中的目标提议。我们将在3.2中解释该模块的细节。最后，我们从监督的角度引入了一种简洁的双分支自蒸馏方法。如前所述，所有图像在目标域中都没有任何注释。因此，在该域中生成可靠的监督是至关重要的。由于我们的双分支网络，我们可以从合作的SA和TL分支中构建每个目标图像的有区分性的伪标签。为了有效利用这些伪标签，我们的自蒸馏基于师生相互学习，可以在训练过程中动态调整教师，逐步提升我们的两个分支对目标域的监督。我们将在3.3中解释这些细节。03.2. 目标提案感知器0正如我们在TDD框架中讨论的那样，我们分别将每个目标域图像的提案特征输入到SA和TL分支中，以从两个域中学习目标知识。然而，由于源域和真实目标域之间存在较大的偏移，SA分支不擅长利用这些特征中的目标。为了引导SA分支发现目标域中的目标，我们提出了一种新颖的目标提案感知器，它在SA和TL分支之间逐步利用TL分支中的目标上下文来增强SA分支中的提案特征。需要注意的是，我们从[19]中继承了Perceiver的名称，因为我们的动机也是模仿人类和其他动物从多个来源接收数据并无缝集成。但与通用的Perceiver不同HEAD𝐌𝐇𝐏𝐂𝐀FCMHPCAFCRPNROIHEADFCFCRPNROITarget Image𝑸-𝑲𝑷𝒐𝒔𝒊𝒕𝒊𝒐𝒏 𝑬𝒎𝒃𝒆𝒅𝒅𝒊𝒏𝒈𝑼𝑽𝑨𝑾-𝐺𝑯95730目标提案感知器0提案特征0（SA分支）0提案特征0（TL分支）0提案框0目标0感知到的0提案特征0（SA分支）0多0多头提案交叉注意力（MHPCA0L注意力头0图3.我们目标提案感知器的结构。SA和TL之间的交叉注意力用于帮助源分支感知目标域中的目标。0与[19]的架构不同，我们的目标提案感知器是专门为跨域目标检测而设计的，通过迭代地使用Transformer风格的交叉注意力来减少实例级别的域偏移。如图3所示，我们将目标域图像Xt输入到提案提取器中，生成其提案特征Pt。随后，我们将这些提案特征分别放入SA和TL分支中，目标提案感知器利用交叉注意力来处理它们。0ΦSA = FSA(Pt)，（1）0ΦTL = FTL(Pt)，（2）0ΨSA = MHPCA(ΦSA, ΦTL)。（3）0首先，为了从SA和TL分支中提取目标知识，我们使用全连接层FSA(.)和FTL(.)将Pt编码为源特征ΦSA和类似目标特征ΦTL（参见公式（1）-（2））。其次，我们引入了一种新颖的多头提案交叉注意力（MHPCA）（参见公式（3））来处理ΦSA和ΦTL之间的关系。这使得我们能够利用类似目标的提案特征ΦTL作为上下文指导，增强源提案特征ΦSA以感知目标在目标图像中的存在。提案交叉注意力。具体而言，我们的MHPCA是一种简洁的Transformer风格，具有查询-键-值的结构。在每个交叉注意力头中，我们使用全连接层将ΦSA编码为查询，将ΦTL编码为键和值。键和查询之间的相似性用于发现ΦSA和ΦTL之间的亲和性。然后，我们使用这种亲和性作为指导，将类似目标的特征V(ΦTL)作为跨域上下文聚合到SA分支中。0HTL = W(Q(ΦSA), K(ΦTL))∙V(ΦTL)，（4）0其中，查询（Query）、键（Key）和值（Value）分别是Q(ΦSA)、K(ΦTL)和V(ΦTL)。亲和函数为W。通常，在Transformer中使用缩放的点积作为W，即Ai,j =Qi(ΦSA)∙K�j(ΦTL)/σ，其中σ是查询特征向量维度的平方根作为缩放参数。然而，我们考虑的是目标检测问题，空间位置信息可能对描述提案之间的相似性很重要。在本文中，我们使用[18]中的几何权重来描述任意两个提案框之间的位置相似性。我们使用这个几何权重U来增强特征相似性A，并通过加权的softmax公式（即W(Q(ΦSA), K(ΦTL)) =W）来描述提案的亲和性。0W i,j = U i,j ∙ exp( A i,j ) / Σ k =1 U i,k ∙ exp(A i,k )，(5)0其中 W i,j 是SA分支中的第 i 个提议和TL分支中的第 j个提议之间的关联得分。迭代的MHPCA。在从每个交叉注意力头中获得类似目标上下文 H T L 后，我们使用全连接层G ( . ) 来总结所有这些来自 L个注意力头的上下文，构建MHPCA，表示为 Ψ SA = Φ SA+ G ([ H (1) T L , ..., H ( L ) T L])。在这种情况下，我们将源提议特征 Φ SA增强为目标感知的特征 ΨSA，这使得SA分支能够意识到目标图像中相关的对象上下文。此外，我们以迭代的方式执行MHPCA，通过这种方式，我们的目标提议感知器可以逐步利用TL分支中的类似目标提议上下文来提升SA分支的学习能力。通常，在FasterRCNN中有两个全连接层来编码提议特征。因此，在我们的设计中，我们使用MHPCA进行两次迭代，如图3所示。03.3. 双分支自我蒸馏0在介绍了我们的网络之后，我们解释了如何训练它进行跨领域目标检测。如前所述，目标域中的图像没有标签。因此，生成这些图像的可靠伪标注对于有效训练至关重要。为了实现这个目标，我们设计了一个通用的双分支自我蒸馏方法，可以从SA和TL分支生成伪标签，通过自我训练来协同提升我们的检测网络。具体而言，它基于教师-学生相互学习的一般过程[27,39]，但对于跨领域目标检测进行了精心设计。如图4所示，它包括三个关键阶段，即联合域预训练、跨领域蒸馏和双教师细化。联合域预训练。这个阶段是为了生成双分支网络的可靠初始化。如前所述，类似目标的图像具有与源图像相同的注释。因此，我们通过在源域和类似目标域的标记图像上进行多任务学习来联合预训练我们的双分支网络。具体而言，LCDD = L(T )RP N + L(T )SA + L(T )T L .(7)Θteacher ← αΘteacher + (1 − α)Θstudent(8)95740图4.我们的双分支自我蒸馏模型的整个训练过程。首先，在联合域预训练阶段，我们通过在源域和类似目标域的标记图像上进行多任务学习来联合预训练我们的双分支网络。其次，在跨领域蒸馏阶段，我们将目标域图像输入到固定和经过良好训练的教师中，教师可以从SA和TL分支生成伪对象注释。最后，为了生成更稳定的伪标注，我们通过指数移动平均（EMA）逐渐从学生中细化教师。0这个阶段的训练损失由三个项组成。0L JDP = L ( S + T L ) RP N + L ( S ) SA + L ( T L )T L 。(6)0首先，RPN在所有领域中共享以生成领域不变特征。我们使用源数据和类似目标数据来训练该模块，即 L ( S + T L ) RPN = L RP N ( X s , Y s ) + L RP N ( X tl , Y tl )，其中RPN损失包含FasterRCNN中的RPN分类和回归损失[31]。然后，使用不同的检测分支来学习不同的领域特定目标知识。因此，我们分别使用源数据和类似目标数据来训练SA和TL分支，即 L ( S ) SA= L SA ( X s , Y s ) 和 L ( T L ) T L = L T L ( X tl , Y tl )，其中每个分支损失包含FasterRCNN中的ROI分类和回归损失。跨领域蒸馏。在联合域预训练之后，我们利用良好初始化的网络生成目标域未标记图像的伪标注。在这种情况下，我们可以在没有目标域真实标签的情况下进一步调整我们的网络。如图4所示，这个阶段是一个简洁的自我蒸馏过程，其中教师和学生都基于双分支网络。具体而言，我们将目标域图像输入到固定和经过良好训练的教师中，教师可以从SA和TL分支生成伪对象注释。我们使用NMS来去除重复的边界框，然后设置一个阈值来获取该目标图像在每个分支中的置信边界框预测作为对象注释。随后，我们还将该目标图像输入到可学习的学生中，并通过教师的伪标注来训练学生。0由于伪标签ˆYtSA和ˆYtTL来自SA和TL分支，RPN损失包含两个项L(T)RPN = L RPN(Xt, ˆYtSA) + L RPN(Xt,ˆYtTL)。此外，SA和TL分支还使用目标域图像的伪标签进行训练，即L(T)SA = LSA(Xt, ˆYtSA)和L(T)TL = LTL(Xt,ˆYtTL)。此外，增加学生的多样性以便之后细化教师是很重要的。如[27]所建议的，对于每个目标图像，我们使用其强数据增强作为学生的输入来预测目标框，同时使用其弱数据增强作为教师的输入来提供可靠的伪标注。最后，在这个阶段，我们还使用公式(6)使用源域和类似目标域的图像来训练学生网络，以减少两个检测分支中的学习困难。双教师细化。为了生成更稳定的伪标注，我们通过指数移动平均(EMA)从学生逐渐细化教师。0其中Θ teacher 和Θ student是教师和学生模型中的可学习参数。注意，我们以迭代的方式进行蒸馏和细化，通过相互学习可以提升跨域目标检测，即教师生成伪标签来训练学生，学生将所学内容传递给教师进行更新。最后，我们解释了如何在此过程中训练目标提议接收器。我们只在最后两个阶段中训练它。在跨域蒸馏阶段，我们使用预训练网络作为教师，使用具有随机初始化的目标提议接收器的预训练网络作为学生。在这个阶段的一定数量的训练迭代之后，我们可以获得训练良好的目标提议接收器。随后，在细化阶段中，我们从学生更新教师。95750整个学生网络的所有模块都是完全训练的。从那时起，蒸馏和细化可以迭代地进行，没有任何困难。此外，TPR仅在训练阶段用于指导SA分支。通过双分支框架，在推理过程中，我们只使用SA分支的教师来获取检测结果，因为它已经被学生和TL分支很好地细化了。04. 实验0在本节中，我们在具有明显领域偏移的流行跨域目标检测基准上进行实验，包括恶劣天气条件适应、合成到真实适应和跨摄像头适应。04.1. 实现细节0我们采用在ImageNet上预训练的VGG16和Res50作为主干网络，使用FasterR-CNN进行目标检测。每个输入图像的较短边被调整为600像素，采用ROI对齐的FasterRCNN实现方法。网络使用SGD优化器进行训练，权重衰减为0.0005，动量为0.9。所有实验的学习率和最大训练迭代次数均设置为0.01和25000，其中联合域预训练阶段进行9000次迭代，跨域蒸馏和双教师细化阶段进行16000次迭代。我们使用Focal-loss作为分类损失函数，并在整个训练阶段使用强弱数据增强。对于我们的提议交叉注意力，我们设置注意力头数为L=16。提议特征通过三个输出维度为1024的全连接层进行编码为Key-Query-Value形式。我们将傅里叶变换模块的频率参数β设置为0.1。获取目标图像的伪标注的阈值设置为0.7。在双教师细化阶段，我们将EMA比率α设置为0.9996以更新教师模型。在实验中，我们使用8个NVIDIAGeForce 1080 TiGPU进行训练，每个小批量包含每个GPU上的2个图像，一个来自源域，另一个来自目标域。04.2. 恶劣天气条件适应0数据集。在这个实验中，我们使用Cityscapes作为源域，Foggy Cityscapes作为目标域，实现在恶劣天气条件下的适应性（C→ F）。Cityscapes[6]是一个包含3,475张真实城市场景图像的数据集。其中2,975张图像用于训练，剩下的500张用于验证。Foggy Cityscapes[35]是从Cityscapes生成的合成数据集。我们在实验中使用了最高强度的雾等级（β =0.02）。Cityscapes的训练集和未标记的FoggyCityscapes的训练集用于训练，FoggyCityscapes的验证集用于评估。结果。检测结果如表1所示。Source only表示仅使用源域数据训练的Faster RCNN模型。0表1. 不同模型在FoggyCityscapes验证集上的平均精度(mAP)进行C → F转移。0方法架构人骑车者车卡车公交车火车摩托车 mAP0DA-Faster [5] V16 25.0 31.0 40.5 22.1 35.3 20.2 20.0 27.1 27.6 SCDA[57] V16 33.5 38.0 48.5 26.5 39.0 23.3 28.0 33.6 33.8 D&Match [24]V16 30.8 40.5 44.3 27.2 38.4 34.5 28.4 32.2 34.6 SWDA [34] V1629.9 42.3 43.5 24.5 36.2 32.6 30.0 35.3 34.3 ICR-CCR [48] V16 32.943.8 49.2 27.2 45.1 36.4 30.3 34.6 37.4 HTCN [4] V16 33.2 47.5 47.931.6 47.4 40.9 32.3 37.1 39.8 SAPNet [25] V16 40.8 46.7 59.8 24.346.8 37.5 30.4 40.7 40.9 ATF [16] V16 34.6 47.0 50.0 23.7 43.3 38.733.4 38.8 38.7 CDN [38] V16 35.8 45.7 50.9 30.1 42.5 29.8 30.8 36.536.6 UMT [9] V16 33.0 46.7 48.6 34.1 56.5 46.8 30.4 37.3 41.7 MeGA[42] V16 37.7 49.0 52.4 25.4 49.2 46.9 34.5 39.0 41.8 RPA [54] V1633.4 44.3 50.1 29.9 44.8 39.1 29.9 36.3 38.50仅源域 V16 28.5 34.2 39.9 14.7 26.3 11.4 23.4 28.3 25.8 TDD(我们的)V16 39.6 47.5 55.7 33.8 47.6 42.1 37.0 41.4 43.1 oracle(目标) V1639.1 44.9 56.7 33.3 50.4 34.8 32.3 39.0 41.3 oracle(源+目标) V1639.5 47.5 58.1 34.2 49.3 41.9 36.4 41.0 43.50DA-Faster [5] R50 29.2 40.4 43.4 19.7 38.3 28.5 23.7 32.7 32.0D&Match [24] R50 31.8 40.5 51.0 20.9 41.8 34.3 26.6 32.4 34.9SW-DA [34] R50 31.8 44.3 48.9 21.0 43.8 28.0 28.9 35.8 35.3 SC-DA[57] R50 33.8 42.1 52.1 26.8 42.5 26.5 29.2 34.5 35.9 MTOR [1] R5030.6 41.4 44.0 21.9 38.6 40.6 28.3 35.6 35.1 AFAN [43] R50 42.5 44.657.0 26.4 48.0 28.3 33.2 37.1 39.6 GPA [49] R50 32.9 46.7 54.1 24.745.7 41.1 32.4 38.7 39.5 ViSGA [32] R50 38.8 45.9 57.2 29.9 50.251.9 31.9 40.9 43.3 SFA [44] R50 46.5 48.6 62.6 25.1 46.2 29.4 28.344.0 41.3 DSS [46] R50 50.9 57.6 61.1 35.4 50.9 36.6 38.4 51.1 47.8MKT [7] R50 43.5 52.0 63.2 34.7 52.7 45.8 37.1 49.4 47.30仅源域 R50 36.9 36.1 44.5 21.7 32.3 9.2 21.5 32.4 28.3 TDD(我们的)R50 50.7 53.7 68.2 35.1 53.0 45.1 38.9 49.1 49.2 oracle(目标) R5050.1 51.7 70.1 33.4 49.5 42.8 37.6 44.3 47.4 oracle(源+目标) R5050.0 50.2 69.9 35.6 56.3 47.4 41.0 43.4 49.20仅使用源域数据训练的模型为Oracle(tgt)模型。Oracle(src+tgt)模型使用来自源域和目标域的标记数据进行训练。我们使用相同的数据增强方法训练了这两个oracle模型，以进行公平比较。对于基于VGG的方法，最先进的MeGA[42]实现了41.8%的mAP，而我们的结果显示出明显的+1.3%的改进。对于基于Res50的方法，我们超过了所有之前的工作，并获得了显著的+1.4%的mAP增益。值得注意的是，我们的方法与两个oracle模型展现了竞争性能。这证明我们的模型在保留源域的有用信息进行区分的同时，能够感知目标域的知识。04.3. 合成到真实的适应0数据集。在这个实验中，模型从合成数据适应到真实世界的示例。Sim10k被用作源域数据集，Cityscapes代表目标域(S → C)。SIM10K[21]是一个包含10,000张图像的模拟数据集。我们仅在共同类别“car”上训练检测器。整个Sim10k数据集和Cityscapes的未标记训练集用于训练，Cityscapes的验证集用于评估。95760表2. 不同模型在Cityscapes验证集上进行S → C和K →C自适应的车辆精度（mAP）。0方法架构 S → C K → C 方法架构 S → C K → C0DA-Faster [5] V16 39.0 38.5 DA-Faster [5] R50 41.9 41.8 SCDA [57]V16 43.0 42.5 SCDA [57] R50 45.1 43.6 SWDA [34] V16 47.7 37.9SWDA [34] R50 44.6 43.2 CoT [55] V16 44.5 43.6 GPA [49] R50 47.647.9 SAPNet [25] V16 44.9 43.4 ViSGA [32] R50 49.3 47.6 EPM [17]V16 49.0 43.2 SFA [44] R50 52.6 41.3 ATF [16] V16 42.8 42.1D&Match [24] R50 43.9 42.7 MeGA [42] V16 44.8 43.0 DSS [46]R50 44.5 42.7 RPA [54] V16 45.7 - MKT [7] R50 50.2 44.3 C2F [56]V16 43.8 - AFAN [43] R50 45.5 - UMT [9] V16 43.1 - MTOR [1] R5046.6 -0仅源域 V16 37.8 30.2 仅源域 R50 42.8 32.5 TDD(我们的方法) V1653.4 47.4 TDD(我们的方法) R50 63.3 49.8 理想目标域 V16 60.0 60.0理想目标域 R50 75.9 75.9 理想源域+目标域 V16 60.1 62.5理想源域+目标域 R50 76.4 75.80表3. 不同模型在BDD100k日间验证集上进行C →B转移的平均精度（mAP）。0方法架构行人骑车人车辆卡车公共汽车摩托车自行车 mAP0DA-Faster [5] V16 26.9 22.1 44.7 17.4 16.7 17.1 18.8 23.4 SWDA[34] V16 30.2 29.5 45.7 15.2 18.4 17.1 21.2 25.3 ICR-CCR [48] V1631.4 31.3 46.3 19.5 18.9 17.3 23.8 26.90仅源域 V16 29.3 28.2 45.7 15.5 16.6 16.0 22.1 24.8TDD(我们的方法) V16 39.6 38.9 53.9 24.1 25.5 24.5 28.8 33.6理想目标域 V16 39.7 35.9 57.9 47.1 48.0 32.3 33.0 42.0理想源域+目标域 V16 39.6 39.2 59.4 45.6 48.0 31.0 33.8 42.40仅源域 R50 50.4 33.3 67.4 18.1 20.8 19.6 28.9 34.1TDD(我们的方法) R50 57.9 47.4 74.5 31.5 27.5 32.0 36.5 43.9理想目标域 R50 68.0 52.0 83.7 61.2 61.6 44.9 49.9 60.2理想源域+目标域 R50 69.5 54.1 84.4 61.1 61.5 43.8 53.2 61.10结果. 车辆AP的结果报告在表中02.我们可以看到我们提出的TDD方法在两个不同领域之间可以实现最先进的性能。它比基于VGG的EPM [17]高出+4.4%，比基于Res50的SFA[44]高出+10.7%，这表明我们的方法具有稳定的解决域自适应问题的能力。04.4. 跨摄像头自适应0数据集. 我们进行了两个跨摄像头自适应实验，涉及KITTI[11]、Cityscapes和BDD100k[52]数据集。在第一个实验中，我们从KITTI适应到Cityscapes，仅使用车辆类别进行评估（K →C）。KITTI是一个与Cityscapes类似的场景数据集，只是KITTI具有不同的摄像头设置。它包含7,481张标记图像用于训练。在第二个实验中，我们从Cityscapes适应到BDD100K（C →B），这是一个更具挑战性的设置，具有更多的类别和场景。我们使用BDD100k的日间子集作为目标域，包括36,278张训练图像和5,258张验证图像。结果.KITTI适应结果如表2所示。我们的方法在性能上超过了基于VGG的方法3.8%和基于R50的方法1.9%。同时，BDD100K的结果总结在表3中。我们的方法在各项指标上都超过了之前的工作。0表4. 双分支结构0结构 S T TL C → F S → C C → B0� 34.8 48.3 34.3 单分支 � � 41.2 59.0 38.90� � � 47.4 61.1 39.40双分支 � � � 48.3 62.6 42.20表5. 多头提议交叉注意力0目标提议感知器 C → F S → C C → B0无 48.3 62.6 42.2 有 49.2 63.3 43.90自注意力 46.8 61.0 40.6 对称交叉注意力 48.1 62.4 43.7非对称交叉注意力 49.2 63.3 43.90表6. 双分支自蒸馏过程0双分支自蒸馏 C → F S → C C → B0JDP 37.4 56.7 37.5 JDP+CDD 44.1 62.1 42.7JDP+CDD+DTR 49.2 63.3 43.90Refine α =0.96 39.3 59.1 28.7 Refine α =0.996 48.4 63.641.5 Refine α =0.9996 49.2 63.3 43.90验证我们的方法在更复杂情况下的良好表现。我们还观察到使用R50骨干网络明显改善，将仅源域结果提高了9.8%。这进一步验证了我们方法的鲁棒性。04.5. 消融研究和分析0为了验证我们网络中的设计，我们对Res50骨干网络进行了一系列消融研究。双分支。为了验证我们双分支结构的有效性，我们使用来自不同领域的图像进行了一系列消融研究。表4显示了不同实验的结果。当使用单一分支实现时，目标域图像由单一教师分支生成的伪标注进行监督，而目标样式图像与源图像配对输入网络。在这种双分支结构中，我们没有使用提出的目标提案感知器，以便与单分支实验进行公平比较。我们可以观察到，随着目标和目标样式图像参与训练，模型性能逐步提高。这验证了我们每个域的数据都是有用的动机。双分支实验优于所有单分支方法，这表明我们的双分支蒸馏框架可以有效地保留有用的源域知识并同时探索目标域信息。多头提案交叉注意力。我们实现了MHPCA来指导源自适应分支学习更接近目标域的知识，借助目标样式域分支的帮助。表5显示了我们MHPCA模块的有效性。首先，我们可以看到添加MHPCA模块后有显著改进。此外，为了95770GPA[51]0UBT[29]0Faster[34]0前三名0SA分支0提案0TL分支0线索提案0SA分支0提案0TL分支0线索提案0前三名0(a) 定性结果。(b) MHPCA头部的可视化0图5. (a): 不同模型在C→F场景下的定性检测结果。我们设置置信度阈值为0.6进行可视化。(b):MHPCA找到的TL分支中最相关的三个线索提案。0验证了两个分支之间的域差异对我们的注意力模型很重要，我们还尝试了自注意力。此外，为了探索两个分支之间的引导方式，我们还在目标样式分支上添加了一个交叉注意力头部。SymCross-Attention表示在源自适应分支和目标样式分支上都添加了相同的交叉注意力模块。而AsymCross-Attention指的是我们的TDD方法，它将SA分支配备了交叉注意力模块。我们的非对称TDD在这三种方式中表现最好。这也证实了在我们的框架中，由于缺乏目标域知识，SA分支需要交叉注意力方式。双分支自蒸馏。我们进行消融研究以验证我们的双分支自蒸馏过程的有效性，该过程由联合域预训练（JDP）、跨域蒸馏（CDD）和双教师细化（DTR）步骤组成。从表6可以看出，我们方法中的这三个步骤都改善了前一步的结果。我们还尝试了双教师细化阶段中不同的EMA速率α。α的值越小，在细化阶段中教师从目标图像接收的信息越多。当α设为较小值（例

下载后可阅读完整内容，剩余1页未读，立即下载