通过循环解缠自蒸馏在城市场景中进行单域广义目标检测

22 浏览量更新于2023-10-25 收藏 15.91MB PDF 举报

城市场景

泛化能力

身份认证购VIP最低享 7 折!

30元优惠券

nnyNight-sunnyDusk-rainyNight-rainyDaytime-foggyataTesting in different weather conditionsSingle-DGOD8470通过循环解缠自蒸馏在城市场景中进行单域广义目标检测0吴阿明，邓成 �0西安电子科技大学电子工程学院，中国西安0amwu@xidian.edu.cn，chdeng@mail.xidian.edu.cn0摘要0本文关注于增强目标检测器的泛化能力。我们考虑了一个现实而具有挑战性的场景，即单域广义目标检测(Single-DGOD)，其目标是学习一个在许多未见过的目标域上表现良好的目标检测器，只使用一个源域进行训练。对于Single-DGOD，提取包含内在目标特征的域不变表示(DIR)是很重要的，这有助于提高对未见域的鲁棒性。因此，我们提出了一种方法，即循环解缠自蒸馏，以在没有域相关注释(例如域标签)的情况下解开DIR和域特定表示之间的关系。具体而言，首先提出了一个循环解缠模块，用于从输入视觉特征中循环提取DIR。通过循环操作，可以提高解缠能力，而不依赖于域相关注释。然后，以DIR为教师，设计了一个自蒸馏模块，进一步增强了泛化能力。在实验中，我们的方法在城市场景目标检测中进行了评估。五种天气条件的实验结果表明，我们的方法相对于基线方法获得了显著的性能提升。特别是对于夜晴场景，我们的方法的性能超过基线方法3%，这表明我们的方法在增强泛化能力方面是有帮助的。数据和代码可在https://github.com/AmingWu/Single-DGOD上获得。01. 引言0近年来，基于深度学习的目标检测[2, 6, 37, 43,45]取得了快速发展，这些方法假设训练和测试数据来自同一个域。然而，在实际应用中，当将在源域数据上训练的目标检测器应用于未见过的目标域时，这些检测器通常会遇到泛化能力差的问题。0� 通讯作者。0白天晴朗夜晴夕阳下雨夜雨天气多雾的白天0在不同天气条件下的训练数据测试 Single-DGOD0图1.城市场景中的单域广义目标检测(Single-DGOD)示意图。数据集包含五个具有不同天气条件的域：白天晴朗、夜晴、夕阳下雨、夜雨和天气多雾的白天。Single-DGOD旨在在一个源域数据集上训练一个检测器，并在多个目标域上实现良好的泛化能力。提取域不变表示对于将检测器泛化到未见域是有益的。0化，由于域漂移的影响[8,34]。为了减轻域漂移的影响，现有的研究主要集中在域自适应和域泛化上。一般来说，域自适应[4, 11, 36,46]旨在将一个带注释的源域的数据分布与一个没有注释的目标域的数据分布对齐。在训练过程中，这些对齐方法通常需要访问源域和目标域的数据，这导致这些方法不能很好地适应其他未见过的目标域。此外，当目标域是多个不同数据分布的组合时[27]，对齐方法的泛化能力往往较弱，这削弱了目标检测的性能。域泛化(DG)[24, 25, 39, 40,52]旨在通过从多个源域学习来将模型泛化到一个未见过的目标域，被认为比域自适应更具挑战性。一般来说，大多数DG方法[1, 12, 23,25]尝试学习多个源域之间的共享表示。然而，这些方法的性能高度依赖于源域的数量[9,53]。而在现实世界中，收集多个源数据集是耗时且劳动密集的，这限制了DG方法的应用。��Forward Direction Re-Disentanglement in Backward Direction8480在反向方向中的正向方向重新解开0图2.对于Single-DGOD，为了在不使用域相关注释的情况下提高解开能力，我们提出了一个循环解开模块。对于正向方向，给定特征图Fb，设计了两个提取器EDIR和EDSR来提取Fdi和Fds。对于反向方向，我们分别将Fdi和Fds作为模块的输入，并进行重新解开。值得注意的是，在正向和反向方向中，EDIR和EDSR中的参数是共享的。0为了进一步探索改进目标检测器的泛化能力，我们提出了一个现实而具有挑战性的任务，即单域广义目标检测（Single-DGOD）。如图1所示，给定一个用于训练的源域数据集，例如白天晴朗的场景，Single-DGOD的目标是将目标检测器很好地泛化到多个未见过的目标域，例如夜晴、黄昏雨天、夜雨和白天雾天的场景。由于多个源域和与域相关的注释（例如域标签）不可访问，现有的DG方法无法直接用于解决这个任务。最近的研究[7, 14,18]表明，提取包含内在目标特征的域不变表示（DIR）有助于提高泛化能力。为此，许多方法[31, 42,44]直接利用与域相关的注释作为监督，从输入的视觉特征中解开DIR和域特定表示（DSR）。然而，当域相关的注释不可用时，如何从输入的视觉特征中很好地提取DIR仍然未被充分探索。因此，在本文中，我们主要关注在不使用域相关注释的情况下解开DIR。我们提出了一种方法，即循环解开自蒸馏，用于Single-DGOD。具体而言，我们首先提出了一个循环解开模块来获取DIR。如图2所示，对于循环的正向方向，我们分别设计了一个DIR和DSR提取器，从由骨干网络（例如ResNet[17]）提取的特征图中解开DIR和DSR。反向方向将解开的DIR和DSR作为DIR和DSR提取器的输入，并进行重新解开。我们假设当DIR和DSR提取器具有良好的解开能力时，将DIR输入DIR提取器应该输出更多的域不变信息。将DSR输入DSR提取器应该包含更多的域特定信息。我们设计了对比损失来实现这个假设。接下来，为了进一步提高泛化能力，0我们探索使用自蒸馏[21,50]来提取当前检测器的知识。具体而言，解开的DIR被视为教师表示。通过缩小DIR与骨干网络中间层生成的特征图之间的距离，可以促使特征图包含更多的域不变信息，这有助于提高泛化能力和检测性能。在实验中，我们的方法在城市场景目标检测上进行了评估。在具有不同天气条件的五个场景上进行了大量实验，证明了我们方法的优越性。总结贡献如下：（1）为了提高目标检测器的泛化能力，我们提出了一个现实而具有挑战性的任务，即单域广义目标检测（Single-DGOD），其目标是将检测器泛化到多个未见过的目标域，只使用一个源域进行训练。（2）为了解决Single-DGOD，我们采用了一种循环解开自蒸馏的方法，以解开域不变表示，而不依赖于域相关的注释（例如域标签）。（3）我们构建了一个多样化天气的城市场景目标检测数据集来验证我们的方法，其中包括白天晴朗、夜晴、黄昏雨天、夜雨和白天雾天等五个不同天气条件的场景。与基线方法相比，显著的性能提升表明了所提方法的有效性。02. 相关工作0领域自适应目标检测。为了减轻领域偏移的影响，大多数现有方法[26,28]尝试在源域和目标域之间对齐特征级分布。特别地，Chen等人[8]提出使用对抗机制[14]对齐特征和实例级分布。基于这项工作，Saito等人[34]提出对齐局部和全局特征分布以提高检测器的泛化能力。此外，一些方法[3,22]采用生成对抗网络[54]将源域的风格转化为目标域的风格，直接减小了领域差距。同时，还有一些方法[4,42]探索提取实例不变特征以增强泛化能力。尽管这些方法已被证明是有效的，但在训练过程中，它们通常需要访问源域和目标域数据。因此，这些方法不能用于解决单一领域目标检测。单一领域泛化。最近，提出了一项新的单一领域泛化任务[38]，旨在将在一个源域上训练的模型推广到许多未见过的目标域。大多数现有方法使用数据增强和特征归一化来解决这个任务。特别地，Volpi等人[38]和Qiao等人[32]探索利用对抗机制来解决这个任务，这个任务��RPNCyc-DCyc-D�� loss from ��Cls1Cls2Cls3�� divergence loss from the classification score RA is performed on ��, ��, and ��Self-distillationFCRA��ClsReg��Cyc-D: Cyclic DisentanglementRA: Roi-AlignmentCls: ClassifierReg: RegressorContrastive LossFdi = EDIR(Fb),Fds = EDSR(Fb),(1)Fi2i = EDIR(Fdi),Fi2s = EDSR(Fdi),Fs2i = EDIR(Fds),Fs2s = EDSR(Fds).(2)8490未知0未知0未知0RPN0Cyc-D0Cyc-D0未知0未知0Cls1 Cls2 Cls3 通过分类得分的分歧损失0RA在未知、未知和未知上进行0自蒸馏0FC RA0未知0未知0Cls0Reg0未知0Cyc-D: 循环分离0RA: 区域对齐 Cls:分类器 Reg: 回归器0对比损失0图3.循环分离自蒸馏的示意图。‘RPN’和‘FC’分别表示区域提议网络和全连接层。L2是L2范数操作。该方法主要由循环分离和自蒸馏组成。通过对比损失，循环分离旨在在不使用与领域相关的注释的情况下将DIR（Fdi）与DSR（Fds）分离。接下来，以Fdi为教师，采用自蒸馏来促进生成的表示（即F1、F2和F3）包含更多的领域不变信息，这有助于进一步提高泛化能力。0对于在输入空间中鼓励大范围域传输是有帮助的。Wang等人[41]通过交替多样的样本生成和有区别的样式不变表示学习来改善泛化能力。Fan等人[13]提出了一种通用的标准化方法，即自适应标准化和重新缩放标准化，以改善泛化能力。尽管这些方法对于图像分类是有效的，但是由于目标检测包含定位和分类，这些方法不能直接应用于单一领域目标检测。自蒸馏。自蒸馏机制[21,47,49]的目的是通过利用自身的知识而无需教师网络来训练有效的学生网络。基于数据增强的方法和基于辅助网络的方法是两种常用的自蒸馏操作[20]。具体而言，基于数据增强的自蒸馏[47]在原始数据和其增强数据之间引入了预测一致性损失。辅助网络的方法[21]在模型的中间层中使用额外的分支。这些额外的分支用于生成与网络预测相似的输出。尽管这些方法已被证明是有效的，但它们很少用于提高目标检测器的泛化能力。在本文中，基于分离的DIR，我们利用自蒸馏进一步增强了泛化能力，在实验中已经证明是有效的。03. 循环解缠自我蒸馏0如图3所示，为了解决Single-DGOD问题，我们提出了一种循环解缠自我蒸馏的方法，用于解缠DIR以改善对未知领域的泛化能力。03.1. 循环解缠0最近，许多方法[31, 42,44]尝试使用与领域相关的注释（例如领域标签）来解缠DIR，但这对于Single-DGOD来说是不可行的，因为训练只有一个源领域。为了在不依赖领域相关注释的情况下解缠DIR，我们提出了一个循环解缠模块。具体而言，我们采用广泛使用的FasterR-CNN[33]作为基础检测模型。首先，将骨干网络（例如ResNet101[17]）根据其深度和原始结构分为三个部分（即E1、E2和E3），其目标是进行自我蒸馏。给定输入图像，我们使用E1、E2和E3来获取特征图Fb ∈ R w × h ×c，其中w、h和c分别表示宽度、高度和通道数。然后，设计两个提取器，即E DIR 和 EDSR，分别用于提取领域不变特征F di ∈ R w × h ×c和领域特定特征F ds ∈ R w × h × c。具体过程如下：0其中 E DIR 和 E DSR 包含多个卷积层。RPN模块在 F di上执行，提取一组对象建议O。经过Roi-Alignment操作后，输出为 P ∈ R n × s × s× c，其中 n 和 s分别表示建议的数量和建议的大小。接下来，如图2的右侧所示，在反向方向上，E DIR 和 E DSR 分别将 F di 和 F ds作为输入进行重新解缠。0我们假设当 F di 包含丰富的领域不变信息时，与 F i 2 s相比，F i 2 i 应该包含更多与 F di 相关的信息。Lgc = − (logexp(sim(Fdi, Fi2i)/τ)�1j=0 exp(sim(Fdi, G[j])/τ)+ logexp(sim(Fds, Fs2s)/τ)1j=0 exp(sim(Fds, D[j])/τ)),(3)Lic = − logexp(sim(P, Pi2i)/τ)1j=0 exp(sim(P, Q[j])/τ),(4)8500同时，当 F ds 包含足够的领域特定信息时，与输出 F s 2 i相比，F s 2 s 应该包含更多与 F ds相关的领域特定信息。我们定义了一个全局和实例级对比损失[5, 15]来实现这个假设。具体来说，sim(a,b)表示特征图a和b的所有对应元素的余弦相似度的平均值。全局级对比损失的计算如下：0其中 G = [ F i 2 i , F i 2 s ]，D = [ F s 2 s , F s 2 i]。τ是一个超参数。在实验中，τ被设置为1.0。通过优化Lgc，有助于扩大 F i 2 i 和 F i 2 s、F s 2 i 和 F s 2 s、F di和 F ds 之间的差距。同时，这个损失有助于促进 F di 和 Fds分别包含领域不变和领域特定信息，从而提高解缠能力。接下来，为了进一步促进 E DIR具有解缠DIR的能力，我们定义了一个实例级对比损失。基于来自 F di 的对象建议 O，分别对 F i 2 i 和 F i 2 s执行Roi-Alignment操作，得到输出 P i 2 i ∈ R n × s × s× c 和 P i 2 s ∈ R n × s × s × c。该损失的计算如下：0其中 Q = [P i 2 i, P i 2 s]。通过最小化 L ic，除了扩大 F i 2i 和 F i 2 s 之间的实例级特征差距外，还有助于促进从 F di中提取的特征 P包含领域不变信息，进一步增强了泛化能力和提高了检测准确性。最后，全局级和实例级对比损失的总和被作为该模块的训练损失，即 L cd = L gc + L ic。03.2. 基于DIR的自蒸馏0通过循环解缠模块，可以促进解缠的 F di包含更多的领域不变信息。接下来，以 F di为教师表示，我们探索使用自蒸馏机制来促进由骨干网络提取的特征图拥有丰富的领域不变信息，进一步提高目标检测器的泛化能力。给定输入图像，我们分别从 E 1 提取特征图F e 1，从 E 2 提取特征图 F e 2，从 E 3 提取特征图 F e3，其中 F e 1 和 F e 2 的大小和通道数与 F di 不同。而 F e3 的大小和通道数为0与 F di相同。然后，我们定义了由多个卷积层组成的三个网络，即T 1，T 2 和 T 3，对 F e 1，F e 2 和 F e 3进行变换。输出为 F 1 ∈ R w × h × u，F 2 ∈ R w × h ×v 和 F 3 ∈ R w × h × c，其中 u 和 v是通道数。接下来，我们分别定义了一个特征级和分类级的约束，以促进从 F di中提取的特征图提取知识。对于特征级约束，我们分别使用卷积层 Φ 1 ∈ R 1 × 1 × u × c，Φ 2 ∈ R 1 × 1 × v × c和 Φ 3 ∈ R 1 × 1 × c × c 将 F 1，F 2 和 F 3投影到教师空间。约束计算如下：0L fc = dist (Φ 1 (F 1), F di) +0+ dist (Φ 3 (F 3), F di), (5)0其中 dist (∙, ∙) 表示距离函数，例如L2-范数。通过缩小距离，教师表示 F di可以引导由骨干网络提取的表示学习领域不变信息，增强目标检测器的泛化能力。对于分类级约束，如图 3所示，基于提议 O，分别对 F 1、F 2 和 F 3 执行Roi-Alignment 操作，以获得输出 P 1 ∈ R n × s × s ×u，P 2 ∈ R n × s × s × v 和 P 3 ∈ R n × s × s ×c。然后，我们定义了三个分类器，它们以 P 1、P 2 和 P 3作为输入，并输出预测概率 y 1、y 2 和 y3。接下来，使用Kullback-Leibler（KL）散度使预测概率逼近基于 F di 中的 P 计算的分类概率 y。0L cc = KL (y, y 1) + KL (y, y 2) + KL (y, y 3). (6)0最小化损失 L cc 进一步促进 F 1、F 2 和 F 3 从 F di中提取与类别相关的知识，有助于提高检测准确性。最后，特征级和分类级约束的总和被作为自蒸馏模块的训练损失，即 L sd = L fc + Lcc。在训练过程中，我们的方法是端到端训练的。联合训练损失定义如下：0L = L rpn + L cls + L loc + λ (L cd + L sd), (7)0其中 L rpn是用于区分前景和背景并细化边界框锚点的RPN损失。L cls和 L loc 分别表示分类损失和边界框回归损失。λ是一个超参数，在实验中设置为0.01。在推理过程中，我们将基于 F di 计算的预测结果作为检测结果。03.3. 进一步讨论0在本节中，我们将进一步讨论我们的方法如何提高泛化能力的基本问题。对于Single-DGOD，解缠DIR是一种可行的解决方案，可以推广在一个源领域上训练的目标检测器。8510领域到多个未知目标领域。然而，大多数现有方法[31，42，44]尝试利用与领域相关的注释（例如领域标签）来实现解缠。当没有可用的领域相关注释时，如何提取DIR仍然未被充分探索。为此，我们提出了一个循环解缠模块来提取DIR。通过循环操作，可以扩大领域不变特征（例如F i 2 i和Fs 2 i）与领域特定特征（例如F i 2 s和F s 2s）之间的差距，从而促进E DIR和EDSR具有解缠能力。同时，在循环过程中，由于E DIR和EDSR中的参数是共享的，两个提取器可以促进解缠的F di和Fds保持可分离。接下来，通过最小化两个对比损失（公式（3）和（4）），可以加强F di与F i 2 i之间以及F ds与F s 2s之间的相关性，这有助于引导F di和Fds分别涉及领域不变和领域特定信息。最后，将Fdi作为教师表示，使用自我蒸馏进一步提高了泛化能力。04. 实验0为了评估我们方法的泛化能力，我们在城市场景目标检测中进行了五种天气条件的实验。数据和代码可在https://github.com/AmingWu/Single-DGOD上获得。04.1. 实验设置0在实际场景中，例如自动驾驶，白天晴朗场景的数据很容易收集和标记。因此，我们在白天晴朗的数据集上训练我们的模型，并在其他数据集（例如夜晴、黄昏雨天、夜雨和白天雾天）上展示其性能，以衡量其在未知领域的泛化能力。对于所有的定量实验，均使用平均精度（mAP）作为评估指标。数据集。基于多个现有数据集，我们构建了一个城市场景检测数据集（如图1所示），包括五种不同的天气条件。特别地，对于白天晴朗场景，我们从Barkeley Deep Drive100k（BDD-100k）数据集[48]中选择了27,708张白天晴朗图像，该数据集包含100,000个驾驶视频。其中19,395张图像用于训练，8,313张图像用于测试。在白天晴朗场景上训练的模型用于在其他未知领域上进行评估。对于夜晴场景，我们还从BDD-100k数据集中选择了26,158张图像。对于黄昏雨天和夜雨场景，我们利用最近提出的数据集[44]，将来自BDD-100k数据集的雨天图像渲染，以扩大源域和目标域之间的差距。黄昏雨天和夜雨场景分别包括3,501张和2,494张图像。最后，对于白天雾天场景，我们从FoggyCityscapes [35]数据集中收集了雾天图像。0方法 bus bike car motor person rider truck mAP0Faster R-CNN 63.4 42.9 53.4 49.4 39.8 48.1 60.8 51.10SW [30] 62.3 42.9 53.3 49.9 39.2 46.2 60.6 50.60IBN-Net [29] 63.6 40.7 53.2 45.9 38.6 45.3 60.7 49.70IterNorm [19] 58.4 34.2 42.4 44.1 31.6 40.8 55.5 43.90ISW [9] 62.9 44.6 53.5 49.2 39.9 48.3 60.9 51.30Ours 68.8 50.9 53.9 56.2 41.8 52.4 68.7 56.10表1.白天晴朗场景的结果（%）。这里，“motor”表示摩托车类别。0gyCityscapes [35]和Adverse-Weather[16]数据集。该场景包含3,775张图像。我们可以看到构建的数据集包括多个具有挑战性的场景，有助于评估目标检测器的泛化能力。此外，BDD-100k和FoggyCityscapes数据集分别包含十个和八个类别。在这里，我们选择了七个常用的类别，不包括光、标志和火车类别。实现细节。我们使用Faster R-CNN [33]作为基础检测器。RseNet101[17]作为骨干网络。我们使用在ImageNet[10]上预训练的权重进行初始化。我们分别设计了一个由三个卷积层组成的网络作为DIR提取器E DIR和DSR提取器EDSR。同时，T1、T2和T3都由三个带有BatchNorm操作的卷积层组成。这些网络中的所有参数都是随机初始化的。在训练过程中，我们的模型使用带有动量0.9和权重衰减0.0001的SGD优化器进行训练。学习率设置为0.001。批量大小设置为4。更多细节可以参见补充材料。04.2. 单一DGOD性能分析0我们将我们的方法与四种基准方法进行比较，即SW [ 30 ]，IBN-Net [ 29]，IterNorm [ 19 ]和ISW [ 9]。这些方法都使用了特征归一化的思想来提高模型的泛化能力。为了公平地与这些归一化方法进行比较，我们直接将这些方法插入到Faster R-CNN [ 33]中。白天晴朗场景的结果如表1所示。我们可以看到，我们的方法明显优于其他方法。这表明当训练集和测试集来自同一领域时，我们提出的方法可以提高当前领域的性能。此外，我们还可以看到，特征归一化方法[ 9 , 19 , 29 ,30 ]并没有显著提高Faster R-CNN [ 33]的性能。原因可能是特征归一化影响了判别能力，削弱了检测性能。这进一步表明，与特征归一化方法相比，我们的方法有助于增强判别能力。夜晴场景上的检测结果如表2所示。在这里，我们直接使用在白天晴朗场景上训练的模型进行评估。我们可以看到，当训练集和测试集来自不同领域时，模型的性能显著下降。这表明提高目标检测器的泛化能力是有意义的。与FasterR-CNN [ 33]相比，我们的方法的性能提高了3.1%，这表明我们提出的循环解缠能够解缠DIR。通过将DIR作为教师，自我蒸馏进一步提高了泛化能力。此外，我们还可以看到，特征归一化方法[ 9 , 19 , 29 , 30]并没有导致性能的提升。除了判别能力较弱的因素外，白天晴朗和夜晴场景之间的巨大差距可能是削弱性能的另一个原因。这进一步表明，Single-DGOD充满了挑战。增强泛化能力是一种有效的解决方案。在图4中，我们展示了夜晴场景中的一些检测示例。由于光线较暗的影响，夜晚场景中的检测非常具有挑战性。与Faster R-CNN [ 33]的结果相比，我们的方法能够准确地检测出夜晚图像中的物体，这进一步说明了我们方法的有效性。黄昏雨天和夜晚雨天场景上的检测性能分别如表3和表4所示。我们可以看到，当场景充满挑战，例如雨天和光线较暗时，检测性能显著下降。这表明恶劣的天气扩大了训练集和测试集之间的差距，削弱了检测性能。MethodbusbikecarmotorpersonridertruckmAPFaster R-CNN37.730.649.515.431.528.640.833.5SW [30]38.729.249.816.631.528.040.233.4IBN-Net [29]37.827.349.615.129.227.138.932.1IterNorm [19]38.523.538.915.826.625.938.129.6ISW [9]38.528.549.615.431.927.541.333.2Faster R-CNN36.815.850.112.818.912.439.526.68520图4. 夜晴场景上的检测结果。第一行和第二行分别展示了来自Faster R-CNN [ 33 ]和我们的方法的结果。我们可以看到，与Faster R-CNN [33 ]相比，我们的方法能够准确地检测出物体，例如汽车、人、公交车。0我们的方法 40.6 35.1 50.7 19.7 34.7 32.1 43.4 36.60表2. 夜晴场景上的结果（%）。0进行评估。我们可以看到，当训练集和测试数据来自不同领域时，模型的性能显著下降。这表明提高目标检测器的泛化能力是有意义的。与Faster R-CNN [ 33]相比，我们的方法的性能提高了3.1%，这表明我们提出的循环解缠能够解缠DIR。通过将DIR作为教师，自我蒸馏进一步提高了泛化能力。此外，我们还可以看到，特征归一化方法[ 9 , 19 , 29 , 30]并没有导致性能的提升。除了判别能力较弱的因素外，白天晴朗和夜晴场景之间的巨大差距可能是削弱性能的另一个原因。这进一步表明，Single-DGOD充满了挑战。增强泛化能力是一种有效的解决方案。在图4中，我们展示了夜晴场景中的一些检测示例。由于光线较暗的影响，夜晚场景中的检测非常具有挑战性。与Faster R-CNN [ 33]的结果相比，我们的方法能够准确地检测出夜晚图像中的物体，这进一步说明了我们方法的有效性。黄昏雨天和夜晚雨天场景上的检测性能分别如表3和表4所示。我们可以看到，当场景充满挑战，例如雨天和光线较暗时，检测性能显著下降。这表明恶劣的天气扩大了训练集和测试集之间的差距，削弱了检测性能。0公交自行车汽车摩托人骑手卡车 mAP0SW [30] 35.2 16.7 50.1 10.4 20.1 13.0 38.8 26.30IBN-Net [29] 37.0 14.8 50.3 11.4 17.3 13.3 38.4 26.10IterNorm [19] 32.9 14.1 38.9 11.0 15.5 11.6 35.7 22.80ISW [9] 34.7 16.0 50.0 11.1 17.8 12.6 38.8 25.90我们的方法 37.1 19.6 50.9 13.4 19.7 16.3 40.7 28.20表3. 黄昏雨天场景的结果（%）。0性能。与Faster R-CNN[33]相比，我们的方法的性能比其高出1.6%和2.1%。这表明，提取领域不变特征确实有助于减轻领域漂移对目标检测的影响。此外，我们的方法的性能仍然优于特征归一化方法[9，19，29，30]，这进一步证明了我们的方法对于增强目标检测器的泛化能力是有益的。白天雾天场景的结果。表5显示了白天雾天场景的结果。由于雾天的影响，图像变得非常模糊，严重影响了目标定位和分类的准确性。我们可以看到，我们的方法明显优于比较方法[9，19，29，30，33]。这表明，我们的方法能够很好地提取领域不变特征，从而提高性能。图5显示了检测结果。我们可以看到，我们的方法能够准确地检测出雾天图像中的目标，这表明我们的方法具有泛化能力。04.3. 消融分析0在本节中，我们使用在白天晴朗的场景上训练的模型对我们的方法进行消融分析。这里，我们使用白天晴朗和夜晴的场景进行评估。表6显示了结果。我们可以看到，仅使用前向步骤进行解缠（如图2左侧所示）的性能非常弱。这表明，在没有领域相关注释可用的情况下，仅使用前向步骤Faster R-CNN22.611.527.70.410.010.519.014.58530图5. 白天雾天场景的检测结果。与Faster R-CNN[33]的结果（如第一行所示）相比，我们的方法（如第二行所示）能够准确地检测出雾天图像中的目标，例如汽车、人和卡车。0方法公交自行车汽车摩托人骑车卡车 mAP0SW [30] 22.3 7.8 27.6 0.2 10.3 10.0 17.7 13.70IBN-Net [29] 24.6 10.0 28.4 0.9 8.3 9.8 18.1 14.30IterNorm [19] 21.4 6.7 22.0 0.9 9.1 10.6 17.6 12.60ISW [9] 22.5 11.4 26.9 0.4 9.9 9.8 17.5 14.10我们的方法 24.4 11.6 29.5 9.8 10.5 11.4 19.2 16.60表4. 夜晴场景的结果（%）。0不解开领域不变特征。同时，我们还可以看到，仅使用自我蒸馏机制而不使用领域不变特征，无法获得比FasterR-CNN[33]更好的检测结果。这表明，对于自我蒸馏，将领域不变特征作为教师表示对于改善目标检测器的泛化能力是有益的。最后，我们可以看到利用循环解缠操作改善了检测性能，这表明采用循环操作和对比损失（如公式（3）和（4）所示）确实有助于提取领域不变特征。接下来，借助自我蒸馏机制，模型的泛化能力可以进一步增强，从而提高了Single-DGOD的性能。0对公式（3）和（4）中的对比损失进行分析。为了在没有依赖于领域相关注释的情况下解缠领域不变特征，我们提出了一个循环解缠模块，并设计了两个对比损失来增强解缠能力。特别地，公式（3）中的Lgc和公式（4）中的Lic分别旨在从全局级别和实例级别的角度扩大领域不变特征和领域特定特征之间的差距。在这里，我们进行了消融分析。基于夜晴场景，仅使用Lgc和自我蒸馏的情况下，性能为34.8%。同时，仅使用Lic和自我蒸馏的性能为35.2%。这表明，利用这两个对比损失有助于改善解缠。并且与自我蒸馏相结合可以进一步0方法公共汽车自行车汽车摩托车人骑车卡车 mAP0Faster R-CNN 30.7 26.7 49.7 26.2 30.9 35.5 23.2 31.90SW [30] 30.6 26.2 44.6 25.1 30.7 34.6 23.6 30.80IBN-Net [29] 29.9 26.1 44.5 24.4 26.2 33.5 22.4 29.60IterNorm [19] 29.7 21.8 42.4 24.4 26.0 33.3 21.6 28.40ISW [9] 29.5 26.4 49.2 27.9 30.7 34.8 24.0 31.80我们的方法 32.9 28.0 48.8 29.8 32.5 38.2 24.1 33.50表5. 白天雾天场景的结果（%）。0增强泛化能力。对方程（5）和方程（6）中的损失进行分析。为了进一步增强泛化能力，我们将解缠的域不变特征作为教师，并设计了一个具有两个损失的自蒸馏模块。具体来说，方程（5）中的损失旨在缩小教师和提取的中间层表示之间的特征级距离，这有助于促进中间层表示涉及域不变信息。方程（6）中的损失的目标是从教师中提取与类别相关的知识，这有助于提高检测准确性。在这里，基于夜晚晴朗场景和循环解缠模块的输出，仅使用方程（5）中的Lfc时，性能为35.0%。同时，仅使用方程（6）中的Lcc时，性能为35.4%。这表明使用这两个损失有助于实现自蒸馏，从而提高目标检测器的泛化能力。04.4. 与域自适应方法的比较0为了进一步评估泛化能力，基于夜晚晴朗场景，我们将我们的方法与一些需要在训练过程中访问目标域的域自适应方法[3, 44,46]进行比较。表7显示了结果。与仅使用源域数据（即仅源域）的结果相比，这些域自适应方法并没有获得更好的性能。原因可能是源域和目标域之间的差距非常大，这使得自适应更加困难。我们可以看到8540图6.基于黄昏雨天场景的可视化分析。第一列是我们方法的检测结果。第二、第三和第四列分别表示特征Fb、Fdi和Fi2i（如方程（1）和（2）所示）。对于每个特征图，选择与最大值对应的通道进行可视化。0方法 DT Cyc-D SD 白天晴朗夜晚晴朗0CDSD � 48.7% 30.4% CDSD � � 50.4% 31.3% CDSD � 51.0%33.3% CDSD � 52.3% 34.2% CDSD � � 56.1% 36.6%0表6.我们提出的循环解缠自蒸馏（CDSD）的消融分析。这里，我们以mAP作为评价指标。‘DT’表示我们仅使用前向步骤进行解缠（如图2左侧所示）。‘Cyc-D’表示循环解缠。‘SD’表示自蒸馏。我们使用在白天晴朗场景上训练的模型进行分析。0尽管没有目标域数据可用，我们的方法明显优于这些自适应方法。特别是对于每个类别，我们方法的性能是最好的。这不仅证明了解缠DIR对于增强泛化能力是有帮助的，还表明了提出的循环解缠自蒸馏可以有效地提取DIR。04.5. 可视化分析0在图6中，我们进行了可视化分析。第二列是用于解缠的Fb。第三列表示解缠特征图Fdi（如方程（1）所示）。第四列表示基于Fdi的循环输出Fi2i（如方程（2）所示）。我们可以看到，与Fb相比，Fdi包含更多的与对象相关的信息和较少的主要反映域相关信息的背景。此外，通过循环操作（如方程（2）所示），与Fdi相比，输出Fi2i中的背景信息进一步减少。最后，我们可以看到我们的方法在雨天图像中准确地检测到对象，例如汽车、人、摩托车。这表明，我们的方法可以提取包含固有对象特征的域不变特征，而不依赖于域相关的注释，这对于单一目标检测是有益的。0方法目标公共汽车自行车汽车摩托人骑手卡车 mAP0仅源域 − 37.7 30.6 49.5 15.4 31.5 28.6 40.8 33.50DAF [8] � 36.2 29.1 49.3 16.0 33.1 29.3 40.2 33.30CT [51] � 34.1 22.1 46.4 12.8 26.5 19.8 31.5 27.60SCL [36] � 27.1 18.6 45.9 11.6 24.0 19.0 32.3 25.50SW [34] � 34.2 23.6 48.0 13.4 26.4 23.7 37.5 29.50ICCR [46] � 36.1 23.2 48.9 15.5 29.1 23.8 39.4 30.90HTCN [3] � 30.5 17.6 44.7 11.0 22.9 20.6 31.3 25.50VDD [44] � 35.4 29.6 49.8 14.5 31.3 28.0 39.9 32.60我们的 − 40.6 35.1 50.7 19.7 34.7 32.1 43.4 36.60表7.白天晴朗场景到夜晚晴朗场景的适应结果（%）。'target'表示在训练过程中，模型需要访问目标域数据（即夜晚晴朗数据）。'−'表示在训练过程中，我们不使用目标域数据。这里，比较方法的发布代码直接运行以获得结果。05. 结论0在本文中，我们提出了一种新的目标检测范式，即Single-DGOD，旨在将目标检测器推广到仅使用一个源域进行训练的多个未见目标域。针对Single-DGOD，我们专注于提取无需依赖于领域相关注释的DIR，并相应地提出了一种循环解缠自蒸馏方法。首先，我们设计了一个循环解缠模块来解缠DIR。然后，将DIR作为教师表示，使用自蒸馏模块进一步增强目标检测器的泛化能力。实验结果和可视化分析显示了我们方法的优势。致谢。我们的工作得到了中国国家重点研发计划（编号2017YFE0104100）、中国国家自然科学基金（编号62132016、62171343、62071361和62102293）、陕西省重点

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

通过循环解缠自蒸馏在城市场景中进行单域广义目标检测

基于知识蒸馏的目标检测

蒸馏里面的logit在目标检测里面是什么

目标检测知识蒸馏代码实现

如何将知识蒸馏和小样本目标检测结合

3000字描述模型压缩知识蒸馏中的离线蒸馏、在线蒸馏和自蒸馏

目标检测知识蒸馏损失函数

对YOLO进行知识蒸馏

改进YOLOv5s的轻量化航拍小目标检测 重心应该在轻量化上还是提升小目标检测的精度

对抗样本如何应用于目标检测中

目标检测算法研究历程

yolo知识蒸馏技术

yolov8+自蒸馏

目标检测领域前沿技术

神经网络的知识蒸馏中的自蒸馏是什么

目标检测使用基于logits蒸馏中的logits是种类损失，类别置信度损失还是坐标回归损失

yolov8目标检测改进

ssd目标检测知识蒸馏代码实现

小样本目标检测是在目标检测的基础上加什么东西吗

基于两阶段目标检测模型迁移方法

最新资源

改进YOLOv5s的轻量化航拍小目标检测重心应该在轻量化上还是提升小目标检测的精度