无限制环境中的多对抗Faster-RCNN目标检测方法

138 浏览量更新于2023-10-12 收藏 1.11MB PDF 举报

域自适应

对象检测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于无限制目标检测的多对抗Faster-RCNN张振伟何磊重庆大学微电子与通信工程学院重庆市沙坪坝区沙正街174号{hzw，leizhang}@ cqu.edu.cn摘要传统的目标检测方法本质上是假设训练和测试数据都是从一个有限的目标区域中采集的，并且具有昂贵的标记代价。为了解决领域依赖和标记繁琐的问题，本文提出利用从具有足够标记的辅助源域中训练的领域知识来检测不受限制的环境中的对象。具体来说，我们提出了一个多对抗的Faster-RCNN（MAF）框架，用于不受限制的对象检测，它本质上解决了特征表示中域自适应的域视差最小化问题。论文的优点有三个方面：（1）关于objec-针对图像分布引起的域差异导致检测器之间不兼容的问题，提出了一种层次化的域特征对齐模块，设计了多个对抗性的域分类器子模块，用于分层域特征混淆; 2）为提高对抗域自适应的训练效率，提出了一种用于分层特征映射的信息不变尺度缩减模块（SRM）; 3）为了提高算法的领域适应性，将融合后的建议特征与检测结果一起输入到一个加权梯度反转层（WGRL）中，以表征难混淆的领域样本。我们在不受限制的任务上评估我们的 MAF ，包括 Cityscapes ，KITTI，Sim10k等。并且实验显示了现有检测器的最新性能。1. 介绍目标检测是计算机视觉中的一个重要课题，受到了广泛的关注。受CNN发展的启发[14，17，34]，近年来目标检测取得了巨大成功[11，21，29，28]。虽然取得了很好的成绩，但objec-测试检测在实际应用中仍面临瓶颈*通讯作者图1.不受限制的对象检测的示例第一行表示来自Cityscapes[4]的图片，而最后两行的图片是从Foggy Cityscapes [32]中检测到的。前两行的结果是由在Cityscapes上训练的传统Faster- RCNN [29]检测到的，我们可以看到在域转移的Foggy Cityscapes（第二行）上丢失了许多对象第三行显示了我们的方法的结果，并且可以有效地去除两个数据集之间的域差异挑战，即，检测域偏移总是发生的野外的对象。由于收集的数据集[2，6]仍然是域受限的，由于训练数据和测试数据之间的域差异，训练的检测器很难适应另一个域。大多数传统的检测方法没有考虑到域的差异，这导致了显着的性能下降，在实践中。域差异的不确定性可以在图1中观察到，在图1中，我们使用Cityscapes [4]训练基于 VGG 16 的 Faster-RCNN [29] ，并在 FoggyCityscapes [32]上测试模型。图1中第二行的结果验证了我们的想法，即当存在域差异时，由于许多对象丢失，性能会显著下降。一般来说，很66686669因此，为了解决不受限制的对象检测挑战，我们在我们的检测器中利用了域适应和迁移学习的思想[23，25，31，38]。在我们的范例中，我们在完全未标记的目标域上训练检测器，通过利用语义相关但分布不同的源域以及足够的边界框标签。通过这种方式，可以学习领域不变特征，并且不需要对目标领域进行任何注释。我们提出的检测器的一个例子可以在图1（第三行）中观察到，它显示了比第二行的结果更好的性能，使用传统的Faster-RCNN模型。具体来说，我们提出了一个多对抗性Faster-RCNN检测器（MAF），用于对抗性域适应分层域特征和建议特征。来自卷积特征图的分层域特征逐渐呈现整个图像中的对象位置信息。在全连接层中提取的提案特征可以更好地表征生成提案的语义信息。在我们的MAF中，我们提出了多个对抗子模块，用于域和提案特征对齐。类似的任务，Chenet al. [3]提出了一种域自适应Faster-RCNN（RCNN），它还证明了当图像级分布差异存在时，检测器是域不兼容的。S.也就是说，如果域特征被对齐，则检测器将变为域不变的。受[3]中精彩的贝叶斯观点的启发，我们专注于分层域特征对齐模块，通过在卷积层的每个块上设计多个对抗域分类器来最小化域分布差异。在拟议的MAF中，我们考虑了三个重要方面：（1）学习多个域分类器子模块以区分地预测域标签，而训练骨干网络以生成域不变特征以混淆分类器。多个两人对抗游戏通过基于梯度反转层（GRL）[9]的优化以端到端的训练方式实现。(2)在分层域特征对齐模块中，大型卷积特征图模拟了由逐像素通道特征组成的大型训练集，这显著降低了训练效率。为此，我们提出了一种无域特征信息损失的尺度缩减模块（SRM），通过增加每个卷积块中的通道数来减少特征图的尺度。(3)在建议特征对齐模块中，我们建议将建议特征与检测结果聚合（即，分类分数和回归坐标）。为了进一步混淆域之间的硬样本，我们提出了一个加权梯度反转层（WGRL），以降低易混淆样本的梯度权重，并提高域之间的硬混淆样本的梯度权重。域.本文的贡献可以总结如下：多对抗Faster-RCNN（MAF）被引入用于不受限制的对象检测任务。提出了两个基于层次域特征和聚合建议特征的特征对齐模块，并给出了多对抗域分类器子模块，用于域自适应目标检测器。在对抗域分类器子模块中，提出了尺度缩减模块（SRM），用于在不丢失信息的情况下缩小特征图，并提高了MAF检测器的训练效率。在聚合提案特征对齐模块中，为了改善提案的领域混淆问题，提出了一种加权梯度反转层（WGRL），该层以较大的梯度权值惩罚难以混淆的样本，以较小的梯度权值放松容易混淆的样本。在Cityscapes [4]，KITTI [10]，SIM10K [16]等上进行了详尽的实验，用于不受限制的对象检测任务，这表明我们的MAF优于最先进的检测器。2. 相关工作物体检测。目标检测是一个基本的它是计算机视觉中的一项重要任务，已经被广泛研究多年。objec-t检测的早期工作[5，7，27]是用滑动窗口和提升分类器实现的。得益于CNN模型的成功[14，17，34]，出现了许多基于CNN的对象检测方法[1，8，20，24，33，39]。基于感兴趣区域（ROI）的两阶段目标检测方法是近年来研究的热点。R-CNN [12]是第一个对ROI进行分类以找到对象的两阶段检测器。Girshick等人[11]进一步提出了具有ROI池化层的Fast-RCNN，该层共享卷积特征，并且检测速度和准确性都得到了提升。之后，Faster-RCNN [29]由Ren等人介绍，它将Fast-RCNN和区域建议网络（RPN）集成在一个先进的结构中。Faster-RCNN进一步提高了检测的速度和准确性。在本文中，通过以Faster-RCNN为骨干，我们考虑了在不同领域探索无限制对象检测任务的主要转移自适应的思想。域适配。域自适应旨在通过减少分布差异来桥接不同的域或任务，这一直是各种计算机视觉任务的焦点[15，22，23，37，38]。最近，深度学习强大的特征表示能力促进了领域自适应。Long等人[23]实施····6670我我E∈RJ我不我我我D{}源靶域DomainVGG 16汇总建议功能对齐模块转换块块3块Block4 5FC层+CGRLGRL层次域特征对齐模块1×1ConvwsSc×s×sW/sH/sH减少信道减少规模域Domain分类器D4D 5Cls评分注册预测注册预测Cls评分RPN域分类器D3SRMSRMSRMGRLWGRL域分类器D pROI池化图2.我们MAF的网络结构。受基于VGG 16的Faster-RCNN [29]的启发，我们的MAF将特征对齐模块应用于领域特征和建议特征。对于分层域特征对齐模块，在VGG16的块3，4，5上实现了多个对抗域分类器子模块GRL层[9]用于对抗学习策略，并且通过SRM减少了特征映射的大小在建议特征对齐模块中，我们将分类分数和边界框回归结果与域分类器的相应特征连接起来，同时为对抗性学习策略引入WGRLSRM由两部分组成，第一部分是1×1卷积层，用于减小通道大小。然后利用尺度缩减部分将s×s个相邻特征合并，从而减小特征图的尺寸通过最小化CNN的两个特定于域的完全连接分支之间的最大平均离散度（MMD）来进行域自适应。此外，通过特征表示和do之间的二人博弈对抗学习，获取域。在无限制设置中，源域被完全标记，并且s=（xs，bs，ys）ns代表源域中的ns个标记数据，其中b sk×4代表xs的边界框坐标，并且ys∈Rk×1是categogΣrylabelforcorrespondingbound-[13]《易经》中的“道”，是一个非常重要的概念。我包装盒。Dt=（xt）nt代表n完全不拉-J研究迁移学习[18，22，26，35，40]。Tzengetal. [36]提出了一种两步训练方案来学习目标编码器。Zhang等人[40]利用几个领域分类器来学习领域信息和领域非信息特征。这些工作集中在图像分类任务，然而，对于对象检测任务，不仅要预测对象类别，还要预测边界框位置，这使得检测器的域转移更具挑战性。在我们的MAF检测器中，网络设计考虑了域自适应和迁移学习的思想，并基于梯度恢复层（GR-L）实现了对抗优化[9]。Li等[19]提出将强范畴的知识传递给弱范畴。在文献[3]中，在图像级和实体级处理域视差。然而，这两项工作都没有充分表征层次域特征对齐和建议特征对齐。3. 建议的MAF检测器在本节中，我们将介绍我们的MAF检测器。源域由Ds标记，并且Dt用于tar。beled图像样本从目标域。3.1. 网络结构所提出的MAF检测器基于Faster-RCNN [29]框架，具有五个卷积层块的VGG 16 [34]被用作MAF的骨干。层次域特征对齐模块在卷积特征图上实现，其中多对抗域分类器子模块部署在块3，4和5上。在网络的顶部，部署了聚合建议特征对齐模块。通过对卷积层和全收集层上的所有特征对齐子模块的组合，得到了减少了领域差异的领域混淆特征。值得注意的是，Faster-RCNN的包括分类损失和平滑L1损失在内的损失函数仅适用于源域。我们的网络结构概述如图2所示。两个主要模块包括1）层次化的领域特征对齐模块和2）聚合建议特征对齐模块，制定了用于领域自适应检测的MAF。前者是由多对抗性6671×××⌊⌋L域分类器子模块，其中在GRL [9]的顶部设计了尺度缩减模块（SRM），用于缩小特征图并提高训练效率。后者是由一个对抗性的do-main分类器制定的，其中具有检测结果的聚合建议特征作为输入。为了更好地表征域间的难混淆样本，采用加权GRL（WGRL）对易混淆样本和难混淆样本的类别进行自适应加权，从而更好地提高对抗域自适应性能。3.2. 层次域特征对齐层次域特征对齐模块的目的是校准卷积特征图中源域和目标域之间的分布差异，其比语义层更好地表征图像分布。一个内在的假设是，如果域之间的图像分布是相似的，则对象级的分布域之间的图像也基本相似[3]。也就是说，在整个图像中的分布差异是导致域差异的主要因素。在一张深深的网里-学习最大化交叉熵损失Lc，而域分类器子模块的参数努力最小化损失函数。通过反向传播梯度反向（即，GRL[9]），特征表示被表征为域不变的。为了有效地训练受[41]启发的分层域特征对齐模块，我们引入了一个尺度缩减模块（SRM），其目的是在没有信息丢失的情况下缩小特征图。具体来说，SR-M包含两个步骤：1）实现11卷积层以减少每个块中的特征图的通道的数量。该步骤可以获得领域信息特征，并降低领域特征的维数，有效训练。2)通过减小比例同时增加特征图的通道数来重新对齐特征。这一步的目的是减少训练集的大小和增加特征维数。详细地说，来自特征图的相邻像素被端到端地收集，以生成用于重新成形的特征图的新像素。显然，这一步是无参数的，易于计算。第二步的公式如下。工作，中间层的卷积特征映射FS=FL2第22章（二）t图像信息，如形状、轮廓、边缘等。（u，v，c）（u×s+c%s%s，v×s+c%s /s，c%s）因此，为了最小化域之间的域差异，我们提出了分层域特征对齐模块，该模块由不同卷积块中的多对抗域分类器子模块组成。对抗域分类器旨在混淆do-main特性，并在do-main分类器和骨干网络之间进行极大极小优化。我们考虑多对抗域分类器而不是一般的单对抗域分类器，因为层次特征对齐有助于最终域对齐。给定来自源域或目标域的图像xi，来自第m个块的卷积层的域特征被表示为Cm（xi，wm），其中wm代表网络参数。第m个块的对抗分类器子模块表示为Dm，它被学习来预测xi的域标签。遵循对抗学习策略，第m个卷积块中对抗分类器子模块可以写为：最小值最大值m（1）θmWMΣ其中m=u，vLc（Dm（Cm（xi，wm）（u，v），θm），di），in其中Lc是交叉熵损失，Cm（xi，wm）（u，v）是特征映射的像素（u，v）处的通道特征的统计量，θm是第m个块中的域分类器参数。 D1是样本X1的域标记，其对于源域被标记为1，而对于目标域被标记为0。在Eq。（1）、骨干网的参数为其中FL代表第二分量之前的特征图。（u，v，c）表示第c个特征图上位于（u，v）的元素，从0开始计数。FS代表尺度缩减的特征图，s是采样因子，这意味着特征图的相邻s s个%代表mod和the的操作。圆向下。由于SRM仅在第一分量中具有参数，因此减少了参数的数量，同时提高了训练效率。SRM的两个组件可以在图2的底部清楚地观察到。3.3. 汇总建议功能对齐用源域样本训练的对象分类器和边界框回归器也不能是域自适应的。因此，聚合建议特征对齐模块旨在实现语义对齐，同时保留用于分类和回归的信息。这些建议是从区域建议网络（RPN）中获得的，它表示图像的局部部分。为了提高建议特征的语义区分性，我们提出将建议特征与检测结果进行聚合，即，分类得分和边界框回归坐标，通过使用级联运算符。聚合带来了两种优势。首先，分类结果丰富了关于类别的信息，而回归结果被赋予了边界框的位置知识。其次，分类和边界框回归结果得到改善6672源样本目标样本⊕·LL−LKCp我p我特征的区分，以便容易且有效地训练域分类器。给定输入图像xi，关于图像的建议特征表示为F（xi，w），其中w是CNN模型参数。Dp是建议特征对齐模块的域值。建议特征对齐模块的损失函数可以写为：最小最大Lp（三）易混样品θpw其中LΣ=L（D（Fk（x，w）<$ck<$bk，θ），d），in图3.WGRL的插图蓝色代表相同的颜色-其中Fk（xi，w）是第k个建议的特征，ck和bk分别是Fk（xi，w）的softmax分类得分和Lc（）是交叉熵损失，θp是域分类器参数，代表连接操作。为了应用对抗域转移策略，在建议特征对齐模块中，我们提出了加权梯度反转层（WGRL）来放松易混淆样本，同时惩罚硬混淆样本，从而可以实现更好的域混淆。拟议的WGRL的图示见图3。接近域分类器决策边界的样本被识别为易混淆样本，即，它们不能被分类器区分，而远离判决边界的样本是硬混淆样本，即，在两个域中这些样本之间的域差异仍然很大。因此，我们应该更多地关注可区分的样本，通过在它们的梯度上用较大的权重惩罚这些样本。具体地说，建议的WGRL将域分类器的得分视为相应样本的权重。假设图像中的一个提议属于由域分类器为p，属于目标域的概率为1−p，反转前的梯度为G，反转后的梯度为Grev，则WGRL写为Grev=−λ （ d·p+ （ 1−d ）（ 1−p ）） G（4）其中λ是WGRL的超参数，d图中黄色的示例代表源域，黄色的示例代表目标域。阴影区域中接近域分类器的决策边界的样本被识别为容易混淆的样本，并由我们的WGRL进行阴影区域外的样本被识别为硬混淆（即，可区分的）样本。两个额外的极大极小损失函数m和p，即，当量（1）和方程（3）用于对抗性域对齐。检测损失最小化。在MAF检测器的训练中，我们利用充满绑定框标签的源域来训练Faster-RCNN检测损失以用于对象检测任务。最后一块的特征VGG 16 [34]被输入RPN，以生成用于进一步检测的多个建议。之后，ROI池层用于生成关于建议的特征。训练完全连接的层以获得提案的类别标签，同时细化边界框坐标。请注意，只有源域具有边界框的注释，Faster-RCNN的检测丢失是在源域数据上训练的。对抗域对齐损失。领域对齐损失包括层次化领域特征对齐和聚合建议特征对齐，以对抗的方式进行优化。通过共同考虑Eq.（1）和方程（3），MAF中提出的对抗域对齐损失可以写为：Σ5是图像的域标签。根据等式（4）、预测得分被用作Lt=Lp+M=3长度（5）梯度域分类器的较高置信度意味着域自适应需要进一步改进，并且样本会自动增加权重。否则，具有较低领域分类置信度的样本被视为不可区分，因此被向下加权。注意，等式中的λ的负值（4）指出了优化中的梯度反转。3.4. MAF检测器概述我们的模型的概述可以在图2中看到。除了Faster-RCNN的检测损失det，即，分类损失和回归损失，我们的MAF有另一个MAF探测器整体丢失。结合检测损失和域对齐损失，所提出的MAF检测器的最终损失函数可以写为：LMAF=Ldet+αLt（6）其中，Ldet是Faster-RCNN [29]的损失，包括软最大损失函数和平滑l1损失[11]，α是检测损失和域自适应之间能量损失MAF与Eq进行端到端训练。（六）、采用标准SGD算法对网络参数进行优化。领域分类器难混淆样品源样本DsDt目标样本p6673DF. pf.人骑手车卡车总线火车mcycle自行车地图Faster-RCNN√×√×17.823.627.111.923.89.114.422.818.8DAF√ √25.031.040.522.135.320.220.027.127.6MAF*√25.336.741.923.538.236.418.328.030.9MAF√×25.636.839.918.832.024.121.329.228.5√√×29.038.843.923.239.636.426.731.633.628.239.543.923.839.933.329.233.934.0表1. Foggy Cityscapes验证集的结果。DF. 表示域特征对齐，并且pf.表示建议特征对齐。MAF* 意味着仅考虑块5中的一个域特征对齐和建议特征对齐4. 实验在评估中，我们在几个数据集上进行了无限制的对象检测实验，包括 Cityscapes [4] ， Foggy Cityscapes[32]，KITTI [10]和SIM10K [16]。我们将我们的结果与我们在实验中称为DAF的最先进的域自适应Faster-RCNN [3]和标准Faster-RCNN进行比较。据我们所知，这是类似物体检测任务的第一项工作。4.1. 实现细节本文中的实验遵循相同的设置在[3]中。我们实验的源域用边界框和相应的类别进行了充分的注释，而目标域完全没有标记。为了评价无约束目标检测的性能，比较了目标域平均平均精度（mAP）的测试性能。等式中的权衡参数α（6）在训练阶段被设置为0.1。除此之外，对于检测部分，我们通过以下方式设置超参数[29]。我们利用ImageNet [30]预训练的VGG16模型来初始化我们的MAF检测器。我们的模型以0.001的学习率训练了 50k 次迭代，并在另外 20k 次迭代中下降到0.0001。总共训练了70k次迭代。小批量大小设置为2，动量设置为0.9。4.2. 数据集采用四个数据集，包括 Cityscapes [4] ， Foggy C-ityscapes [32]，KITTI [10]和SIM 10 K [16]，通过以下[3]来评估我们的方法的性能。提供了这些数据集的详细信息Cityscapes：Cityscapes [4]旨在捕捉来自不同城市的户外街道场景的高度可变性。该数据集是在常见天气条件下捕获的，并且具有5000张图像，带有密集的像素级标签。这些图像是在不同季节从27个城市收集的，包括各种场景。请注意，数据集最初不是为对象检测任务收集的，而是为语义分割收集的，因此边界框是由像素级注释生成的，如[3]所示。Foggy Cityscapes：Cityscapes中的所有图像[4]雾景[32]是从城市景观中衍生出来的，用于模拟雾景，并与雾天气构成图像。从Cityscapes中继承的像素标签用于在实验中生成边界框。 Cityscapes 和 FoggyCityscapes的一些示例如图1所示。KITTI：KITTI [10]是基于自动驾驶平台生成的数据集。数据集的图像是在一个中等城市拍摄的。共14999张图片，80256个边界框包含在用于对象检测任务的数据集中。在我们的实验中，训练集中的7481张图像被用于适应和评估，如下[3]。SIM10K：SIM10K [16]是由《侠盗猎车手V》（GTAV）的引擎生成的模拟数据集。此数据集包含10000张图像，包含58071个边界框的车。SIM10k的所有图像都用作训练的源域。4.3. 实验结果在本节中，我们将在不同的数据集上评估我们的方法，以模拟不同的域转移场景。特别地，我们首先评估天气的影响。在此基础上，利用SIM10k和Cityscapes搜索合成数据和真实数据的域差异。最后，对不同场景引起的域偏移进行了探讨。4.3.1从城市景观到雾中的城市景观我们在Cityspaces [4]和Foggy Cityspaces [32]上实施了我们的方法，以评估雾天气条件下的MAF 。我们将Cityscapes作为源域，将Foggy Cityscapes作为目标域。基于VGG 16的Faster-RCNN [29]被实现为实验的基线。作为一种跨域检测方法，本文实现了该MAF的竞争器.城市景观中的所有类别都用于实验，包括人，骑手，汽车，卡车，公共汽车，火车，摩托车和自行车。在Foggy Cityscapes的验证集上对模型进行了测试。结果示于表1中，其中df. 代表着等级制度6674→域特征对齐模块，PF表示所有实验中的建议特征对齐模块。根据表1，我们的MAF在所有比较的方法中达到最好的结果。同时使用do- main和proposal功能对齐模块的MAF的性能比传统方法高出6.4%，这表明我们的方法非常有效。注意，仅具有建议特征对准模块MAF（即，pf. ）在mAP上达到了28.5%，也优于传统的特征匹配算法，并对提出的特征匹配模块的性能进行了测试。除此之外，MAF* 和我们的方法的结果还可以观察到一些其他有趣的结论，其中只使用了层次域特征对齐模块。MAF* 是一个模型，它只包含块5上的一个对抗域分类器子模块，并删除了块3和4上的子模块。显然，更多卷积层块上的多对抗域分类器可以显著提高域自适应性能，以获得更好的域不变特征表示。通过良好对齐的域特征，我们的模型实现了更好的结果-这也验证了我们的想法，即卷积特征映射中的图像分布校准比不受限制的目标检测任务的最终域对齐中的建议特征对齐更重要。4.3.2从合成数据到真实数据的SIM10k [16]是由合成数据组成的数据集。在该实验中，SIM10k被用作源域，而Cityscapes被用作目标域。请注意，在实验中，只有汽车类别用于无限制的目标检测任务。在Cityscapes的验证集上对结果进行了检验，如表2所示。DF. pf.汽车APFaster-RCNN√×√×30.1DAF√39.0MAF√×√√×40.140.741.1表2.目标域Cityscapes的验证集上的结果给出了小车的平均精度（AP）我们的MAF具有不同的功能对齐模块（df. 和PF。）进行了实验分析。从表2的结果来看，我们的MAF与其他MAF相比获得了最佳结果。值得注意的是，我们的MAF在不同的设置下总是可以实现比经典Faster-RCNN更好的性能[29]。我们的方法在AP中的性能也超过了[3] 2.1%。所提出的MAF的优越性充分证明了不受限制的对象检测。此外，所提出的分层域特征对齐（df. ）能有效地提高检测效率。4.3.3从一个场景到另一个场景的检测虽然C-ityscapes和KITTI的天气条件相似，但仍存在由背景、视点、分辨率、摄像机等不同场景引起的域差异。在这个实验中，我们应用C-ityscapes [4]和KITTI[10]作为数据集来研究跨场景对象检测。具体地，这两个数据集被交替地实现为源域和目标域。我们在这个实验中实现了我们的MAF ，RCNN [3]和Faster- RCNN[29]。报告了汽车的AP以进行性能比较。实验结果示于表3中。DF. pf.K →CC →KFaster-RCNN√×√×30.253.5DAF√38.564.1MAF√×√√×38.939.741.069.971.472.1表3.无限制目标检测任务的结果关于Cityspaces和KITTI测试了 Cityscapes （ C ） →KITTI （ K ）和 KITTI （ K ）→Cityspaces（C）的性能。报告了汽车的AP以供比较。在表3中，K C表示KITTI [10]用作源域，而Cityscapes[4]用作目标域，反之亦然。显然，我们的MAF模型在所有条件下都获得了最好的性能。最好的性能是8.1%，高于国家的最先进的DAF方法。此时，我们的MAF的性能已从分层域特征对齐到建议特征对齐得到充分验证。4.4. 提案特征对齐分析在本节中，我们分析了聚合建议功能和建议功能对齐模块中的WGRL的影响。为了与使用一个对抗性域分类器进行图像级自适应的ESTA [3]进行公平比较，我们还在主要特征对齐中使用一个对抗性域分类器，即。有三种设置的MAF*。在该分析中，Cityscapes [4]被用作源域，Foggy Cityspaces [32]是目标域，遵循与第4.3.1节相同的设置。实验的分析结果示于表4中。在表4中，WGRL和建议特征聚合可以有助于最终域适配。建议特征与分类分数和回归结果的关联为建议特征带来了更多的语义信息，使得域分类器可以被6675DAF更快-RCNNMAF（df.pf.）MAF（仅DF）MAF（仅pf.）人骑手车卡车总线火车mcycle自行车地图DAF25.031.040.522.135.320.220.027.127.6MAF*（不含WGRL）25.436.241.422.136.931.819.928.830.3MAF*（不含骨料）25.535.642.520.738.131.019.529.030.2MAF*25.336.741.923.538.236.418.328.030.9表4.分析了建议的特征对齐模块。 w/oWGRL表示MAF* 中使用标准GRL，w/o聚集表示检测结果不与建议特征连接35检测优先级3025201510500.50.550.60.650.70.750.80.850.9零点九五IOU图4. 具有不同IOU 阈值的mAP 测试 MAF 、 DAF 和 Faster-RCNN，并与不同的IOU阈值进行比较，并以不同的颜色显示。很容易被训练出特征混淆WGRL对易混淆样本和难混淆样本分配不同的权重，使模型更加关注难混淆样本，获得更好的训练效果。同时，将聚合提案特征与W-GRL相结合，实现了最佳的mAP，从而验证了所提出的提案特征对齐模块的性能。4.5. IOU门槛控制预测边界框的IOU阈值也会影响测试数据的检测结果。在之前的实验中，IOU阈值为设定为0.5。在这一部分中，我们在测试阶段调整IOU阈值，以研究其影响。Faster-RCNN [29]、Foggy [3]、MAF和具有单个特征对齐模块的MAF是以Cityscapes作为源域和以FoggyCityscapes作为目标域来实现的。所有模型的分析结果如图4所示。从图4中可以看出，所有模型的mAP都随着IOU阈值的增加而下降。原因很明显，更大的IOU阈值意味着更多的预测边界框被排除在外，因此边界框不足会导致召回率和准确率的快速下降。曲线的斜率近似表示在相应的IOU范围内的预测边界框。得益于具有两个特征对齐模块的多对抗域自适应策略，我们的MAF在不同IOU值下实现了最佳结果。此外，MAF只有层次特征对齐模块，MAF（仅DF）排名第二，并显示了多对抗域特征对齐的重要性和有效性。从图4中，我们的MAF在IOU范围0.8-0.9上获得最高斜率，RCNN在范围0.75-0.85上获得最高斜率，Faster-RCNN在IOU范围0.7-0.8处获得最高斜率。通过斜率的比较，结果表明，通过域自适应，目标域上的非限制性对象检测的IOU增加，并且我们的MAF与多对抗域特征对齐实现了最佳IOU。5. 结论在本文中，我们提出了一种多对抗Faster-RCNN（MAF）检测器，用于解决无限制对象检测问题。我们的方法包括两个重要的- 测试模块，即，分层域特征对齐和聚合提案特征对齐。由于域自适应对象检测在很大程度上取决于域之间图像分布的对齐，因此我们提出了不同卷积块中的多对抗域分类器，用于特征图的域混淆。为了减少特征图的规模，我们提出了一个SRM来提高对抗域分类器的训练效率。对于领域自适应检测器，我们进一步部署了一个建议的特征对齐模块，通过聚合检测结果进行语义对齐。聚合的特征被馈送到域分类中- 采用加权梯度反转层（WGRL），可以自动聚焦于难混淆样本。我们的MAF检测器可以通过优化Faster-RCNN的域对齐损失函数和检测损失来进行端到端训练。我们在不同领域的几个数据集上测试了我们的模型，并取得了最先进的结果。实验证明了该模型的有效性。鸣谢：本课题得到了国家自然科学基金（61771079）、重庆市青年人才计划、重庆市基础研究基金（2005年第100号）的资助。cstc2018jcyjAX0250）。最大平6676引用[1] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在CVPR中，第6154- 6162页，2018年。2[2] Xinlei Chen ，Hao Fang ，Tsung-Yi Lin，RamakrishnaVedan-tam ， SaurabhGupta ， Piotr Dollar ， andC.Lawrence Zitnick.Microsoft coco字幕：数据收集和评估服务器。计算机科学，2015年。1[3] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在CVPR中，第3339-3348页，2018年。二三四六七八[4] Marius Cordts，Mohamed Omran ，Sebastian Ramos ，Tim-oBuckfeld ， MarkusEnzweiler ， RodrigoBenenson ， Uwe Franke ， Stefan Roth ， and BerntSchiele.用于语义城市场景理解的cityscapes数据集。在CVPR，第3213-3223页，2016年。一、二、六、七[5] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图在CVPR，2005年。2[6] Mark Everingham 、 S.M.Ali Eslami 、 Luc Van Gool 、Christo-pher K.I Williams 、 JohnWinn 和 AndrewZisserman。Pascal Visual Object Classes Challenge：ARetrospective.IJCV，111（1）：98-136，2015. 1[7] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE TPAMI，32（9）：16272[8] Cheng-Yang Fu ， Wei Liu ， Ananth Ranga ， AmbrishTyagi，and Alexander C Berg. Dssd：解卷积单次激发探测器。arXiv预印本arXiv：1701.06659，2017。2[9] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督主适应。arXiv预印本arX-iv：1409.7495，2014年。二、三、四[10] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。二六七[11] 罗斯·格希克。快速R-CNN。计算机科学，2015年。一、二、五[12] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在CVPR中，第5802[13] 伊恩Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville ， and Yoshua Bengio. 生成性对抗网。NeurIPS，2014。3[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。一、二[15] 朱迪·霍夫曼，塞尔吉奥·瓜达拉马，埃里克·S·曾，杰夫·唐阿休，罗斯·格希克，特雷弗·达雷尔和凯特·萨恩科。Lsda：通过自适应进行大规模检测NeurIPS，4：35362[16] Matthew Johnson-Roberson 、 Charles Barto 、 RounakMehta 、 Sharath Nittur Sridhar 、 Karl Rosaen 和 RamVasudevan。矩阵中的驱动：虚拟世界能否取代人类为现实世界任务生成的注释？ arXiv 预印本 arXiv ：1610.01983，2016。二六七6677[17] Alex Krizhevsky、Ilya Sutskever和E.杰弗里·辛顿使用深度卷积神经网络进行Imagenet分类。在NeurIPS，第1097-1105页，2012中。一、二[18] Chun-Liang Li ， Wei-Cheng Chang ， Yu Cheng ，Yiming Yang，and Barnabas Poczos.更深入地理解矩匹配网络.在NeurIPS，第2203-2213页，2017年。3[19] Yan Li ， Junge Zhang ， Kaiqi Huang ， and JianguoZhang.具有鲁棒对象转移的混合监督对象检测。IEEETPAMI，PP（99）：1-1，2018年。3[20] Tsung-Yi Lin，Priya Goyal，Ross Girshick，KaimingHe，and Piotr Dollar.用于密集对象检测的焦点损失。IEEE TPAMI，PP（99）：2999-3007，2017。2[21] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy，Scott Reed，Cheng-Yang Fu，andC.亚历山大·伯格Ssd：单发多盒探测器。在ECCV中，第21-37页。施普林格，2016年。1[22] Mingsheng Long，Zhangjie Cao，Jianmin Wang，andMichael I Jordan. 条件对抗域适应。在NeurIPS，第1640-1650页，2018年。二、三[23] Mingsheng Long ， Han Zhu ， Jianmin Wang ， andMichael I Jordan

下载后可阅读完整内容，剩余1页未读，立即下载