鲁棒学习的领域自适应目标检测

59 浏览量更新于2023-10-12 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

480一种鲁棒学习的领域自适应目标检测加拿大本那比市西蒙弗雷泽mkhodaba@sfu.caArash VahdatNVIDIA美国加利福尼亚avahdat@nvidia.comMani RanjbarQuadrant本拿比，加拿大mani@quadrant.aiWilliam G. 麦克里迪象限加拿大本拿比bill@quadrant.ai摘要在现实世界的目标检测应用中，域移位是不可避免的。例如，在自动驾驶汽车中，目标域由不受约束的道路环境组成，这些道路环境不可能在训练数据中全部观察到类似地，在监视应用中，由于隐私法规，可能缺乏足够代表性的训练数据在本文中，我们从鲁棒学习的角度来解决域适应问题，并表明该问题可以用噪声标签进行训练。我们提出了一个鲁棒的对象检测框架，它对边界框类标签、位置和大小注释中的噪声具有抵抗力。为了适应域移位，使用由仅在源域中训练的检测模型获得的一组噪声对象边界框在目标域上训练模型。我们评估了我们的方法在各种源/目标域对中的准确性，并证明该模型在SIM 10 K，Cityscapes和KITTI数据集上的多个域适应场景上1. 介绍目标检测是计算机视觉的核心，并在监控、医学成像、自动驾驶汽车、人脸分析和工业制造中得到应用。使用卷积神经网络（CNN）进行目标检测的最新进展使当前模型快速、可靠和准确。然而，域自适应仍然是目标检测中的一个重大挑战。在许多判别问题（包括目标检测）中，通常假设训练（源域）和测试（目标域）集中的实例分布相同。不幸的是，这个假设很容易被违反，并且对象检测中的域变化随着视点、背景、对象外观、场景类型和照明的变化而出现。此外，对象检测模型通常部署在环境中，这与训练环境不同。常见的域自适应方法是基于目标域中的监督模型微调或无监督跨域表示学习。前者需要在目标域中添加额外的标记实例，而后者则以两个新的挑战为代价消除了这一需求首先，源/目标表示应该在某个空间中匹配（例如，或者在输入空间[69，23]或者隐藏表示空间[14，54]）。其次，必须定义用于特征匹配的机制（例如，最大平均差异（MMD）[40，35]，H发散[2]，或对抗学习）。在本文中，我们以不同的方式处理域自适应我们的方法依赖于这样的观察：虽然在源域中训练的（初级）模型在目标域中可能具有次优性能，但它仍然可以检测到的对象然后可以用于在两个域上重新训练检测模型。然而，因为在目标域中检测到的实例可能是不准确的，所以在重新训练期间必须使用鲁棒的检测框架（其适应这些不准确性）。该公式化的主要益处是检测模型在目标域中以无监督的方式被训练。虽然我们没有明确地针对匹配源域和目标域之间的表示，但检测模型可以隐式地实现这一点，因为它由来自源域和目标域的实例提供。为了适应标记的不准确性，我们采用了概率论的观点，并在Faster R-CNN [47]的基础上开发了一个强大的对象检测我们针对两种类型的噪声提供鲁棒性：i）对象标签中的错误（即，边界框被标记为人，但实际上是杆），以及ii）不准确的边界框位置和大小（即，边界框不包围对象）。我们制定了鲁棒的再训练目标，使模型可以改变边界框类标签和边界框的位置/大小的基础上，它的当前信念的标签在目标域。这使得鲁棒检测481模型来细化目标域中的噪声标签为了进一步提高目标域的标签质量，我们引入了一个辅助图像分类模型。我们期望辅助分类器可以改进目标域标签，因为它可能使用原始检测模型未利用的线索作为示例，附加线索可以基于附加输入数据（例如，运动或光流）、不同的网络架构或模型集合。然而，我们注意到，辅助图像分类模型仅在再训练阶段期间使用，并且在测试时间保留最终检测器的计算复杂度。本文的贡献总结如下：i）我们提供了对象检测中的域自适应的第一个（据我们所知）公式作为鲁棒学习。ii）我们提出了一种新的鲁棒对象检测框架，该框架考虑对象标签和位置两者上的训练数据中的噪声。我们使用Faster R-CNN[47]作为我们的基本对象检测器，但理论上，我们的一般框架可以适用于其他检测器（例如，SSD [32]和YOLO [45]），最小化分类损失和回归边界框。iii）我们使用独立的分类细化模块来允许来自目标域的其他信息源（例如，运动、几何形状、背景信息）被无缝地集成。iv）我们证明了这个强大的框架在几个跨域检测任务上达到了最先进的水平2. 以前的工作目标检测：对象检测的第一种方法使用滑动窗口，然后是基于手工制作的特征的分类器[6，11，60]。在深度卷积神经网络取得进展之后，出现了R-CNN[19]，SPPNet [22]和Fast R-CNN [18]等方法，这些方法使用CNN进行特征提取和分类。慢速滑动窗口算法被更快的区域建议方法（如选择性搜索）所取代[55]。最近的目标检测方法进一步加快边界框检测。例如，在 Faster R-CNN [47] 中，引入了区域预测网络（RPN）来预测预定义锚框的位置和大小的改进。在SSD [32]中，使用具有不同纵横比的锚框在不同尺度的特征图上执行分类和边界框预测在YOLO [44]中，解决了网格上的回归问题，其中对于网格中的每个单元格，预测以该单元格为中心的对象的边界框和类标签较新的扩展在[66，45，5]中找到。方法的综合比较报告见[25]。本文的目标是在一个新的领域中提高目标检测器的准确性，而不管速度如何。因此，我们的改进基于更快的R-CNN，一个更慢但更准确的检测器。1域适配：最初是针对图像分类进行研究的，大多数领域自适应文献都集中在这个问题上 [10，9，30，21，20，12，50、33、34、14、13、17、1、39、31]。一些冰毒-在此背景下开发的ODS包括跨域内核学习方法，例如自适应多内核学习（A-MKL）[10]、域转移多内核学习（DTMKL）[9]和测地线流内核（GFK）[20]。存在针对获得域不变预测子的各种各样的方法：使用非对称度量学习[ 30 ]的域之间非线性变换的监督学习，中间表示的无监督学习[21]，使用特征向量协方差[ 12 ]的目标和域子空间的对齐，对齐二阶统计以最小化域之间的移位[50]，以及协方差矩阵对齐方法[62]。深度学习的兴起带来了领域不变特征学习的发展。在[33，34]中，学习了网络中隐藏特征的再生核希尔伯特嵌入，并对两个域分布执行均值嵌入匹配。在[14，13]中，对抗性损失和域分类器被训练来学习具有区分性和域不变的特征。有较少的工作领域适应对象检测。非图像分类任务的域自适应方法包括[15]用于细粒度识别，[3，24，67，61]用于语义分割，[29]用于数据集生成，[36]用于在主动学习中找出分布数据。对于对象检测本身，[64]使用自适应SVM来减少域偏移，[43]对从R-CNN提取的特征进行子空间对齐，[2]使用更快的RCNN作为基线，并采取对抗方法（类似于[13]）来学习目标和源域上的域不变特征。我们采取了一个有趣的damentally不同的方法，重新制定的问题，作为嘈杂的标签。我们设计了一个鲁棒噪声训练计划的对象检测是训练噪声包围盒和标签从目标域获得作为伪事实标签噪音：以往的鲁棒学习研究主要集中在类别较少且不相交的图像分类上。早期的工作使用实例独立的噪声模型，其中每个类别与依赖于实例内容的其他类别混淆[41，38，42，49，68，65]。最近，文献已经转向实例特定的标签噪声预测[63，37，56，57，58，59，53，27，7，46]。据我们所知，我们是第一个对标签噪声具有鲁棒性的对象检测模型的提案。1我们采用更快的R-CNN也允许与最先进的直接比较[2]。4823. 方法按照域自适应的通用公式，我们将训练数据空间表示为源域（ S），将测试数据空间表示为目标域（T）。我们假设S中的注释训练图像数据集提供，但只给出T中的图像（即T中没有标签）。我们的框架，可视化图。1，包括三个主要阶段：1. 对象提议挖掘：在源域上训练的标准Faster R-CNN用于检测目标域中的对象。检测到的对象形成T中的提议集合。2. 图像分类训练：给定从S中的边界框提取的图像，我们训练一个预测对象类别的图像分类模型在每一个图像中。所得到的分类器用于对T中的所提出的边界框进行评分。该模型有助于在下一阶段训练鲁棒的对象检测模型。引入图像分类的原因是i）该模型可能依赖于不同的表示-与阶段一检测模型所使用的那些相比（例如，运动特征），或者它可以使用更复杂的网络架构，以及ii）该模型可以使用标记的im-tech以半监督的方式训练。年龄在S中，未标记图像在T中。3.鲁棒的对象检测训练：在该阶段中，使用S中的对象边界框和T中的对象提议（来自阶段一）来训练鲁棒的对象检测模型，该对象提议已经使用图像类重新评分第二阶段（Phase Two）。我们将详细的方法描述组织如下。首先，我们介绍了背景符号，并在第二节中提供3.1确定第一阶段使用的模型。其次，在第二节中对Faster R-CNN的概率视图。3.2节中提出的强大的对象检测框架提供了一个基础三点三这定义了第三阶段中使用的模型。最后，在第二节中讨论了在第二阶段中使用的图像分类模型。三点四分。符号：我们在S中给出训练图像以及它们的对象边界框标签。该训练集由DS={（x（s），y（s））}表示，其中x（s）∈ S表示图像，y（s）是x（s）的对应边界框标签，并且s是索引。每个边界框y =（yc，yl）用一个整数表示一个类标签，yc∈ Y={1，2，. . . ，C}，其中C是前景类的数量，以及4元组，yl∈ R4，给出了框的左上角、高度和宽度的坐标。为了简化符号，我们作为-将每个图像与单个边界框相关联。2[2]这一限制只是为了便于记法。我们的实现不对每个图像中的对象数量做任何假设。在目标域中，给出没有边界框注释的图像在第一阶段结束时，我们用Faster R-CNN生成的边界框来增强这个数据集。We表示结果集DT={x（t），y~（t）}其中x（t）∈T是图像，y∈（t）∈Y是相应的建议边界框，t是索引。最后，我们得到在阶段t w o结束时针对DT中的每个实例从p img（yc）获得的图像分类得分|x，y~l），其表示将在x中的边界框y~l中裁剪的图像分配给类别yc ∈ Y ∪ { 0 }的概率，类别yc ∈ Y ∪{0}是前景类别或背景中的一个。3.1. 更快的R CNN更快的R-CNN [47]是一个两阶段检测器，由两个主要组件组成：区域建议网络（RPN），其建议用于对象检测的感兴趣区域（ROI）;以及ROI分类器，其预测用于所建议的边界框的对象标签。这两个组件共享第一卷积层。给定输入图像，共享层提取图像的特征图在第一阶段，RPN预测一组预定义锚框作为对象或背景的概率，以及它们的大小和位置的改进。锚框是一组固定的预定义框，它们在整个图像中具有不同的位置、大小和宽高比。与RPN类似，区域分类器预测RPN提出的ROI的对象标签以及框的位置和大小的细化。通过ROI池化层获得传递到分类器的特征。两个网络通过最小化损失函数来联合训练L=LRPN+ LROI。（一）LRPN和LROI表示用于RPN和ROI分类器的损失。损失由测量误分类误差的交叉熵成本和回归损失组成量化所述定位误差。RPN被训练为检测和定位对象而不考虑它们的类别，并且ROI分类网络被训练为对对象标签进行分类。3.2. 更快的R CNN在本节中，我们提供了Faster R-CNN的概率视图，该视图将用于定义噪声检测标签的鲁棒损失函数FasterR-CNN中的ROI分类器为RPN生成的每个建议边界框一分类预测|x，y~l）表示分类随机变量取不相交的C +1 类（即前景类加上背景）。使用softmax激活对该分类分布进行建模类似地，我们对位置预测p loc（yl|x，y<$l）=N（yl;y<$l，σI）48321期2期3期汽车（？）汽车90%汽车99%适用火车目标域汽车（？）图像分类器Faster R-CNN对象提议改进具有鲁棒损失函数的自行车（99%）伪地面实况最终输出火车汽车80%火车自行车（60%）适用提取物地面实况源域目标域图1：鲁棒学习方法包括三个阶段。在阶段1中，使用源域中的标记数据来训练检测模块。然后，该检测器用于为目标域中的图像生成噪声注释。在阶段2中，使用分类模块细化在阶段1中分配的注释。最后，在阶段3中，使用目标域中的原始标记数据和细化的机器生成的注释来重新训练检测器。制定再培训，以说明错误标记的可能性。正态分布3，具有均值y′l和常数对角协方差矩阵σI。在实践中，ROI分类器仅生成y′l，用于定位对象。3.3. 鲁棒更快的R CNN为了获得对标签（yc）和盒子位置/大小（yl）上的检测噪声的鲁棒性使用这些细化的注释来训练阶段三检测模型。如果假设训练注释是无噪声的，则使用pcls和ploc两者来定义等式（1）中的最大似然损失函数。1.一、在存在噪声标签的情况下，arg maxpcls和arg maxploc可能与噪声标签不一致，但仍然正确地识别对象的真实类别或位置。此外，我们还可以访问来自第2阶段的图像分类模型pimg，该模型在预测亲的类别标签时可能更准确因为它是使用不同于主检测模型的信息源训练的。接下来的问题是，如何将Faster R-CNN中的pcls、ploc和图像模型中的pimg结合起来，以获得对象类别和位置的最佳预测？Vahdat [56]提出了一种正则化EM算法，用于图像分类模型的鲁棒训练。受这种方法的启发，我们开发了两种纠正分类和定位错误的机制，基于这样的假设：当在有噪声的标签实例上训练分类模型时，真实标签上的分布应该接近底层标签分类模型和从其他来源获得的辅助分布。由于学习的分类模型的准确性在训练期间提高，因此这些信息源的权重应当在训练期间改变。分类错误更正：我们寻找一个分布q（y c），它接近Faster R-CNN的分类模型和在第二阶段训练的图像分类模型p img。我们提出以下优化目标来推断q（yc）minKL （ q （ yc ） ||pcls （ yc|x ， y∈l ）） +α KL （ q（yc）||pimg（yc|x，y=1））。Q（二）KL表示Kullback-Leibler散度，α>0平衡两项之间的权衡。对于较大的α值，q有利于图像分类模型（pimg）而不是更快的R-CNN预测（pcls），而对于较小的α，q有利于pcls。在训练过程中，可以改变α，以在两个分布之间建立合理的平衡。下面的结果提供了方程中的优化问题的封闭形式的解决方案。第二章：定理1. 给定随机变量z和正标量α定义的两个概率分布p1（z）和p2（z），min KL（q（z）||p1（z））+ αKL（q（z））||p2（z））Q由下式给出：3如果L2-范数用于等式中的局部化误差，则该假设自然遵循。1.一、然而在实践中，L2和L1q（z）.p1（z）pα（z）Σ1α+1（3）使用不对应于简单概率输出的范数。证据在这里，我们证明了连续随机484z（）z（）2−变量定义在域中。定理2. 给定两个多元正态分布p1（ z）=N（ z; µ1，Σ）和p2（ z）=N（ z; µ2，Σ），其中com-minQKL（q（z）||p1（z））+ α KL（q（z））||p2（z））∫ ∫q（ z）q（ z）为随机变量定义的mon协方差矩阵Σ-表z和正标量α，加权几何=q（ z）logdz+αq（z）logdzz.zαzΣ1p（ z）p（z）平均q（z）<$p1（z）p2（z）α+1也是正态分布，平均Ω∫1Ω2q（ z）.µ1+ αµ2Σ/（α+1）和协方差矩阵Σ。=（α+1）q（z）logΣΩp1（z）pα（z）Σ1dzα+1证据根据正态分布的定义，我们有：=（α+ 1）KL（q（z）||1ΣαZp1（z）p2（z）Σ1α+1）+Cq（z）.p1（ z）pα（ z）Σ2Σ1α+1Σ.αΣ1-11（z−µ）T−1（z−µ）+α（z−µ）T−1（z−µ）其中，Z是以下项的归一化：p1（z）p2（z）α+1 和C第二章α+111α+12 2是与q无关的常数。最终KL最小化Σ Σ公司简介当Eq. 3保持。1第二章01-02-01 2α+1使用Theorem 1、解Eq. 2作为两个分布的加权几何平均值获得：.1第二章-µ1+αµ2α+1ΣT Σ−1Σ-µ1+αµ2α+1.∝|xyα|xy˜Σ1因此，q（z）=N（z;（µ1+αµ2）/（α+ 1），Σ）q（ yc）pcls（ yc x，yl） pimg（ yc x，yl）α+1。（四）使用Theorem 2，Eq. 5是：.Σ由于两个p cl（yc|x，y=l）和p img（yc|x，y=l）arecat egori-cal分布（使用softmax激活），q（yc）也是一个q（yl）=Nyl;（y<$l+αy<$l）/（α+1），σI.（六）（softmax）分类分布，其参数为ob-如W。由pcls产生的对数的加权平均值和Pimg，即，，σ（lcls+αlimg）/（1+α），其中σ是软max和l_cls和l_img是对应的logit。在等式中设置α=∞4将q（yc ）设置为p img （yc|x，y∈l ），而α=0将q（yc）设置为p cls（yc|x，y=1）。在训练过程中，我们将α从大值减小到小值。直观地，在训练开始时，p cls（yc|x，y=l）是不准确的，真实类别标签的估计，因此通过将α设置为较大值，我们引导q（yc）依赖于p img（yc|x，y=1）大于p。通过在整个训练过程中减小α，q将依赖于pcls和pimg两者来形成真实类标签上的分布。边界框优化：当量4细化了目标域中建议边界框的分类标签。在这里，我们提供了一个类似的方法来纠正-ING的位置和大小的错误。回想一下，Faster R-CNN平均y~l和常数对角方差矩阵σI。我们让p init（yl|x，y=1）=N（y= 1;y=1，σ1）表示图像x的初始检测。在每次迭代时，Faster R-CNN使用p l〇c（yl）预测对象的位置|x，y〜l）=N（yl;y¯l，σI），用于图像x和提议y〜l。我们使用以下目标函数来推断真实对象上的分布q地点：minKL （ q （ yi ） ||plo c （ yl|x ， y（ l ）） +α KL （ q（yl）||pinit（yl|x，y~l））（5）Q与Eq一样2、解Eq.δ是两个分布的加权−）485这个结果给出了精确的边界框位置和大小作为从第一阶段提取的框位置/大小的加权平均值设置α=∞忽略Faster R-CNN的当前输出，而α= 0使用其输出作为位置。在训练的时候，我们首先将α设置为较大值，然后逐渐将其减小到较小值。以这种方式，在训练的早期阶段，q依赖于p_init，因为它培训目标功能：我们使用D S ∪ D T训练一个鲁棒的Faster R-CNN。在每次小批量更新时，如果实例属于DS，则更快的R-CNN用于参数更新。如果一个实例属于DT，则在等式（1）中q（4和q（yl）在方程中。6用于细化所提出的边界框注释。q（y_c）被用作误分类项的交叉熵损失函数中的软目标标签，并且（y_l+αy~l）/（α+l）被用作回归项的目标位置修改仅在ROI分类器损失函数中进行，因为RPN是类不可知的。假阴性纠正：到目前为止，鲁棒检测方法仅细化在第一阶段中生成的对象提议。这允许模型校正假阳性检测，即不包含任何前景对象或包含来自与预测类不同的类的对象的实例然而，我们也希望纠正错误的负面预测，即，在第一阶段中未检测到的前地类的阳性实例。486为了纠正假阴性实例，我们依赖于Faster R-CNN的硬阴性挖掘阶段。在此阶段，将一组硬否定实例作为背景实例添加到训练集。来自DS的硬底片实际上是背景图像。然而，从DT提取的因此，在训练属于DT的负样本时，我们将pimg（yc）定义为软化的独热向量通过将背景的概率设置为1−1，将其他类别标签的概率统一设置为1/C。这在交叉熵损失中用作软目标标签。3.4. 图像分类：我们的框架的第二阶段使用图像分类模型来重新评分在第一阶段中获得的边界框提案。图像分类网络在半监督设置中在从DS（干净训练集）和DT（噪声标记集）裁剪的图像之上对于DS中的图像，我们使用针对地面实况标签的交叉熵损失，但是，对于DT中的图像，针对由等式2获得的软标签计算交叉熵损失，其中计算预测的分类得分与软化的独热注释向量之间的加权几何平均值。这对应于[56]的多类扩展，其允许分类模型细化DT中图像的噪声类标签。注意，DS和DT都具有来自前景类的边界框标记（尽管DT中的实例具有噪声标记）。为了训练图像分类模型，我们用从图像中与DS或DT中的边界框没有重叠的区域中挖掘的边界框来增强这两个数据集。4. 实验为了与最先进的方法进行比较，我们遵循[2]的实验设计。我们在三个源/目标域上执行三个实验，并使用与[2]类似的我们使用对象检测API [25]源代码中提供的Faster R-CNN实现。在所有的实验中，包括基线和我们的方法，我们将初始学习率设置为0。001进行50，000次迭代，并将其减少到0。0001，用于接下来的20，000次迭代（与[2]类似的训练方案）。我们将α从100线性退火到0。5，并在其后保持恒定我们使用InceptionV 2 [52]，在ImageNet [8]上预先训练，作为Faster R-CNN的主干在一个轻微的偏离中，我们留出一小部分训练集作为设置超参数的验证Incep-tionV4 [51] 用于图像分类阶段，初始学习率为3×10−4，每2个epoch下降一个因子0。94我们将批处理大小设置为32，并训练30万步。基线：我们将我们的方法与以下逐渐复杂的基线进行比较。• 更快的R-CNN[47]：这是最原始的基线。更快的R-CNN对象检测器在源域上训练并在目标域上测试，对象检测器对目标域是盲的。• 伪标签[26]：我们方法的简化版本，其中Faster R-CNN在源域上训练以提取目标域，然后基于预定阈值，选择对象提议的子集并用于微调Faster R-CNN。这个过程可以重复。这种方法对应于在整个训练过程中α= 0固定的特殊情况。[26]中的原始方法执行渐进式自适应，这在计算上是广泛的。由于我们的方法和以前的最先进的方法只执行一个额外的微调步骤，我们只执行一个重复，为了公平的比较。• 特征学习[2]：这种最先进的域自适应方法通过以对抗方式学习鲁棒特征来减少域差异。我们在[2]中使用的实验装置数据集：在[2]之后，我们使用三个不同的数据集评估了多标签和单标签对象检测任务的性能。根据实验，一些数据集被用作目标域和源域两者，而一些数据集仅被用作源域或目标域。• SIM 10K[28]是一个模拟的数据集，包含了10，000张由侠盗猎车手游戏引擎合成的图像。在这个模拟汽车驾驶的数据集中，在由仪表盘摄像机捕获的场景中，存在58，701个带有边界框的注释汽车实例。我们使用其中的10%进行验证，其余的用于训练。• Cityscapes[4]是一个真实城市场景的数据集4，包含3，475张由仪表盘摄像头捕获的图像，2，975张图像用于训练，其余500张用于验证。在[2]之后，我们报告了验证集的结果，因为测试集没有注释。在我们的实验中，我们使用实例分割掩码的最紧密绑定框作为基础事实。在这个数据集中有8个不同的对象类别，包括人，骑手，汽车，卡车，公共汽车，火车，摩托车和自行车。• Foggy Cityscapes[48] 是 Cityscapes 的雾版。Cityscapes中提供的深度图用于模拟雾的三个强度级别，48. 在我们的实验中，我们使用雾的水平，这个数据集通常用于分割而不是对象检测。487城市景观→雾中的城市景观方法Cls-Cor Box-RFN-Cor人骑手车卡车总线火车摩托车自行车地图更快的R-CNN[47]31.6939.4145.8123.8639.3420.6422.2632.3631.92伪标签[26]31.9439.9447.9725.1339.8527.2225.0134.1233.90特征学习[2]35.8141.6347.3628.4932.4131.1826.5334.2634.70✓✗✗34.8241.8948.9327.6842.5326.7226.6535.7635.62噪音标签（我们的）：✓ ✓✗35.2642.8650.2927.8742.9825.4325.3035.9436.06✓ ✓✓35.1042.1549.1730.0745.2526.9726.8536.0336.45更快的R-CNN[47]在目标40.6347.0562.5033.1250.4339.4432.5742.4343.52表2：将我们的方法与从Cityscapes适应到Foggy Cityscapes的基线进行比较的定量结果。我们在Cityscapes验证集上记录平均精度（ AP ）。 “Cls-Cor” represents “classification error correction”, Box-R stands for “Bounding BoxRefinement” component, and FN-Cor stands for “False Negative Correction” component of 最后一行显示了如果目标域的标记数据可用，则基本检测器最高强度（最低可见度）。用于Cityscapes的相同数据集分割也用于Foggy Cityscapes。•KITTI[16]是另一个真实世界的数据集，包括7，481张真实交通状况的图像，包括高速公路，城市和农村地区。在[2]之后，我们使用整个数据集进行训练（当它用作源时）和测试（当它用作目标时）。4.1. 使合成数据适应真实世界在这个实验中，检测器在使用计算机模拟生成的合成数据上进行训练，并且模型适用于现实世界的例子。这是一个重要的用例，因为它避免了许多应用程序（例如自动驾驶）。源域为SIM 10K，目标域为Cityscapes数据集（由“SIM 10K → Cityscapes“表示我们使用Cityscapes的验证集来评估结果我们只在带注释的汽车上训练检测器，因为汽车是SIM 10K和Cityscapes唯一共同的对象。SIM 10K→城市景观方法Cls-CorBox-R FN-CorAP更快的R-CNN[47]31.08伪标签[26]39.05特征学习[2]40.10✓✗ ✗41.28噪音标签（我们的）：✓ ✓ ✗41.83✓ ✓ ✓42.56更快的R-CNN[47]在目标68.10表1：将我们的方法与从SIM 10K数据集适应Cityscapes的基线进行比较的定量结果。我们表1将我们的方法与基线进行了比较。我们用“分类误差校正（Cls-Cor）”5测试了我们的方法最先进的特征学习[2]方法具有+1。与基本伪标记基线相比改善0.05%[26]。我们的最佳执行方法具有+3。在相同的基线上提高了51%，比现有的最先进技术提高了三倍多。4.2. 正常适应雾天天气条件的变化会显著影响视觉数据。在自动驾驶等应用中，物体检测器必须在所有条件下准确执行[48]。然而，往往无法捕捉到在所有天气条件下物体的所有可能变化。因此，模型必须适应不同的天气条件。在这里，我们评估我们的方法，并证明其优越性超过目前的最先进的这项任务。我们使用Cityscapes数据集作为源域和FoggyCityscapes作为目标域（由Foggy Cityscapes表. 2将我们的方法与多标签域自适应的基线进行了在这个实验中的类别是人，骑手，汽车，卡车，公共汽车，火车，摩托车，自行车。报告每个类别的平均精度以及所有对象的平均精度（mAP）我们的方法将Faster R-CNN mAP提高了+4。53%，而最先进的改进是+2。百分之七十八4.3. 适应新的数据集前面的领域适应的例子（合成数据和天气变化）有些专门化。怎么-在Cityscapes验证集最后一行显示了如果目标域的标记数据可用，则基本检测器5关闭Cls-Cor将我们的方法减少到类似于伪标记[ 26 ]的方法，具有类似的性能。为了保持对标签噪声的鲁棒性，我们使用Cls-Cor组件运行所有实验。488图2：我们的方法与Faster R-CNN在“Cityscapes → KITTI”实验中的定性比较每列对应于KITTI测试集中的特定图像每列中的顶部和底部图像分别说明了Faster R-CNN和我们的方法检测到的汽车的边界框在前两列中，我们的方法纠正了几个错误积极的。在所有情况下，我们的方法都成功地纠正了边界框的大小/位置（例如，第三列中的屋顶线）。在第四个和第五个例子中，我们的方法检测到了Faster R-CNN错过的汽车。然而，假阳性确实发生（例如，在第五列中），尽管那些特定假阳性的概率很低（在该示例中为53%）。摄像机的任何变化（例如角度、分辨率、质量、类型等）或环境设置可以引起域转移。我们研究了我们的方法从一个真实数据集到另一个真实数据集的适应能力。我们使用Cityscapes和KITTI作为两个独立评估的源域和目标域。我们将Cityscapes作为源域，KITTI作为目标域的实验表示为：通过“Cityscapes → KITTI“获得域表3和表4比较了汽车类（唯一的常见对象）的平均精度。我们的方法在这两种情况下都明显优于最先进的方法（CityscapesKITTI）。我们的方法在KITTI测试集上的定性结果如图2所示。5. 结论当标记数据收集昂贵或不可行时，域转移会严重限制基于对象检测的应用程序的实际部署。我们提出了一种无监督的方法来缓解这个问题，制定了鲁棒学习的问题。我们的鲁棒对象检测框架处理对象类和边界框上的标签噪声。通过使用仅在源域中训练的模型在目标域中进行鲁棒训练来实现最先进的性能。这种方法消除了在目标域中收集数据的需要，并使用检测重新评分来整合其他信息源。6. 确认这项工作得到了SK Telecom安全研发小组的支持KITTI→城市景观方法Cls-CorBox-R FN-CorAP更快的R-CNN[47]31.10伪标签[26]40.23特征学习[2]40.57✓✗ ✗42.03噪音标签（我们的）：✓ ✓ ✗42.39✓ ✓ ✓42.98更快的R-CNN[47]在目标68.10表3：我们的方法与从KITTI到Cityscapes的适应基线的定量比较。我们在Cityscapes测试集上记录平均精度（AP）。最后一行给出了如果目标域的标记数据可用，则基本检测器城市景观→KITTI方法Cls-CorBox-R FN-CorAP更快的R-CNN[47]56.21伪标签[26]73.84特征学习[2]73.76✓✗ ✗76.36噪音标签（我们的）：✓ ✓ ✗76.93✓ ✓ ✓77.61更快的R-CNN[47]在目标90.13表4：定量比较我们的方法与基线适应城市景观KITTI.我们在KITTI火车组上记录平均精度（AP）。最后一行给出了如果目标域的标记数据可用，则基本检测器我们Faster R-CNN489引用[1] Pau Panareda Busto和Juergen Gall。开集域自适应。在ICCV，第754-763页，2017年。2[2] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在IEEE计算机视觉和模式识别会议论文集，第3339- 3348页，2018年。一二六七八[3] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。在IEEE计算机视觉和模式识别会议论文集，第7892-7901页2[4] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 32136[5] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展，第379-387页，2016年。2[6] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在计算机视觉和模式识别，2005年。CVPR2005。IEEE计算机协会会议，第1卷，第886-893页。IEEE，2005年。2[7] Mostafa Dehghani， Arash Mehrjou ， Stephan Gouws ，Jaap Kamps ， andBernhardSch o？ l k opf. Fidelity-weightedlearning-ing。在国际学习代表会议（ICLR），2018年。2[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。6[9] Lixin Duan，Ivor W Tsang，and Dong Xu.域转移多核学习。IEEE Transactions on Pattern Analysis and MachineIntelligence，34（3）：465-479，2012. 2[10] Lixin Duan，Dong Xu，Ivor Wai-Hung Tsang，and JieboLuo.通过从网络数据学习的视频中的视觉事件识别。IEEE Transactions on Pattern Analysis and MachineIntelligence，34（9）：1667-1680，2012. 2[11] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence ， 32 （ 9 ）： 1627-1645，2010. 2[12] Basura Fernando 、 Amaury Habrard 、 Marc Sebban 和Tinne Tuytelaars。使用子空间对齐的无监督视觉域自适应。在Proceedings of the IEEE international conferenceon computer vision，pages 2960-2967，2013中。2[13] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督域自适应。arXiv 预印本arXiv ： 1409.7495 ，2014。2[14] Yaroslav Ganin，Evgeniya Ustinova，Hana Ajakan，Pas-calGermain，HugoLarochelle，Franć oisLa violette，Mario马钱德和维克多·兰皮斯基神经网络的领域对抗机器学习研究杂志，17（1）：2096-2030，2016。一、二[15] Timnit Gebru，Judy Hoffman，and Li Fei-Fei.在野外的精细识别：一种多任务域自适应方法。在计算机视觉（ICCV），2017 IEEE国际会议，第1358-1367页中。IEEE，2017年。2[16] Andreas Geiger ， Philip Lenz ， Christoph St

下载后可阅读完整内容，剩余1页未读，立即下载