无监督自适应：跨域目标检测中基于硬示例与软标签的无监督域自适应方法

34 浏览量更新于2023-10-18 收藏 716KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

780使用自训练的阿鲁尼·罗伊·乔杜里·普里特维吉特·查克拉巴蒂·阿希什·辛格·苏扬·金怀祖·姜亮亮·曹埃里克·勒内-米勒马萨诸塞大学阿默斯特分校信息与计算机科学学院{arunirc，pchakrabarty，ashishsingh，soujiang，llcao，elm}@ cs.umass.edu摘要这项工作解决了现有的对象检测器到一个新的目标域的无监督适应。我们认为，大量的未标记的视频从这个领域是现成的。我们通过使用现有检测器的高置信度检测自动获得目标数据上的标签，并通过使用跟踪器利用时间线索获得硬（misclassified）示例。然后，这些自动获得的标签用于提出了一种改进的知识蒸馏损失，并研究了几种为目标领域的训练样本分配软标签的方法。我们的方法在具有挑战性的人脸和行人检测任务上进行了经验评估：在WIDER-Face上训练的人脸检测器适用于大规模的监控数据集，WIDER-Face由从网络上抓取的高质量图像组成; 2在来自BDD-100 K驾驶数据集的清晰的白天图像上训练的行人检测器适用于所有其他场景，例如雨天、雾天、夜间。我们的研究结果证明了从跟踪中获得的硬示例的有用性，通过蒸馏损失与硬标签使用软标签的优势，并显示出作为对象检测器的无监督域自适应的简单方法的有前途的性能，对超参数的依赖性最小。1. 介绍深度神经网络的成功导致了最先进的物体检测器，它们在标准视觉基准上获得了高精度（例如，MS-COCO [35]、PAS- CAL VOC [11]等），并且作为开箱即用的检测模型[16，22]可容易地用于下载。然而，期望单个检测器推广到每个域是不现实的。由于深度网络的监督训练的数据饥饿性质，需要大量的标记工作来以完全监督的方式重新训练检测器以用于新的场景。人脸检测：WIDERCS6行人检测：BDD（清晰，白天）BDD（休息）图1：无监督跨域对象检测。顶部：将在标记的高质量网络图像上训练的人脸检测器从WIDER-Face [64]调整到未标记的CS6/IJB-S [28]视频帧。底部：将在BDD-100 k数据集[65]的（清晰，白天）分割的标记图像上训练的pedes-trian检测器调整为来自所有其他条件（例如，夜间、雾天、雨天等）。本文考虑以下问题：给定一个现成的探测器，我们能让它通过观察摄像机来自动改进自己吗？我们希望找到一种基于无监督自训练的新算法，该算法利用大量现成的未标记视频数据，从而可以减轻对新领域的标记工作的需求，这种工作是繁琐的，昂贵的，并且难以扩展。这样的解决方案对于将现有模型推广到新的领域而无需监督可能是非常有用的，e.G. 在美国街道图像上训练的行人检测系统可以适应欧洲或亚洲的城市，或者帮助现成的人脸检测器提高其在视频片段上的这样的算法将是一个标签有效的解决方案，大规模的域适应，避免了昂贵的边界框注释时，面对一个新的域的需要。最近在深度网络中进行无监督域自适应的方法试图学习域入侵，781蚂蚁特征通过对抗域判别器[8，14，15，57，21]，或通过使用生成对抗网络（GAN）[23，66，5]变换标记的源图像以类似于目标域。自我训练是一种相对简单的替代策略，其中现成模型对新领域的预测被视为“伪标记”训练样本[ 31，7，4，62 ];然而，这种方法将涉及使用显着噪声标签进行当我们特别考虑对象检测器时，它变得更具挑战性，因为模型可能会在训练期间将错误标记的实例视为硬示例[48]，并花费大量精力试图学习它。在本文中，我们利用两种类型的信息对对象检测有用。首先，对象检测器可以受益于学习视频中的时间一致性。如果在相邻帧中检测到对象，则可以识别检测器错过的一些硬情况。我们将跟踪和检测结合到一个框架中，并根据检测和跟踪结果自动细化标签。其次，在新领域中有不同难度的例子，我们提出了一个基于蒸馏的损失函数，以灵活的方式适应这种相对排序我们设计了几种方案来分配软标签的目标域样本，与超参数的依赖性最小。我们评估了我们的方法，以提高单图像检测性能，没有标签的chal-cheating人脸和行人检测任务，其中目标域包含大量的未标记的视频。我们的研究结果表明，软标签训练比通常的硬（即，0或1）标签，并且相对于没有额外参数的对抗方法达到了更好的性能。本文的组织如下-相关文献综述在第二节。2，所提出的方法在第3节中描述，并给出了实验结果在第4节。2. 相关工作半监督学习标签有效半监督方法的培训对象认识到模型在计算机中有着悠久的历史 vi- [44，60，2，46，32，13]。做一次调查和检查-对于应用于深度学习的各种半监督学习方法的实际比较，我们建议读者参考Odenaet al. [40]。我们专注于自我训练方法[7，4，62，31]，该方法涉及在完全标记的数据上创建初始基线模型，然后使用该模型来估计新的弱标记或未标记数据集上的标签。这些估计标签中最有可能正确的子集被选择并用于重新训练基线模型，并且该过程以增量方式继续[39，33，37，24，63]。在对象检测的上下文中，Rosenberget al.[44]使用来自UNLA上的预先训练的对象检测器的检测将数据作为伪标签，然后在子集上进行训练在增量重新训练过程中，最近，数据蒸馏方法[41]旨在通过使用大量伪标记数据来增强训练集来提高全监督最先进检测器的性能。在这种情况下，未标记的数据来自与标记数据相同的域，伪标记是通过使用测试时数据增强从基线模型中选择预测来完成的。Jin等人[25]在视频中使用跟踪来收集硬例子物体检测器未能检测到的物体（假阴性）;他们使用这些额外的数据进行重新训练，以提高对静止图像的检测。我们的工作共享后者使用目标域来挖掘额外的训练样本，以提高源域的性能。我们注意到，特定于视频对象识别的网络架构的改进[12，59]与我们当前的动机是正交的。很难的例子。强调困难的训练样本已被证明是有用的几个作品在线硬示例挖掘（OHEM）[48]，提升[45]。Wein-shall和Amir [61]表明，对于某些问题类，当我们无法获得最优假设时（例如，教师），在当前模型发现困难的示例上训练比首先在较容易的样本上训练的自定进度的方法更有效。无监督域自适应。在解决源域和目标域之间的转换方面已经做了大量的工作[18，3，50]（最近的调查见Csurka [9]）。一些方法试图最小化来自两个域的特征分布之间的最大平均差异[18，58，36]或CORAL度量[51另一个流行的方向是对抗性设置，最近的作品如ADDA [57]，CyCADA [21]，梯度层（ReverseGrad）[15，14]，其中模型试图预测从中提取训练样本的域，模型通过试图欺骗这个模型来实现域不变性，同时也从标记的源样本中学习。特别是，Tzenget al. [56]从源域图像上的模型后验中获得软标签，旨在跨域传递类别间相关性另一方面，我们的软标签是在目标域上获得的，只有一个类别（因此类间信息不适用），旨在保留跨域训练示例的相对难度信息跨域对象检测。在静止图像上训练并应用于视频帧的检测器的域移位[29]已经在几个作品中得到了解决，主要依赖于对目标域的某种形式的弱监督782以及基于基线检测器置信度得分选择目标样本[19，54，47，10，30，6]。有几种方法使用弱标记的视频数据来重新训练对象检测器[27，49，54]。我们的工作是由Tanget al. [54]，他们使用跟踪信息来获得弱标记视频帧上的伪标记，并采用基于伪标记的方法，介绍了简单的例子（即，具有低损失）从目标视频域到基线检测器的重新训练中。尽管有共同的动机，我们的工作在两个主要点上有所不同-（aJamal等人[1]通过在低拍摄学习设置中使用残差风格层重新校准面部检测器的最终分类层，解决最近的两种方法[23，8]域自适应对象检测是特别相关的我们的问题。Inoue等的弱监督方法。[23]首先使用CycleGAN [66]将标记的源（自然）图像转换为类似于目标图像（水彩），在此“转换的源”数据上微调基线（预训练）检测器图像生成的任务是相当困难的，我们认为，它可能是可能的，以解决域自适应，而不需要一个生成模型作为中间步骤。Chen等的完全无监督方法。[8]通过在FasterR-CNN架构的各个级别上使用来自域的对抗性损失来学习域不变表示[14，15]，在适应具有挑战性的域转移时显示出显着的改进，例如清晰到雾的城市场景，模拟真实驾驶视频等。虽然是一种强大的方法，但新的攻击者的设计和对抗性训练在实践中都具有挑战性在目标域中的未标记视频的每一帧上运行，并且如果第i个预测的（归一化的）检测器置信度得分（即，模型在实践中，我们为人脸检测选择0.5θ，为人物检测选择0.8 θ。注意，这样的阈值容易通过视觉检查小来自T的未标记视频的数量（5个视频）;我们与第二节中的全自动程序进行比较。四点六分。从追踪中提炼标签。利用视频中帧之间的时间连续性，我们可以用基线检测器错过的对象来扩大我们为了将跨视频帧的多个对象检测链接到时间上一致的轨迹，我们使用Jin等人的算法。（第二节）[26][38][39]现在，给定一个在视频序列中始终跟随对象的轨迹，当对象检测器没有触发时（即，di θ）在一些困难的帧，跟踪器仍然可以正确地预测一个对象（见图。第2（a）段）。我们扩展了伪标签集，以包括基线检测器错过的这些此外，我们修剪出极短的轨迹（小于10帧），以消除虚假检测所造成的影响3.2.伪标签我们使用流行的Faster R-CNN（FRCNN）[43，42]作为我们的检测器。在一个简单的设置中，我们将在损失方面相同地对待标记的源域数据和伪标记的我们给标签1，所有目标域伪标记的样本，而不管它是源自基线检测器还是跟踪器对于从T中抽取的第i个训练样本Xi，标签yi定义为：.尤其是在目标域上没有标记的验证集的情况下（如在无监督设置中的情况）。yi=1，如果X i是一个pos。样品（来自探测器或跟踪器）。0，如果X i为负。 sample.3. 该方法自动标记目标域在第2节中描述。3.1节中使用这些伪标签进行重新训练。3.2节中创建软标签。三点三3.1. 目标域的自动标注自标记[55]或伪标记[31]通过将模型自己对新数据集的预测视为训练，将在标记的源域S上训练的预先存在的或基线模型适应于新的未标记的目标域标签在我们的例子中，我们通过选择基线检测器的高置信度预测来获得目标域伪标签，然后使用跟踪器进行细化步骤。来自检测的伪标签。基线检测器是（一）注意，这里Xi不是图像，而是图像中的区域为了训练分类分支，我们在第i个训练样本上使用二进制Li（yi，pi）=−[yilog（pi）+（1−yi）log（1−pi）]（2）其中这类似于Jin等人的方法。[25]，它为简单和困难都分配了标签1再培训期间的积极例子3.3. 软标签对于来自T的训练数据，许多yis可能是有噪声的，因此早期{ 0，1 }标签的1在[28]中的权限之后隐藏了一些面孔783我d_3=0.32s_3=0.50d_1=0.78d_2=0.83S_1=0.78S_2=0.83(a)（b）第（1）款图2：（a）来自检测和跟踪的伪标签：1在三个连续的视频帧中，来自基线检测器的高置信度预测被标记为绿色，而检测器错过的人脸（即，低检测器置信度分数）但被跟踪器拾取的被标记为黄色。（b）软标签示例：基线检测器置信度为d1=0。78，d2=0. 83，d3=0。32;置信阈值θ=0。五、在等式3之后，高置信度检测（绿色）被分配软分数si=di，即 s1= 0。78且s2= 0。83岁仅跟踪器样本（黄色）的检测器分数低于阈值：d3=0。32<θ。它得到软得分s3=θ= 0。五、帮助降低错误标记目标数据的风险。以这种方式进行标签平滑已被证明在泛化[53，20]方面很有用，可以减少不正确训练标签的负面影响[34]，并且比one-hot编码[56]更能提供关于标签分布的信息。在我们的情况下，每个目标域阳性标记可以有两个可能的起源-（i）来自基线检测器的高置信度预测或（ii）轨迹形成过程。我们为每个阳性目标域样本分配一个软评分siXi∈ T如下：.我们现在描述两种方案以避免显式地依赖于λ超参数I. 严格的例子。对“简单”和“困难”的例子都使用标签1高置信度检测和仅跟踪器样本），如第3.2两者同等重要。仅使用困难示例进行训练可能是次优的-它可能会降低模型在最初正确的情况下的后验概率。同样地，我们想要强调困难的示例，同时约束模型以在其他（容易的）示例上保持其postiors。我们可以通过si=我，如果X i来自检测器。θ，如果X i源自跟踪器。（三）在等式中设置θ=1。3和λ=1，在等式4，这将为仅跟踪器的“硬”示例创建1的标签对于源自基线检测器的伪标签，高检测器置信度得分Di是可靠性的合理度量。在训练期间强调可能被基线模型忽略的仅跟踪器伪标签-它们的软分数被提高到阈值θ，尽管基线对它们的置信度已经下降到该阈值以下。一个说明性的例子如图所示第2段（b）分段。标签插入。软标签y_i是通过较早的硬标签y_i和软标签y_i之间的线性插值形成的。scoressi，其中λ∈[0，1]作为可调超参数。yi=λsi+（1−λ）yi（4）保护，即“easy”II. 跨域得分映射。让我们假设一下，如果模型是在标记的目标域数据上训练的，那么T上的检测分数的分布会是什么样的在T上的信息最少的情况下，有理由假设这种分数分布与S上的分布相似。后者是在标记数据上训练并在域内IM上运行推理的年龄假设T上基线检测器分数的实际分布具有p.d.f.f（x），以及分数在S有P。D.f. g（x）。假设它们的累积分布为F（x）=X0f（t）dt和G（x）=X0g（r）dr。第i个正样本的损失现在看起来像.作为为T上的伪标签创建软标签的无参数方法，我们可以使用直方图规范[17]L蒸馏=Li（y i，p i），如果Xi ∈ S.（五）Li（yi，pi），如果Xi∈T.将基线检测器分数映射到T上以匹配分布，从S的图像上的分数的分布，即。将每个目标域得分x替换为G−1（F（x））。逆映射是设置较高的λ值会创建较软的标签yi，信任基线源模型风险更大的目标伪标签yi。在这种保守的设置中，较软的标签将降低来自目标数据的总体训练信号，但也降低了不正确的伪标签对模型参数具有较大不利影响的机会通过线性插值。图3（a）示出了显示器100的显示器102。在标记的WIDER- Face [64]上训练的模型的分数的计算，并在来自同一数据集的验证分割的图像上运行在图3（b）中，由于域偏移，当该模型在来自CS6监控视频的未标记图像上运行时，存在可见的差异[28]。图图3（c）示出了直方图匹配的效果。具体来说，检测器样本7840.120.100.080.060.040.020.00源域目标域目标域已重新映射表1：数据集总结。这里总结了用于人脸和行人检测任务的源数据集和目标数据集N.B.0.4 0.6 0.81.0评分0.4 0.6 0.81.0评分0.4 0.6 0.8 1.0评分(a)(b)（ c ）第（1）款图3：跨域评分映射.人脸检测器的高置信度检测分数在来自WIDER-Face的标记图像上训练[64];样本来自（a）WIDER验证和（b）CS6监控视频[28];（c）重新映射CS6上的分数以类似于WIDER。得到软标签G−1（F（di）），而仅跟踪器样本得到软标签θ。4. 实验数据集在Sec中介绍。4.1，其次是描述基线（第4.2）和实施细节（第4.3）。结果显示在面上（第4.4）和pedes-trians（第4.4节）。4.5）。4.1. 数据集实验在两个具有挑战性的场景下进行从驾驶视频中进行行人检测和从监控视频中进行人脸检测，这两者都非常适合我们从大量未标记视频中进行自我训练的范例，并且在源和目标之间存在显著的域转移图中显示了几个示例图像1.一、我们选择单类别检测任务，如人脸和行人，以避免处理多个类别的工程和计算负担，并专注于无监督域自适应方面。数据集总结见表1。面：WIDER→CS6。WIDER数据集[64]是源域，由静止图像中的标记面部组成从互联网上下载的年龄，具有各种各样的比例，姿势和遮挡。基线检测器在WIDER Train split上进行训练，其中包含12，880张图像和159，424张带注释的人脸。目标域由来自CS6的179个监控视频组成，CS6是IJB- S基准的子集[28]。CS6提供了一个相当大的转变，从WIDER，与人脸大多是低分辨率，往往被遮挡，和图像的低图片质量，suf- fering从相机抖动和运动模糊。视频剪辑平均为5分钟，30 fps，一些例外的长剪辑运行超过一个小时。我们选择了86个视频来形成未标记的目标训练集（CS6-Train）。使用包含约70，022个图像和217，827个面部注释的80个标记视频的测试集来评估方法的性能（CS6-Test）。行人：BDD（晴朗，白天）→BDD（休息）。BerkeleyDeep Drive 100 k（BDD-100 k）数据集[65]包含100，000个来自各种场景、天气条件和一天中的时间的驾驶视频，为领域适应创造了一个每个视频剪辑的持续时间为40秒，每秒30帧;每个视频中的一帧源域由晴朗的白天条件（BDD（晴朗，白天））组成，目标域由包括夜间、下雨、多云等在内的所有其他条件组成。（BDD（休息））。有12，477个标记的图像形成BDD-源-列车，包含217 k行人注释。我们使用18k视频作为未标记的BDD-目标-训练集，21.6 100万个视频帧（当然，并非所有视频帧都包含行人）。BDD目标测试集由8，236个标记图像组成，其中16，784个行人注释来自BDD（其余）。4.2. 基线和消融我们将以下方法作为我们的基准：基线源。检测器仅在标记的源数据上进行训练-面部的WIDER和行人的BDD（清晰，白天）。来自检测的伪标签。目标训练集上的高置信度检测被认为是训练标签，然后对基线源检测器进行联合重新训练。这是获取伪标签的原始基线，在结果表中表示为Det。跟踪的伪标签。Jin等人将使用跟踪器来确定时间一致性并将它们添加到伪标签集合中称为[25];我们采用他们的命名法，并将其称为HP。作为消融，我们排除探测器结果，用于训练的仅跟踪器伪标签（Track）。表2总结了自动收集的伪标签的详细信息。请注意，使用时间约束（HP）除了添加丢失的对象外，还可以消除虚假的孤立检测，从而与CS6的Det相比，数据总体减少蒸馏的软标签。标签插值方法详见第3.3表示为标签平滑，我们展示了不同λ对验证集的影响。跨域分数分布映射被称为归一化频率数据集图片数量#注释#视频更广泛12,880159,424-CS6-列车--86CS6-测试70,022217,82780BDD-源12,47716,78412,477BDD-目标-训练--18,000BDD目标测试8,23610,8148,236785表2：伪标签总结。列出在未标记的CS6-Train和BDD-Target-Train视频上获得的图像和对象注释的数量。从CS6视频中获得的所有伪标签都用于重新训练。对于BDD，由于视频数量庞大，因此对10万帧进行子采样以形成训练集。方法图片数量#注释CS6-Det38,514109,314CS6-HP15,09284,662CS6-轨道15,09232,711BDD-Det100,001205,336BDD-轨道100,001222,755BDD-HP100,001362,936分数重映射和约束硬的例子作为HP-cons在结果表中。域对抗Faster-RCNN。虽然有几种领域对抗方法，如ADDA [57]和CyCADA [21]用于对象识别，但我们选择Chen等人。[8]据我们所知，这是唯一一种集成到Faster R-CNN检测器中的方法。Chen等人[8]用三个单独的损失来公式化对抗域[14]-（i）从整个图像的卷积特征（预ROI池化）预测域标签;（ii）从每个建议的ROI的特征表示预测域标签;（iii）图像级和ROI级预测之间的一致性项。ROI级损失的区域建议从Faster R-CNN的区域建议网络（RPN）分支获得。在我们的实验中，我们将这些模型表示为-DA-im，其4.3. 训练和评价我们使用标准的Faster R-CNN检测器[43]进行所有实验2 ，来自 Detectron 框架的 PyTorch 实现 [16] 。使用ImageNet预训练的ResNet- 50网络作为主干，使用ROI对齐区域池。对于人脸，基线训练了80k次迭代，从0.001的学习率开始，在50k时下降到0.0001，使用4个GPU和512个批量。对于pedes-trians，基线被训练了70k次迭代，从0.001的学习率开始，在50 k时下降到0.0001在训练过程中，人脸图像被调整为800像素，行人图像被调整为500像素。目标域的重新训练总是使用单个GPU联合进行-在实践中，我们从源和目标交替采样图像，从每个图像中固定64个待采样区域，并在2网页：http：www.cs.umass.edu/unsupVideo/在更新模型参数之前的两个图像。领域对抗模型是在Chenet al. [8]，保持其默认超参数值。由于无监督学习在目标域上根本不考虑标签，因此我们无法设置超参数或基于标记的验证集进行最佳模型选择。所有人脸模型的重新训练在10k迭代时停止，而所有行人模型在30k迭代时停止。为了评估性能，考虑到训练过程中的随机性，我们进行了5轮训练，并在测试集中的标记图像上评估每个模型。我们使用MS-COCO工具包作为人脸和行人检测的一致性评估指标，在IoU阈值为0.5时报告平均精度（AP）。4.4. 面部检测结果从标记的WIDER Faces静止图像到未标记的CS6监控视频图像的调整结果如表3所示。伪标签的效果。在WIDER Face上训练的基线检测器在CS6-Test上获得了15.66的AP，这反映了WIDER和监视视频域之间的域偏移仅使用高置信度检测（θ=0.5）作为训练样本，CS6-Det将性能提高到17.29 AP。仅使用来自跟踪器的样本并忽略来自检测器CS6-Track的所有伪标签，将性能降低到11.73 AP。这可以部分归因于这样一个事实，即如果我们选择仅在仅通过跟踪拾取的面部上进行训练，则我们可能会错过图像中的许多结合跟踪和检测结果进行训练，CS6-HP，17.31 AP的性能更好。这是对WIDER-Face上训练的模型的显著提升：十五岁六十六转十七。31岁软标签的影响与默认硬标签相比，扩展软目标标签可提供一致的增益，如表3中的标签平滑数字所示。改变蒸馏重量λ的影响导致性能的一些波动- AP λ =0。3是19.89，AP λ=0。5是19.56，AP λ=0。7是20.80使用完全无参数的方法，我们从得分直方图重映射（score-remap）中得到19.12，从HP-cons中得到稍高的数字20.65。两者都与λ = 0的蒸馏相当。7 .第一次会议。与domain的比较域对抗方法（DA）在CS6测试中表现出色，在图像级（DA-im）的AP为21.02，22.18包含实例级自适应（DA-im- roi）。考虑到5轮训练的方差，我们的最佳数字（20.80，20.65）与此相当。7861 2 3 4 5a.B.C.D.图4：定性结果（最佳放大）。（a）基准;（b）惠普[25];（c）我们的;（d）发展援助[8]。域自适应方法拾取基线遗漏的突出对象（图1，3 -5）。对于行人（1993 -5），DA的检测分数通常低于我们的表 3 ： WIDER→CS6 。 CS6 监控视频的平均精度（AP），报告为5轮训练的平均值和方法AP（平均值±标准差）基线：WIDER 15.66 ±0.00CS6-Det 17.29 ±0.85CS6-轨道11.73 ±0.77CS6-HP [25] 17.31 ±0.60CS6-标签平滑（λ= 0. （3）19.89± 0.92CS6-标签平滑（λ= 0. （5）19.56± 1.53CS6-标签平滑（λ= 0. 7）20.80 ±1.34我们的：CS6-评分-重新映射19.12 ±1.29我们的：CS6-HP-cons20.65 ±1.62CS6-DA-肌肉注射[8] 21.02 ±0.96CS6-DA-im-roi[8]22.18 ±1.204.5. 行人检测结果表4中示出了从BDD源图像从清晰的白天视频到BDD目标中的无约束设置的调整结果。除了一个新的任务，BDD-行人的目标域提供了一个比CS6更具挑战性的情况目标领域现在包括多种模式的外观-以及它们的各种组合。伪标签的效果。基线模型得到了相当低的AP 15.21，这是合理的，因为从源到目标的主域偏移BDD-Det ，涉及仅使用高置信度检测进行训练（阈值θ=0. 8），比基线显著改善，AP为26.16。仅使用跟踪器结果作为伪标签，BDD-Track，给出了类似的性能（26. 28）。BDD-HP结合了检测和跟踪的伪标签，在这些方法中性能最好（27.11）。这是一个显着的提高超过基线：15.21→27.11。效果的软标签通过Label-smooth使用软标签进一步改善了结果（27.11 → 28.59），不同的性能略有波动。λ超参数- AP λ =0的值。3是28.59，AP λ=0。5是28.38，AP λ=0。7是28.47 通过得分直方图匹配（score-remap）创建软标签，我们得到28.02的AP。强调仅跟踪器样本，同时限制检测器训练样本（HP-cons）上的相同行为，得到28.43。同样，这两种方法在性能上与使用Label-smooth相当，其优点是不必设置λ超参数。与domain的比较适应BDD-目标域对于域对抗（DA）模型[8]来说是具有挑战性的，这很可能是由于多个复杂的外观变化，而不像WIDER→CS6具有更均匀目标域的移位的图像级自适应（DA-IM）模型给出了23.65 AP与基线AP 15.21相比有显著改善。在训练过程中，我们很难让DA-im-roi模型在训练期间使用来自BDD-HP的伪标签进行ROI的类平衡采样，787稳定效果（由 BDD-DA-im-roi* 表示）。这是 23.69AP。总的来说，我们使用软伪标签训练的结果在AP方面优于[8]。表4：BDD（清醒，白天）→BDD（休息）。BDD行人视频评估集的平均精度（AP），报告为平均值和标准差超过5轮训练。方法AP（平均值±标准差）基线：BDD（清醒，白天）15.21 ±0.00BDD-Det26.16 ±0.24BDD-轨道26.28 ±0.35BDD-HP [25]27.11 ±0.54BDD-Label-smooth（λ= 0.第三章28.59 ±0.67BDD-Label-smooth（λ= 0.第五章）28.38 ±0.62BDD-Label-smooth（λ= 0.第七章）28.47 ±0.41我们的：BDD-分数-重新映射28.02± 0.32我们的：BDD-HP-cons28.43 ±0.51BDD-DA-im[8]23.65 ±0.57BDD-DA-im-roi*23.69 ±0.93子域名的结果。BDD-目标域隐含地包含大量子域，诸如下雨、有雾、夜间、黄昏等。我们比较了三种代表性模型的性能-基线，域adversarial（DA-im）和我们的软标签方法（我们选择HP - cons作为代表）在BDD目标测试中的一组这样的隐式子域上进行细粒度的性能分析（图1）。（五）。夜间图像明显降低了所有模型的性能。总的来说，两种域自适应方法在基线上都有显着改善，HP-consconsiperformance优于DA。通过对标记目标域数据验证集上的超参数进行特定于特定35304.6. 自动阈值选择可以设置对高置信度检测进行阈值化的超参数θ，而无需手动检查目标域。我们可以在标记的源数据上选择一个阈值θS，采用评分直方图映射S → T（第3.3节，图3），我们可以映射将θS转换为未标记的目标域作为θT。这些结果见表5。根据对5个视频的目视检查选择的阈值对于人脸为0.5（17.31 AP），对于行人为0.8（27.11 AP），如第2.1节所述。第3.1条自动设置θS→T的性能非常接近表5：针对HP模型评估的靶域伪标记对检测器置信阈值的灵敏度。CS6自动选择的阈值θS→T为0.66，BDD为0.81。θ→0.50.60.70.80.9θS→TCS6-测试BDD-测试17.3127.2315.9127.6814.9327.3015.6327.1111.6925.8516.7127.115. 结论我们的实证分析表明，在两个具有挑战性的任务上，软标签自我训练与最近的领域对抗方法[8]相当或更好。我们的方法还避免了adversar方法的额外层和超参数，这些方法在完全无监督的情况下难以针对新领域进行调整。我们的方法显着提高了目标域上预训练模型的性能，并且与为伪标记的目标域样本分配硬标签相比，提供了一致的改进，后者在最近的作品中很普遍[25，41]。由于对超参数的最小依赖性，我们相信我们的方法是一种适用于大规模目标检测器自适应的方法252015105雨天（ 396）雨夜（ 286）阴天（1039）夜（18）雪天（422）雪夜（273）谢谢。本材料基于AFRL和DARPA根据协议编号FA8750 -18-2-0126赞助的研究。美国政府有权为政府目的复制和分发重印本，尽管其上有任何版权标记。本文所含的观点和结论是作者的观点和结论，不应被解释为必然代表官方政策或认可，无论是表达还是图5： BDD（rest）子域。性能基线模型，领域对抗模型（DA）和我们的方法（HP-cons）。每个子域中的图像数量写在下面的括号中。暗示， AFRL 和 DARPA 或美国。政府的我们感谢MassTech Collaborative资助UMass GPU集群的支持我们感谢林宗玉和马芝的有益讨论.基线DAHP-cons（我们的）AP788引用[1] M. Abdullah Jamal，H. Li和B.龚深面检测器适应没有负迁移或灾难性的for-getting。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。[2] S. Baluja用于面部取向辨别的概率建模：从标记和未标记的数据中学习。神经信息处理系统进展，第854-860页，1999年[3] S. 本-戴维布利泽，K。克拉默，A。库莱萨河Pereira和J.W.沃恩从不同领域学习的理论。Machine learning，79（1-2）：151[4] A. Blum和T.米切尔结合标记和未标记数据与协同训练。在计算学习理论第十一届年会论文集，第92-100页。ACM，1998年。[5] K. Bousmalis，N.Silberman，D.Dohan，D.Erhan和D.克-伊什南。无监督像素级域适应与生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR），第1卷，第7页，2017年。[6] O. Chanda，E. W. Teh，M. Rochan，Z. Guo和Y.王.从图像到弱标记视频的对象检测器。在英国机器视觉会议（BMVC）上，2017年。[7] O.沙佩勒湾Scholkopf和A.齐恩半监督学习（chapelle，o例如，eds.; 2006）[书评]。IEEE Transactions on NeuralNetworks，20（3）：542[8] Y.陈威Li，C. Sakaridis，D. Dai和L.范古尔用于野外目标检测的自适应快速r-cnn。在IEEE计算机视觉和模式识别会议论文集，第3339-3348页[9] G.楚卡视觉应用程序的域适应：全面调查。arXiv预印本arXiv：1702.05374，2017。[10] J. Donahue，J. Hoffman，E.罗丹湾Saenko和T.达雷尔。带有实例约束的半监督域自适应。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition，pages 668[11] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I. 威廉斯，J.Winn和A. 齐瑟曼。 pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：303[12] C. Feichtenhofer、A.Pinz和A.齐瑟曼。检测跟踪和跟踪检测。在IEEE计算机视觉和模式识别会议论文集，第3038- 3046页[13] R. Fergus，P. Perona，and A.齐瑟曼。通过无监督尺度不变学习的对象类别识别计算机视觉与模式识别，2003年。诉讼2003年IEEE计算机协会会议，第2卷，第II-二. IEEE，2003年。[14] Y. Ganin和V.Lempitsky 通过反向传播的无监督域自arXiv预印本arXiv：1409.7495，2014。[15]Y. Ganin，E.乌斯蒂诺娃Ajakan山口Germain，H.拉罗谢尔F.拉维奥莱特M Marchand和V。Lempitsky 域-神经网络的对抗训练。机器学习研究杂志，17（1）：2096[16] R. 格尔希克岛 Rados avo vic，G. Gkioxari，P. Doll a'r和K. 他外探测器 https://github.com/ facebookresearch/detectron，2018.[17] R. C. 冈萨雷斯河E. Woods等人数字图像处理，2002年。[18] A. Gretton，A. Smola，J. Huang，M. Schmittfull，K.Borg-wardt和B. Scho ¨ l k opf. 机器学习中的数据集转移。在协变量偏移和通过分布匹配的局部学习中，第131-160页。麻省理工学院出版社，2008年。[19] T. 汉，G.Hua和X.王. 通过检测进行检测2012年IEEE计算机视觉和模式识别会议，第350-357页。 IEEE，2012。[20] G. Hinton，O.Vinyals和J.Dean. 在神经网络中提取arXiv预印本arXiv：1503.02531，2015。[21] J. Hoffman，E.Tzeng，T.帕克，J. -Y. Zhu、P.Isola，K.萨延科，A. A. Efros和T.达雷尔。Cycada：周期一致的对抗域适应。arXiv预印本arXiv：1711.03213，2017。[22] J. Huang，V.拉托德角孙，M。 Zhu，中国茶青冈A. 科拉提卡拉A. 法特希岛Fischer，Z.Wojna，Y.宋，S.Guadarrama等人，现代卷积对象检测器的速度/精度权衡。在IEEECVPR，第4卷，2017年。[23] N.井上河Furuta，T. Yamasaki和K.相泽跨域弱监督对象检测通过渐进域适应。在IEEE计算机视觉和模式识别会议论文集，第5001-5009页[24] Y. Jiang和Z H.舟用神经网络集成编辑knn分类器的训练数据。在国际神经网络研讨会上，第356-361页。Springer，2004.[25] S. Jin，杨花A. RoyChowdhury，H. Jiang，中国茶条A.辛格A. 普拉萨德D. Chakraborty和E.学习米勒。从视频中挖掘无监督硬示例，以改进对象检测。在欧洲计算机视觉会议（ECCV），2018。[26] S. Jin，H.苏C.Stauffer和E.学习米勒。基于erdos-renyi聚类的电影端到端人脸检测和演员分组InICCV，2017.[27] Z. Kalal，J. Matas，and K.米科莱奇克Pn学习：基于结构约束的自举二进制分类器. 在计算机视觉和模式识别（ CVPR ）中，

下载后可阅读完整内容，剩余1页未读，立即下载