没有合适的资源?快使用搜索试试~ 我知道了~
基于视频的无监督硬样本挖掘改进目标检测SouYoung JinJin,Aruni RoyChowdhury,Huaiizu Jiang,AshishSingh,Aditya Prasad,Deep Chakraborty,and Erik Learned-Miller马萨诸塞大学信息与计算机科学学院{souyoungjin,arunirc,hzjiang,ashishsingh,aprasad,dchakraborty,elm}@ cs.umass.edu抽象。最近通过使用集中于困难的否定示例的训练目标在对象检测中获得了重要的收获,即,当前被检测器评定为肯定或模糊的否定示例。当网络被训练来纠正它们时,这些例子会对参数产生强烈的影响。不幸的是,它们在训练数据中通常是稀疏的,并且获得成本很高。在这项工作中,我们展示了如何大量的硬底片可以通过分析视频序列上的训练检测器的输出自动获得。特别地,在时间上隔离的检测,即,没有相关联的在前或在后检测的可能是硬阴性。我们描述了简单的程序,挖掘大量的这种硬底片(也硬阳性)从未标记的视频数据。我们的实验表明,在这些自动获得的示例上重新训练检测器通常会显着提高性能。我们提出了多个架构和多个数据集,包括人脸检测,行人检测和其他对象类别的实验。关键词:目标检测,人脸检测,行人检测,半监督学习,硬否定挖掘。1介绍检测是一个核心的计算机视觉问题,由于更大的训练集,改进的架构,端到端训练和改进的损失函数,在过去几年中取得了重大进展[42,41,13,67]。在这项工作中,我们考虑的另一个方向,以改善检测器我们将该方法应用于几个不同的检测问题(包括人脸和行人),各种架构,和多个数据集,在各种设置中显示出显着的收益。许多判别方法更容易受到分类器边界附近的挑战性示例的影响,而不是具有低损失的简单示例。一些分类器,例如支持向量机,完全由示例性的分类器确定为随机边界(“supp or t v ec t or s”)[ 45]。Morerecent作者贡献相等2Jin等人图1:视频中的探测器闪烁。来自视频的三个连续帧被示出用于面部和行人检测。在顶行,框显示了来自Faster R-CNN [42](在WIDER人脸上训练)的人脸检测[61,25]。最下面一行是来自在加州理工学院行人数据集[12]上训练的同一检测器的检测。黄色框显示真阳性,红色框显示假阳性。对于真阳性,在所有三个帧中检测到相同的对象,而对于假阳性,检测是孤立的-它既不发生在前帧中也不发生在子帧中。该检 测 器 将 数 据 “ 隔 离 ” 为 不 确 定 的 问 题 , 并 为 检 测 器 提供 硬 负 训 练 数 据 的 重 要 来 源 。强调边界附近的示例的技术包括诸如主动偏置[8]的一般方法,其在训练期间根据其后验的方差来重新加权示例在训练对象检测器的类别不平衡的背景下,在线硬示例挖掘(OHEM)[46]和焦点损失[33]被设计为强调硬示例。在本文中,我们介绍了简单的方法,自动挖掘硬底片和硬阳性的视频使用以前训练的检测器。为了说明,图1示出了来自分别包含面部和行人的两个视频的连续视频帧的序列Faster R-CNN检测器(针对每个类进行训练)在每个帧上运行的结果标记为矩形,真阳性标记为黄色框,假阳性标记为红色框。请注意,假阳性既不在检测之前,也不在检测之后我们指的是这种孤立的时间检测检测器闪烁,并假设这些通常是由假阳性,而不是真阳性。1这个假设源于这样一个想法,即由通常看起来不像脸(或其他目标对象)的东西(例如手)引起的假阳性,只会导致一个错误。1请注意,我们并不是说大多数假阳性都是孤立的,只是说闪烁可能是假阳性,这是一个非常不同的说法。基于视频的无监督硬样本挖掘及其目标检测3暂时导致检测器网络肯定地响应,但是与这些硬否定的小偏差将可能不被记录为肯定。类似的观察结果可以在对抗性示例的文献中找到,其中许多advararexplesminem inemi n e扰动的图像[36,37,3]都是“不可测的”此外,利用标签在空间和时间上的连续性在计算机视觉中有着悠久的历史。空间标签依赖性通过马尔可夫随机场[18]和条件随机场[53]广泛建模,而标签在时间上的平滑度是跟踪方法和其他视频处理算法的主要内容[50,28,59]。正如我们的实验所示,大部分检测器闪烁确实是假阳性,更重要的是,它们是硬阴性,因为它们被检测器错误地识别为阳性。这种自动生成的硬负片训练集可以用于微调检测器,通常导致改进的性能。从利用硬阳性的微调获得类似的益处,其以类似的方式从其中一致地检测到的对象在隔离帧中“闪烁”的情况获得。虽然这些闪烁相对罕见,但在许多小时的未标记视频上运行现代检测器是廉价的,从而产生基本上无限数量的硬样本。作为一个无监督的过程,以这种方式自动收集的训练集确实包含一些噪音。然而,我们的实验表明,可以通过使用这些嘈杂的硬示例重新训练检测器来收集显著的改进。自动收集此类硬示例的替代方案当然是手动获取它们。然而,现代检测器的假阳性的罕见性使得该过程极其昂贵。手动执行此操作需要检查每个阳性检测的有效性。由于典型的假阳性率约为每1000个图像中有一个,因此该过程需要检查每个假阳性的1000个图像,这使得其非常昂贵。2相关工作卷积神经网络最近已被应用于在对象检测中实现最先进的结果[20,19,21,41,40,34,6,32]。这些目标检测器中的许多已被重新用于其他任务,例如人脸检测[39,29,60,15],[31,63,62,25,57,23,66]和行人检测[64,14,6,7,22,30,65],实现了令人印象深刻的结果[24,61,12]。检测中有硬阴性。大量类别不平衡是滑动窗口式对象检测器密集应用于图像上的问题,这种模式更像是从来自包含对象的区域的正样本中提取来自块组的样本。大多数成功的对象检测器使用某种形式的硬负挖掘来解释这种不平衡[10,11,16,20,19,21,46,64,33,55,51]。早期的方法包括用于训练基于SVM的对象检测器[10,16]的bootstrap- ping [ 52],其中假阳性检测以递增的方式添加到背景训练样本集。其他方法[44,11]在更大的数据集上应用预先训练的检测器来挖掘误报,然后重新训练。4Jin等人硬负面挖掘也提高了基于深度学习的模型的性能[47,35,19,46,64,55,33]。 Shrivastava等人 [46]提出了一种在线硬示例挖掘(OHEM)程序,仅使用高损失区域建议进行训练。这种技术最初应用于Fast R-CNN检测器[19],在PASCAL和MS-COCO基准测试中产生了显著的增益。Lin等人。 [33]提出了焦点损失来降低简单示例的贡献,并训练单级多尺度网络[32]。A-Fast-RCNN [56]使用遮挡和变形来对抗生成硬样本虽然与我们的工作类似,但我们的模型是用真实图像中的硬示例进行训练的,并且变化不限于遮挡和空间变形。Zhang等人。 [64]表明,使用提升决策森林[17,2]的硬否定的有效自举显着改善了行人检测的更快R-CNN基线。最近的人脸检测方法,如Wan等人。 [55]和Sun等人。 [51],也使用硬底片的自举来提高基于CNN的检测器的性能-使用预训练的Faster R-CNN来挖掘硬底片;然后重新训练模型然而,这些方法需要合适大小的人类注释数据集。我们的无监督方法不依赖于边界框注释,因此可以在潜在的无限数据上进行训练。半监督学习使用标记和未标记数据的混合被称为半监督学习[4,9,58]。Rosenberg等[43]在未标记的数据上运行经训练的对象检测器,然后在增量再训练过程中在该噪声标记数据的子集上进行训练。在Kalal等人中。 [27],基于视频对象轨迹的约束用于校正随机森林分类器的补丁标签;这些校正的样本用于重新训练。 Tang等人 [54]基于检测和轨迹片段之间的一致性,通过从未标记的视频中选择训练样本来使静止图像对象检测器适应视频,然后遵循从视频中选择简单示例和从图像中选择困难示例的迭代过程来重新训练检测器。而不是适应视频域,我们寻求提高检测器的性能,从视频中选择硬的例子 Singh等人 [48]从弱标记图像中收集区分区域,然后通过合并来自弱标记视频的跟踪信息来细化它们的边界框。3从视频本节讨论从视频中自动挖掘硬示例的方法,包括数据收集(第2节)。3. 1),我们的硬否定挖掘算法(Sec.3.第三章。2),恢复的硬底片的统计(Sec. 3.第三章。3)和扩展到硬阳性(第3节)。3.第三章。4). 在这些新样本上重新训练检测器的细节在实验部分(第12节)中。4.第一章①的人。3.1视频采集为了挖掘人脸检测的硬例子,我们使用了101个情景喜剧视频,每个视频的持续时间为21-25分钟,全长电影为1小时47分钟,基于视频的无监督硬样本挖掘及其目标检测5(一)(b)第(1)款帧f-1帧f帧f+1图2:从探测器闪烁中挖掘硬负片。实线框表示检测,虚线框与跟踪算法相关联。给定视频中的所有高置信度面部检测(黄色框),所提出的算法通过在相邻帧(青色虚线框)的搜索区域内应用模板匹配来生成用于当前检测(帧F中的红色框)的轨迹片段(蓝色虚线框)由于在用于当前检测的相邻帧中不存在匹配检测(即,没有黄色框与帧f-Ι或f + Ι中的蓝色虚线框匹配),因此其被正确地转换为“孤立检测”并且被添加到具有特定时间段的集合。帧f中的时间上一致的剩余检测被添加到伪阳性集合。“Hannah and her sisters” 此外,我们使用基于以下关键词的YouTube搜索:公共演讲,辩论社会,管弦乐队表演,合唱团练习和法庭,下载了89个持续时间从10到25分钟不等的视频。我们获得了预计将在各种场景中呈现大量人脸的视频,反映了我们面部基准点的日常设置。同样,对于行人检测,我们通过搜索两个关键短语从YouTube收集视频:驾驶摄像头视频和行走视频。我们获得了40个视频,平均时长约30分钟。3.2硬性负面挖掘在视频的每一帧上运行预先训练的人脸检测器,可以为我们提供大量带有噪声标签的检测结果 我们在这里与最近的自举方法[55,51]的关键区别在于(a)使用网络上可用的大量未标记数据,而不是仅依赖于来自WIDER Face [61]或Caltech Pedestrians [12]的有限的全监督训练数据,以及(b)第(1)款在从检测器获得的噪声标签上具有新的过滤标准,其保留硬负样本并最小化获得的 标签。来自视频的原始检测以0.8的相对高的置信度分数阈值化。对于一帧中的每一个检测,我们形成了一个短轨迹6Jin等人通过在相邻帧中执行模板匹配,在±5帧的窗口内,当前检测的边界框被放大100像素,并且使用归一化互相关(NCC)在相邻帧中搜索该区域以获得最佳匹配。为了考虑遮挡,我们对NCC相似性分数(设置为0.5)设置现在,在每个帧中,如果相邻帧中的轨迹片段预测和检测之间的最大交并(IoU)低于0.2,则我们认为这是由检测器闪烁引起的孤立检测。这些孤立的检测结果被视为硬阴性。被发现与相邻帧一致的检测被认为具有高概率是真实预测并且被称为伪阳性。为了创建重新训练集,我们只保留那些除了一个或多个硬阴性之外还具有至少一个伪阳性检测的帧。图2中示出了该过程的说明性示例,其中为了简单起见,我们仅可视化前一帧和后一帧3.3自动硬负挖掘我们最初的挖掘实验是使用标准的Faster R-CNN检测器进行的,该检测器在WIDER Face [61]上针对人脸进行训练,在Caltech [12]上针对行人进行训练。我们收集了13,888个人脸视频帧,其中每个帧包含至少一个伪阳性和一个硬阴性(检测器闪烁)。为了验证我们自动挖掘的硬底片的质量,我们随机抽取了511张硬底片进行检查。其中453个样本为真阴性,16个样本为真阳性,42个样本被归类为不明确,这对应于极端头部姿势或严重闭塞。对真阴性的准确率为88.65%,对真阴性加模糊的准确率为96.87%。对于行人,我们收集了14,967个视频帧。我们手动检查了328个自动挖掘的硬底片,其中244个是真底片和21属于模棱两可。对真阴性的准确率为74.48%,对真阴性加模糊的准确率为82.18%。为了在现有的完全注释的视频数据集上进一步验证我们的方法,我们使用了Hannah数据集[38],该数据集的每一帧都用面部边界框进行了注释。在这里,在挖掘的234个硬底片中,有187个是真底片,准确率为79.91%。我们注意到,Hannah电影上的注释并不总是一致的,并且涉及从WIDER的显著域转移。考虑到没有提供人工监督的事实,开采的表面硬底片在各个领域中始终具有高质量。3.4硬正开采原则上,用于使用检测器闪烁的相同概念可以直接应用于获得有效位置。该方法用于查找视频轨迹片段中的一个目标的“离焦“--给定视频中的一系列目标检测,例如人脸,我们可以搜索没有检测但被包围的单个帧。基于视频的无监督硬样本挖掘及其目标检测7帧f-2帧f-1帧f帧f+1帧f+2图3:硬阳性样品。给定视频帧的序列,动作的表面通常在帧f处被确定为可扩展的。可以以无监督的方式收获“脱荧光”的样品被两边的侦查人员发现当然,这些可能是由短时间的阻塞引起的,因为需要进行放大,但如图所示,“关闭闪烁”的大部分时间是肯定的。3.第三章。我们使用[26]中的方法生成tracklet,并在实验部分显示了结合行人和人脸检测的硬阳性结果。手动计算的纯度超过300个随机采样帧是94.46%的脸和83.13%的行人。4实验我们评估了我们的人脸和行人检测方法,并进行了消融研究,分析了硬样本的效果。对于行人,我们显示了加州理工学院数据集的结果[12],而对于人脸检测,我们显示了WIDER Face [61]数据集的结果。加州理工学院的行人数据集[12]由从城市交通中行驶的车辆拍摄的视频组成,其中有来自25万个视频帧的约35万个带注释的边界框。WIDER数据集由32,203张图像组成,其中393,703张标记了具有挑 战 性的 比 例 , 姿 势 和遮 挡 情 况 下的 面 部 WIDER的 评 估集 根 据EdgeBox [67]中对象提案的检测分数分为容易,中等和困难集。从容易到困难,脸变得更小,更拥挤。4.1用挖掘的硬样本我们试验了两种方法来利用我们挖掘的硬阴性样本。在我们的初始实验中,通过包括来自原始标记训练数据集的一个图像和从我们自动挖掘的硬负视频帧采样的另一个图像来形成单个小批量。以这种方式,基于手动注释从原始训练数据集图像采样正区域提议,而从原始数据集图像和挖掘的硬负视频帧两者采样负区域提议。因此,我们可以明确地迫使网络关注来自挖掘的视频帧的硬底片8Jin等人然而,这种方法在我们最初的实验中没有产生更好的结果。发现另一种方法更有效-我们在训练期间包含具有硬阳性的视频帧更简单-我们可以在训练时简单地模型在有OHEM和没有OHEM的情况下进行了微调,并且我们始终选择给出最佳验证结果的设置。虽然OHEM会增加在小批量中选择硬底片的可能性,但它也会特别强调硬示例中的任何错误标记。这将放大少量标签噪声的影响,并且在某些情况下可能降低整体性能。4.2消融设置除了与基线Faster R-CNN检测器进行比较外,我们还对加州理工学院行人和WIDER人脸数据集进行了各种消融研究,以解决硬示例挖掘的有效性。训练迭代的效果。为了说明简单地训练基线模型更长时间可能导致性能增益的可能情况,我们通过以较低的学习速率微调原始模型以进行额外的迭代来创建另一基线,从而匹配在我们的hardexam_plete_d模型中使用的训练迭代的数量。我们将其修改为“w/ more iterations“。附加视频帧的效果。与基线检测器不同,我们的精细调谐模型使用所有的Vide ofram进行训练。其优点在于,在训练期间使用未标记视频帧上的高置信度检测结果作为伪地面实况足以提高性能,而无需使用我们的检测器闪烁方法校正硬否定。因此,我们训练了另一个检测器,“闪烁为阳性”,从该模型开始,其采用与我们的硬阴性模型完全相同的训练集,但是其中视频帧上的所有高置信度检测被用作阳性标签。自动挖掘困难示例的效果。我们包括来自我们提出的将检测器闪烁视为硬负片和硬负片的方法的结果-“闪烁为HN”和“闪烁为HP”。 最后,我们报告了在两种类型的硬样品(闪烁为HN + HP)的联合上微调检测器的结果。4.3行人检测对于我们的基线模型,我们使用OHEM [46]训练基于VGG 16的Faster R-CNN对象检测器[42],在加州理工学院行人训练数据集[12]上进行150 K次迭代。我们使用了来自set 00-set 05的所有帧(其构成了集合),这取决于Caltech元数据将哪一年标记为“在继Zhang等人之后。 [64],我们将RPN训练的IoU比率设置为0.5,而所有其他实验设置与[42]相同。标记的加州理工学院图像的数量为128,419,我们的挖掘提供了14,967基于视频的无监督硬样本挖掘及其目标检测942,914个硬负片帧和42,914个硬正片帧。我们使用硬示例和来自Caltech Pedestrian训练数据集的注释示例对基线模型进行微调在合理的条件下,我们在加州理工学院行人测试数据集上评估了我们的模型。我们的模型的各种设置的ROC曲线如图所示。第4(a)段。微调现有的检测器更多的迭代给出了适度的减少,从23.83%到22.4%的对数平均未命中率。使用所有检测而不校正硬负片(闪烁为Pos)也给出了小的改进-我们提出的模型,微调与挖掘的硬否定(闪烁HN),有一个18.78%的对数平均错过率,这比基线模型5.05%。用硬阳性(闪烁为HP)进行微调也显示出比基线提高4.39%。结合硬阳性和硬阴性的结果在18.72%的对数平均未命中率的最佳性能。在图4(b)中,我们使用最先进的SDS-RCNN[5]行人检测器2报告结果。从加州理工学院的数据集中采样每第三帧用于训练原始检测器[5],并且我们在实验中保持此设置对于SDS-RCNN,有42,782个标记的训练图像,而挖掘给了我们2,191个硬负帧和177,563个硬正帧。与基线相比,在训练中包含硬否定(Flickers作为HN)提高了SDS-RCNN在低假阳性状态下的性能-检测器学会消除许多错误检测,从而提高精度,但最终也会包括挖掘的硬阳性(闪烁作为HP),我们得到8.71%的对数平均未命中率的最佳性能,优于使用挖掘的硬阴性和阳性样本(闪烁作为HP+ HN)的模型,其得到9.12%。4.4人脸检测我们采用Faster R-CNN框架,使用VGG 16作为骨干网络。我们首先从ImageNet预训练模型开始训练基线检测器,使用SGD优化器进行80K次迭代的固定学习率为0.001,其中动量为0.9,权重衰减为0.0005。对于硬否定,模型被微调为50k次迭代,学习率为0.0001。对于硬阳性,以及这两种类型的硬示例的组合,我们训练更长的时间为150k次迭代。遵循WIDER Face协议,我们在表1中报告了关于三个视图“E asy”、“M ediumm”和“Har d”的平均预编码(AP)值。未使用OHEM,因为根据经验观察到其会降低性能。微调基线模型以进行更多迭代可以略微提高Easy和Medium拆分的性能。天真地将所有高置信度检测视为真阳性(闪烁为阳性)基本上降低了所有分割的性能。硬负采矿,闪烁作为HN,2运行作者https://github.com/garrickbrazil/10Jin等人(a)(b)第(1)款图4:合理条件下加州理工学院行人数据集[12]的结果。(a)更快的R-CNN结果:使用硬负样本(作为HN的闪烁)和硬正样本(作为HP的闪烁)改进了超过基线的性能;使用两者的组合给出了最佳性能。(b)最先进的SDS-RCNN结果:作为HN的闪烁仅在低假阳性方案中改善了原始SDS-RCNN结果,而作为HP的闪烁给出了最佳结果。在Medium和Hard分裂上略微优于基线Faster R-CNN检测器(具有更多迭代),在Easy分裂上保持0.907 AP的相同性能使用挖掘的硬阳性,闪烁作为HP,我们观察到在所有三个分裂上的性能的显著增益联合使用硬阳性和硬阴性两者(闪烁为HP+ HN)比使用硬阴性和基线有所改进,但改进小于来自闪烁为HP的增益。对于人脸,我们还尝试了最近的RetinaNet [33]检测器作为第二个高性能基线模型。不幸的是,包含未标记的数据会稍微损害使用此模型的性能,尽管挖掘的示例具有相当高的纯度。虽然我们开采的样本纯度很高,但并不完美。这些不正确的样本将被RetinaNet中使用的焦点损失强烈强调。因此,虽然RetinaNet在标准基准测试中的表现优于Faster R-CNN,但它可能更容易受到标签噪声的影响,因此不是我们方法的良好候选者。在未来,我们将研究不同的焦点损失参数值,看看这是否可以减轻标签噪声的影响。5讨论在本节中,我们将讨论我们提出的硬示例挖掘方法的一些进一步应用和扩展。关于假正分布的熵。在从未标记的视频中挖掘数千个硬底片时,我们注意到硬底片中有一个惊人的模式。基于视频的无监督硬样本挖掘及其目标检测11表1:WIDER Face [61]基准验证集的平均精度(AP)。包括硬示例可以提高基线的性能,HP和HP+HN提供了最佳结果。容易介质硬基线0.9070.8500.492w/更多迭代0.9100.8520.493更快的R-CNN闪烁为阳性0.8290.7900.434英文名:Flickers as HN0.9090.8530.494我们的:闪烁作为HP0.9210.8640.492我们的:闪烁为HP+ HN0.9210.8640.497图5:硬底片的示例。可视化针对面部(顶部)和面部(底部)挖掘的硬底片。Rdboxesdenten s(gree n b o x e s)上的“检测-跟踪”。人脸检测器的底片很大比例的误报是由几种类型的对象生成的。具体来说,面部检测器中很大一部分的硬阴性似乎来自人类的手、耳朵和躯干/胸部区域。由于面部检测中的大部分假阳性似乎是相对少量现象的结果,因此这可以解释通过对硬阴性进行建模所实现的显著收益特别地,表征硬底片的分布以及学习避免它们可能涉及相对小的硬底片集合。畴移对FDDB的影响。FDDB数据集[24]由5,171个带注释的人脸组成,其中2,845个图像取自Wild数据集中的Face子集。FDDB的图像和注释风格具有从WIDER Face的显著域转移,这在Jamal等人中进行了讨论[1]的文件。图7将我们的方法与FDDB上的更快R-CNN基线进行了比较,使用我们在WIDER Face上的实验中训练的模型(第二节)。4.4).虽然硬阴性减少假阳性(图。7(b))和硬阳性增加重新调用(图10)。7(c)),业绩并没有持续改善超过FDDB的基线。我们假设大量的新训练数据导致12Jin等人Groundtruth Baseline HN HP HP+HNF1F2F3F4P1P2P3P4图6、定性比较。更快的R-CNN检测人脸(F1-4)和行人(P1-4)。与基线(F-1,3,4; P-1,2,3)相比,使用硬否定(HN)进行微调的检测器减少了误报,但有时会降低召回率(P4)。硬阳性(HP)增加了召回(F2,P4),但也可能引入假阳性(F4)。使用这两种(HP+HN),检测器通常能够实现良好的平衡。基于视频的无监督硬样本挖掘及其目标检测13将原始检测器进一步偏移远离目标FDDB域,并且该域偏移导致性能损失。这可能不会在WIDER Face上损害我们的性能,因为相对不受约束的WIDER图像与我们从YouTube下载的视频之间的域转移不足以包含来自硬示例的优点。(a)(b)(c)图7:FDDB上的结果(a)将我们的硬示例方法与基线Faster R-CNN检测器进行比较的ROC曲线;(b-c)显示假阳性率和真阳性率的单独图,其中检测分数具有变化的阈值。扩展到其他类。我们的方法的简单性使得它可以很容易地扩展到其他类别中的一个与休息的设置。 YouTube是各种MS-COCO或PASCAL类别的视频的一个有前途的来源;在此之后挖掘硬否定是完全自动的。为了证明这一点,我们从MS-COCO中选择了类别,并进行了实验,以检查包含硬否定是否会提高Faster R-CNN检测器的基线性能我们使用了Sonntag等人部署的训练方法[49],这允许在MS-COCO数据集的特定对象类上方便地微调基于VGG 16的 Faster R-CNN模型该方法用于训练特定类别与背景的Faster R-CNN检测器,从在Image-Net类别上预训练的多类别VGG 16分类器然后使用该基线检测器从该类别的下载YouTube视频中挖掘硬底片,然后在新数据和原始标记训练数据的联合上重新训练我们展示了两个类别的结果:狗和火车。MS-COCO验证集的保留子集用于验证训练超参数,其余验证数据用于评价。对于犬类别,将标记数据分为3041/177/1521个图像的训练/验证/测试部分我们从YouTube上手动选择并下载了大约22小时的狗视频我们使用基线狗检测器来获得对大约15小时(1,296,000帧,24 fps)的狗视频的检测。然后在检测器置信度阈值0.8下运行硬这产生了2611帧,其中至少有一个硬阴性和一个阳性检测。然后对标记的MS-COCO数据和硬阴性的并集微调基线模型30 k次迭代。使用验证集选择超参数和最佳模型使用2464/157/1281个图像的train/val/test分割进行了类似的训练实验结果14Jin等人在表2中总结了这一点,其中观察到包含硬负片以改善两种情况下的基线检测器。表2:在MS-C 0 C 0上用针对‘dogn’和‘dtral’at egories的硬否定增强更快R-CNN检测器的结果。类别模型培训迭代培训超参数验证设置AP测试设置AP狗基线29000LR:1e-3(10k),1 e-4用于10 k-20k,1 e-5用于20k-29 k26.925.3闪烁为HN22000LR:1e-4(15k),15 k-22 k的1 e-528.126.4火车基线26000LR:1e-3,步长:10k,lr衰减:0.133.933.2闪烁为HN24000LR:1e-3,步长:10k,lr衰减:0.135.433.76结论这项工作利用现有的现象该方法用于改进对象检测器的有用性在两个众所周知的任务-人脸和行人检测的标准基准我们的硬示例挖掘方法的简单性使其广泛适用于各种实际场景确认这项研究部分基于国家情报总监办公室(ODNI)、情报高级研究项目活动(IARPA)支持的工作,合同号为2014-14071600010,部分基于空军研究实验室和DARPA赞助的研究,协议号为FA 8750 -18-2-0126。本文中包含的观点和结论是作者的观点和结论,不应被解释为必然代表ODNI、IARPA、空军研究实验室和DARPA或美国国防部的官方政策或认可(无论是明示还是暗示)。政府的美国政府有权为政府目的复制和分发重印本,尽管其上有任何版权注释。基于视频的无监督硬样本挖掘及其目标检测15引用1. Abdullah Jamal,M.,Li,H.,龚,B.:深度人脸检测器自适应,无负迁移或灾难性遗忘。在:IEEE计算机视觉和模式识别会议(CVPR)(2018年6月)2. Ap pel,R., 操T 做吧,P Perona,P. :快速地进行裁减减少了冗余国际机器学习会议(International Conference on Machine Learning)pp.第5943. Athalye,A.,Sutskever ,I. :合成强大的对抗性示例。arXiv预印本arXiv:1707.07397(2017)4. Blum,A.,Mitchell,T.:结合标记和未标记数据与协同训练。在:第十一届计算学习理论年会论文集。pp. 92-100. ACM(1998)5. 巴西、G.、Yin,X.,刘X:通过同时检测分割照亮行人。arXiv预印本arXiv:1706.08564(2017)6. 蔡志,范,Q.,Feris,R.S.,Vasconcelos,N.:用于快速目标检测的统一多尺度深度卷积神经网络。欧洲计算机视觉会议。pp. 354-370 Springer(2016)7. 蔡志,Saberian,M.,Vasconcelos,N.:学习复杂性感知级联用于深度行人检测。在:IEEE计算机视觉国际会议论文集。pp. 33618. Chang,H.S.,Learned-Miller,E. McCallum,A.:有源偏置:通过强调高方差样本来训练更准确的神经网络。在:神经信息处理系统的进展pp. 10039. 夏佩尔岛Scholkopf,B.,Zien,A.:半监督学习(chapelle,o例如,eds.; 2006)[书评]。IEEE Transactions on Neural Networks20(3),54210. Dalal,N.,Triggs,B.:用于人体检测的定向梯度直方图。在:CVPR中。pp. 886-893 ( 2005 ) 。 https://doi.org/10.1109/CVPR.2005.177 , http : //dx.doi.org/10.1109/CVPR.2005.17711. Do ll'ar,P., Tu,Z., Perona,P., Belon g ie,S. :Integlchanelfetur es(2009)12. Do ll'ar,P., Woje k,C., S.chiele,B., Perona,P. :Pedestrianddete c tion:Abenchmark. 在 : 计 算 机 视 觉 和 模 式 识 别 , 2009 年 。 CVPR 2009 。 IEEEConference on.304-311. IEEE(2009)13. Doll'a r,P.你好,C. L. : FASTedgeDetection使用gstructured前sts 。 IEEE 传 输 模 式 分 析 马 赫 内 特 尔 37 ( 8 ) , 1558-1570 ( 2015 ) 。https://doi.org/10.1109/TPAMI.2014.2377715,http://dx.doi.org/10.1109/TPAMI.2014.237771514. 杜X El-Khamy,M.,李,J.,Davis,L.:Fused dnn:A deep neural networkfusion approach to fast and robust pedestrian detection. 在 : 计 算 机 视 觉 应 用(WACV),2017年IEEE冬季会议pp. 953-961 IEEE(2017)15. 法费德 S.S. 萨伯里安 MJ李鹏说,L.:多视图脸检测我们-深度卷积神经网络In:ICMR.pp.643-650(2015)。https://doi.org/10.1145/2671188.2749408、http://doi.acm.org/10.1145/2671188。274940816. Felzenszwalb,P.F.,Girshick,R.B.,McAllester,D. Ramanan,D.:使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on pattern analysis andmachine intelligence32(9),162717. Friedman,J.,Hastie,T.,Tibshirani河等:加性logistic回归:一个统计分析增强的理论观点(作者讨论和反驳)。The annals of statistics 28(2),337 -407(2000 )16Jin等人18. Geman,S.,Gra gne,C.:马尔可夫随机场图像模型及其在计算机视觉中的应用。国际数学家大会论文集。卷1,p.第二次(1986年)19. Girshick , R.B. : 快 速 R-CNN 。 In : ICCV. pp. 1440-1448 ( 2015 ) 。https://doi.org/10.1109/ICCV.2015.169、http://dx.doi.org/10.1109/ICCV。2015年169期20. Girshick,R.B., Donahue,J., Darrell,T., Malik,J.: 丰富的特征层次结构,用于精确的对象检测和语义分割。在:CVPR中。 pp. 580- 587(2014)。https://doi.org/10.1109/CVPR.2014.81,http://dx.doi.org/10.1109/CVPR.2014.8121. 他,K.,张,X.,Ren,S.,孙杰:用于视觉识别的深度卷积网络中的空间金字塔池In:ECCV.pp. 34622. Hosang,J.,Omran,M.,Benenson河Schiele,B.:更深入地调查一下儿科医生。IEEE计算机视觉和模式识别会议论文集。pp. 407323. Hu,P.,Ramanan,D.:寻找小脸2017年IEEE计算机视觉和模式识别会议(CVPR)。pp. 1522-1530年。IEEE(2017)24. Jain,V. Learned-Miller,E.:FDDB:无约束环境下人脸检测的基准测试. Tech.马萨诸塞大学阿默斯特分校UM-CS-2010-009(2010年)25. 江,H.,Learned-Miller,E.:用更快的r-cnn进行人脸检测。在:自动人脸&手势识别(FG 2017),2017年第12届IEEE国际会议上。pp. 650-657. IEEE(2017)26. Jin,S.,Su,H.,Stauffer,C.,Learned-Miller,E.:基于erdos-renyi聚类的电影端到端人脸检测和演员分组In:ICCV(2017)27. Kalal,Z.,Matas,J.,Mikolajczyk,K.:Pn学习:通过结构约束引导二进制分类器 。 计算 机 视 觉与 模 式 识别 ( CVPR ) , 2010 年 IEEE 会 议pp. 49 比56 IEEE(2010)28. Klíaser,A., 妈妈,M, Schmid,C., Zisserman,A. :HUMAN用于视频中的局部化。欧洲计算机视觉会议。pp. 219-233. 03 The Sunday(2010)29. 李鹏说,H、林Z.,沈先生,X.,勃兰特J.,阿华G.:一卷积neu-用于人脸检测的Ral网络级联。在:CVPR中。pp.第5325-5334(2015)号决议。https://doi.org/10.1109/CVPR.2015.7299170、http://dx.doi.org/10.1109/CVPR。2015.729917030. 李杰,梁湘,Shen,S.,徐,T.,冯杰,Yan,S.:用于行人检测的尺度感知快速r-cnn。IEEE Transactions on Multimedia(2017)31. 李,Y.,孙湾,英-地吴,T.,王玉,Gao,W.:利用convnet和3d模型的端到端集成进行人脸检测。ECCVabs/1606.00850(2016),http://dblp.uni-trier.de/db/journals/corr/corr1606.html#LiSWW01632. Lin,T. 是的, 做吧,P Gir shic k,R., 他,K., Hariharan,B., Belon g ie,S. :用于对象检测的Fetur金字塔网络在:CVPR中。卷1,p.第4期(2017年)33. Lin,T. 是的, 再见,P., Gir shic k,R., 他,K., 我会的,P。:用于检测阻塞的成本。arXiv预印本arXiv:1708.02002(2017)34. 刘伟,Anguelov,D.,Erhan,D.,塞格迪角 Reed,S., F
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功