建模视觉上下文提高目标检测数据集

63 浏览量更新于2023-10-13 收藏 2.78MB PDF 举报

目标检测数据集

数据增强

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

建模视觉上下文是增强目标检测数据集Nikita Dvornik，Julien Mairal，Cordelia Schmid⋆Univ. Grenoble Alpes，Inria，CNRS，Grenoble INP，LJK，38000 Grenoble，Francefirstname. inria.fr抽象。众所周知，执行用于学习深度神经网络的数据增强对于训练视觉识别系统是重要通过人为增加训练样本的数量，它有助于减少过拟合并提高泛化能力。对于对象检测，用于数据增强的经典方法包括生成通过原始训练图像的基本几何变换和颜色变化获得的图像在这项工作中，我们更进一步，利用年龄分割注释来增加训练数据上存在的对象实例的数量对于这种方法是成功的，我们表明，适当地建模周围的对象的视觉环境是至关重要的，将它们放置在正确的环境。否则，我们表明，以前的策略实际上是有害的。利用我们的上下文模型，当很少有标记的示例在V0C12benchamark上可用时，我们实现了显著的平均平均精度改进。关键词：目标检测，数据增强，视觉上下文1介绍目标检测是最经典的计算机视觉任务之一，通常被认为是场景理解的基本代理。给定输入图像，期望算法在对象周围产生一组紧密框，同时自动地对它们进行分类。显然，正确地建模对象外观很重要，但众所周知，视觉上下文为计算机视觉系统和人类提供了重要的识别线索[1]。来自同一个类的对象确实倾向于在类似的环境中被分组在一起;有时它们与它交互，甚至在没有它的情况下没有意义每当视觉信息被破坏、模糊或不完整时（例如图像包含噪声、较差的照明条件、或者对象被遮挡或截断），视觉上下文成为关键的信息源。经常地，某些对象类别可以例如最经常地出现在特定条件（例如，环境）中。天空中的飞机，桌子上的盘子），与其他特定类别的物体（例如，棒球和棒球棒），以及更一般地，不直接相关的用于对象识别的任何类型的线索工学院格勒诺布尔-阿尔卑斯2N. Dvornik，J.Mairal和C.Schmid复制-粘贴数据扩充图像实例新的培训实例随机实例放置使用上下文指导Fig. 1. 由我们的 appr o ach 制作的数据增强训练示例。 Images 和obectarkenteVOC' 12数据集保留了片段注释中的内容我们将通过粘贴对象获得的输出与我们的上下文模型和这些是随机放置获得的即使结果不是完美的照片级真实感并且显示混合伪影，但是对象周围的视觉上下文在显式上下文模型的情况下更经常是正确的对于所述对象的应用，在所述列表中被称为“兼容性”。为此，在[2]中提出了上下文信息的分类，以更好地理解什么类型的视觉上下文对对象检测有用。在深度学习/ImageNet革命之前，上一代对象检测器（如[3-6]）通过手动设计局部描述符，特征聚合方法以及定义对象之间的结构关系来建模对象位置，类别和上下文之间的交互。相比之下，基于卷积神经网络的最近的工作（诸如[7-10]）通过设计隐式地对视觉上下文进行建模，因为“人工神经”的感受野随着网络的深度而增长，通常对最后一层的填充图像进行覆盖。出于这个原因，这些基于CNN的方法在与显式上下文模型结合时显示出适度的改进[11]。我们的研究结果与以前的研究结果并不矛盾。我们表明，显式的上下文建模是重要的，只有在以前的工作中没有考虑的特定部分的对象检测管道。当训练卷积神经网络时，控制过拟合确实很重要，特别是如果很少有标记的训练样本可用。各种启发式方法通常用于此目的，例如DropOut [12]，惩罚网络参数的范数（权重衰减）或提前停止。即使从理论的角度来看，这种方法的正则化效果没有得到很好的理解，但已经发现这些启发式在实践中是有用的。除了与学习过程相关的这些启发式方法之外，控制过拟合的另一种方法包括通过使用用于目标检测的3我现在不知道该怎么办了。例如，来自V0C’12数据集[13]的所有jectcl对于水平翻转（例如，水平翻转）是不变的。，翻转的汽车仍然是汽车）和许多不那么琐碎的转换。一种更雄心勃勃的数据增强技术包括利用手动获得或从自动分割系统获得的分割注释，并创建具有放置在现有场景中的各种位置处的对象的新图像[14 虽然没有实现完美的照片写实主义，但这种随机放置的策略已被证明对于对象实例检测[14]非常有效，这是一种细粒度检测任务，包括从图像集合中检索特定对象的实例;相反，对象检测关注于从特定类别中检测对象实例。不幸的是，随机放置策略并没有扩展到对象检测任务，如实验部分所示。通过将训练对象放置在不切实际的位置，隐式地建模上下文变得困难，并且检测精度大幅下降。沿着同样的思路，[15]的作者提出通过以现实的方式在图像上添加文本来增强文本识别的数据集在那里，将文本与正确的几何背景相结合是至关重要的。在将文本放置在估计平面上之前，通过首先估计场景的几何形状来获得准确性的显著同样相关的是，[16]的工作成功地已经发现建模上下文也是关键的，并且还通过估计平面几何形状来实现，并且对象通常放置在检测到的桌子或柜台上，这经常发生在室内场景中。在本文中，我们考虑了一般的对象检测问题，其需要比例如在[15，16]中完成的估计平面和表面更通用的上下文建模为此，本文的第一个贡献是方法论：我们提出了一种基于卷积神经网络的上下文模型，该模型将作为开源软件包提供。该模型估计特定类别的对象在给定其邻域的情况下存在于框内的可能性，然后自动在图像上找到合适的位置来放置新对象并执行数据增强。图1简要第二个基准是可扩展的：我们知道，在V0C12基准上，上下文建模实际上是获得对象检测的良好结果的关键，并且当很少有标记的示例可用时，可以实现相对于非数据增强的基线的2相关工作在本节中，我们简要讨论了视觉上下文建模和对象检测数据增强的相关工作。用于对象检测的视觉上下文建模相对较早，视觉上下文已经通过计算全局场景的低级特征与表示对象的描述符之间的统计相关性来建模[17，18]。后来4N. Dvornik，J.Mairal和C.Schmid[4]的作者介绍了一种对基于外观的检测进行操作的简单上下文重新评分方法。为了编码更多的结构，图形模型被广泛使用，以便联合建模外观，几何形状和上下文关系[19，20]。然后，开始使用卷积神经网络等深度学习方法[7-9];如前所述，它们的特征已经包含隐含的上下文信息。然而，[21]的工作明确地结合了更高级别的上下文线索，并将条件随机场模型与Faster-RCNN获得的检测相出于类似的目标，在[22]中使用递归神经网络来建模所发现对象的空间位置使用卷积神经网络进行上下文建模的另一个补充方向使用了去卷积流水线，该流水线增加了神经元的视野并融合了不同尺度的特征[22-[2，25]的作品分析了不同类型的上下文关系，确定了最有用的检测方法，以及利用它们的各种方法。然而，尽管有这些努力，由于纯粹的上下文信息的改善一直是相对温和的[11，26]。用于对象检测的数据增强。数据增强是训练深度神经网络的主要工具。如果从平凡的几何变换例如水平翻转、具有颜色扰动的裁剪以及添加噪声到图像[27]，到合成新的训练图像[28，29]。一些最近的对象检测器[9，10，23]比其他[7，8]更受益于标准数据增强技术。Fast和Faster-RCNN的性能可以通过简单地破坏图像的随机部分来提高，以便模拟闭塞[30]。关于图像合成，最近的作品，如[31-33]在纯合成渲染的2d和3d场景上构建和训练他们的模型。然而，在合成图像上训练的模型的主要困难是保证它们将很好地推广到真实数据，因为合成过程引入了图像统计的显著变化[29]。为了解决这个问题，作者[15]通过将真实的分割对象粘贴到自然图像中来采用不同的方向，这减少了渲染伪影的存在。对于对象实例检测，工作[16]在将对象放置在图像中以创建逼真的训练示例之前估计场景几何形状和空间布局在[14]中，作者提出了一种更简单的解决方案，通过在随机位置粘贴图像，但对被遮挡和截断的对象进行建模，并使训练步骤对粘贴位置的边界伪影具有鲁棒性3面向数据增强的我们的数据增强方法主要由两部分组成：我们首先通过使用边界框注释来建模视觉上下文，其中框的周围被用作卷积神经网络的输入，以预测框内对象的存在或不存在然后，训练的上下文模型用于生成对象的一组可能的新位置完整的流水线如图所示。2.在本节中，我们将详细描述这两个步骤，但在此之前，我们将介绍并讨论一个激发我们工作的初步实验。用于目标检测的51342上下文CNN用于训练选择、重缩放、混合将实例与框预测对象准备本地上下文示例图二.我们的数据增强方法的插图。我们选择一个图像进行增强，并1）生成200个覆盖图像的候选框然后，2）对于每个框，我们找到完全包含该框的邻域，裁剪该邻域并将所有像素都映射到该框和该框中;然后将具有所映射的像素的“新的框”馈送到上下文神经网络模块，以及3）将4）我们选择最多两个实例，它们被重新缩放并混合到选定的然后将所得图像用于训练对象检测器。3.1随机定位的初步实验在[14]中，通过将分割对象放置在新场景中的随机位置处来如前所述，该策略被证明对于对象实例检测是有效的，只要适当的过程被用于防止对象检测器过拟合混合伪像，即，最大的有效性在于防止检测到感兴趣的对象或“检测到感兴趣的对象”。这是通过使用各种策略来平滑诸如在背景上粘贴P 〇 i s的对象来实现的[ 34]，并且通过添加不属于任何数据集类别但也被合成地粘贴在随机背景上的“对象”对象来实现的。在干扰项的情况下，伪影出现在正示例和负示例中，从而防止针对对象检测训练的网络过拟合它们。根据[14]，该策略为对象实例检测/检索任务带来了实质性的改进，其中对对象实例的细粒度外观进行建模似乎比在一般类别对象检测任务中对视觉上下文进行建模更重要不幸的是，上面的上下文无关策略并不能简单地扩展到我们考虑的对象检测任务。我们在V0C'12d上进行的初步实验实际上是如何通过检测器的准确性来实现的，这促使我们提出了一个显式的具体来说，我们按照[14]的原始策略进行了一个实验6N. Dvornik，J.Mairal和C.Schmid就像你所能做的那样。我们使用V0C’12训练集的子集合作为真实分割注释来从图像切割对象实例，然后将它们放置在来自训练集的其他图像上。与[14]一样，我们尝试了各种混合策略（高斯或线性模糊，泊松混合或根本不使用混合）来平滑边界伪影。在[14]之后，我们还讨论了“distractor”，其中nl被视为bac k ground。通过从COCO数据集[35]复制-粘贴分割对象来简单地从V0 C’12中未应用的分割对象获得分割对象。1对于混合策略的任何组合，通过使用干扰或不使用干扰，具有随机放置的朴素数据增强方法在没有经典对象检测任务的数据增强的基线上没有改善可能的解释可以是，例如对象检测，检测器不需要学习对象/场景表示的类内变化性，并且似乎仅集中于特定实例的外观建模，这不是类别级对象检测的情况。这个实验是提出上下文模型的关键动机，我们现在提出。3.2基于卷积神经网络由于上下文无关的数据增强失败了，我们建议通过使用卷积神经网络来学习自动放置对象的位置。在这里，我们介绍了数据生成，模型训练和对象放置过程。上下文数据生成。我们考虑使用边界框和类别注释来训练数据。对于与训练图像I相关联的每个边界框B，我们创建一组训练上下文，其被定义为完全包围其内容被屏蔽的边界框B的I的子图像，如图3所示。可以从单个带注释的边界框B创建若干上下文通过改变B周围的子图像的大小及其纵横比。此外，“bac k gr ou nd”还包含由con sid e r i n g r i n g r i ng r i n g和bom d e o n g o x e组成的空间，其中bom d e x e s o s i n g o x的值不超过0。3，其内容也被屏蔽。这种盒子的形状由纵横比a和相对比例s限定。我们从包含正对象的边界框引起的联合分布中提取一对参数，即。30×30箱标准化直方图。由于一般来说，存在更多的背景样本，而这些背景样本实际上不可能被捕获，因此我们按照 [ 7 ， 9 ] 中的采样策略将 “ 背景增长 ” 采样率提高 3 倍。模特训练给定从所有训练数据收集的所有上下文的集合，我们训练卷积神经网络以预测掩蔽边界中的每个对象的存在。输入到两个工作站的输入是在一个时间段内可能需要的“复杂的X图像”，并且其中内部包含一个屏蔽的边界框。这些上下文图像的大小被调整为300×300像素，[1]请注意，来自COCO的外部数据仅用于本初步实验，而未用于第4节后面报告的实验。用于目标检测的7图三.上下文图像-上下文模型的输入示例。在屏蔽掉红色框内的对象信息后，使用由洋红色框限定的子图像作为上下文模型的输入最上面一行列出了对被规则和可预测的上下文包围的真实对象进行编码的正样本的示例。第二行给出了具有模糊或无信息背景的正训练示例底行描绘了包围背景的负面示例该图表明，上下文图像可能是模糊的，无法正确分类，并且仅在上下文下预测类别的任务具有挑战性。见图4。实验中使用的不同混合物。从左至右：边界的线性平滑，高斯平滑，无处理，整个图像的运动模糊，泊松混合[34]。8N. Dvornik，J.Mairal和C.Schmid并且网络的输出是集合{1，2，…，K + 1}，其中K是对象类别的数量，并且第（K + 1）个类别表示背景。对于这里的多类图像分类问题，我们使用在ImageNet上预训练的经典ResNet50网络[36]，并将最后一层更改为具有K+ 1激活的softmax（详见实验部分）。在测试时选择对象位置一旦上下文模型通过使用用边界框注释的训练数据来训练，我们就使用它来选择位置以在给定图像上执行数据增强。作为输入，经训练的样本可靠地提供具有边界块掩码的“contextualimage”（如在样本3中）。2）的情况。该模型可通过考虑其视觉环境来实现“可预测”的预测，即由于评估图像中所有潜在的边界框的成本太高，我们随机抽取200个候选边界框，并保留对象类别得分大于0的边界框。根据经验，发现数字200在得分最高的边界框中提供足够好的边界框，同时导致合理快速的数据增强过程。混合环境中的对象。每当前面的过程选择了一个边界框时，我们需要在相应的位置混合一个对象。这一步骤密切遵循[14]的发现。我们考虑不同类型的混合技术（高斯或线性模糊，简单的复制粘贴，没有后处理，或在整个图像上生成模糊来模仿运动），并随机选择其中之一，以引入更大的混合伪影的多样性。在我们的方法中，我们也没有考虑泊松混合，这大大减慢了数据生成过程。不像[14]，也不像我们在3.1节中描述的初步实验，我们不使用分心物，这对我们的任务来说不如[14]重要。因此，我们不需要利用外部数据来执行数据增强。定性结果如图4所示。4实验在本节中，我们将通过实验展示上下文建模对数据增强的重要性我们评估了我们的方法在VOC' 12 d的子集上，当训练数据量改变时，数据增强的有效性在第4.1节中，我们介绍了数据、工具和评估指标。在第4.2节中，我们提出了所有实验共有的实施细节，以使我们的结果可重现（进行我们实验的源代码也将在开源软件包中公开）。首先，我们在第4.3节中展示了在单个类别上训练的对象检测器的实验-也就是说，检测器针对每个对象类别进行单独训练，并且在第4.4节中展示了标准多类别设置的实验。最后，我们在第4.5节中提出了一项消融研究，以了解各种因素（混合和放置策略，标记数据量）的影响。用于目标检测的94.1数据集、工具和指标好的。在所有的实验中，我们使用P的子集作为包含分割注释的训练数据集[13]来训练我们的所有模型（上下文模型和对象检测器）。我们称这个训练集为VOC 12 train-seg，它包含1464张图像。遵循标准实践，我们使用V OC’07的测试集来评估这些模型，其中包含4952个图像，其中20个对象作为V OC’12。我们计算了该图像集的VOC 07-测试。物体探测器。为了测试我们的数据增强策略，我们选择了一个最先进的对象检测器，它具有开源实现， BlitzNet[23] ，达到 79 。当在V0C’07和V0 C’12的完整测试和验证部分的联合上训练时，V0 C07-测试上的1% mAP，例如[24]这也被用于Focal Loss论文[37]。这类检测器的优点是它相对快速（它可以实时工作）并且支持使用大批量图像进行训练而无需进一步修改。EVALUATIONMETRIC. 在V0C’07中，经确定的boundbox经确定以与地面真值框的交集与并集（IoU）的关系高于0.5。用于评估一个对象类的检测质量的度量是数据集的平均精度（ AP ）和平均平均精度（mAP）。4.2实现细节选择和混合对象。由于我们在所有实验中广泛使用从训练图像中提取的对象实例，因此我们创建了一个从VOC 12 train-seg集合中剪切的对象数据库，以便在训练过程中快速访问它们。对于给定的候选框，如果在通过因子t或in[ 0]缩放之后，实例被认为是匹配的。五一5]存储库中的重新计算确定了存储空间的大小，并确定了存储空间的80%。当在新背景上添加mim时，我们遵循[14]并随机使用以下方法之一：在对象边界上添加高斯或线性模糊，通过模仿运动在整个图像上生成模糊，或者只是粘贴图像而不进行混合。为了不引入缩放伪影，我们将缩放因子保持为接近1。Traningtheconte xtmodel.在按照3.2中所述对“cont ex tual images”进行拆分后，我们将其重新缩放为标准尺寸300 × 300，并按32的尺寸分批堆叠。我们使用ResNet50 [36]和ImageNet初始化来训练我们所有实验中的上下文模型。由于我们在任何时候都只能访问训练集，因此我们在相同的数据上训练和应用模型。为了防止过度拟合，我们使用早期停止。为了确定何时停止训练过程，我们在我们的训练集上监视训练误差，并且在VOC 12-val上监视VOC 12值。损耗曲线开始明显发散的时刻被用作停止点。本10N. Dvornik，J.Mairal和C.Schmid结束时，当为一个类与背景技术，我们训练一个网络1.5K次迭代，然后将学习率降低10倍，再训练500次迭代。当学习所有20个类别的联合上下文模型时，我们首先运行4K次迭代的训练过程，然后在降低学习率后再运行2K次迭代如3.2节所述，我们对3倍多的背景上下文图像进行由上下文模型产生的图像的视觉示例在图5中呈现。总的来说，训练上下文模型比训练检测器快5倍训练目标探测器。在这项工作中，检测器将大小为300 × 300的图像作为输入，并生成一组具有分类得分的候选对象框;与我们的上下文模型一样，它使用在ImageNet上预训练的ResNet 50 [36]作为骨干。检测器通过以下[23]使用ADAM优化器进行训练[38]从学习率10- 4开始，在训练过程中将其降低10倍（参见4.3节和4.4节，了解每个实验中使用的epoch数量）。除了我们通过复制-粘贴对象获得的数据增强方法之外，所有实验还包括通过随机裁剪、翻转和颜色变换获得的经典数据增强步骤，如下[23]。4.3单类别目标检测在本节中，我们进行实验以更好地理解当与具有随机对象放置“Random-DA”的基线相比时，以及当与被称为“Base-DA”的标准数据增强技术相比时，在不同表中被称为“上下文-DA”的所提出的数据增强方法的效果。该研究在单类别设置中进行，其中检测器针对每个对象类别进行独立训练，从而导致每个类别的正训练示例的数量相对较少。这使我们能够评估-当有标签的样本很少时，评估上下文的重要性，并观察从一个类别得出的结论是否容易推广到其他类别。随机背景上的随机对象放置的基线以与我们的上下文驱动方法类似的方式进行，通过遵循上一节中描述对于每个类别，我们将所有没有来自该类别的对象的图像视为背景图像，并考虑如第4.1节中所讨论的切割实例的集合。在训练过程中，我们通过在其上粘贴最多两个实例来增强概率为0.5的负（背景）图像通过[0. 5， 2]并使用第4.1节中提到的随机选择的混合方法混合到图像中。对于所有模型，我们训练目标检测网络进行6K次迭代，并在2K和4K次迭代后每次将学习率降低10倍。该实验的结果示于表1中。结论如下：随机放置确实损害了平均性能。只有类别bird似乎从中受益匪浅，这可能是因为鸟类往往出现在这个数据集中的各种上下文中。用于目标检测的11某些类别显著地遭受随机放置，诸如船、桌子和羊。重要的是，视觉上下文模型总是改进随机放置模型，平均提高5%，并且改进仅使用经典数据增强的基线，平均提高4%。有趣的是，我们确定了视觉背景至关重要的类别（飞机，鸟，船，公共汽车，猫，牛，马），其中上下文驱动的数据增强带来了超过5%的改善和一些类别，显示没有显着的收益或损失（椅子，桌子，人，火车），其中与基线的差异小于1%。表1. VOC 07-测试单类别实验的检测准确度比较。通过使用来自VOC12 train-seg的1 464张图像。第一行表示使用标准数据增强技术的基线第二行还使用具有随机放置的对象的复制粘贴。第三行显示了我们的上下文驱动方法所获得的结果，最后一行显示了改进就会超过基准线这些数字表示每个类的平均精度（%）。超过基线的较大改进（大于5%）以粗体表示方法Aero自行车鸟船 bott. 总线车猫椅子牛表狗马姆比凯pers. 植物羊沙发火车电视avg.碱基-DA58.8 64.3 48.8 47.8 33.9 66.5 69.7 68.0 40.4 59.0 61.0 56.2 72.164.266.7 36.654.5 53.0 73.4 63.6 58.0随机DA60.2 66.5 55.1 41.9 29.7 66.5 70.0 70.1 37.4 57.4 45.3 56.7 68.366.167.0 37.049.9 55.8 72.1 62.6 56.9上下文DA 67.0 68.6 60.0 53.3 38.8 73.3 72.4 74.3 39.7 64.3 61.4 60.3 77.669.067.3 38.656.2 56.9 74.4 66.8 62.0进口续8.2 4.3 11.2 5.54.96.8 2.7 6.3 -0.7 5.30.44.15.54.80.62.01.73.91.03.24.0表2.VOC 07-测试多类别实验检测准确性的比较该模型使用VOC 12train-seg中的1 464幅图像同时对所有类别进行训练。第一行表示使用标准数据增强技术的基线实验第二行也使用了上下文驱动的数据扩充。这些数字表示每个类的平均精度（%）。方法Aero自行车鸟船bott. 总线车猫椅子牛表狗马姆比凯pers. 植物羊沙发火车电视avg.碱基-DA63.6 73.3 63.2 57.0 31.5 76.0 71.5 79.9 40.0 71.6 61.4 74.6 80.970.467.9 36.564.9 63.0 79.3 64.7 64.6上下文DA 66.8 75.3 65.9 57.2 33.1 75.0 72.4 79.6 40.6 73.9 63.7 77.1 81.471.868.1 37.967.6 64.7 81.2 65.5 65.94.4多类别目标检测在本节中，我们进行与4.3相同的实验，但我们训练单个多类别对象检测器，而不是每个类别的独立检测器网络参数使用更多的标记数据进行训练（平均是表4.3中学习的模型的20倍）。结果示于表2中，并且显示出1的适度改善。3%，这在类别之间相对一致，20个类别中有18个类别受益于上下文驱动的数据增强。这证实了数据增强是至关重要的，当很少有标记的例子。12N. Dvornik，J.Mairal和C.Schmid4.5消融研究最后，我们进行了消融研究，以更好地理解（i）视觉背景对对象检测的重要性，（ii）混合伪影的影响，以及（iii）使用很少的标记示例时数据增强的重要性对于简单实用性，我们选择VOC' 12、nam elyaerop lane、bike、bird、boat、bottle的第五个类别，并如第4.3节中那样训练每个类别的上下文中没有对象时的基线我们的实验表明，用随机放置的对象扩充天真的数据集会稍微损害性能。为了证实这一发现，我们考虑了一个类似的实验，通过在与4.3节相同数量的实例上学习，但我们只考虑那些被综合放置在随机上下文中的对象作为阳性示例这是通过从训练数据中删除所有具有我们想要建模的类别中的对象的图像，并将其替换为放置在背景图像上的该对象的实例这种研究的主要动机是考虑极端情况下（i）没有对象被放置在正确的上下文中;（ii）所有对象可能遭受渲染伪像。如表3所示，与基线相比，平均精度显著降低约14%作为一个结论，无论是视觉环境确实是至关重要的学习，或混合文物也是一个关键问题。下一个实验的目的是澄清这种模糊性。当上下文正确时，混合的影响。在前面的实验中，我们已经表明，缺乏视觉环境和混合假象的存在可以解释表3的第四行上观察到的性能下降。在这里，我们提出了一个简单的实验，表明当对象被放置在正确的上下文中时，混合伪影并不重要：该实验包括从数据集中提取每个对象实例，通过稍微大于1的随机因子（在区间[1. 二一5]），并将其混合回同一位置，使其覆盖原始实例。因此，新的数据集从数据增强（由于对象放大）中略微受益，但它也会遭受所有对象实例的混合伪影。如表3的第五行所示，这种方法在基线上有所改进，尽管没有完全上下文驱动的数据增强那么多，这表明缺乏视觉上下文是解释之前观察到的结果的关键。实验还证实，混合伪影的存在对于对象检测任务不是关键的。这种伪影的视觉示例如图6所示。只有很少的标记数据的性能最后，表3的最后四行呈现了我们在减少标记数据量时的结果，其中当使用所有训练数据时，该量已经很小。我们的方法提供的改进是显著和一致的（当仅使用50%和25%的训练数据时，约为6%即使当非常小数量的训练示例可用时，人们可以自然地期望更大的改进，但是应当注意，在这样的非常小的范围中，上下文模型的质量可能会降低。用于目标检测的13也可能降解（例如，该数据集仅包含87幅鸟类图像，这意味着在25%的情况下，我们仅使用22幅具有阳性实例的图像）。3.我的世界第一个五个项目中的一个最大的问题是VOC' 12。所有实施方式独立地如表1中所示。我们比较了经典的数据增强技术（Base-DA），通过随机地（Random-DA）或将对象复制粘贴到一个约束条件下（约束条件-DA）获得的方法。“重新定义内容”一词对应于第4.5节中描述的第一个实验; Enlarge-Reblend对应于第二个实验，最后四行比较了当训练数据量从50%变化到25%时Base-DA和Context-DA的性能。数据部分航空自行车鸟船瓶平均碱基-DA58.8 64.3 48.8 47.833.948.7随机DA60.2 66.5 55.1 41.929.748.3上下文DA67.0 68.6 60.0 53.338.857.5删除上下文44.0 46.8 42.0 20.915.533.9放大+Reblend-DA60.1 63.4 51.6 48.034.851.6碱-DA 50%55.6 60.1 47.6 40.121.042.2上下文-DA 50%62.2 65.9 55.2 46.927.248.8碱-DA 25%51.3 54.0 33.8 28.214.032.5上下文-DA 25%57.8 59.5 40.6 34.319.038.35讨论和未来工作在本文中，我们介绍了一种数据增强技术，致力于对象检测，利用分割注释。从方法论的角度来看，我们表明，这种方法是有效的，超越了传统的增强方法。在准确性方面获得显著改进的关键之一是引入适当的上下文模型，该模型允许我们自动找到对象的真实位置，然后可以在新场景中粘贴和混合。虽然到目前为止，显式上下文建模在对象检测中的作用还不清楚，但我们表明，在执行数据增强和使用少量标记数据进行学习时，它实际上是至关重要的，这是深度学习模型目前面临的主要问题之一。我们相信，这些有希望的结果铺平了道路，许多扩展。在未来的工作中，我们将研究我们的方法在其他场景理解任务中的应用，例如，语义或实例分割，并研究如何使其适应更大的数据集。由于我们的方法依赖于预先分割的对象，这些对象随后用于数据增强，因此我们还计划利用自动分割工具，例如[39]，以便在只有边界框注释可用时使用我们的方法。致谢。这项工作得到了ANR（MAC-ARON项目ANR-14-CE 23 -0003-01）的资助，ERC资助714381（SOLARIS项目），ERC先进的赠款ALLEGRO和亚马逊和英特尔的礼物14N. Dvornik，J.Mairal和C.Schmid图五.使用上下文模型指导的实例放置示例。该图显示了通过将匹配的示例放入上下文模型预测的框中获得的样本最上面一行显示了生成的图像，这些图像在视觉上几乎无法与真实图像区分开。中间一行显示了高质量的样本，尽管有一些视觉伪影。对于最左边的两个示例，上下文模块建议了一个适当的对象类，但是粘贴的实例在视觉上看起来并不吸引人。有时，由于中间两个图像中的分割伪影，场景看起来不自然。最右边的两个例子显示了类别似乎在正确的环境中，但不是完美的位置。下面一行显示了一些失败案例。见图6。出现伪影的图示从扩大增强在放大数据增强中，从图像中切出一个实例，将其放大一个小的因子并放回相同的位置。这种方法导致混合伪影。修改后的图像在顶行中给出。以混合伪影为中心的图像的缩放部分显示在底线中。用于目标检测的15引用1. Oliva，A.，Torralba，A.：上下文在物体识别中的作用。《齿轮科学的发展趋势》（12）（2007）5202. Divvala，S.K.，Hoiem，D.，Hays，J.H.，埃夫罗斯，匿名戒酒会Hebert，M.：物体检测中语境的实证研究。在：计算机视觉和模式识别（CVPR）的IEEE会议论文集。（二零零九年）3. 墨菲K Torralba，A.，Eaton，D.，Freeman，W.：使用局部和全局特征的对象检测和定位在：走向类别级对象识别。（2006）38 24. Felzenszwalb，P.F.，Girshick，R.B.，McAllester，D. Ramanan，D.：使用区分性训练的基于部分的模型进行对象检测。 IEEE Transactions onPatternAnalysisandMachineIntelligence（PAMI）32（9）（2010）16275. 帕克DRamanan，D.Fowlkes，C.：目标检测的多分辨率模型欧洲计算机视觉会议（ECCV）论文集（二零一零年）6. 海茨G. Koller，D.：学习空间背景：用东西来找东西。欧洲计算机视觉会议（ECCV）论文集（2008年）7. Ren，S.，他，K.，格尔希克河孙杰：更快的R-CNN：利用区域建议网络进行实时目标检测。神经信息处理系统进展（2015年）8. Girshick，R.：快速R-CNN。在：计算机视觉国际会议（ICCV）的会议记录。（2015年）9. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：SSD：单次触发多盒探测器。欧洲计算机视觉会议（ECCV）论文集。（2016年）10. Redmon，J.，Divvala，S.，格尔希克河Farhadi，A.：你只看一次：统一的实时物体检测。IEEE计算机视觉和模式识别会议（CVPR）。（2016年）11. 尤河陈旭，Morariu，V.I.，Davis，L.S.：背景选择在目标检测中的作用。英国机器视觉会议（BMVC）（2016年）12. Srivastava，N.，Hinton，G. Krizhevsky，A.，萨茨克弗岛Salakhutdinov，R.：Dropout：一种防止神经网络过度拟合的简单方法。The Jour-nalofMac hi neLearni ng Researc h15（1）（2014）192913. Everingham，M.凡古尔湖威廉姆斯，C.K.，Winn，J.，齐瑟曼，A.：PASCAL视觉对象类（VOC）挑战。International Journal of ComputerVision（IJCV）88（2）（2010）30314. Dwibedi，D.，米斯拉岛Hebert，M.：剪切、粘贴和学习：令人惊讶的简单合成的实例检测。在：计算机视觉国际会议（ICCV）的会议记录。（2017年）15. Gupta，A.，Vedaldi，A.，齐瑟曼，A.：用于自然图像中的文本定位的合成数据。IEEE计算机视觉和模式识别会议（2016年）16. Georgakis，G.，Mousavian，A.，Berg，A.C.，Kosecka，J.：合成用于室内场景中的对象检测的训练数据。arXiv预印本arXiv：1702.07836（2017）17. Torralba，A.，Sinha，P.：用于对象检测的统计上下文启动。在：计算机视觉国际会议（ICCV）的（2001年）18. Torralba，A.：用于对象检测的上下文启动。国际计算机病毒学杂志（IJCV）53（2）（2003）16919. Choi，M.J.，Lim，J.J.，Torralba，A.，Willsky，A.S.：在对象类别的大型数据库上利用分层IEEE计算机视觉和模式识别会议（CVPR）。（二零一零年）16N. Dvornik，J.Mairal和C.Schmid20. Gould，S.，富尔顿河Koller，D.：将场景分解成几何和语义一致的区域。在：计算机视觉国际会议（ICCV）的会议记录。（二零零九年）21. Chu，W.，Cai，D.：基于深度特征的上下文模型用于目标检测。国家标准275（2018）10 3522. Bell，S.，Zitnick，C.L.，Bala，K.，Girshick，R.：内外网：用跳跃池和递归神经网络检测上下文中的对象。IEEE计算机视觉和模式识别会议（CVPR）。（2016年）23. Dvornik，N.，Shmelkov，K.，Mairal，J.，Schmid，C.：Blitznet：一个实时深度网络场景理解。在：计算机视觉国际会议（ICCV）的会议记录（2017年）24. Fu，C.Y.，刘伟，Ranga，A.，Tyagi，A.，Berg，A.C.：DSSD：解卷积单射击探测器arXiv预印本arXiv：1701.06659（2017）25. Barnea，E.，Ben-Shahar，O.：关于背景（或缺乏背景）对对象检测的效用。arXiv预印本arXiv：1711.05471（2017）26. Yao，B.，李菲菲：在human-中对象交互活动。IEEE计算机视觉和模式识别会议（二零一零年）27. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A. Bernstein，M. Berg，A.C.，李菲菲：ImageNet大规模视觉识别挑战。计算机视觉国际会议（ICCV）（2015）28. Frid-Adar，M.，Klang，E.，Amitai，M.，Goldberger，J.，格林斯潘，H.：合成使用GAN的数据增强用于改进的肝脏病变分类。arXiv预印本arXiv：1801.02385（2018）29. 彭，X.孙湾，英-地阿里KSaenko，K.：从3D模型学习深度对象检测器埃尔斯在：计算机视觉国际会议（ICCV）的会议记录。（2015年）30. Zhong，Z.，郑湖，Kan

下载后可阅读完整内容，剩余1页未读，立即下载