视觉上下文驱动的目标检测数据增强提升性能

36 浏览量更新于2024-06-20 收藏 2.78MB PDF 举报

本文主要探讨了如何通过建模视觉上下文来提升目标检测数据集的性能，特别是针对对象检测任务。作者Nikita Dvornik、Julien Mairal和Cordelia Schmid来自法国的大学和研究机构，他们指出传统的数据增强方法，如基于原始图像的几何变换和色彩调整，虽然常见，但在处理对象检测时可能不够充分。他们提出了一种新颖的方法，即利用图像分割注释来增加训练数据中对象实例的数量，并强调了视觉上下文在识别中的关键作用。他们发现，仅仅模仿对象的孤立存在往往会导致过拟合，因为缺乏实际的环境信息。为了克服这个问题，他们开发了一个上下文模型，该模型能够模拟对象在真实环境中的位置和交互关系。这个模型能够在保持对象完整性的同时，将其放置在合适的视觉环境中，如天空中的飞机、桌子上的盘子等，以增强对场景理解和识别的准确性。通过在VOC12基准测试上实验，他们发现当可用的标注样本有限时，他们的上下文建模方法能够显著提高平均精度。相比于传统的数据增强策略，这种方法能够更好地捕捉对象与其周围环境的关系，从而提升模型的泛化能力。因此，文章的关键知识点包括： 1. **视觉上下文的重要性**：在目标检测中，视觉上下文不仅是识别对象的重要线索，还能提供关于物体位置、交互和常见场景的信息，这对于准确预测至关重要。 2. **创新的数据增强方法**：利用图像分割注释，不仅生成基本的几何变换和色彩变化图像，还引入了上下文模型来模拟对象在实际环境中的放置，从而增加了数据多样性。 3. **平均精度改进**：通过上下文建模，即使在标注样本不足的情况下，也能实现显著的平均精度提升，这证明了这种方法的有效性。 4. **对比传统数据增强**：与传统的数据增强策略相比，上下文建模能够更有效地减少过拟合，提高模型在复杂视觉场景中的表现。 5. **实验验证**：在VOC12基准测试中的成功应用，展示了该方法在实际场景中的实用性，特别是在标注数据稀缺时能带来明显的性能提升。本文的核心贡献在于提出并验证了在目标检测中考虑视觉上下文的策略，这是在提升模型性能和泛化能力方面的一个重要进展。

N. Dvornik，J.Mairal和C.Schmid

[4]

的作者介绍了一种对基于外观的检测进行操作的简单上下文重新评

分方法。为了编码更多的结构，图形模型被广泛使用，以便联合建模

外观，几何形状和上下文关系[19，20]。然后，开始使用卷积神经网

络等深度学习方法

-9];如前所述，它们的特征已经包含隐含的上下文

信息。然而，

[21]

的工作明确地结合了更高级别的上下文线索，并将

条件随机场模型与Faster-RCNN获得的检测相出于类似的目标，在

[22]

中使用递归神经网络来建模所发现对象的空间位置使用卷积神经网络

进行上下文建模的另一个补充方向使用了去卷积流水线，该流水线增

加了神经元的视野并融合了不同尺度的特征

[22

-[2，25]的作品分析了

不同类型的上下文关系，确定了最有用的检测方法，以及利用它们的

各种方法。然而，尽管有这些努力，由于纯粹的上下文信息的改善一

直是相对温和的[11，26]。

用于对象检测的数据增强。

数据增强是训练深度神经网络的主要工具。

如果从平凡的几何变换例如水平翻转、具有颜色扰动的裁剪以及添加

噪声到图像[27]，到合成新的训练图像[28，29]。一些最近的对象检测

器[9，10，23]比其他[7，8]更受益于标准数据增强技术。Fast和Faster-

RCNN的性能可以通过简单地破坏图像的随机部分来提高，以便模拟闭

塞[30]。关于图像合成，最近的作品，如[31-33]在纯合成渲染的2d和3d场

景上构建和训练他们的模型。然而，在合成图像上训练的模型的主要困

难是保证它们将很好地推广到真实数据，因为合成过程引入了图像统

计的显著变化[29]。为了解决这个问题，作者

[15]通过将真实的分割对象粘贴到自然图像中来采用不同的方向，这

减少了渲染伪影的存在。对于对象实例检测，工作[16]在将对象放置

在图像中以创建逼真的训练示例之前估计场景几何形状和空间布局在

[14]中，作者提出了一种更简单的解决方案，通过在随机位置粘贴图

像，但对被遮挡和截断的对象进行建模，并使训练步骤对粘贴位置的

边界伪影具有鲁棒性

面向数据增强的

我们的数据增强方法主要由两部分组成：我们首先通过使用边界框注

释来建模视觉上下文，其中框的周围被用作卷积神经网络的输入，以

预测框内对象的存在或不存在然后，训练的上下文模型用于生成对象

的一组可能的新位置完整的流水线如图所示。2.在本节中，我们将详

细描述这两个步骤，但在此之前，我们将介绍并讨论一个激发我们工

作的初步实验。

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

视觉上下文驱动的目标检测数据增强提升性能

目标检测数据集扩充程序

显著性检测数据集 SED2

图像异常检测数据集.zip

用于色彩显着性分析的时空色上下文建模

基于鲁棒关键点的对象跟踪的多任务结构感知上下文建模

基于视觉的目标检测与跟踪综述_尹宏鹏.pdf

时空上下文视觉跟踪（STC）含有matlab和c++版本

有监督的训练和上下文指导的显着物体检测

零样本图像目标识别train_txt-数据集

Matlab中的150 FPS异常事件检测内含数据集-含说明书(可运行).zip

最新资源