多视图数据增强管道提高多视点检测性能

68 浏览量更新于2023-10-16 收藏 1.25MB PDF 举报

模型泛化

对齐问题

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

128标定多视点检测中的两级数据增强Martin Engilberge* Haixin Shi* Zhiye Wang Pascal Fua EPFL，洛桑，瑞士firstname. epfl.ch摘要数据增强已被证明是有用的，以提高模型的泛化和性能。当涉及到多视图系统时，它通常应用于计算机视觉应用事实上，几何数据增强可以打破视图之间的对齐。这是有问题的，因为多视图数据往往是稀缺的，它是昂贵的注释。在这项工作中，我们建议通过引入一个新的多视图数据增强管道来解决这个问题，该管道可以保持视图之间的对齐。除了输入图像的传统增强，我们还提出了直接应用于场景级的第二级增强。当与我们简单的多视图检测模型相结合时，我们的两级增强管道在两个主要的多视图多人检测数据集 WILD- TRACK 和MultiviewX上的性能明显优于所有现有基线。1. 介绍近年来，深度学习模型在计算机视觉领域被广泛采用。这种广泛采用的原因之一是基于梯度的模型的泛化能力[12]。虽然这样的模型推广得很好，但它们仍然会过度拟合其训练数据。已经提出了多种方法来对抗过拟合。一些专注于模型设计，例如dropout层[19]或批处理规范化[10]，而其他如数据增强[16]直接解决过拟合的根本原因之一：由于数据有限，过度参数化。虽然数据增强已经在各种领域中被广泛使用和研究，但它很少用于多视图上下文中。事实上，在多视图设置中，几何数据扩充可以很容易地打破视图之间的对齐。大多数多视图人员检测方法不采用数据增强[23，5，3]。虽然不太理想，*这些作者对这项工作的贡献是相同的。项目代码https://github.com/cvlab-epfl/MVAug图1：多视图设置中的数据增强多视图模型与我们的多视图数据增强管道相结合的图示。模型的输入由来自不同视图的多个图像点每个视图都与一个变换Tv相关联将相应的视图投射到一个共同的场景不同视图对齐的表示在yellow中，我们的基于视图的增强机制独立地对每个视图应用数据增强（Hv），并更新原始变换以保持对齐。它有助于减少视图网络对训练数据的过拟合。用浅蓝色圈出，我们的新场景增强通过使用场景增强更新投影变换Tv站HS。这并不是那些早期方法中的主要限制因素，因为它们仅将深度学习模型用于初始单目预测，该预测可以使用单目数据增强进行预训练。然而，最近的方法[18，9]已经采用了端到端架构，从多视图输入直接预测地平面（顶视图）中的检测。当从头开始训练时，这些方法可以从数据增强中受益匪浅。129图2：几何数据增强不同种类的几何数据增强的可视化，左上角是未增强的图像。在本文中，我们建议通过引入图中所示的多视图模型的数据增强管道来解决这个问题。1.我们的管道能够独立地增强每个视图，同时保持视图之间的整体对齐（视图增强）。此外，我们还介绍了一种新的多视图增强技术，它直接应用于场景层次，我们称之为场景增强。每种类型的增强都有助于减少网络不同部分的过拟合。我们证明了这两种类型的增强对多视图多对象检测任务的好处，并表明当与我们的模型相结合时，它在具有挑战性的WILDTRACK [2]和MultivievX[9]数据集上的性能优于最先进的多视图方法[9，18，8]。2. 相关作品在本节中，我们简要介绍以前的工作，多视图检测和讨论现有的数据增强方法。多年来，已经提出了多个单目检测方法，例如R-CNN系列模型[6，14]，其使用两阶段架构从单个输入图像预测边界框。最近，单阶段无锚方法[24，20]已经产生了有希望的结果。然而，当涉及到检测拥挤场景中的人时，它们往往会错过严重遮挡的人。为了解决这个问题，多个工作已经提出了在多视图设置中检测使用多个校准的摄像机[21]降低了在每个视图中遭受遮挡的可能性。为了聚合多个视图，大多数现有方法预测地平面上的行人占用图[5，1，3，9，8，18]。虽然最终检测是在地平面上完成的，但一些模型在投影和聚合结果之前首先预测单眼检测[23，5]。其他人选择在一个步骤中结合视图聚合和预测，例如联合学习CNN和条件随机场（CRF）[1，15]。最近的方法学习端到端神经网络，其中地平面上的投影是网络的一部分。一种这样的方法[8]提出了一种视图聚合网络，该网络利用注意力机制作为Transformer网络的一部分，以选择每个视图的最相关部分来生成最终的检测图。在[18]中，他们建议使用多个投影到不同高度的平面上，而不是在地平面上的单个投影，以便近似3D世界坐标系。数据增强被广泛用于提高神经网络的泛化能力[16]。在训练过程中，它提供了通过多种方式改变原始数据生成的人工样本。传统方法大致可分为两类。首先，几何变换方法，包括翻转，裁剪，旋转和平移，解决训练数据中的位置偏差。另一种是光度变换，它在颜色通道空间中执行增强或将噪声注入图像[17]。随着深度学习的蓬勃发展，许多结合深度学习的图像数据增强方法已经被开发出来。DeVries和Taylor [4]提出的特征空间增强从低维特征图中提取向量对抗训练使用竞争对手网络生成的样本进行增强[17]。检测环境中的图像增强面临着多重挑战。当使用边界框地面实况时，不能直接应用数据增强，需要特殊的增强来正确地保留地面实况框[25]。无锚点检测模型没有这种限制，然而，当在多视图设置中使用时，将它们与数据增强相结合可能是视图之间不一致的原因。由于这些原因，传统的几何图像增强很少用于多视图设置[22，9]。为了确保多视图行人检测中不同视图之间的对齐，Hou等人。 [8]提出通过几何变换单独增强每个视图，然后在投影之前反转增强必须反转数据增强是这种方法的一个缺点，通过使网络中发生的投影的数量加倍，由于重复的双线性插值，它在特征中引入了噪声。130|v----图3：视图和场景增强的可视化，以及它们对地平面投影的影响左边的两幅图像对应于原始图像及其在地平面上的相应投影。第三和第四图像可视化仿射视图增强的效果以及增强图像在地平面上的投影。注意，在第二个和第四个图像之间保持对齐。最后一个图像可视化了将仿射场景增强添加到地平面投影上的视图增强图像的效果。3. 方法我们解决了多视图多人检测问题。在本节中，我们介绍问题形式主义。在此基础上，提出了多视图数据增强框架。最后，我们展示了它是如何与我们的多视图网络相结合的。3.1. 多视点检测形式让我们考虑一个场景，包含V个不同的相机，具有部分重叠的视场。每个相机都经过校准[21]，得到校准Cv=Kv，Rv，tv.其中，Kv是固有相机矩阵，Rv和tv是外部相机参数。一组帧I=I1，. . . 来自不同相机的IV可以使用顶视图重投影被投影到公共地平面视图v的顶视图投影矩阵Tv可以如下从校准导出Tv=Kv[Rvtv]假设地平面为零世界坐标系中的z坐标（z = 0）。然后将图像在地平面上的投影写为Iground= P（Iv，Tv），其中P是投影函数。3.2. 几何数据扩充在多视图上下文中应用数据增强并不是微不足道的，当对图像应用几何变换时，它使其校准无效，并且使公共地平面上的投影无效我们建议解决这个问题通过扩展增强过程以包括地平面投影矩阵Tv来发布。我们的重点放在以下几何数据增强：翻转，裁剪，仿射变换和透视变换。每个转换在图中可见二、有可能以单应性H的形式表示所有这些几何数据扩充。附录第1节包含每种增强的详细单应性视图增强我们的方法包括两种类型的增强，第一种我们称为视图增强，它应用于输入图像。这类似于标准数据扩充。然而，我们也更新地平面投影，以保持视图之间的对齐。请注意，每个视图都是独立增强的，并且可以通过不同的增强进行转换。给定表征视图增强的单应性Hv和视图v的图像Iv，我们将增强图像写为I′v= P（Iv，Hv）。扩充的地平面投影记作T′v=H−v1Tv。在单个步骤中，增强投影，反转图像数据的效果在进行原始地平面投影之前进行增强。场景增强第二种类型的增强是新颖的，具体到多视图训练，我们称之为场景增强。场景增强仅改变地平面投影矩阵，它以类似的方式修改所有视图的投影。直观上，它可以被看作是直接在地平面上应用增强在实践中，它仅包括对地平面投影的修改，并且我们在图中可视化场景增强的效果。4.第一章给定一个由同态HS表征的场景增强，地平面投影被增强为：T′v=TvHS。请注意，场景增强与视点无关，所有视图都使用相同的HS进行增强。两种类型的增强都修改地平面投影矩阵，但它们独立地进行，可以单独应用每种类型的增强，或者把两者结合起来。当两者都适用时，增广的地面平面投影可以写成T′v=H−v1TvHS。图 3包含两种类型的增强的可视化。131θ2----Vθ0θ121Σ图4：场景增强的可视化我们通过使用场景增强增强的地平面单应性将原始图像投影到地平面上来可视化不同场景增强的效果。请注意，地平面扩展对于所有视图都是相同的，这保证了视图之间的对齐。橙色圆圈突出显示两个视图中相同的地面实况点。3.3. 模型架构和训练在本节中，我们将介绍输出它们中的每一个的视图检测图。其内容如下：我们的多视图检测模型的过程。整体架构可以在图1中看到。5其中FvDVFv−−→Rv是上面定义的ResNet输出。 Rv（二）相对多视图检测提出的多视图模型由三个可学习模块组成，首先是基于截断ResNet 34 [7]的特征提取器独立处理每个图像。每个特征然后使用其相关联的投影矩阵投影在地平面上。后响应于图像平面中的检测热图以供查看v.它是由权重θ 2参数化的视图检测器的输出。 We表示Rv=F（I′，θ0，θ2），简称视图检测流水线。损失函数培训的目的是学习投影将要素连接起来，场景检测器，其输出最终场景检测权值θ′0：2的模型。给定模型输入I′和ˆ地图更正式的案文如下：fP（F，T'） dSI′−−→F−−→G−−→X（1）T和它们相应的场景检测地面真值X和视觉检测地面真值R，我们的模型用两个损失函数训练对于场景检测损失，我们使用均方其中，I′是增强输入图像的集合，T′误差（MSE）定义如下：是其对应的增强顶视图投影矩阵的集合F=F1，. . .FV是由权重θ0参数化的ResNet的输出，其中视图特征Fv=L接地（X，X）=.（3）第一章：fθ0（I′v）. G对应于地平面G = G1，. . . 其中Gv=P（Fv，T′v）.最后，地面要素连接起来，通过由权重θ1参数化的场景检测器与[9]类似，我们也直接监督了具有以下损失的图像平面。Limag e（R，R）=Rv−Rv（4）.ˆ其输出地平面上的最终检测热图。 We表示X=F（I′，T′，θ0，θ1），简称该场景检测流水线。并行地，所有视图的图像特征F进入视图检测器，视图检测器独立地处理它们，132Vv=1与[9]相反，我们只将这种损失应用于脚水平的检测，而不是脚和头。我们发现，从经验上讲，在头部增加额外的监督没有任何好处133L××××××图5：所提出的多视图多人检测架构的细节利用所提出的视图增强来增强输入图像I的集合。每个视图增强被反映在地平面投影单应性T的集合上，以形成保持在地平面上的对准的增强单应性T′增强图像经过特征提取器模块，然后特征被投影到地平面上，在地平面上，它们被场景检测器聚合，场景检测器输出最终的场景检测热图。并行地，来自各个图像的特征被馈送到视图检测器以生成用于正则化目的的视图检测。此外，地平面投影同态T可以用我们的第二种类型的增强（场景增强）来扩展，场景增强直接在地平面中应用增强。绿色背景的方框对应于可学习的模块，穿过模块的箭头表示该模块独立处理的元素。橙色圆盘表示投影操作，每个圆盘上方的字母对应于投影所使用的单应性。水平图像服务于两个目的，首先，它充当规则化器，推动特征提取器为每个视图独立地生成相关特征。其次，当与视图增强相结合时，它有助于减少模型的特征提取器部分的两种损失相加形成训练损失L= L地面+L图像。4. 实验我们使用WILDTRACK和MultiviewX数据集在多视图多人检测任务上验证了我们的方法4.1. 实验装置数据集为了训练我们的模型，我们使用了两个多视图行人数据集：WILDTRACK数据集有7个摄像头，聚焦于现实世界中12m×36 m的区域它包含400个同步帧，每个视图的分辨率为1080 -1920 。每个人都有一个绑定框。图 3 显示了来自WILDTRACK数据集的图像。MultiviewX数据集有6个摄像头，聚焦于16m25 m的区域。它是一个代表虚拟世界的合成数据集。它还包含400个同步帧，每个视图的分辨率为1080 - 1920。对于这两个数据集，图像在被增强并馈送到模型之前被调整为536 960。来自不同视角的三幅图像可以在图中看到。4.第一章多个视图的聚合在地平面中完成。在WILDTRACK中，我们将地平面离散化，使得一个单元格对应于20厘米，从而产生维度为180 - 80的地平面图。对于MultiviewX，地平面地图的维度为160 - 250，单元对应于10 cm。地平面地图的比例已经被选择为最小化计算成本。134××WILDTRACK数据集MultivievX数据集模型ModaMODP预处理Rec.ModaMODP预处理Rec.DeepOcclusion [2]74.1-95.080.0---MVDet [9]88.275.794.793.683.979.696.886.7射击[18]90.276.596.194.088.382.096.691.5MVDeTr [8]91.582.197.494.093.791.399.594.2MVAug（我们的）93.279.896.397.095.389.799.495.9表1：多视图多人检测我们提出的模型在WILDTRACK和MultiviewX数据集上的检测性能。我们报告MODA，MODP，精确度和召回率[11]。所提出的方法优于所有现有的基线在两个数据集上的MODA一般来说，这种性能的提高可以解释为召回率的增加评估我们采用与以前的工作类似的评估指标[2，9，8] ，我们报告了精度，召回率， MODA 和 MODP[11] 。使用相当于 0.5 米的阈值我们使用 matlabMOTChallenge评估工具包。我们的模型在Pytorch中实现，并在单个Nvidia v100GPU上运行。数据增强管道包装原始Torchvision增强，以提取其参数并生成相应的单应性。在训练过程中，随机仿射变换用于视图和场景增强，并且在这两种情况下，50%的训练数据的比例被增强。特征提取器基于ResNet 34，最后四层被移除。它输出维度128的特征。视图检测器由两对ReLu和一个11个卷积层，后跟一个sigmoid函数。第一个卷积层包含128个滤波器，第二个卷积层包含单过滤器视图检测器的输出仅用于正则化目的，因此视图检测器的最小架构允许对特征提取器的更大正则化效果对于场景检测器，我们采用了多尺度结构，该检测器负责聚合来自多个视图的地平面特征。因此，它需要能够处理由于校准误差而导致的它们之间的轻微未对准场景检测器由四个尺度组成，其中特征的空间分辨率在每个尺度之间使用自适应平均池化减半。每个尺度由卷积层的四个块组成-批量归一化[10] - ReLu[13]。四个尺度的输出被双线性内插回其原始尺寸，连接并馈送到最终的11卷积层，然后是S形函数以产生最终场景检测热图。我们的模型输出概率检测热图，为了计算评估指标，我们从这些热图中提取检测点。我们应用非最大抑制（NMS），然后选择前200个检测，并使用K-均值聚类检测分数与K=2，以区分真正的检测噪声。我们列出了用于每种类型的几何变换的参数。对于随机仿射增强，旋转可以高达45度，在两个方向上平移高达20%，缩放高达20%，剪切高达10度。对于随机调整大小的裁剪，裁剪覆盖原始图像的80%至100%的区域，纵横比在0.75和1.33在被调整大小到原始图像大小之前。透视变换使用0.5的失真比例。水平和垂直翻转不需要任何参数。4.2. 与最新技术在多视图人员检测任务中，我们将我们的模型与4个基线进行比较。结果见表1。在WILDTRACK和MultiviewX上，使用我们的两级增强方案的模型在MODA上的性能优于所有以前的基线，具有显着的优势。特别是，它优于MVDeTr，后者使用更简单形式的基于视图的增强与更复杂的基于Transformer的架构相结合。MODA的改善可以通过召回率的增加来解释，一般来说，我们的模型可以检测到被其他模型遗漏的人。它证实了由于我们的数据增强管道，我们的模型具有更好的泛化能力。请注意，与MVDeTr相比，我们的模型在MODP度量上表现不佳，这可以通过我们选择的地平面离散化策略来解释。MVDeTr135场景增强LLLLL使用2.5厘米的小得多的细胞。即使度量阈值已被调整以考虑到这一点，来自尺度变化的舍入误差仍然存在，并且主要影响直接从离散空间中的距离计算的MODP。如上所述，由于需要大量实验来评估所提出的数据增强管道，因此出于计算原因选择了较粗的网格4.3. 进一步分析我们进行额外的实验，以证明我们的方法的设计选择，我们评估其每个组件的贡献。为了尽可能接近真实场景，以下所有实验都是在WILDTRACK数据集上进行的。视图和场景增强的最佳组合我们建议调查视图和场景增强的最佳组合。在表2中，我们报告了WILD上多视图人检测的MODA度量视图增强没有aug90.8691.2891.4992.6592.2392.45H-Flip91.3990.6591.8192.4491.7092.54V型翻转90.5591.6090.9791.9191.0792.02仿射91.4991.9192.0293.1791.4992.44感知91.2890.8690.4490.8690.4491.49作物90.7692.5491.9191.4991.8192.44表2：视图和场景增强的组合我们报告了针对视图和场景增强的所有成对组合的 WILDTRACK 数据集的MODA度量。对于视图增强，裁剪、仿射和透视增强效果最好。对于场景增强，仿射和水平翻转增强是最好的。将仿射视图增强与仿射场景增强相结合，可获得最佳效果。轨道当仅使用场景增强时，仿射增长是最有利的。当仅使用视图增强时，仿射增强和裁剪增强表现得非常好。我们可以看到，当只使用一种类型的增强时，视图增强比场景增强产生更大的改进。总的来说，当完全不使用增强剂时，大多数增强剂策略都是有益的。最后，增强的最佳成对组合包括使用随机仿射进行视图和场景增强。消融研究我们进行消融研究，以衡量损失图像、视图增强和场景增强中的每一个如何对整体性能做出贡献模型组件Limage查看aug.场景aug。MODA MODP该系统我们报告MODA和MODP的野生-表3中的TRACK数据集。每一个组成部分改进了MODA算法，两种增强方法都比图像增强效果更好。当与视图增强结合时，图像几乎提高了MODA一个点，而当单独与场景增强结合时，它有不利的影响。当使用场景增强时，它系统地改善了MODP。最好的结果是当一切都结合起来。增强比例我们建议评估增强比例如何影响检测结果。为了做到这一点，我们改变了训练数据的百分比，无论是视图还是场景增强。我们在表 4 中报告了WILDTRACK数据集上的MODA和MODP。当增量百分比保持不变时表 3 ： WILDTRACK 上的消融结果我们报告了WILDTRACK数据集上的MODA和MODP度量，我们评估了所提出的视图增强、场景增强和图像预测损失的贡献在没有图像丢失的情况下，视图和场景增强都类似地执行。当添加图像时，视图增强的性能明显更好。最好的结果是与三个组件的组合。对于视图和场景增强，当50%的训练数据被增强时获得最佳结果我们还测试了不同比例的视图和场景增强对检测效果的影响，得到了较好的检测结果没有augH-FlipV型翻转仿射感知作物90.65 76.92C90.8679.59C91.2877.52C91.2879.20CC92.1277.67CC90.6578.41CCC93.1779.83136LL当视图增强的比例大于场景增强的比例时（参见表4的第二行和第三度量查看Aug.场景aug。ModaMODP0%的百分比0%的百分比90.8679.59百分之二十五百分之二十五91.4978.24百分之二十五百分之五十90.8679.41百分之五十百分之二十五92.1279.66百分之五十百分之五十93.1779.83百分之七十五百分之七十五90.6578.47百分百百分百90.4478.24表4：不同比例的增强我们在WILDTRACK数据集上报告了MODA度量。我们评估的效果不同的比例输入图像afect- fected无论是视图或场景增强。最好的结果是获得50%的训练图像增强与视图和场景增强。当使用不平衡比例时，具有高于场景增强率的视图增强率是有益的数据增强的主要目标是通过减少对训练数据集的过拟合来提高模型的泛化能力。我们建议衡量我们的方法的每个组成部分如何帮助减少过拟合。在WILDTRACK数据集上，我们通过计算验证损失与训练损失的比率来衡量过拟合理想情况下，过拟合比率应该是1，这意味着模型在训练和验证数据集上的表现相似。我们可以看到在图。6，对于我们的基线模型，既不使用图像也不使用任何类型的增强，情况并非如此，过拟合比率迅速增长超过5。将图像添加到基线有助于降低比率，另外使用场景增强或视图增强进一步降低过拟合。请注意，视图增强比场景增强对过拟合的影响更大。最后，当这三个分量一起使用时，过拟合比减小得最多，并且非常接近理想的比率1。5. 限制在我们的实验中，我们只对场景和视图使用一种几何增强图6：数据增强对训练过拟合的影响我们可视化了训练时期内过拟合比率的演变。它的计算方法是验证损失除以训练损失。我们的方法的每个组成部分都有助于减少过拟合，当两种增强与图像损失相结合时，可以获得最好的结果增强通过组合多种类型的增强，可能进一步提高性能。然而，对于多于一种类型的增强，可能的组合的数量变得相当大，并且因此系统地评估计算上昂贵同样，由于有限的计算资源和大量的实验，我们只能运行一次每次训练，理想情况下，我们希望在多次运行中平均结果。尽管如此，根据目前的结果，我们能够观察到多视图检测系统中数据增强的一般趋势。6. 结论本文提出了一种新的两级增强流水线多视角多人检测算法。当与我们简单的多视图端到端可训练模型相结合时，它的性能优于所有现有的基线。通过广泛的烧蚀研究，我们显示了我们的模型的每个组成部分的贡献和它们之间的相互作用。我们系统地评估了场景和视图增强的所有成对组合此外，我们确认，所提出的方法是有效的真实数据，通过获得最先进的结果在两个WILDTRACK 和MultiviewX 数据集。致谢这项工作得到了瑞士创新署的部分资助。137引用[1] P. Baqu e´，F. Fleuret和P. 福a. 多摄像机多目标检测的深度遮挡推理2017年计算机视觉国际会议[2] T. 我会去的，P. 巴古河，S. Bouquet，A. 马克赛角何塞湖Lettry，P. Fua，L. Van Gool和F.弗勒特Wildtrack多摄像机人物数据集。计算机视觉与模式识别会议，2018年。[3] T. Chavdarova和F.弗勒特深度多摄像机人物检测。第848-853页[4] 作者声明：Dr. Taylor.特征空间中的数据集扩充。在第五届国际会议上学习表示，ICLR 2017，土伦，法国，2017 年 4 月 24 日至 26 日，研讨会跟踪程序。OpenReview.net，2017年。[5] F.作者：J. Lengagne和P.呸基于概率占用图的多摄像机人群跟踪。IEEE Transactions on Pattern Analysis andMachine Intelligence，30（2）：267[6] R.B.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次，用于精确的目标检测和语义分割. InarXivPreprint，2013.[7] K. 他，X。Zhang，S.Ren和J.太阳用于图像识别的深度残差计算机视觉和模式识别会议，第770-778页，2016年[8] Y. Hou和L.郑使用阴影Transformer的多视图检测（以及视图相关数据增强）。第29届ACM国际多媒体会议论文集，第1673-1682页，2021年[9] Y.侯湖，澳-地Zheng，和S.古尔德。基于特征透视变换的多视点检测。在欧洲计算机视觉会议上，第1-18页[10] S. Ioffe和C.赛格迪批次归一化：通过减少内部协变量偏移来加速深度网络训练。在2015年机器学习国际会议上。[11] R. Kasturi ， D. Goldgof ， P. Soundararajan ， V.Manohar，J. Garofolo，M.布恩斯特拉河谷Korzhova和J.张某视频中人脸、文字和车辆检测与跟踪的性能评估框架：数据、数据库和数据库。IEEE Transactions onPattern Analysis and Machine Intelligence，31（2 ）：319[12] 川口健二，莱斯莉·帕克·凯布林，还有本乔.深度学习中的泛化。arXiv预印本，2017年。[13] V. Nair和G. E.辛顿修正线性单元改进受限玻尔兹曼机。国际机器学习会议，2010年。[14] S. Ren，K.赫利河Girshick和J.太阳更快的R-CNN：利用区域建议网络实现实时目标检测。神经信息处理系统进展，2015。[15] G. Roig，X. Boix，H. Ben Shitrit和P.呸用于多相机目标检测的条件随机场。2011年国际计算机视觉会议[16] Connor Shorten和Taghi M Khoshgoftaar。用于深度学习的图像数据增强综述。大数据杂志，2019年。[17] 作者：Connor Shorten，M.Khoshgoftaar 用于深度学习的图像数据增强研究综述J. Big Data，6：60，2019。[18] 宋良辰、吴佳莲、杨明、张倩、袁莉、袁俊松。用于多视角行人检测的堆叠单应性在计算机视觉和模式识别会议上，2021年。[19] N. Srivastava、G.Hinton，A.克里热夫斯基岛Sutskever和R.萨拉赫季诺夫Dropout：一种防止神经网络过拟合的简单方法。Journal of Machine Learning Research，15：1929[20] Z.田角，澳-地Shen，H. Chen和T.他外FCOS：全卷积一阶段目标检测。在计算机视觉和模式识别会议上，2019年。[21] R.Y.公司蔡使用现成的电视摄像机和镜头进行高精度3D机器视觉计量的多功能摄像机校准技术。Journal ofRobotics and Automation，3（4）：323[22] 王凯旋和沈少杰。Mvdepthnet：实时多视图深度估计神经网络。在2018年3D视觉国际会议上，3DV 2018，意大利维罗纳日，第248-257页。IEEE计算机协会，2018年。[23] Y. Xu，X. Liu，Y. Liu及S.C.竹基于分层轨迹合成的多视角人物跟踪。计算机视觉和模式识别会议，第4256-4265页，2016年[24] X. Zhou，等，中国藓类D.Wang，P.Kr aehenbuhl。对象作为点。在arXiv预印本，2019年。[25] 放大图片创作者： Ekin D. Cubuk ， Golnaz Ghiasi ，Tsung-Yi Lin，Jonathon Shlens，and Quoc V.乐学习对象检测的数据扩充策略。在 Andrea Vedaldi， HorstBischof，Thomas Brox和Jan-Michael Frahm编辑，计算机视觉-ECCV 2020-第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，会议记录，第XXVII部分，计算机科学讲义第12372卷，第566-583页Springer，2020年。

下载后可阅读完整内容，剩余1页未读，立即下载