D2S：密集分段超市数据集

110 浏览量更新于2023-10-13 收藏 3.24MB PDF 举报

MVTec

工业应用

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

MVTec D2S：密集分段超市数据集PatrickFollmann1，2[ 0000− 0001− 5400− 2384]，TobiasBüottger 1，2[ 0000− 0002−5404− 8662]，PhilippHartinger1[ 0000− 0002− 7093− 6280]，RebeccaKoünig1[ 0000−0002− 4169− 6759]，and Markus Ulrich1[0000−0001−8457−5554]1MVTec Software GmbH，80634 Munich，Germany{follmann，boettger，haertinger，koenig，ulrich}https://www.mvtec.com/research mvtec.com2慕尼黑工业大学80333 Munich，Germany抽象。我们介绍了密集分割超市（D2S）数据集，一个新的基准，在工业领域的实例感知语义分割。它包含21 000张高分辨率图像，所有对象实例都带有像素标签。这些物品包括来自60个类别的杂货和日常用品。基准测试的设计与自动结帐、库存或仓库系统的真实设置类似。训练图像仅包含同一背景上的单个类对象，而验证和测试集则更加复杂和多样。为了进一步基准实例分割方法的鲁棒性，场景被获取与不同的照明，旋转，和背景。我们确保标签中没有歧义，并且每个实例都被全面地标记。注释是像素精确的，并允许使用单个实例的作物人工数据增强。该数据集涵盖了该领域中高度相关的几个挑战，例如训练数据量有限对D2S上的最先进的对象检测和实例分割方法的评估显示了显着的改进空间。关键词：实例分割数据集，工业应用1介绍实例感知语义分割（简称实例分割）的任务可以理解为语义分割和对象检测的结合。虽然语义分割方法预测每个像素的语义类别[32]，但对象检测侧重于为每个像素生成边界框。2Follmann等人图像中的所有对象实例[27]。作为两者的组合，实例分割方法为图像中的所有对象实例生成像素精确掩模虽然解决这个任务在几年前被认为是一个遥远的梦想，但计算机视觉的最新进展使实例分割成为当前研究的重点[9，19，32]。这特别是由于深度卷积网络[17]的进展以及更快的R-CNN [27]和全卷积网络（FCN）[32]等强大基线框架的发展。相关工作。常见实例分割挑战中的所有表现最好的方法都基于深度学习，并且需要大量注释的训练数据。因此，大规模数据集的可用性，如ADE 20 K[37]，Cityscapes[2]，ImageNet[31]，KITTI[6]，COCO[22]，Mapil-lary Vistas[25]，VOC[4]，Places[36]，The Plant Phenotyping Datasets[24]，orYoutube-8 M[1]，是至关重要的。上述大部分数据集都集中在日常摄影或城市街景上，这使得它们在许多工业应用中的用途有限。然而，在工业环境中，标记的训练数据的数量和多样性通常要低得多。例如，为了训练视觉仓库系统，用户通常仅具有固定设置中的每个产品的少量图像。然而，在运行时，需要在非常不同的设置中稳健地检测产品。随着深度传感器的可用性，已经发布了许多专用RGBD数据集[15，16，28，29]：相比之下，这些数据集被设计用于姿态估计并且通常具有低分辨率图像。它们通常包含较少的场景（例如111用于[29]），其与视频[16]一起捕获，导致大量帧。一些数据集不提供类注释[29]。[16]显示了更少但与D2S相似的类别，但仅捕获单个对象并使用较低质量的分割进行注释。在[15]中，这些对象中的一些出现在真实场景中，但仅提供框注释与D2S最相似的是[28]：CAD模型和对象姿态可用，可用于生成不可变形对象的地面真实分割掩模与D2S相比，数据集不会显示具有同一类别的多个实例的场景，并且对象以低得多的分辨率出现。只有少数数据集专注于仓库环境中的行业相关挑战。Freiburg杂货数据集[13]、S 0 IL-47 [14]和超级市场农产品数据集[30]包含超市产品的图像，但仅提供图像级的类别注释，因此没有分割。Gro-cery Products数据集[7]和GroZi-120 [23]包括可用于对象检测的边界框注释。但是，并非图像中的所有对象实例都单独标记。据我们所知，现有的工业数据集都没有在实例级别上提供像素级注释。在本文中，我们介绍了密集细分超市（D2S）数据集，它满足上述工业要求。培训，验证，并且测试集被明确地设计成类似于自动结账、库存或仓库系统的真实世界应用。MVTec D2S：密集分段超市数据集3捐款. 我们提出了一种新的实例分割数据集，在现实世界中的高分辨率图像，工业设置。60个不同对象类别的注释是在细致的标记过程中获得的，并且具有非常高的质量。特别注意确保每一个发生的情况都被全面标记。我们表明，高质量的区域an-符号的训练集可以很容易地用于人工数据增强。使用原始训练数据和增强数据导致测试集上的平均精度（AP）显著提高约30个百分点。与现有的数据集相比，我们的设置和对象的选择确保了标签中没有歧义，并且通过执行完美的算法可以实现100%的AP。为了评估方法的通用性，训练集比验证集和测试集小得多，并且主要包含在均匀背景上显示单个类别的实例的图像。总的来说，数据集作为一个强制性的基准，类似于现实世界的应用程序和他们的挑战。该数据集是公开可用的3.图1.一、D2S数据集中60个不同类别的概述2密集分段的超市数据集数据集的总体目标是真实地覆盖自动结账、库存或仓库系统的真实应用。例如，超市中现有的自动结账系统识别孤立的产品3https://www.mvtec.com/research4Follmann等人在传送带上传送通过扫描隧道[3，12]。即使这样的系统通常提供半受控的环境，外部影响（例如：无法完全实现。此外，如果也可以鉴定非分离的产物，则系统的效率因此，方法应该能够分割也部分被遮挡的对象。此外，例如，由于仓库系统中的不同类型的存储架或者由于超市中的结账系统的传送带上的污垢，产品后面的背景在许多应用中不是恒定的。我们在700个不同的场景中采集了21 000张图像，这些场景具有各种背景，杂乱的对象和遮挡水平。为了获得系统的测试设置并减少人工工作量，部分图像采集过程被自动化。因此，每个场景以固定的角度步长旋转十次，并在三种不同的照明下采集。Setup. 图像采集设置如图所示。二、高分辨率（1920× 1440）工业彩色相机安装在转台上方。有意地将摄像机安装成相对于转台的旋转中心偏心，以在旋转图像中引入更多的透视变化对象60个不同类别的概述如图所示。1.一、对象类别涵盖了常见的日常产品的选择，例如水果、蔬菜、谷物包、意大利面和瓶子。它们被嵌入到一个类层次结构树中，该树将类分成不同包装的组。这导致相邻的叶在视觉上非常相似，而远处的节点在视觉上更加不同，即使它们是语义上相似的产品，例如，单个苹果相比之下，一捆苹果在一个纸板托盘。例如，类层次结构可以用于类似于[26]中使用然而，它不在本文的范围内使用图二 . D2S 图像采集设置。每个场景使用转盘旋转十次。对于每次旋转，在不同照明下采集三个图像图三. （顶部）每个场景在三个不同的照明下采集。（底部）与训练集（其中使用单个均匀背景）相反，测试集和验证集包括三个附加背景。这允许对方法MVTec D2S：密集分段超市数据集5◦见图4。每个场景以36的步长在10个不同旋转处获得。相机为了在图像中引入更多的变化，安装了稍微偏离中心的旋转。为了增加不同视图的数量并评估方法相对于旋转的不变性[5，38]，每个场景以36◦的增量旋转十次。转台允许自动化并确保精确的旋转角度。图1中显示了来自训练集的场景的十次旋转的示例。4.第一章照明为了评估方法对光照变化和不同反射量的鲁棒性，在三种不同的照明设置下获取每个场景和旋转。为此目的，将LED环形灯附接到相机。照明被设置为跨越可能的照明的大光谱，从不足到过度（见图3的顶部）。背景验证和测试场景有各种不同的背景，如图所示.3（底部）。这允许评估方法的一般性。相比之下，训练集限于具有以下特征的图像：单一的同质背景。保持恒定以模仿设置在仓库系统中，新产品大多在固定环境中而不是在测试场景中进行成像。图五. 对象显示时具有不同的遮挡量。这些可能是由相同类别的对象、不同类别的对象或由不在训练集见图6。为了测试方法对看不见的杂波对象的鲁棒性，将不在训练集内的对象添加到验证和测试集（例如，鼠标垫和黑色泡沫块）6Follmann等人遮挡和杂波。请参照图如图5所示，遮挡可能由相同类别的对象、不同类别的对象或杂乱对象引起杂波对象具有在训练图像中不存在的类别。它们被明确地添加到验证和测试图像中，以评估对新对象的鲁棒性。所选杂波对象的示例如图1所示。六、3数据集拆分与实例感知语义分割的现有数据集（如VOC[4]和COCO[22]）相比，D2S训练集在图像和类别统计方面具有与验证和测试集不同的分布。在验证集和测试集中，捕获场景的复杂性以及每个图像的对象的平均数量显著更高（见表1）。选择拆分的动机是遵循常见的工业要求，例如：低标记工作量、易于复制的训练集获取的低复杂性以及容易地向系统添加新类的可能性。分割是在每个场景的基础上执行的：场景的所有30个图像，即十次旋转和三次照明的所有组合都包括在训练、验证或测试集中。在下文中，我们描述用于生成拆分的规则。训练分割。为了满足所提到的工业要求，训练场景被选择为尽可能简单：它们具有均匀的背景，大多数仅包含一个对象，并且遮挡的量被减少到最小。总而言之，我们将场景添加到训练分割中– 仅包含一个类别4的对象，– 提供对象的新视图，– 仅包含没有重叠或边缘重叠的对象，– 没有杂乱和均匀的背景。训练集中的场景总数为147，得到6900个对象的4380个图像相当小的训练集应该鼓励生成增强或合成训练数据，例如使用生成对抗网络[8，11，18，34，35]。确认和测试拆分。其余的场景在验证集和测试集之间分割。它们由以下场景组成– 不同类别的单个或多个对象– 触摸或被遮挡的物体，– 杂波对象和– 不同的背景。4为了提供每个对象类的相似视图，因为它们在验证和测试集中可见，将四个场景添加到包含两个不同类的训练集中。MVTec D2S：密集分段超市数据集7表1. 拆分统计信息。由于我们的分割策略，训练集的图像数量和每个图像的实例数量显著较低验证和测试场景的复杂度大致相同分裂所有火车Val测试#场景700146120434图片数量210004380360013020#对象7244769001565449893#objects/image3.451.584.353.83#场景w. 闭塞3931084299#场景w. 杂波8601868旋转CCC光照变化CCC背景变化CC杂波CC这些场景被选择为使得可以评估方法的泛化能力此外，当前的方法与严重遮挡和新颖性检测作斗争。这些问题也通过这种拆分的选择来解决。在包含相同数量的总对象和遮挡对象的图像子组上执行确认集和测试集之间的分割这确保两个集合具有大致相同的分布。数之比验证和测试集中的场景的比例被选择为1：4。作出这一决定的原因有两方面：首先，在一个小的验证集上评估模型更快。其次，我们不想鼓励在验证集上进行训练，而是鼓励在需要很少训练数据或使用增强技术的方法上进行工作。分割中的图像和对象的数量的统计在表1中可视化。4统计比较在本节中，我们将我们的数据集与VOC[4]和COCO[22]进行比较。这些数据集鼓励了许多研究人员致力于实例分割，并经常用于对最先进的方法进行基准测试。数据集统计。如表2中所总结的，D2S包含比VOC多得多的对象实例，但比COCO少。具体地，尽管D2S训练集大于VOC的训练集，但是训练对象的数量小于COCO中的训练对象的数量的1%。这种选择是有意做出的，因为在许多工业应用中，期望使用尽可能少的训练图像。相比之下，对于D2S，验证图像的比例显著更大以便能够对泛化能力进行全面的评估。平均而言，D2S中每个图像的对象数量是COCO中的一半。8Follmann等人表2.数据集统计。每个分割的图像和对象数量、每个图像的平均对象数量以及D2S（我们的）、VOC 2012和COCO的类数量。* 对于VOC 2012和COCO，对象编号仅适用于训练集和验证集数据集VOCCocoD2s图片数量所有436916395721000火车14641182874380Val144950003600测试14564067013020#对象所有--72447火车35078499416900Val34223633515654测试--49893#obj/img2.38*7.19*3.45#类208060班级统计。由于COCO和VOC的图像取自flickr5，因此对象类的分布并不均匀。在这两个数据集中，类人占主导地位，如图所示。7：对于COCO和VOC，所有对象中分别有31%和25%属于此类。此外，对象数量最多的10%的类由所有对象的51%和33%表示，而只有5.4%和13.5%的对象属于对象数量最少的25%的类。这种类的不平衡是有效的，因为COCO和VOC都代表了现实世界，其中一些类自然比其他类更经常出现。在评估中，所有类别都被均匀加权。因此，类不平衡本质上对同等地学习所有类提出了挑战5https://www.flickr.com图7.第一次会议。D2S（橙色）、VOC（绿色）和COCO（紫色）的每类对象比率在COCO和VOC中，类人占主导地位，有些类代表性不足。在D2S中，每个类的对象数量是均匀分布的。请注意，对于COCO和VOC，图表是基于train和val拆分计算的MVTec D2S：密集分段超市数据集9图8. 按D2S的每个类别的图像总数排序的每个类别和拆分的图像数。每类图像的数量几乎均匀分布独立于训练样本的数量例如，COCO 2017验证集包含类toaster的9个实例，但person的实例为10 777。然而，这两个类别在平均精度的计算中具有相同的权重，这是用于对COCO分割挑战中的方法进行排名的度量。在D2S中不存在这样的类不平衡。在超市场景的受控环境中，所有类别在图像中出现的概率相同。拥有最多对象的类仅占所有对象的2.7%。只有14%的对象代表对象数量最多的10%的类，而19%的对象来自对象数量最少的25%的类。可视化D2S的类分布在图8中，其中示出了每个类别的图像的总数和每个分割的图像的数量。如上所述，每个类的图像数量相当低在训练分割中，特别是对于具有不同视图的类似外观的类，例如猕猴桃和橙色单。请注意，尽管在类级别上没有进行验证集和测试集之间的分离选择，但是每个类在这两组中都有很好的表现。因此，D2S数据集的关键挑战不是处理代表性不足的类，而是训练数据量低标签一致性。很难确保大型真实世界数据集中的所有对象实例都被一致地标记。一方面，很难为大型数据集的标记建立可靠的审查过程，例如：以避免未标记的对象。另一方面，一些标签本质上是模糊的，例如一幅人物画。图9显示了ADE20K[37]、VOC和COCO的标签不一致性示例。在D2S中，对象类是明确的，并且已经由六个专家注释器标记。所有当前对象都使用高质量标签进行注释。一个完美的算法，完美地检测和分割D2S数据集的所有图像中的每个对象，将实现100%的AP。COCO、VOC和ADE20K的情况并非如此。在这些数据集中，如果算法正确10Follmann等人见图9。大型真实世界数据集非常难以一致地标记。在ADE20K、VOC和COCO的示例中，缺少一些标签（从左到右）：窗户、沙发、一些甜甜圈和人物画检测到未标记的对象之一，则丢失的地面真值导致假阳性此外，如果算法没有找到这样的对象，则不考虑所得到的假阴性。随着算法的改进，这可能会阻止更好的算法在基准测试中获得更高的分数。在COCO中，这个问题是使用群组注释来解决的，即包含在评估中被忽略的同一类的许多对象的区域。但是，群组注释并非在所有情况下都存在。5基准在本节中，我们提供了数据集的第一个基准测试结果。我们评估了用于对象检测[21，27]和实例分割[9，19]的最先进方法的性能。我们使用各种训练集进行实验，这些训练集在旋转次数以及曝光不足和曝光过度图像的可用性方面有所不同。此外，我们评估了一个简单的方法，人工增加训练数据5.1评价方法物体检测。对于对象检测任务，我们评估了Faster R-CNN [27]和RetinaNet [21]的性能。我们使用Detectron6框架中提供的这两种方法的官方实现。这两种方法都使用ResNet-101 [10]主干和特征金字塔网络[20]。实例分段。对于实例分割任务，我们评估了Mask R-CNN [9]和FCIS [19]的性能。我们使用Detectron框架中Mask R-CNN的官方实现和作者提供的FCIS的官方实现7。Mask R-CNN使用具有特征金字塔网络的ResNet-101作为主干，而FCIS使用普通的ResNet-101。由于这两种方法除了分割掩模之外还输出框，因此我们还将它们包括在对象检测评估中。6https://github.com/facebookresearch/Detectron7https://github.com/msracver/FCISMVTec D2S：密集分段超市数据集11训练所有方法都是端到端训练的。网络权重使用各自作者提供的COCO预训练模型进行初始化。输入图像被调整大小以具有800像素的较短边（对于FCIS分别为600像素）。所有方法都在训练时使用图像的正交翻转。FCIS在训练期间使用在线硬示例挖掘[33]。5.2评估指标用于对象检测和实例分割的标准度量是平均精度（mAP）[4]。例如，它用于COCO分割挑战中最先进方法的排名[22]。我们完全按照官方COCO评估工具8中的方式计算mAP，并给出其以百分比表示的价值。基本平均精度（AP）是精确度-召回率曲线，针对特定交集大于并集（IoU）阈值计算。为了奖励具有更好定位的算法，通常在多个IoU阈值上对AP进行平均，通常是间隔[0. 5，0。95]在0的步骤中。05. mAP是数据集中所有类别的AP的平均值。在下面，我们只使用缩写AP表示IoU和类的平均值。当针对特定IoU阈值引用类平均AP例如0.5，我们写AP50。5.3数据增强为了保持较低的标记工作量并仍然获得良好的结果，人工增强现有的训练集，以便其可用于训练深度神经网络是因此，我们用一个简单的数据增强技术进行实验，作为更复杂方法的基线。特别地，我们仅使用训练集的注释来模拟验证集和测试集的分布。为此，我们组装了10000个新的人工图像，其中包含从训练分割中随机挑选的一到十五个对象我们在表3中将扩增的数据表示为aug。对于每个生成的图像，我们随机采样的照明和对象实例的数量。对于每个实例，我们随机采样其类、方向和在图像中的位置。这些图像的背景是普通转盘。我们确保图像区域的可见区域是可持续的，并且局部对象的图图10示出了针对所有三种不同照明的人工增强数据集的示例图像由于在对象边界周围没有边距的高质量注释，人工组装的图像具有与原始测试和验证图像非常相似的外观。5.4结果当在全训练集上训练并在测试集上评估时，实例分割方法提供了49.5%的实基线AP（掩模8https://github.com/cocodataset/cocoapi12Follmann等人见图10。人工增强训练集是从基本训练集中R-CNN）和45.6%（FCIS）。目标检测结果处于类似水平，AP为46.5%（Mask R-CNN），44.0%（FCIS），46.1%（Faster R-CNN）和51.0%（RetinaNet）。表3和4显示了结果的全部细节。消融研究。如前所述，D2S分割基于场景，即一个对象放置的所有旋转和照明都包含在同一个分裂评价这些变异的重要性和方法的能力为了学习关于旋转和照明的不变性，我们执行消融研究。为此，我们创建了完整训练的三个子集设置火车。火车rot0集包含所有三个灯光，但只有每个场景的第一个旋转。火车灯光0集仅包含默认照明，但包含每个场景的所有十个旋转。列车旋转灯组仅包含默认照明和每个场景的第一次旋转实例分割方法Mask R-CNN和FCIS的所得AP值总结在表3（顶部）中。正如预期的那样，我们在全训练集上训练时获得了最佳结果。对于Mask R-CNN和FCIS，仅在第一次旋转上进行训练分别将测试集上的AP降低了15.7%和9.1%。仅使用默认照明的训练使Mask R-CNN的AP略微降低了3.4%，并且使FCIS的AP增加了可忽略的0.4%在火车上训练，分别使AP降低了13.2%和12.9%总体而言，结果表明，模型是更不变的变化，在照明比旋转的对象。数据增强。如表3所示，在增强数据集aug上进行训练，对于Mask R-CNN和FCIS，测试集上的AP分别提高到76.1%和69.8%。这显著高于在原始训练集上训练所实现的49.5%和45.6%。将集合train和aug组合到train+aug进一步分别提高了8.3%和2.7%的AP物体检测。我们对目标检测任务进行了相同的消融研究。在表4中总结了方法Faster R-CNN和RetinaNet的所有训练分割的所得AP值，以及在边界框级别上评估的实例分割方法Mask R-CNN和FCIS的结果。值得注意的是，这些AP值并不总是优于针对实例分段的更困难任务获得的AP值。一方面，我们认为，用于对象检测的AP值和MVTec D2S：密集分段超市数据集13表3. 测试集上的实例分段基准测试结果。在不同训练集上训练的模型的平均精度值（顶部）在训练集的不同子集上进行训练。（下图）在增强数据上训练产生最高的AP值Mask R-CNNAP AP50AP75APFCISAP50AP75火车49.557.651.345.658.351.3列车运行33.841.635.636.547.541.8列车灯046.154.848.046.059.352.0列车旋转灯036.345.138.632.743.438.1Aug71.686.981.769.887.682.4火车+八月79.989.185.372.588.183.5表4. 测试集上的对象检测基准测试结果。在不同训练集上训练的模型的平均精度值Mask R-CNNFCISFaster R-CNNRetinaNetAPAP50 AP75APAP50AP75APAP50 AP75APAP50 AP75火车46.558.353.544.059.451.746.155.249.751.061.052.8列车运行34.142.538.334.648.241.336.746.941.532.939.834.5列车灯045.555.749.544.060.351.943.753.947.851.762.053.6列车旋转灯035.746.040.529.943.935.434.344.339.031.638.933.2Aug火车+八月72.978.387.989.882.084.969.968.388.188.580.780.973.578.088.490.382.284.874.280.186.989.681.484.5实例分割通常非常相似，因为当前的实例分割方法是基于像FasterR-CNN这样的对象检测方法。另一方面，实例分割方法甚至可以优于对象检测方法，因为仍然可以从太大的底层框提议生成几乎完美的掩模。同样的情况是，box-IoU对四个box坐标比最终分割更敏感。第三种可能的解释是掩码分支的梯度有助于学习更多的描述性特征。对于所有方法，总体性能非常相似。将训练集减少到每个场景仅一个旋转或仅一个照明导致更差的性能。类似地，通过生成人工训练图像来增强数据集导致了很大的改进。定性结果。我们在图中显示了性能最好的方法Mask R-CNN的定性结果。11个国家。此外图图12显示了我们在D2 S数据集上观察到的Mask R-CNN和FCIS的典型失败案例。补充材料中提供了更多的定性结果。14Follmann等人见图11。（顶部）来自D2S值和测试集的地面实况注释。（下）在训练集上训练的Mask R-CNN的类由不同的颜色表示图12个。D2 S上Mask R-CNN和FCIS的典型故障案例。（从左到右）（1）附近的物体被检测为单个实例。（2）分割掩码跨越到相邻对象。（3和4）背景被错误地检测为对象6结论我们已经介绍了D2S，一种用于实例感知语义分割的新型数据集该数据集解决了几个高度相关的挑战，例如处理非常有限的训练数据。训练集故意小而简单，而验证和测试集则更加复杂和多样化。与现有数据集相反，D2S具有每个类的样本的非常均匀的分布。此外，固定的采集设置防止了标签中的模糊性，这反过来又允许完美的算法实现100%的AP我们展示了如何轻松地将高质量注释用于人工数据增强，以将评估方法的性能分别从49.5%和45.6%的AP显著提高到 79.9%和72.5%总体而言，基准结果表明当前技术水平的显著改进空间。我们相信，该数据集将有助于促进对实例感知分割的研究，并利用新的方法进行人工数据增强。确认我们要感谢学生 Clarissa Siegfarth 、 Bela Jugel 、 Thomas Beraneck 、JohannesKo¨hne、ChristophZiegleranddBernieSt¨offler，他们为数据集进行了访问和注释。MVTec D2S：密集分段超市数据集15引用1. Abu-El-Haija，S.，Kothari，N.，李，J.，Natsev，P.，Toderici，G.，Varadarajan，B.，Vijayanarasimhan，S.：Youtube-8 m：大规模视频分类基准。CoRR abs/1609.08675（2016），https://arxiv.org/abs/1609.0867522. Cordts，M.，Omran，M.，Ramos，S.，Rehfeld，T.，Enzweiler，M.，本纳森，R.，弗兰克，美国， Roth，S.， Schiele，B.：用于语义城市场景理解的cityscapes数据集。在： Proceedings of the IEEE Conference onC 〇mputerVis isinandPater nRecognit i tin （ CVPR ）中。 pp.3213- 3223（2016）。https://doi.org/10.1109/CVPR.2016.35023. ECRS：猛禽号。https://www.ecrs.com/products/point-of-sale-pos/accelerated-checkout/，访问2018-03-0744. Everingham，M. Eslami，S.M.A. Gool，L.J.V.，威廉姆斯，C.K.I.，Winn，J.M.，齐瑟曼，A.：pascal visual object classes挑战：一个复古的派对。InternalJour nalofComuterVison111 （ 1 ）， 98- 136 （ 2015 ）。https://doi.org/10.1007/s11263-014-0733-52，6，7，115. Follmann，P.， Böttger，T. ：Arotationally-在一段时间内，通过特征图反向旋转。 In ： Proceedings of the IEEE WinterConfer-enceonApplicationsofComputerVision（WACV）. pp.784- 792（2018）。https://doi.org/10.1109/WACV.2018.00091www.example.com6. Geiger，A.，Lenz，P.斯蒂勒角乌尔塔松河：视觉与机器人：KITTIdatatasett. 生物技术研究杂志32（11），1231- 1237（2013）。https://doi.org/10.1177/027836491349129727. George，M.，Floerkemeier，C.：识别产品：一种基于样本的多标签图像分类方法。欧洲计算机视觉会议（European Conference of Computer Vision，ECCV）pp. 440-455 S.P.R.（2014）. http：//doi. org/10。1007/978-3-319-10605-2 2928. Gurumurthy，S.，Kiran Sarvadevabhatla，R.，Venkatesh Babu，R.：DeLiGAN：Gen-针对多样化和有限数据的交互对抗网络。在：Proceedings oftheIEEEConfere nceo nCom uterVisi s i n andPater n Re giti n（ CVP R ）中。 pp.166https://doi.org/10.1109/CVPR.2017.525www.example.com9. 他，K.，Gkioxari，G.，Dollar，P.，Girshick，R.：面罩R-CNN。In：IEEE In-在计算机V上设置一个完整的计算单元（ICCV）。pp. 1059- 1067（2017）。https://doi.org/10.1109/ICCV.2017.3222、1010. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习于：IEEE计算机视觉与模式识别会议论文集（Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，CVP R）pp. 770http：//doi. org/10。1109/CVPR. 2016年。901011. 黄，X.，李，Y.，Poursaeed，O.，Hopcroft，J.，Belongie，S.：堆叠式发电机交互对抗网络在：Proceedings of the IEEE Conference onC〇mputerVisisinandPater nRecognit i tin（CVPR）中。pp.5077- 5086（2017）。https://doi.org/10.1109/CVPR.2017.202www.example.com12. ITAB ：HyperFLOW 。https://itab.com/en/itab/checkout/self-checkouts/ 网站，访问2018-03-07413. Jund，P.，Abdo，N.，Eitel，A.，Burgard，W.：Freiburg杂货数据集。Corrabs/1611.05799（2016），https://arxiv.org/abs/1611.05799214. Koubaroulis，D.，Matas，J.，Kittler，J.：使用SOIL-47数据库评估基于颜色的物体识别算法。亚洲计算机视觉会议。第2页（2002年）215. Lai，K.，博湖Fox，D.：用于3d场景标注的无监督特征学习于：2014年IEEE机器人与自动化国际会议（ICRA）pp. 3050IEEE（2014）.http：//doi. org/10。1109/ICRA. 2014年6907298216Follmann等人16. Lai，K.，博湖 Ren，X.， Fox，D.：一个大规模的分层多查看RGB-D对象数据集。2011年IEEE国际会议Robotics的ndAutomation（ ICRA ）。pp.1817- 1824 年。IEEE（ 2011 年）。https://doi.org/10.1109/ICRA.2011.5980382217. LeCun，Y.，本吉奥，Y.，嗨，G。：Deepplearning. Nature521（7553），436（2015年）。 https://doi.org/10.1038/nature14539218. 李杰，梁湘，魏，Y.，徐，T.，冯杰，Yan，S.：用于小物体检测的感知生成对抗网络在：Proceedings of the IEEEConfer-en-céonComputerVisionandPatternRecognition（CVPR）中。pp.1222https://doi.org/10.1109/CVPR.2017.211www.example.com19. 李鹏说，是的，齐H、爸J.，纪、X.，小魏，Y：充分卷积实例感知语义分割。在：Proceedings of the IEEE Conference onC〇mputerVisisinandPater nRecognit i tin（CVPR）中。pp.2359- 2367（2017）。https://doi.org/10.1109/CVPR.2017.4722、1020. 林，T. 是的，做吧，P Gir shi ck，R.， He，K.， Hariharan，B. Belongie，S. ：Fea-用于物体检测的真实金字塔网络。在：IEEE计算机视觉和模式识别会议（CVPR）（2017年）的论文集。https://doi.org/10.1109/CVPR.2017.1061021. 林，T. 是的，再见，P.， Gir shi ck，R.， He，K.，我会的，P。：对于定义对象，侦查 IEEE International Conference on Computer Vision （ ICCV ）（2017）.https://doi.org/10.1109/ICCV.2017.3241022. Lin，T.，Maire，M.，Belongie，S.J.，Hays，J.，Perona，P.，Ramanan，D.做吧，PZitni ck，C. L. ：MicrosoftCOCO：commonobjctsincontext. In：C〇n fere n c e of C 〇 m pu t e r V is ion（E CC V）的E〇 p e a n C 〇 n ferenceofC 〇m pu t erVision 。 pp. 第 740- 755 页（ 2014 年）。https://doi.org/10.1007/978-3-319-10602-1 482，6，7，1123. 默勒M.，加列古略斯C.的方法，贝隆吉S.：认识杂货原位使用体外训练数据。在： Proceedings of the IEEE ConferenceonC 〇mputerVis isinandPater nReco gnitin（CVPR）中。pp.1- 8（2007）。https://doi.org/10.1109/CVPR.2007.383486224. Minervini，M.，Fischbach，A.，Scharr，H.，Tsaftaris，S.A.：细粒度注释数据集用于基于图形处理的图形处理。PatternRecog nit i tionLetters81，80https://doi.org/10.1016/j.patrec.2015.10.013225. Neuhold，G. Ollmann，T.， Rota Bulo，S.， Kontschieder，P.：地图用于街道场景语义理解的vistas数据集。在：IEEEInternationalConferenceonComputerVision（ICCV）中。pp.4990- 4999（2017）。https://doi.org/10.1109/ICCV.2017.534226. Redmon，J.，Farhadi，A.：Yolo9000：更好、更快、更强。在：会议记录IEEE计算机视觉和模式识别会议（CVPR）（2017）。

下载后可阅读完整内容，剩余1页未读，立即下载