计算机视觉数据的质量和评估的挑战性：分析、检查表与未来的数据集

147 浏览量更新于2023-10-16 收藏 14.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

119800分析计算机视觉数据-好的，坏的和丑陋的0Oliver Zendel Katrin Honauer Markus Murschitz Martin Humenberger GustavoFern´andez Dom´ınguez AIT，奥地利技术研究院，Donau-City-Strasse1，1220，维也纳，奥地利HCI，Heidelberg大学IWR，Berliner Strasse 43 D-691200{ oliver.zendel;markus.murschitz;martin.humenberger;gustavojavier.fernandez } @ait.ac.at ,0katrin.honauer@iwr.uni-heidelberg.de0摘要0近年来，已经发布了大量数据集来训练和评估计算机视觉（CV）算法。这些宝贵的贡献有助于推动CV解决方案达到可以用于安全相关应用（如自动驾驶）的水平。然而，关于CV评估的测试数据的质量和有效性的主要问题仍然没有答案。研究人员和工程师试图通过使用尽可能多的测试数据来覆盖所有测试案例。在本文中，我们提出了一个不同的解决方案。我们介绍了一种基于改进版本的CV-HAZOP检查表的数据集分析方法，该检查表列出了CV领域内的潜在危险。以立体视觉为例，我们提供了对过去20年的28个数据集的广泛调查。我们创建了一个定制的检查表，并将其应用于Middlebury，KITTI，Sintel，Freiburg和HCI数据集，以进行全面的表征和定量比较。我们通过在分析的数据集上应用九种最先进的立体匹配算法来验证我们的检查表对于识别具有挑战性的立体情况的可用性，结果显示危险帧与困难帧相关。我们表明，即使对于小的子集，具有挑战性的数据集仍然可以进行有意义的算法评估。最后，我们提供了一个缺失的测试案例列表，这些案例仍然没有被当前数据集覆盖，以激发希望参与未来数据集创建的研究人员的灵感。01. 引言0视觉解决方案在诸如自动驾驶汽车和引导手术程序等安全关键应用中使用。因此，需要严格的质量保证措施来确保安全运行。软件质量保证为CV提供了两种主要技术：验证0验证和验证（V＆V）是检查给定实现是否满足用于定义程序行为的规范的过程。本质上，这些是半自动或自动检查软件错误和故障的检查。另一方面，验证评估系统是否在困难情况下完成给定任务。这是通过使用测试数据集并将系统获得的结果与定义的基本事实（GT）进行比较来完成的。关于CV评估的测试数据的质量和有效性的主要问题仍然没有答案：好的数据集的特征是什么？如何识别并补充缺点以创建真正有效的测试数据集，以揭示算法缺陷？在这项工作中，我们解决了一个问题：什么是用于鲁棒性测试的好的测试数据，即检测可能的缺陷和弱点。我们表明，应该特别注意涵盖各种困难情况，因为无论是用于验证CV算法还是用于训练应用程序：数据集需要包含正例（好的情况），边界情况（坏的情况）和负面测试案例（丑陋的情况）。本文重点介绍用于验证立体视觉算法的测试数据，但所提出的方法适用于基本上所有CV算法以及机器学习训练数据的组成。为了让人们对所选数据集的影响有一个概念，图1显示了每年引用立体视觉数据集的论文数量，这些数据集在三个主要的计算机视觉会议（CVPR，ICCV和ECCV）上发表。有趣的是，受欢迎的Middlebury数据集（室内场景）最近被KITTI（驾驶场景）超越，这显示了立体视觉在自动驾驶和驾驶员辅助系统领域的重要性。第2节对28个立体视觉数据集进行了全面的概述和列表，并总结了内容的历史变化。第3.1节回顾了CV-HAZOP，这是一种用于系统分析测试数据集的工具。它介绍了我们对该方法的改进：对通用方法进行专业化2012201320142015201620406080Middlebury KITTITsukubaHCI6D VisionSintel19810引用次数0图1.2012-2016年CVPR+ICCV+ECCV发表的立体数据集引用次数。0条目和使用检查表进行更容易分析的说明。我们在第4.1节中应用了提出的概念，并创建了一个特定的危险/风险情况的立体视觉检查表。我们在第4.2节中使用提出的方法评估了五个代表性的立体视觉数据集。此外，我们在第4.3节中使用传统度量和基于我们的检查表结果的新度量评估了一系列立体视觉算法。第4.4节表明，使用具有挑战性的帧即使对于少量的测试用例也会产生可比较的整体结果。我们的检查表包含许多关键情况，这些情况在任何数据集中都没有找到。第4.5节介绍了这些有用的信息，以设计未来的数据集，而第4.6节展示了我们的经验教训。最后，第5节总结了本文的所有发现和贡献。02. 最新技术0在计算机视觉中，参考数据是性能分析的基础。高质量的数据在学术界中一直受到欢迎，因为它对于评估算法性能至关重要，可以促进更准确的算法的开发。此外，使用标准化数据对算法进行客观比较对于实际了解相关领域的最新技术水平也非常重要。立体视觉算法性能的进步和立体技术应用的出现促使了对具有准确GT的更具挑战性的数据集的需求，这也成为一个研究领域。其中，应用领域的例子有：自动驾驶（AD）[42, 66, 25, 23, 41,60]，太空[24]，农业[46]和医学[6, 37,36]。早期的研究引入了第一个数据集和性能度量标准，以展示所提算法的可比较结果。最初，没有采用共同的序列/数据集。领域或标准性能度量标准的定义也缺失。多年来，计算机视觉界意识到，全面的性能评估开启了许多研究可能性，例如引入涵盖不同场景和情况的新数据集，性能度量的分析或在线基准测试比较不同的算法。现在我们介绍立体视觉的发展0通过比较过去20年的28个数据集，我们对数据集进行了评估。表1概述了每个数据集的定量特征，图2显示了代表性的图像。我们重点关注立体视觉测试数据。许多数据集还包含其他GT（例如流动、分割、实例）。我们不会比较只有RGBD数据（没有第二个相机图像，例如NYU RGB-D [63,44]，TUM RGB-D[67]或伯克利数据集[22]）。请参考Firman的最新工作[13]。以前有关立体视觉的调查，感兴趣的读者可以参考[33,57, 4, 32, 62, 30, 19]。02.1. 数据集调查02002年，Middlebury小组提出了一个两帧立体对应算法的分类和比较框架[57]。Middlebury网站[68]在线评估立体算法，报告提交算法的性能，并提供立体对应软件下载。多年来，数据集定期更新：2001年的6个分段平面场景数据集，2003年至2006年的32个使用结构光的数据集，以及2014年的43个具有亚像素准确地面实况的高分辨率数据集。EISATS[52]提供了不同的视频序列，用于性能评估。用于评估运动分析、立体视觉和光流算法的交通场景序列可供社区使用。立体序列包括：夜视（S1）、合成（S2）、彩色（S3）、灰度（S4＆6）、三目（S5＆9）和连续立体图像对（S7）。Neilson和Yang[45]引入了合成立体对，用于展示他们的新评估方法，名为聚类排名。该数据集包含30个不同的立体对，包含三种不同的基线分离和三种不同的噪声水平，并包括视差图和评估掩码[48]。New College[65]是一个大型数据集（约30GB），通过牛津新学院的公园和校园收集。该数据集侧重于户外SLAM（同时定位和地图构建）应用，并包括轨迹、立体/全景图像以及激光测距/反射数据。Pittsburgh Fast-Food[8]是一个包含61个食物类别的数据集。它旨在为评估计算机视觉算法的准确性提供标准基线。EVD[9]数据集是为了评估MODS（基于视图合成的按需匹配）算法，该算法用于室外场景的宽基线匹配，但只包括GT的单应性数据。Ford Campus[50]数据集（约100GB）使用3D扫描激光和全景相机记录，用于测试自动驾驶的SLAM算法。2012年，Geiger等人[15]推出了KITTI Vision Benchmark Suite。01我们尝试包含每个立体视觉数据集，也发布了GT；由于它们的流行度，一些没有GT的数据集也被添加进来。19820表1.立体数据集摘要。'w. GT' = 具有GT数据的图像数量，'wo' = 没有GT数据的数量，'GT-Acc.' = 像素级别的GT准确性，† =GT报告但没有提供稠密GT或GT非常稀疏/语义导向）* = 算法结果作为GT，< 1/N = 粒度优于1/N，S = 合成，R = 真实，1 = 单个快照，2= 长度为2的序列，N = 更长的序列0名称年份图像描述0分辨率 w. GT / wo GT-Acc. 类型0Middlebury [57] 2002 410 x 370 6 / — 1/8 R1 分段平面纸板0Middlebury [58] 2003 410 x 370 2 / — 1/4 R1 杂乱的静物0Middlebury [21] 2007 1390 x 1110 27 / 3 1 R1 杂乱的静物0EISATS S1 [70] 2008 640 x 481 — / 1900 — RN 交通场景0EISATS S2 [71] 2008 640 x 480 498 / — < 1/256 SN 交通场景0Neilson [45] 2008 400 x 400 270 / — 1/16 S1 静态场景，具有不同的纹理/噪声0EISATS S6 [53] 2009 640 x 480 — / 177 — RN 交通场景0New College [65] 2009 512 x 384 — / > 100000 — RN 用于SLAM的户外场景0Pittsburgh [8] 2009 1024 x 768 — / 130 * R1 快餐食品（61个类别）0EVD [9] 2011 1000 x 750 — / 15 — R1 宽基线静物0Ford Campus [50] 2011 1024 x 768 — / > 100000 — RN SLAM，动态环境0HCI-Robust [27] 2012 656 x 541 — / 462 — RN 困难的道路场景0KITTI 2012 [15] 2012 1226 x 224 194 / 195 1/256 R2 郊区，交通较少的白天时间0Leuven [31] 2012 316 x 25 20 / 50 † RN 白天的交通场景0Tsukuba [38] 2012 640 x 480 1800 / — < 1/256 SN 办公室隔间静物0HCI-Synth [17] 2013 960 x 540 12 / — 1/256 S1 纹理挑战0Stixel [51] 2013 1024 x 333 2988 / — † RN 高速公路，天气好/坏0Daimler Urban [59] 2014 1024 x 440 — / 70000 — RN 城市场景0Malaga Urban [2] 2014 1024 x 768 — / > 100000 * RN 动态环境真实交通0Middlebury [56] 2014 1328 x 1108 28 / 15 < 1/256 R1 杂乱的室内静物0Cityscapes [10] 2015 2048 x 1024 — / 20000 * R1 城市场景白天0KITTI 2015 [40] 2015 1242 x 375 200 / 200 1/256 R2 带有交通的道路场景0MPI Sintel [5] 2015 1024 x 436 1064 / — < 1/256 SN 冒险电影场景0Freiburg CNN [47] 2016 960 x 540 35454 / — < 1/256 SN 道路场景，动画电影0HCI Training [26] 2016 2560 x 1080 1023 / — < 1/256 RN 困难的道路场景0SYNTHIA [55] 2016 960 x 720 > 100000 / — < 1/256 SN 多样的驾驶场景0Virtual KITTI [14] 2016 1242 x 375 2126 / — < 1/256 SN 郊区道路，目前是RGBD0Oxford Robot-Car[35]0出现01280 x 960 > 100000 / — < 1/256 RN 在不同天气和季节下的驾驶0图2.从讨论的数据集中摘录的图像。图像来自表1中描述的来源。0其中包括一些基准测试。提供了近200帧的立体和光流数据。此外，注释还包括语义和实例标签。0并且每个场景有20帧的更长的图像序列，其中大约有200帧的GT被保留在他们的网站上，以确保公平评估。2015年更新的版本19830数据集的更新版本包含400对动态城市场景的图像（200用于训练，200用于测试）和半自动生成的GT。如果视差或流端点误差低于一定阈值（3个像素或5%），则像素被正确估计，并且要求方法对所有测试对使用相同的参数集。他们的重点是AD，旨在减少真实数据和在受控条件下生成的数据之间的偏差，即实验室环境。每个图像上都可见汽车和人等物体。Leuven[31]数据集展示了两个相机之间相距1.5米的图像对。数据是在公共城市环境中获取的，并且包含了真实世界数据的对象类别分割和密集立体重建GT。Tsukuba[38]数据集是一个合成的逼真视频数据集，作为他们著名的“头部和灯光”立体场景[43]的再现。他们包括计算机生成的GT数据，用于参数、测量、3D位置和距离。6DVision小组[11]向社区提供了两个不同的数据集。DaimlerUrban数据集[59]由在城市交通中记录的视频序列组成。定义了五个语义类别（建筑物、地面、行人、天空和车辆），并且使用这些类别对数据集的10%进行了像素注释。Stixel数据集[51]由在高速公路上获取的12个带注释的立体序列组成。提供了车辆数据、相机标定和通过将手动注释的信息与自我运动估计相结合生成的GT。HCI-Synth[17]包含四个数据集，每个数据集都涵盖立体视觉中的特定问题：视觉伪影、前景膨胀、失校准和无纹理区域。MalagaUrban数据集[2]是在城市场景中使用9个摄像头和5个激光扫描仪记录的，包含真实交通场景。该数据集面向对象检测、SLAM和视觉里程计算法。Cityscapes数据集[10]完全在城市街景中收集，重点是语义城市场景理解。该数据集在几个城市和不同季节进行了记录。还提供了基准套件、评估服务器和注释（对5000个图像进行详细注释，对20000个图像进行粗略注释）。MPISintel数据集[5]源自动画短片Sintel，其中包含场景结构、模糊、不同的照明和大气效应等多种效果。它专为光流、分割和立体视觉的评估而设计。Virtual KITTI[14]是使用虚拟世界生成的合成视频数据集。场景包括城市环境，数据集专注于多目标跟踪。在撰写本文时，尚未发布立体设置（仅有RGBD）。SYNTHIA（SYNTHeticcollection of Imagery andAnnotations）[55]是使用8个RGB相机和8个深度传感器收集的合成数据集。数据在不同场景（城市、高速公路和绿色0在不同的照明和天气条件下拍摄的图像区域。牛津机器人车数据集[35]是通过在牛津的同一路线上驾驶一整年而收集的，因此代表了季节和天气的良好变化。0朝着最佳测试数据的方向0测试数据设计的核心问题是选择正确数量和类型的测试用例。CV社区的一些研究将序列的数量增加到了数百个[12, 64,34]，但是使用更多的序列并不一定增加多样性或覆盖范围。此外，更多的数据需要更多的GT，而GT获取众所周知是一项容易出错和繁琐的任务。许多最近的研究生成了合成测试数据，其中GT的生成更加可行，准确性更高（参见[55,18, 17, 49, 1,5]）。另一个问题是数据集偏差：没有足够变化的测试数据集无法反映真实世界的性能。因此，研究人员已经开始评估多样性、覆盖范围和数据集偏差的作用。Torralba等人[69]通过训练图像分类器来分析数据集偏差，以了解它们所属的数据集。VOT挑战[29]对大量序列进行聚类，以减小要评估的数据集的大小，同时考虑到所选数据的多样性。Zendel等人[74]使用一种名为Hazard and OperabilityStudy（HAZOP）的风险分析过程来评估和改进测试数据集。HAZOP识别数据集中存在的困难情况和因素，显示数据集的危险覆盖范围。传统软件质量保证中有三个主要类别的测试用例：正向测试用例、边界测试用例和负向测试用例。正向测试用例[61]代表正常情况，不应对算法造成问题。边界测试用例[7]处于指定和未指定行为的边缘，但仍应创建有意义的输出。负向测试用例[61]预计会失败，但错误行为应该是明确定义的（例如，将没有有意义值的区域标记为无效）。在本文中，我们专注于选择具有挑战性（即边界和负向）的数据集中的测试用例，以改进鲁棒性测试。0方法论0现在我们想要深入分析前一节中提出的一些数据集，并评估这些数据集测试了哪些危险。我们提出了一种基于现有思想的新方法：将风险分析应用于计算机视觉。首先，介绍了这种质量保证方法。然后，我们扩展了这种方法。最后，在第4节中，我们将这种方法应用于选定的立体视觉数据集。0CV-HAZOP0系统分析可能影响系统输出性能和安全性的各个方面被称为风险分析。The main goal of dataset analysis is usually to ﬁnd atleast one example test image for each checklist entry. Thiscreates a rough estimate of the covered risks. First the ana-lyst has to acquire a general overview of the dataset by19840分析。Zendel等人[74]将一种标准的风险分析方法HAZOP应用于通用计算机视觉算法。首先，他们定义了一个抽象的CV模型。其组件和参数构成了HAZOP研究的基础。然后，使用称为指导词的修饰词来创建代表与预期不符的条目。这些偏差应用于每个参数，导致分析的多个初始条目。CV专家为每个初始条目分配含义、后果和潜在危险。所得到的已识别漏洞列表可用于评估现有数据集并计划新数据集。每个列表条目可以使用其唯一的危险标识符（HID）进行引用。这种方法允许通过识别满足所述检查列表条目的个别测试用例来对数据集进行定性和定量评估。然而，该方法存在一个缺点：为了拥有统一的通用检查列表，每个条目都需要由数据集分析人员根据他们的个人意见进行解释。这导致了很多的歧义，因为不同的分析人员在将其应用于实际任务时可能会以相当不同的方式阅读和解释相同的条目。因此，我们在以下几个方面改进了他们的工作：•创建针对各个用例的专门检查列表，而不是让每个分析人员从通用风险分析列表开始（见第3.2节）。•使用第3.3节中的专门检查列表分析数据集的方法。•通过创建用于立体视觉的专门检查列表（第4.1节）来应用所提出的方法。•使用第4.3节中介绍的专门检查列表分析流行的立体视觉数据集。03.2.检查清单专业化0该过程始于公开可用的通用CV-HAZOP检查清单，并将其转化为适用于特定领域和任务的特定清单：•决定在实际任务背景下，列表中的每个条目是否与危险相关。•为每个条目创建一个单一的共识摘要。尽可能准确地写下测试图像中应该包含的内容。•避免重复，并生成一个简明的、最少冗余的列表。经验表明，分析师第一次使用后必须对结果列表进行修订。这样可以解决误解和注释偏差，并进一步消除冗余。03.3.如何分析数据集0注意规律和重复出现的主题，以及特殊的视觉困难情况，例如：图像中可见的光源（l.s.），可见的光源的镜面反射，大的眩光点，显示近乎完美镜像的大的反射，透明度，过曝光，欠曝光和大的遮挡。0现在，专家试图为列表中的每个条目找到一个合适的测试图像。描述中找到的限制是强制性的，并反映了从通用危险到特定危险的过渡。降低目标应用的输出质量的相关图像部分应足够大，以产生有意义的影响（例如图像的1/64），并且在该位置应该有有效的GT。如果一个条目有多个候选项，优先选择只满足单个危险的测试用例。否则，选择具有最强烈危险表现和受影响区域最大的图像。04.结果0所提出的方法应用于立体视觉用例。创建了一个特定的检查清单，并用于分析流行的现有立体视觉数据集。对各种立体视觉算法进行了全面评估，为后续的测试数据分析提供了适当的背景。我们展示了测试用例的难度与检查清单中预定义的危险之间的相关性，对数据集大小提出了一些意见，并列出了当前数据集中遗漏的一系列重要问题。04.1.立体视觉检查清单0对于我们的立体视觉检查清单，我们定义了以下用例：从两个受限于极线约束的图像计算视差图，不使用先前或后续帧。选择算法应该适用于测试数据集所考虑的领域：室内场景和室外驾驶场景。我们排除了大多数时间相关的危险，但在其他方面将所有通用条目视为我们立体视觉检查清单的潜在候选项。因此，我们从大约750个通用条目开始。许多危险很快被认为不适用于立体视觉。剩下的350个条目进行了讨论和专业化。在此过程中，一些条目被认为对我们的领域来说过于极端，许多条目导致了重复，这些重复已经成为新检查清单的一部分。最后，我们从通用列表中得出了117个专业化条目。表2显示了完整列表中的一部分代表性条目。每个示例在分析过程中至少在一个数据集中被识别。有关每个条目的示例，请参见图3。0请参阅补充材料或vitro-testing.com获取完整列表。19850表2.立体视觉危险全列表摘录（简化，l.s.=光源）0隐藏位置。/ 网关 / 参数。含义条目00个L.s./否/数量没有L.s.严重曝光不足的图像；只有黑电平噪声026个L.s./部分/位置部分L.s.可见图像中的L.s.被图像边界切割0142个L.s./较少/光束属性聚焦光束半照明的场景，使大部分区域严重曝光不足0183个中等/较少/透明度0介质的光学厚度比预期的要大0图像中的雾或霾根据观察者与物体的距离而减少可见性0376个物体/较少/复杂性0物体比预期的要简单0场景中包含没有纹理或自遮挡的简单物体（例如灰色不透明球体）0476个物体/否/反射物体没有反射，明亮的场景中包含一个没有纹理和阴影的非常暗的物体0482个物体/以及/反射0物体表面既有光泽又有暗淡的表面，物体表面有一个大的耀斑点，遮挡了左/右图像中的相同区域0701个物体/空间孔径/反射0反射产生混乱的图案，图像的大部分显示出不规则的扭曲的镜像反射0904个观察者/更快/位置观察者移动得太快图像的某些部分有明显的运动模糊01090个观测/否/PSF没有光学模糊图像包含明显的混叠伪影0图3. 对应于表2的数据集中的已识别危险0图4.数据集中的危险分布：深色单元格显示已识别的危险，而浅色单元格表示没有GT，面积太小或有争议的条目；颜色表示CV-HAZOP类别。04.2. 分析测试数据0在第2节中，我们集中研究了所有已识别的测试数据集的一个特定子组：所有公开的数据集，提供GT数据，并且至少有十个测试图像。这导致以下子集：所有Middlebury数据集，两个KITTI数据集，Sintel，HCI Training 1K和Freiburg3。OxfordRobotCar和SYNTHIA数据集对于这个评估肯定是有趣的，但是由于其巨大的大小，我们无法处理。数据集分析如第4.3节所述开始。除了所有作者之外，还有两位额外的分析师参与，确保每个数据集由至少两个不同的人进行分析以减少偏见。总共在所有数据集中找到了76个危险。它们导致了117个独特的危险中的48个。大多数危险在HCI TrainingDataset，Freiburg和Sintel中找到（各16个），其次是KITTI和Middlebury数据集（各14个）。图3给出了一些已识别的危险的示例。条目对应于表2的行。由于缺少GT，尺寸不足或存在分歧，一些危险条目被认为在即将进行的评估中不可靠。03 Freiburg没有注释飞行物。这些场景对于分析师来说过于混乱，无法在合理的时间内进行评估。0这些有争议的条目已从评估中删除。图4可视化了所有数据集上的危险分布。这仍然有50个条目未被任何数据集覆盖。第4.5节将讨论这些未解决的问题。04.3. 数据集评估0以下立体视觉算法在分析的数据集上进行评估：SAD+纹理阈值（TX）和连通分量过滤[28]，SGM[20]与秩滤波（RSGM），Elas [16] +TX和加权中值后处理滤波（WM），成本体积过滤（CVF）和WM [54]，PatchMatch（PM）和WM[3]，使用Census和Segment-Trees的跨尺度成本聚合（ST）和WM [75，39]，SPSS [72]和MC-CNN[73]使用KITTI2012预训练的快速网络。对数据集中每个测试图像计算平均RMS和坏像素分数作为评估指标。图5显示了每个数据集的难度总结，基于每个算法的性能。未填充的条形图可视化整个数据集中具有指定难度的帧的相对数量，而填充的条形图表示该难度范围内的危险帧的数量。所有条形图都被归一化为各自的最大数量。19860如预期的那样，由于它们的不同实现和性能，算法在相同的测试数据上表现出不同的行为，而性能也因数据集而异。显然，危险帧在更高难度的区间中强烈聚集。对于困难帧（区间D/E），填充柱通常高于未填充柱，并且对于较容易的帧（区间A/B），填充柱较低。这种趋势可以在每个数据集的所有算法中观察到。0图5.每个数据集中帧的难度分布。将具有大于4个差异的错误像素的相对数量分为5个区间：A：[0-5％），B：[5-10％），C：[10-20％），D：[20-50％），E：[50-100％]。右侧：完整数据集中的帧数（无填充柱）/具有危险的帧数（实心柱）。单个图的所有柱（无填充/实心）加起来等于这些相应的数字（第一/第二）。04.4. 数据大小0测试数据集设计的一个重要方面是使用正确的数据大小。过多的冗余会增加处理时间，并可能淹没相关的单个测试用例在无意义的重复中。另一方面，过少的测试用例将阻止检测由于缺少场景而导致的重要缺陷。对于我们的实验，我们根据算法的性能对所有帧进行难度排序。我们选择所有帧的子集，并在每一步迭代地计算子集上的平均性能，每一步都添加更容易的帧。在第一个实验中，我们随机选择数据集中的帧，以实现对整个数据集的良好表示。在我们的第二个实验中，我们只添加数据集中最容易的帧。在第三个实验中，我们只使用HAZOP分析识别出的帧，并以最难的帧优先的方式添加它们。为了使结果可比较，我们绘制了所有帧累积到标注的危险帧数量的累积图。图6显示了Sintel数据集的结果比较（随机选择，最佳优先，HAZOP）。仅使用危险帧允许在具有可比较图像数量的算法之间进行相同水平的区分。选择困难帧是评估算法的一种有效方法。与随机选择相比，使用危险帧的优势在于它们还能揭示为什么特定的测试用例失败了。0请参阅补充材料以获取其他算法性能图。0挑选的好处在于它们还能揭示为什么特定的测试用例失败了。0图6.Sintel数据集中13个帧的累积平均性能比较：随机选择，最容易的帧，危险帧（按难度排序），使用阈值为4的坏像素度量。04.5. 缺失的测试0分析人员在检查的所有测试数据集中都没有找到的危险条目有很多（表3）。这些条目被分为两组：边界情况和负面测试用例。两者之间的区别有时取决于领域（例如，不是每个实现都必须处理大视场（FOV）或场景中的雨/雪）。对于这个检查表，我们试图涵盖一个非常广泛的领域，并要求算法具有很高的鲁棒性，即在困难的天气条件下的室内场景和室外街道环境。根据这些准则，我们还决定将其聚类为“坏”和“丑”两组。正面测试用例通常很容易定义。因此，我们重点关注困难的测试用例。04.6. 未来的工作0为了获得有代表性的统计数据，测试算法需要使用每个危险的单个测试用例进行有价值的洞察。应该使用逐渐增加难度的系统测试数据来评估算法的破坏点（针对特定的危险）。应该通过图像内的标签来增强基于帧的注释。这样可以评估影响较小区域的危险，否则这些危险会被周围区域的影响所掩盖。专注于数据集中最困难的帧还可以为无需检查每个帧的危险提供良好的指示。然而，这可能会对所使用的评估指标引入巨大的偏见，并传播现有的冗余。05.结论0本文重点分析数据集对CV应用程序的鲁棒性测试能力。对28个现有立体视觉测试数据集的彻底调查表明它们的19870表3.当前测试数据集中缺少的危险因素选择，请参阅补充材料获取完整列表0hid条目0边界情况（糟糕的）6个L.s.及其反射在同一对极线上可见012个多个L.s.周期性地放置并对齐在同一对极线上063图像中可见一个长而细的形状的L.s.（例如霓虹灯管），创建一个不寻常的过曝区域0107个L.s.将结构化图案投射到表面上，在两个图像中产生两个截然不同的Moire图案0259场景被分为两个相等的部分：一个没有颗粒物，另一个有相当多的颗粒物0310两个不同大小的物体位于同一对极线上，但它们的投影视图是相同的0341场景中包含一个扩张/收缩的物体，导致明显的径向运动模糊0479个物体具有强烈反射材料，可以镜像同一对极线上的较大部分0523两个部分透明的物体纠缠在一起，两者都可以互相看到0694场景中清晰地反射了观察者以及同一对极线上的潜在匹配部分0754场景中存在明显的彩虹效果（即雾/霾与视角相关的彩色带）0758场景中包含明显的折射环（例如油污）0803相机都具有宽广的视场（> 135度）0918镜头机身/镜头罩延长，因此其角落阻挡了视野0926两个相机都有相当多的污垢/污染物，但分布不同01091左右图像中的纹理非常不同，由于大尺度的Moire效应0负面测试用例（丑陋的）245空气中有大量可见的颗粒物（例如花粉，小叶子）遮挡整个场景0504高度透明的物体包围着第二个不透明的物体，由于另一个物体的形状而变形0695场景中包含一个大的凹面镜，显示景色的倒立复制0719观察者被放置在两个彼此平行的镜子之间，以便发生“无限”次反射0790左右图像相同，同时显示不同的场景0916一个相机镜头含有灰尘/干泥，在图像中创建部分失焦区域0921镜头在图像中心留下明显的裂缝0933图像包含滚动快门伪影0955图像包含相当多的色差和许多可见的边缘0983图像具有相当多的暗角，并且场景中有许多靠近观察者的物体01094两个传感器中的一个稍微失焦01105镜头间反射在图像中创建对象的可见副本01162图像在矫正之前来自相当长方形的像素（而不是正方形，接近2:1的比例）01166图像在光线充足的情况下具有强烈的静态图像噪声01261个相机提供负图像（或颜色通道交换）01265图像使用对数量化而不是线性或错误的伽马映射0随着时间的推移的进展。我们提出了一种基于CV-HAZOP检查表分析方法的改进方法，该方法可以识别数据集中具有挑战性的元素。我们将这种方法应用于选定的流行立体数据集，以识别具有挑战性的测试用例。然后，我们在这些选定的数据集上评估了广泛的算法。被标记为具有挑战性的帧与测试用例的难度之间的相关性得出以下结论：（i）被标记为具有挑战性的情况显然是困难的，与数据集或算法选择无关，（ii）数据集的具有挑战性的情况是整个数据集的代表性子集。仅使用具有挑战性的情况进行测试与整个数据集相比产生类似的结果，但包含所有列出的挑战。0最重要的是，我们提供了一份所有选定数据集中缺失的挑战列表。这将为设计新数据集的研究人员提供32个实际输入的路线图.0在我们看来，新的数据集应该增加难度0并不一定是大小：除了简单的情况（好的情况），还应该增加更多的边界情况（坏的情况）和负面测试情况（丑陋的情况）。最终，这将增加CV解决方案以及依赖它们的系统的适用性、有用性和安全性.06. 致谢0该项目获得了欧洲领导联合企业电子组件系统的资助，协议编号为692480. 该联合企业得到了欧洲联盟的Horizon2020研究和创新计划以及德国、萨克森、西班牙、奥地利、比利时、斯洛伐克的支持.请参阅www.iosense.eu；感谢DanielSteininger（AIT）和EmmaAlexander（哈佛大学）的校对和建议.19880参考文献0[1] D. Biedermann, M. Ochs, and R. Mester.在COnGRATS数据集上评估视觉ADAS组件.在2016年IEEE智能车辆研讨会（IV）上，2016年. 40[2] J.-L. Blanco, F.-A. Moreno, and J. Gonz´alez-Jim´enez.马拉加城市数据集：真实城市场景中的高速立体和激光雷达.国际机器人研究杂志，33(2):207–214, 2014年. 3 , 40[3] M. Bleyer, C. Rhemann, and C. Rother.使用倾斜支持窗口的Patchmatch立体匹配.在英国机器视觉会议上，2011年. 60[4] M. Brown, D. Burschka, and G. Hager. 计算立体视觉的进展.IEEE模式分析与机器智能交易，25(8):993–1008, 2003年. 20[5] D. J. Butler, J. Wulff, G. B. Stanley, and M. J. Black.用于光流评估的自然开源电影. 在A.Fitzgibbon等人（编者）的欧洲计算机视觉会议（ECCV）上，第四部分，LNCS 7577，页611–625. Springer-Verlag，2012年.3 , 40[6] F. Campo, F. Ruiz, and A. Sappa.多模态立体视觉系统：3D数据提取和算法评估.IEEE选定信号处理专题杂志，6(5):437– 446, 2012年. 20[7] J. Cem Kaner. 什么是一个好的测试用例？STAREast，2003年. 4 [8] M. Chen, K. Dhingra, W. Wu, L. Yang, R.Sukthankar, and J. Yang. 匹兹堡快餐图像数据集.在国际图像处理会议上，2009年. 2 , 30[9] K. Cordes, B. Rosenhahn, and J. Ostermann.使用差分进化提高特征评估基准的准确性.在IEEE差分进化研讨会上，2011年. 2 , 30[10] M. Cordts, M. Omran, S. Ramos, T. Scharw¨achter, M. En-zweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele.Cityscapes数据集. 在CVPR未来数据集研讨会上，2015年. 3 , 40[11] Daimler B¨oblingen, 6D-Vision. http://www.6d-vision.com . 访问日期：2016年11月15日. 40[12] P. Doll´ar, C. Wojek, B. Schiele, and P. Perona.行人检测：一个基准. 在CVPR，2009年. 40[13] M. Firman. RGBD数据集：过去、现在和未来.在CVPR大规模3D数据获取、建模和分析研讨会上，2016年. 20[14] A. Gaidon, Q. Wang, Y. Cabon, and E. Vig.虚拟世界作为多目标跟踪分析的代理. 在CVPR，2016年. 3 , 40[15] A. Geiger, P. Lenz, and R. Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准套件. 在CVPR，2012年.2 , 30[16] A. Geiger, M. Roser, and R. Urtasun. 高效的大规模立体匹配.在亚洲计算机视觉会议上，页25–38. Spring

下载后可阅读完整内容，剩余1页未读，立即下载