LVIS:大词汇量实例分割的新数据集

58 浏览量更新于2023-10-19 收藏 2.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5356LVIS：一种用于大词汇量实例分割的AgrimGupta PiotrDoll a'rRossGirshickFacebook AI Research（FAIR）摘要目标检测的进展是通过将研究界的注意力集中在开放式挑战上的数据集实现的。这个过程使我们从简单的图像到复杂的场景，从边界框到分割掩码。在这项工作中，我们介绍LVIS（发音为'el-vis'）：大词汇实例分割的新数据集。我们计划收集220万个高质量的实例分割掩码，用于164k图像中的1000多个入门级对象类别。由于自然图像中类别的Zipfian分布，LVIS自然具有训练样本很少的长尾类别。鉴于用于对象检测的最先进的深度学习方法在低样本状态下表现不佳，我们相信我们的数据集提出了一个重要而令人兴奋的新科学挑战。LVIS 可在 www.example.com 上获得http://www.lvisdataset.org。1. 介绍计算机视觉的一个中心目标是赋予算法智能描述图像的能力。目标检测是一个规范的图像描述任务;它在应用程序中非常有吸引力，非常有用，并且可以直接在现有环境中进行基准测试。目标检测器的准确性已经显著提高，并且已经开发了新的功能，例如预测分割掩模和3D表示。现在有令人兴奋的机会将这些方法推向新的目标。今天，对通用目标检测器的严格评估主要是在少数类别制度（例如，80)或者当每个类别有大量训练样本时（例如，100到1000+）。现在有一个机会，使研究的设置有大量的类别和每个类别的数据有时是稀缺的。稀有品类的长尾是不可避免的;注释更多的图像只是揭示了以前看不见的，罕见的类别（见图。 9和[29，25，24，27]）。从少量示例中有效学习是机器学习和计算机视觉中的一个重要开放问题但是，为了将这一领域开放给实证研究，需要一个合适的、高质量的数据集和基准。图1. 示例注释。我们提出了LVIS，这是一个新的数据集，用于在1000多个类别制度中对大词汇实例分割进行基准测试，具有罕见对象的具有挑战性的长尾我们的目标是通过设计和收集LVIS（发音为我们正在收集1000多个入门级对象类别的实例分割模板（见图1）。①的人。完成后，我们计划让我们的数据集包含164k图像和220万个高质量的实例掩码。1我们的注释管道从一组图像开始，这些图像是在没有预先知道将在其中标记的类别的情况下收集的。我们让注释者参与迭代的对象定位过程，该过程揭示了自然出现在图像中的类别的长尾，并避免使用机器学习算法来自动化数据标记。我们设计了一个众包注释管道，可以收集我们的大规模数据集，同时还可以生成高质量的分割掩码。质量对于未来的研究很重要，因为相对粗糙的掩模，例如COCO数据集[18]中的掩模，限制了区分算法预测的掩模质量超过某个粗糙点的能力。与专家注释器相比，我们的分割掩码具有更高的重叠和边界1 我们计划在 COCO 2017 中注释 164k 图像（我们允许标记test2017）。2.2M是根据当前数据的预测。5357一致性优于COCO和ADE20K [28]。为了构建我们的数据集，我们采用了评估优先的设计原则。这一原则指出，我们应该首先确定如何进行定量评估，然后才设计和构建数据集收集管道来收集评估所需的数据。我们选择我们的基准任务为COCO风格的实例分割，并且我们使用相同的COCO风格的平均精度（AP）度量，该度量在类别和不同的掩码交集（IoU）阈值上取平均值[19]。COCO的任务和指标连续性降低了进入门槛。隐藏在这个看似无害的任务选择中的是直接的技术挑战：当一个对象可以合理地被标记为多个类别时，我们如何公平地评估检测器（见图1）。2）？我们如何使一个符号的工作量可行时，标记164k图像与分割对象从1000多个类别？解决这些挑战的基本设计选择是构建联邦数据集：由大量较小的组成数据集联合形成的单个数据集，每个数据集看起来都与单个类别的传统对象检测数据集完全相同。每个小数据集都为单个类别提供了直观注释的基本保证-该类别的所有实例。多个组成数据集可能重叠，因此图像内的单个对象可以标记有多个类别。此外，由于exhaustive annotation guarantee仅在每个小数据集内有效，因此我们不需要使用所有类别对整个联邦数据集进行详尽的注释，这大大减少了注释工作量。至关重要的是，在测试时，算法不知道每个图像相对于组成数据集的成员资格，因此它必须做出预测，就好像所有类别都将被评估一样。评估oracle在其组成数据集上公平地评估每个类别。在本文的其余部分，我们总结了我们的数据集和基准与先前工作的关系，提供了评估协议的详细信息，描述了我们如何收集数据，然后讨论了这些数据的分析结果。数据集时间轴。我们报告的5000图像子集，我们已经注释了两次详细的分析。我们正在与COCO数据集committ-tee的挑战组织者合作，并希望在2019年COCO研讨会上举办第一次LVIS挑战赛，可能是在ICCV上。我们预计LVIS注释收集将在此时完成。1.1. 相关数据集数据集塑造了研究人员研究的技术问题，从而塑造了科学发现的路径[17]。我们目前在图像识别方面的成功在很大程度上归功于到开创性的数据集，如MNIST [16]，BSDS [20]，Caltech 101 [6]，PASCALVOC [5]，ImageNet [23]，和鹿玩具背包，帆布背包车Vehicle卡车图2. 类别关系从左到右：非不相交的类别对可以是部分重叠的、父子的或等效（同义）的关系。对象检测器的公平评估必须考虑这些关系以及单个对象可能具有多个有效类别标签的事实。COCO [18].这些数据集使得能够开发检测边缘、执行大规模图像分类以及通过边界框和分割掩模定位对象的算法。它们也被用于发现重要的思想，如卷积网络[15，13]，残差网络[10]和批量归一化[11]。LVIS的灵感来自于这些和其他相关的数据集，包括那些专注于街景（Cityscapes [3]和Mapillary [22]）和行人（Caltech Pedestrians [4]）的数据集。我们在下面回顾最密切相关的数据集。COCO [18]是常见对象最流行的实例分割基准。它包含80个成对不同的类别。总共有118k个训练图像，5k个验证图像和41k个测试图像。所有80个类别都在所有图像中进行了详尽的注释（忽略注释错误），导致大约120万个实例分割掩码。为了与COCO建立连续性，我们采用了相同的实例分割任务和AP度量，并且我们还注释了 COCO 2017 数据集的所有图像。所有 80 个COCO类别都可以映射到我们的数据集。除了表示比COCO多一个数量级的类别之外，我们的注释管道还可以实现更高质量的分割掩码更紧密地遵循对象边界（参见§4）。ADE20K [28]是一项雄心勃勃的工作，它使用对象实例、“填充物”和部分分割来注释25k图像中的几乎每个像素。该数据集包括大约3000个命名对象、填充区域和部件。值得注意的是，ADE20K由单个专家注释器注释，这提高了一致性，但也限制了数据集大小。由于注释图像的数量相对较少，大多数类别没有足够的数据来进行训练和评估。因此，与ADE 20K相关的实例分段基准评估了100个最常见类别的算法。相比之下，我们的目标是实现大词汇量实例分割方法的基准测试iNaturalist [26]包含了近90万张带有边界框的图像，其中包含了惊人的5000种植物和植物物种。与我们的目标类似，iNaturalist强调5358单肩包（3）摩托车（4）表（1）Haiirbrush（3）熊（2）花生（29）床（2）打印机（2）菠萝（12）香蕉（80）高尔夫球场（1）啤酒瓶（3）斑马（8）茶杯（12）甜甜圈（195）Umbrella（24）HanddTowel（2）鹅（2）图3.来自我们数据集的示例注释为了清楚起见，我们为每个图像显示一个类别在少数例子的情况下对分类和检测进行基准测试的重要性。与我们的努力不同，iNaturalist不包括分割掩码，而是专注于不同的图像和细粒度的类别分布;我们的品类分布强调入门级品类。Open Images v4 [14]是一个包含190万张图像的大型数据集。数据集的检测部分包括15M个边界框，标记有600个对象类别。相关的基准测试评估了500个最常见的类别，所有类别都有超过100个训练样本（其中>70%的类别有超过1000个训练样本）。因此，与我们的基准不同，低拍摄学习不是开放图像的组成部分与我们的数据集不同的是，它依赖于机器学习算法来选择哪些图像将通过使用目标类别的分类器进行注释。相比之下，我们的数据收集过程不涉及机器学习-ing算法（参见§4.1和图（五）。随着版本v4的发布，与我们的工作同时开发，Open Images使用了联邦数据集设计，用于对象检测任务。2. 数据集设计我们遵循评估优先的设计原则：在任何数据收集之前，我们精确地定义了要执行什么任务以及如何评估它这一原则很重要，因为在大型词汇数据集上评估检测器时会出现技术挑战，在类别较少的情况下不会发生。必须首先解决这些问题，因为它们对数据集的结构有着深远的影响，我们将在下面讨论。2.1. 任务和评估概述任务和度量。我们的数据集基准是实例分割任务：给定一组固定的已知类别，设计一种算法，该算法在呈现先前未见过的图像时，将输出图像中出现的每个类别的每个实例的分割掩码以及类别标签和置信度得分。给定算法在一组图像上的输出，我们使用定义和实现来计算掩模平均精度（AP）。来自COCO数据集[19]（更多细节请参见§2.3）。评价挑战。像PASCAL VOC和COCO这样的数据集使用手动选择的成对不相交的类别：当注释一辆汽车时，如果对象是盆栽植物或沙发，就不会有当范畴数目增加时，不可避免地会出现其他类型的成对关系：（1）部分重叠的视觉概念;（二）亲子关系;(3)完美的同义词示例见图2如果这些关系没有得到适当的处理，那么评估协议将是不公平的。例如，大多数玩具不是鹿，大多数鹿也不是玩具，但玩具鹿两者都是-如果检测器输出鹿而对象仅标记为玩具，则检测将被标记为错误。同样地5359我我如果一辆车只标记为vehicle，而算法输出的是car，则会被错误地判断为错误。或者，如果对象仅被标记为backpack并且算法输出同义词rucksack，则它将被错误地惩罚。提供一个公平的基准测试对于准确反映算法性能非常重要。当地面实况注释缺少对象的一个或多个真实标签时，就会出现这些问题。如果一个算法碰巧预测出其中一个正确的，但缺少的标签，它将受到不公平的惩罚。现在，如果所有的对象都被所有的类别完全正确地标记，那么问题就迎刃而解了。但是，正确和详尽地标记164 k图像，每个图像具有1000个类别是不可取的：它迫使二元判断来决定是否应该将每个类别应用于每个对象;将存在许多真正的歧义、注释者间不一致的情况，并且注释工作量将非常大。考虑到这些缺点，我们接下来描述我们的解决方案。2.2. 联合数据集我们的主要观察是，所需的评估协议不需要我们详尽地注释所有类别的所有图像。相反，需要的是，对于每个类别c，必须存在整个数据集D，其具有以下保证：正集：存在图像Pc∈ D的子集，使得这些图像中的c的所有实例都被分割。换句话说，Pc被详尽地注释为类别c。阴性集：存在图像的子集Nc≠D使得在这些图像中的任何一个中都不出现c的实例给定类别c的这两个子集，PcNc可以用于执行c的标准COCO风格AP评估。我们只在c已经被穷尽注释的图像子集中的一个类别c上判断算法;如果检测器报告在图像i∈/Pc <$Nc上检测到猫类c，则不评估该检测。通过将每个类别的集合收集到单个数据集D=C（Pc<$Nc）中，我们得到了联邦数据集的概念。联合数据集是由较小的组成数据集的联合形成的数据集，每个组成数据集看起来都与单一类别。通过不使用所有类别注释所有图像，创建了设计注释过程的自由度，该注释过程避免了模糊的情况，并且仅当存在足够的注释者间协议时才收集注释。与此同时，工作量可以大大减少。最后，我们注意到，测试分裂上的正集和负集不公开，因此算法没有关于哪些类别将减少了工作量，并允许我们对最频繁的类别进行欠采样，以避免在这些类别上浪费注释资源（例如，占COCO的30%）。在我们估计的220万个实例中，可能没有一个单一的category将占总实例的103%以上2.3. 评价详情评估API仅返回总体类别平均AP，而不是每个类别的AP。我们这样做是因为：(1)它避免了泄露哪些类别存在于测试集中;2（2）假定尾部类别是罕见的，在某些情况下将存在很少的用于评估的示例，这使得每类别AP不稳定;（3）通过在大量类别上求平均，总体类别平均AP具有较低的方差，使其成为用于排名算法的鲁棒度量。非详尽注释。我们还收集了一个图像级别的布尔标签ec，表示图像i ∈ Pc是否为类别c进行了exhaustively注释。在大多数情况下（91%），此标志为true，表示注释确实详尽无遗。在其余情况下，图像中至少有一个未注释的物体。缺少注释通常发生在“拥挤”的情况下，在评估过程中，我们不计算类别c在图像i上具有设置为假的ec我们确实在这些图像上测量了召回率：检测器预计会准确预测标记实例的分割掩码。我们的策略不同于其他数据集，这些数据集使用每个图像，每个类别（10-15）的最大实例数以及“人群区域”（COCO）或使用特殊的“c组”标签来表示5个或更多实例（Open Images）。我们的注释管道（§3）尝试收集图像中所有实例的分割，而不管计数如何，然后检查标记是否实际上是详尽的。见图3 .第三章。等级制度。在评估过程中，我们对所有类别都一视同仁;在等级关系的情况下，我们不做任何特殊的事情。为了表现最好，对于每个检测到的对象o，检测器应该输出最具体的正确类别，以及所有更一般的类别，例如，独木舟的标签上应该同时写着"独木舟“和”小船“。图像i中的检测到的对象o将相对于所有标记的正类别{c |i ∈ Pc}，它可以是介于最具体和最一般之间的范畴的任何子集。同义词。将同义词分为不同类别的联邦数据集是有效的，但不必要地被分割（见图11）。2，右）。我们避免使用WordNet将同义词分为单独的类别[21]。具体来说，在LVIS中，每个类别c都是一个WordNet同义词集-一个词义由一组同义词和一个定义来指定在每张图片中进行评估。因此，算法必须使它是每个测试图像中所有减少了。联邦数据集设计允许我们|PcNc| ≪ |D|，2000年。这一选择戏剧性地重新-2验证集和测试集中的类别可能是训练集中的严格子集;我们使用标准的COCO 2017验证和测试分割，不能保证训练数据中存在的所有类别也存在于验证和测试中。5360书狗框Pillow车咖啡的人…Stapler不适用于：【书】书籍（5）St#$%1（）*+%ctsp/tt01$2/1% 01st#1c% p%3 c#t%$/34服务器t#$%5（678#9st0：%01 st#1c%;#3<01$/=%#c8 c#t%$/3 4St#$%>？2019 - 05 - 22 01：03 02：03 02：04 03 02：03 04：05 03 04：0304 05：05：0605：05S%$;%1t#t0/1#1B：%30=0c#t0/1St#$%D（678#9st0：%#11/t#t0/1：%30=0c#t0/1St#$%E（F%$#t0：%G#*%Gs图4.我们的注释管道包括六个阶段。阶段1：对象定位element-annotators来标记每个图像的许多不同类别的单个实例。这个阶段是迭代的，并导致注释者发现类别的长尾。阶段2：详尽的实例标记扩展了阶段1的注释，以覆盖每个斑点类别的所有实例。这里我们展示了book的其他实例。阶段3和4：实例分割和验证来回重复，直到所有分割的99%通过质量检查。阶段5：详尽的注释验证检查所有实例实际上都是分段的，并标记缺少一个或多个实例的类别。阶段6：通过验证类别的子集未出现在图像中来分配3. 数据集构建在本节中，我们提供了注释管道的概述用户界面的例子是在补充。33.1. 注释管道图4通过显示每个阶段的输出来说明我们的注释管道，我们将在下面描述目前来看假设我们有一个固定的类别词汇V。我们将在第3.2节中描述词汇是如何收集的。目标识别第一阶段目标定位阶段的目标是：（1）为每个类别c ∈ V生成正集Pc;（2）引出词汇回忆，使得数据集中包含许多不同的对象类别。对象定位是一个迭代过程，其中每个图像的访问次数是可变的。在第一次访问时，注释者被要求用一个点标记一个对象，并使用自动完成文本输入将其命名为类别c ∈ V 在随后的每一次访问中，所有先前发现的ob-将显示一个注释器，并要求注释器标记先前未标记的类别的对象，或者如果V中没有更多的类别可以被发现，则跳过当一个图像被跳过3次时，它将不再被访问。的对所有同义词的集合执行自动完成，并提供它们的定义;我们在内部将所选择的单词映射到其同义词集/类别以解析同义词。在这个迭代过程的早期，明显和突出的对象被发现。随着图像被访问的次数增加，不太明显的物体被发现，包括偶然的、不显著的物体。我们运行两次定位阶段，对于每个图像，我们保留在两次运行中发现的类别。因此，两个人必须独立地商定一个名称，以便将其纳入数据集;这增加了命名一致性。总结阶段1的输出：对于词汇表中的每个类别，我们有一个（可能是空的）图像集，其中每个图像都标记了该类别的一个对象这为每个类别c定义了一个初始正集Pc。[3]参见arXiv上的扩展版本（正在准备中）。详尽的实例标记，第二阶段。这个阶段的目标是：（1）验证阶段1的注释，以及（2）获取每个图像i∈Pc，并用一个点标记i中c的所有在该阶段中，来自阶段1的（i，c）注释者。他们被要求执行两个步骤。首先，向他们展示类别c的定义，并要求他们验证它是否描述了斑点物体。第二，如果匹配，则要求注释器标记同一类别的所有其他实例。如果不匹配，则没有第二步。为了防止频繁类别在数据集中占主导地位并减少整体工作量，我们对频繁类别进行子采样，使得没有一个正集超过数据集中图像的1%。为了确保注释质量，我们在工作池中嵌入了这些是我们知道正确的地面真理的情况我们使用黄金集来自动评估每个注释器的工作质量，以便我们可以将工作导向更可靠的注释器。我们用5注释器，以帮助确保实例级召回。总而言之，从阶段2开始，我们对每个类别c ∈ V的每个图像i ∈Pc进行了详尽的实例发现。实例分割，阶段3。实例分段阶段的目标是：（1）验证来自阶段2的每个标记的对象的类别，以及（2）将每个标记的对象从点注释升级到完整的分割掩模。为此，每对（i，o）图像i和标记对象实例O被呈现给一个注释者，该注释者被要求进行验证。确认O的类别标签是正确的，如果它是正确的，则为它绘制详细的分段掩码（例如，见图（3）第三章。我们使用培训任务来建立我们的质量标准。注释器质量通过黄金集和跟踪每个多边形的平均顶点数进行评估。我们使用这些指标将工作分配给可靠的注释者。总之，从阶段3开始，我们为每个图像和斑点实例配对一个分割掩码（如果它没有被拒绝）。段验证，阶段4。段验证阶段的目标是验证来自阶段3的段掩码我们将每个分割显示为5361我我最多5个注释者，并要求他们使用标题如果两个或多个注释器拒绝了掩码，那么我们重新排队实例进行阶段3分割。因此，我们只接受分割，如果4注释者同意它是高质量的。来自阶段3的不可靠的工人不被邀请在阶段4中判断分割;我们还使用此阶段的拒绝率来监视注释器的可靠性。我们在阶段3和阶段4之间总共进行了四次重新注释，每次只重新注释被拒绝的实例。总结阶段4的输出（在阶段3来回迭代之后）：我们具有用于> 99%的所有标记对象的高质量分割掩模。全面召回验证，第5阶段。完全回忆验证阶段最终确定肯定集。我们的目标是找到图像i ∈ Pc，其中c没有被详尽地注释。我们通过询问注释者i中是否有类别c的未分割实例来做到这一点。我们要求最多5个注释者，并要求至少4个同意注释是详尽的。作为一旦两个人相信它不是，我们就将穷举注释标志ec标记为假。我们用一套黄金来保持质量。总结第5阶段的产出：我们有一个布尔值标记ec，用于每个图像i ∈ Pc，指示类别c是否在图像i中被过度注释。这最终确定了正集及其实例分割注释。负集，第六阶段。流水线的最后阶段是为词汇表中的每个类别c收集负集合Nc我们通过随机采样图像i ∈ D\Pc来做到这一点，其中D是数据集中的所有图像。对于每个采样图像i，我们询问最多5个注释者类别c是否出现在图像i中。如果任何一个注释者报告它是这样的，我们就拒绝这个图像。否则，i被添加到Nc。我们采样，直到负集Nc达到数据集中图像的1%的目标大小。我们用一套黄金来保持质量。总而言之，从阶段6开始，对于每个类别c ∈ V，我们有一个负图像集Nc，使得该类别不会出现在Nc中的任何图像中。3.2. 词汇建构我们通过一个迭代过程来构建词汇表V，该过程从一个大型超级词汇表开始，并使用对象定位过程（阶段1）来筛选它。我们从8.8k同义词集是从WordNet中通过删除一些明显的情况（例如，专有名词），然后找到与高度具体的普通名词的交集[2]。这产生了一个高召回率的具体集合，因此可能是视觉的入门级同义词集。然后，我们应用对象定位到10k COCO图像与自动完成对这个超级词汇。这就产生了一个减少的词汇量，我们可以再次重复这个过程。最后，我们执行微手动编辑。有关更多详细信息，请参阅补充资料。[3]最终的词汇表包含1723个同义词--这是LVIS中可以出现的类别数量的上限LVIS COCO ADE20K打开图片归一化宽度图5.四个数据集的归一化图像坐标中的对象中心分布LVIS、COCO和ADE 20K中的对象分布均匀（LVIS中的对象比COCO中的略不居中另一方面，开放图像表现出强烈的中心偏见。4. 数据集分析为了进行分析，我们使用建议的管道对5000张图像（COCOval2017我们将通过讨论一般的数据集统计接下来之前，参见第4.2节中的注释一致性分析和第4.3节中的评价方案分析。4.1. 数据集统计数据分类统计。在5000个LVIS图像中有977个类别。类别增长率（见图）。9）表明最终的数据集将有超过1000个类别。平均而言，每个图像都用11.2从3.4个类别的实例。最大的实例-每图像计数是一个显着的294。图图6a示出了每个图像的LVIS我们的数据集的低拍摄性质可以在图中看到。图6b绘制了每个类别的实例总数（在5000个图像中）。中值为9，虽然这个数字对于完整的图像集来说会更大，但这个统计数据突出了我们数据的挑战性长尾性质。空间统计。我们的对象定位过程（阶段1）鼓励包括分布在整个图像平面的对象效果可以在图中看到。图5显示了物体中心密度图。虽然LVIS、COCO和ADE20K中的对象分布相当均匀，但Open Images中的对象可能由于半自动注释而表现出目标中心的均匀分布是检测数据集的一个重要特征，也是COCO算法产生的核心动机，COCO算法强调上下文检测。LVIS共享此属性。规模统计。LVIS中的对象也更可能是小的。图6c示出了物体掩模的相对尺寸分布：与COCO相比，LVIS对象趋向于更小并且存在更少的大对象（例如，占据图像大部分的对象的出现频率为10×10）。总体而言，ADE20K的大型对象最少，中型对象较多标准化高度536210110010−110−20 5 10 15 20数量的类别1031021011000 200 400 600 800 1000分类索引10110010−110−2LVISCocoADE20K0.0 0.2 0.4 0.6 0.8 1.0相对分割掩码大小(a) 图像中类别的分布。LVIS的尾巴比COCO和Open Images更重。ADE20K具有最均匀的分布。(b) 每个类别的实例数量（在5k图像上）揭示了长尾，只有很少的例子。橙色圆点：与COCO相似。(c) LVIS、COCO和ADE 20K之间的相对分割掩模大小（掩模面积除以图像面积的平方根）比较。图6.数据集统计。最好用数码观看1.00.90.80.70.60.50 20 40 60 80 100实例百分比1.00.80.60.40.20.00 20 40 60 80 100图像类别对的百分比（i，c）掩码IoU：0.91边界质量：0.82掩码IoU：0.94边界质量：0.99(a) LVIS分割质量通过我们的注释管道的两次运行中匹配实例之间的掩码IoU来测量。来自运行的掩码与数据集平均IoU 0.85一致。(b) LVIS识别质量通过F1分数来衡量，该分数在我们的注释管道的两次运行中给出了匹配的实例。类别标记与数据集平均F1得分0.87一致。(c) 图为面具IoUvs.边界质量，以提供直观的解释图。7A（左）和Tab。1a（数据集注释与下面是专家注释图7.使用来自LVIS的5000个双注释图像的注释一致性。最好用数码观看。数据集比较掩模是说IOU中值边界质量平均中值数据集vs. 专家0.830.880.77专家1vs.专家20.910.960.92数据集vs. 专家0.840.900.83专家1vs.专家20.900.950.90数据集vs. 专家0.900.940.87专家1vs.专家20.930.960.91数据集注释源边界复杂性平均中值数据集5.13专家6.94数据集6.00专家6.34数据集6.35专家7.13(a) 对于每个指标（掩码IoU，边界质量）和每个统计量（平均值，中位数），我们显示了自举95%置信区间。LVIS在所有测量中具有最高的质量。(b) 注释复杂度的比较。边界复杂度是周长除以平方根面积[1]。表1.与专家相关的注释质量和复杂性4.2. 注释一致性注释管道重复性。可重复的注释流水线意味着生成地面实况数据的过程不是过度随机的为了理解可重复性，我们对5000张图像进行了两次注释：在完成对象定位（阶段1）之后，我们有每个类别c的初始正集合Pc;然后我们执行阶段2到5（穷举实例标记，通过完全召回验证）两次，以便产生双注释的正集合。为了比较它们，我们为每个图像和类别对计算它们之间的匹配我们找到一个匹配，最大化总掩码的交集超过联盟（IoU）的总和对匹配的对然后丢弃任何与IoU 0.5匹配的项。<给定这些匹配，我们计算数据集平均掩码IoU（0.85）和数据集平均F1得分（0.87）。直观地说，这些量描述了质量这些指标的累积分布（图）。7a和7b）表明，即使匹配是建立的，基于低IoU阈值（0.5），匹配的掩码往往具有高得多的IoU。结果显示，大约50%的匹配实例的IoU大于90%，大约75%的图像类别对具有完美的F1得分。综合来看，这些指标强烈表明，我们的生产线有很大程度的可重复性。与专家注释器的比较。为了测量分割质量，我们从LVIS、COCO和ADE 20K中随机选择了100个掩模面积大于322像素的实例我们将这些实例（由边界框和类别表示）提交给两个独立的专家，并要求他们使用专业的图像编辑工具分割每个对象。我们在Tab中使用掩码IoU和边界质量（边界F[20]）1a. 结果（Boot-95%的置信区间）表明，我们的面具高品质，在两种测量上都超过了COCO和ADE 20K（见图7c为直觉）。同时，LVIS中的对象具有更复杂的边界[1]（表1）。（见第1b段）。图像开放20KAdeOCOCLVIS图像百分比掩模质量（IoU）实例数识别质量（F1）实例百分比536336.432.423.715.39.8424038363450100200 500 1000 2000 500042403836345 10204080160320640 12804030201001 k3.5k10k35k118kMax|Nc|（max）|Pc| = inf）(a) 给定固定的检测，我们展示了AP如何随最大值而变化|Nc|，评估中使用的每个类别的最大阴性图像数。Max|Pc|（max）|Nc| = 50）(b) 与图中相同的检测。8a和max| Nc| =50，我们展示了AP如何随着最大值的变化而变化|Pc|，最大正集大小。图像中的训练集大小(c) 低拍摄检测是一个开放的问题：在1 k图像上训练Mask R-CNN将COCO val 2017mask AP从36%降低到10%。图8.使用COCO和来自LVIS的 5000个注释图像进行检测实验最好用数码观看100075050025000 2000 4000带注释的图像1005001-20例21-200> 2000 2000 4000带注释的图像表2.COCO训练的Mask R-CNN在LVIS符号上评估两种注释产生相似的AP值。4.3. 评价方案LVIS上的COCO探测器。为了验证我们的注释和联合数据集设计，我们从Detectron Model Zoo [7]下载了三个Mask R-CNN [9选项卡. 图2显示，对于所有模型，框AP和掩码AP在我们的注释和来自COCO的原始注释之间都很接近，这些注释跨越了很宽的AP范围。这一结果验证了我们的注释和评估协议：即使LVIS使用稀疏注释的联邦数据集设计联邦数据集模拟。了解AP如何随正集和负集大小变化|Pc|和|Nc|，我们从COCO随机抽取较小的评估集val2017并重新计算AP。为了绘制四分位数和最小值-最大值范围，我们对每个设置重新测试20次。在图8a中，我们使用所有正实例进行评估，但改变最大|Nc|在50到5K之间。随着负面图像数量的增加，AP会有所下降（0.02分），因为负面与正面示例的比例随着固定的|Pc|及─压痕|Nc|.接下来，在图8b中，我们设置max| Nc|=50和变化|Pc|.我们观察到，即使有一个小的正集大小为80，AP是类似的基线与低方差。随着较小的正集（下降到5）方差增加，但AP差距从第一四分位数到第三四分位数保持在2点以下。这些模拟与COCO探测器一起在LVIS上进行测试（表1）。2）表明，包括每个类别的较小的评估集是可行的评估。低拍摄检测。为了验证低拍摄检测是一个具有挑战性的开放问题的说法，我们在COCOtrain 2017范围的随机子集上训练了Mask R-CNN。图9.（左）随着更多的图像被注释，新的类别被发现。（右）因此，低镜头类别（蓝色曲线）的比例仍然很大，缓慢下降。从1k到118k的图像。对于每个子集，我们通过网格搜索优化了学习率调度和权重衰减。val2017的结果见图。8c.在1k图像处，掩模AP从36.4%（完整数据集）下降到9.8%（1k子集）。在1k子集中，89%的类别具有超过20个训练实例，而低命中文献通常考虑每个类别20个示例[8]。我们估计LVIS中大约50%的类别将有<20个训练实例，见图2。9（右），接下来讨论。低射类别统计。图9（左）示出了作为数据集中的图像计数的函数的分类增长曲线（在5k个图像中多达977个类别）。外推轨迹，我们的最终数据集应该包括超过1k个类别（词汇量上限为1723）。请注意，LVIS的低拍摄性质在很大程度上与数据集的规模无关，图。9（右）。也就是说，即使注释图像的数量增加，也会添加具有很少标记示例的新5. 结论我们引入了LVIS，这是一个新的数据集，旨在首次对实例分割算法进行严格的研究，这些算法可以识别大量的对象类别词汇（>1000），并且必须使用能够应对低拍摄学习的开放问题而LVIS强调从少数例子中学习，数据集并不小：它将跨越164k图像并标记1220万个对象实例。每个对象实例都使用超过相关数据集的注释质量的高质量掩模进行分割。我们计划将LVIS建立为一个基准挑战，我们希望这将导致令人兴奋的新对象检测，分割和低拍摄学习算法。掩模AP %掩模AP %掩模AP %数量的类别Mask R-CNN测试年份箱AP掩模APR-50-FPNCoco38.234.1型号：35859007LVIS38.834.4R-101-FPNCoco40.636.0型号：35861858LVIS40.936.0X-101-64x4d-FPNCoco47.841.2型号：37129812LVIS48.641.7类别百分比5364引用[1] 弗雷德·阿特尼夫和马尔科姆·D·阿尔努特。形状和图案知觉的定量研究。1956年的心理学讲座. 7[2] 马克·布里斯伯特，艾米·贝丝·沃里纳，维克多·库伯曼。对4万个英语单词词元的具体性评价。行为研究方法，2014年。6[3] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele. Cityscapes数据集用于语义城市场景理解。在CVPR，2016年。2[4] PiotrDolla'r，ChristianWojek，BerntSchiele，andPietroPerona.行人检测：对最新技术水平的评价。TPAMI，2012年。2[5] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.PASCALVisual Object Classes（VOC）挑战赛。IJCV，2010年。2[6] 李飞飞，罗伯·费格斯，皮埃特罗·裴罗纳。对象类别的一次性TPAMI，2006年。2[7] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r 和 KaimingHe 。探测器 https ： //github.com/facebookresearch/detectron，2018年。8[8] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低镜头视觉识别。InICCV，2017. 8[9] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面罩R-CNN。InICCV，2017. 8[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。2[11] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。2[12] Alexander Kirillov 、 Kaiming He 、 Ross Girshick 、Carsten Rothe r和PiotrDo l l a'r 。全视节段在CVPR，2019年。7[13] Alex Krizhevsky Ilya Sutskever和Geoff Hinton使用深度卷积神经网络的Im-ageNet分类。NIPS，2012年。2[14] Alina Kuznetsova ， Hassan Rom ， Neil Alldrin ， JasperUijlings ， Ivan Krasin ， Jordi Pont-Tuset ， ShahabKamali，Stefan Popov，Matteo Malloci，Tom Duerig，et al.开放图像数据集v4：统一的图像分类，对象检测，并在规模视觉关系检测。 arXiv 预印本 arXiv ：1811.00982，2018。3[15] Yann LeCun、Bernhard Boser、John S Denker、DonnieHenderson 、 Richard E Howard 、 Wayne Hubbard 和Lawrence D Jackel。应用于手写体邮政编码识别的反向传播。神经计算，1989年。2[16] Yann LeCun、Corinna Cortes和Christopher J.C.伯吉斯MNIST手写数字数据库。yann.lecun.com/exdb/mnist/，1998年。2[17] 马克·利伯

下载后可阅读完整内容，剩余1页未读，立即下载