未来视觉识别的下一个前沿：语义非模态分割

83 浏览量更新于2023-10-15 收藏 2.49MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1语义非模态分割YanZhu1，2，YuandongTian1，DimitrisMetaxas2，和PiotrDolla'r11Facebook AI Research（FAIR）2罗格斯大学摘要常见的视觉识别任务，如分类，对象检测和语义分割正在迅速达到成熟，并且考虑到最近的进展速度，推测这些问题中的许多问题的技术将在未来几年内接近人类的性能水平在本文中，我们展望未来：视觉识别的下一个前沿是什么？我们对这个问题提供了一个可能的答案。我们提出了一个详细的图像注释，捕捉信息以外的可见像素，并需要复杂的推理完整的场景结构。具体来说，我们创建了每个图像的非模态分割：每个区域的全部范围都被标记，而不仅仅是可见像素。注释器勾勒并命名图像中的所有显著区域，并指定部分深度顺序。结果是丰富的场景结构，包括每个区域的可见和被遮挡部分、图形-背景边缘信息、语义标签和对象重叠。我们创建了两个数据集的语义amodal分割。首先，我们在BSDS数据集中标记了500张图像，每张图像有多个注释器，使我们能够研究人类注释的统计数据。我们表明，建议的全场景注释是令人惊讶的一致性之间的一个notators，包括区域和边缘。第二，我们从COCO中提取了5000张图片这个更大的数据集使我们能够探索一些算法的想法非模态分割和深度排序。我们为这些任务引入了新的指标，并结合我们强大的基线，为社区定义了具体的新挑战。1. 介绍近年来，视觉识别任务，如图像分类[22，16]，对象检测[10，35，13，33]，边缘检测[2，8，44]和语义分割[36，30，26]已经见证了巨大的进步。这是由大规模图像数据集的可用性[9，5，24]以及具有大规模模型容量的深度学习技术的复兴[22，39，40，16]驱动的。考虑到最近的进展速度，人们可能会猜想，图1：语义非模态分割的示例。给定一个图像（左上），注释器分割每个区域（右上）并指定部分深度顺序（左中）。由此，可以获得可见的边缘（中右）以及每个边缘的图形-背景分配（未示出）。所有区域都有不同的注释：标记每个区域的全部范围，而不仅仅是可见像素。示出了四个带注释的区域以及它们的语义标签和深度顺序（底部）;注意，每个区域的可见部分和被遮挡部分都被注释。因为这些任务中的许多将迅速接近人类的性能水平。事实上，初步证据已经存在，这已经是ImageNet分类的情况[20]。在这项工作中，我们要求：视觉识别的下一个挑战是什么？我们期望未来的视觉识别系统具备哪些能力我们从人类视觉系统的研究中获得灵感。人类感知的一个显着特性是我们的视觉系统可以轻松地插入图像中无法直接看到的信息[29]。一个特别突出的例子，也是我们关注的，是一种非模态感知：感知1464狐狸，狐狸，D=2狐狸，D=3树，D=41465当只有一部分可见时，整个物理结构[18，29，42]。人类可以很容易地感知部分被遮挡的物体，并猜测它们的真实形状。为了鼓励具有类似功能的机器视觉系统的研究，我们要求人类受试者对图像中的区域进行非模态注释。具体来说，注释器被要求标记每个区域的完整范围，而不仅仅是可见像素。注释器勾勒并命名图像中的所有显著区域，并指定部分深度顺序。其结果是一个丰富的场景结构，包括每个区域的可见和遮挡部分，图形-背景边缘信息，语义标签和对象重叠。见图1精明的读者可能会问：非模态分割甚至是一个适定的注释任务吗？更准确地说，多个注释者是否会就给定图像的注释达成一致？为了研究这些问题，我们要求多个注释者标记BSDS数据集中的所有500张图像[2]。我们设计的注释任务的方式，鼓励一个- notators考虑对象的关系和原因有关的场景几何。这导致了注释者之间的一致性，这是令人惊讶的强大。特别是，我们的数据比原始BSDS标签具有更高的区域和边缘一致性。同样，注释者倾向于同意非模态完成。我们报告了一个彻底的研究人类的perfor-曼斯上的非模态分割使用这些数据，也用它来训练和评估国家的最先进的边缘检测器。除了BSDS数据之外，我们还使用来自COCO的5000张图像注释了第二个更大的语义非模态分割数据集[24]。为了达到这个规模，COCO中的每个图像都由一个专家注释器加上严格的质量控制进行注释。数据集分为2500/1250/1250张图像，分别用于训练/验证/测试。我们引入了新的评价指标，用于测量非模态段质量和区域段的成对深度排序。我们目前不使用语义标签进行评估，因为它们来自一个开放的词汇表;然而，我们表明，收集这些标签是获得高质量的amodal注释的关键。所有列车和val注释以及评估代码将公开发布。最后，COCO上更大的注释集合使我们能够为非模态分割和深度排序训练强大的基线。为了执行非模态分割，我们将最近的模态分割算法[31，32]扩展到非模态设置。我们训练两个基线：首先，我们训练了一个深度网络来直接预测非模态掩码，其次，由[23]驱动，我们训练了一个模型，该模型采用模态掩码并试图扩展它。这两种变体都比模态对应物获得了很大的增益，特别是在严重遮挡的情况下。我们还尝试使用深度网络进行深度排序，并实现了80%以上的准确率。我们具有挑战性的新数据集，指标和强大的基线为社区定义了具体的新挑战，我们希望它们将有助于刺激新的研究方向。图2：非模态与模态分割：每个图像对的左侧（红色框）显示区域的模态分割（仅可见像素），而右侧（绿色框）显示非模态分割（可见和插值区域）。在这项工作中，我们要求注释者对区域进行无模式分割。注意，非模态段的形状比模态段简单。1.1. 相关工作非模态感知[18]在心理物理学文献中得到了广泛的研究，综述见[42，29]。然而，非模态完成，以及知觉分组的许多原则，经常通过简单的说明性例子来证明，据我们所知，没有大规模的非模态分割的自然图像数据集。模态分割1数据集更常见。其中最著名的是BSDS数据集[2]，它已被广泛用于训练和评估边缘检测[6，8，44]和分割算法[2]。BSDS后来扩展了图形-背景边缘标签[12]。这种注释风格的缺点是缺乏清晰的指导方针，导致注释者之间的不一致。非限制模态分割的一种替代方法是语义分割[36，25，37]，其中每个图像像素被分配一个来自固定类别集的唯一标签（例如，草、天空、人）。这些数据集比BSDS具有更高的一致性。但是，标签集通常很小，单个对象不被描绘，并且注释是模态的。值得注意的例外是StreetScenes数据集[4]，它包含一些以非模态方式标记的类别，以及PASCAL上下文[28]，它使用一个大的类别集。最接近我们的数据集是Maire等人的分层场景数据集。[27]，其目的是捕捉遮挡，图形-背景排序和对象-部分关系。该数据集包含100幅图像的令人难以置信的丰富和详细注释。我们的数据集有一些相似之处，但更容易收集，使我们能够扩展。同样，可视化基因组[21]也提供了丰富的注释，包括深度排序，但不包括分割。与对象检测数据集[9，5，24]相比，我们的一个符号是密集的，非模态的，并且覆盖了对象和重新检测。1在术语滥用中，我们使用模态分割来指代仅对区域可见部分的注释。这使我们可以很容易地将其与非模态分割（全区域范围注释）区分开来。1466(a) 深度排序（b）边共享图3：我们用于语义非模态分割的注释工具的屏幕截图（采用Open Surfaces工具[3]）。gions。相关的数据集，如Sun [43]，有模式注释的对象LabelMe [34]确实有一些注释，但注释不一致。只有对于行人检测[7]，对象通常被标注为非模态（可见和非模态边界框）。我们注意到我们的注释方案包含模态分割[2]，边缘检测[2]和图形-背景边缘标记[12]。由于我们的COCO注释（5000图像）比BSDS（500图像）[2]大一个数量级，BSDS是这些任务的先前事实数据集，我们希望我们的数据对这些经典任务非常有用。最后，有一些关于非模态完成[14，15，38，19]和深度排序[41，45]的算法工作特别令人感兴趣的是，Keet al. [23]最近提出了一种非模态分割的通用方法，作为我们的基线之一的基础（见§5）。然而，大多数现有的识别系统都是基于每个补丁或每个窗口进行操作，或者具有有限的感受野，包括对象检测[10，35，13]，边缘检测[6，8，44]，和语义分割[36，30，26]。我们的数据集将对这些方法提出挑战，因为非模态分割需要对对象交互进行推理。2. 数据集注释对于我们的语义非模态分割，我们扩展了Bell等人的开放表面注释工具。[3]，见图3。原始工具允许通过为每个指定闭合多边形来标记图像中的多个区域;COCO的注释也采用了相同的工具[24]。我们以多种方式扩展了该工具，包括区域排序、命名和改进的编辑。有关详细情况，包括处理极端情况，我们请读者参阅补充资料。我们将开源更新的工具。我们发现四个准则是获得高质量和一致注释的关键：（1）仅语义上有意义的区域应当被注释，（2）图像应当被密集地注释，（3）所有区域应当在深度上被排序，以及（4）共享区域边界应当被标记。图4：（a）我们要求注释者安排区域深度顺序。右边的面板给出了前景中两个人的正确深度顺序，而左边的面板则相反。（b）必须标记共享区域边缘以避免重复边缘。与常规边不同，共享边没有图形-背景边。这些指导方针鼓励注释者考虑对象关系和场景几何的原因，并已在实践中证明是有效的，如我们在§4中所示。(1) 语义标注：注释者被要求命名所有注释区域。从感知上看，一个片段可以被命名的事实意味着它有一个定义良好的原型，并且对应于一个语义上有意义的区域。这个标准导致了对注释粒度的自然约束：材料边界和对象部分（即，内部边缘）如果它们不可命名，则不应被注释。此外，在此约束下，注释器更有可能在区域的被遮挡部分上具有一致的先验在实践中，我们发现，强制区域命名导致更一致和更高质量的amodal注释。(2) 密集注释：要求注释器密集地标记图像，特别是在最小尺寸（600像素）上的所有前景对象应该被标记。特别重要的是，如果注释区域被遮挡，则遮挡物也应当被注释。当所有的前景regions注释和指定的深度顺序，每个注释区域的可见和被遮挡的部分被确定，因为是可见和隐藏的边缘。(3) 深度排序：注释器被要求指定所有区域的相对深度顺序，参见图4a。特别地，对于两个重叠区域，遮挡者应该优先于被遮挡者。在不明确的情况下，深度顺序被指定为使得边缘被正确地眼睛在脸前面）。对于非重叠区域，任何深度顺序都是可接受的。深度排序鼓励注释器对场景几何体（包括遮挡）进行推理，因此提高了amodal注释的质量。(4) 边缘共享：当一个区域遮挡另一个区域时，图形-背景关系是明确的，并且分隔区域的边缘属于前景区域。然而，当两个区域相邻时，边是共享的并且不具有图形接地侧。我们要求注释器显式地标记共享边，从而避免重复边，见图4b.与其他条件一样，这鼓励注释器推理对象交互和场景几何体。我们建议读者参考补充材料，了解有关注释工具和管道的更多详细信息。1467BSDS COCObsd系统Cocoann/image5-71原始模态阿莫达尔模态阿莫达尔区域/ann7.39.2简单.801.718.834.746.856点/区域6446凸性.664.616.643.658.685像素覆盖百分之八十四百分之六十九密度百分之一点八1.57%1.97%1.71%2.10%闭塞率百分之六十二百分之六十一occ/region百分之二十一百分之三十一时间/多边形68s41s时间/地区时间/ann2米2米15m 18m（a）数据集汇总统计（b）最常见的语义标签图5：（a）BSDS和COCO数据集汇总统计。COCO图像更杂乱，导致统计数据的一些差异（例如，较高的区域/ANN和较低的像素覆盖）。(b)我们的BSDS注释中的前50个语义标签。大致来说，蓝色的字表示表1：BSDS和COCO上模态和非模态段之间的形状和边缘统计比较。非模态段倾向于具有相对简单的形状，其独立于场景几何形状和遮挡模式（也参见图2）。有趣的是，原始的BSDS注释（第一列）甚至比我们的模态注释更简单最后，最后一行报告边缘密度。与独立于场景几何形状和遮挡模式的模态段相比（见图2）。我们用定义在线段S上的以下两个统计量（形状凸性和简单性）来验证这一观察结果：3. 数据集统计数据面积（S））convexity（S）=Area（ConvexHull（S））√（一）本节中的分析主要基于BSDS数据集[2]中的500张图像，这些图像已用于简单性（S）=4π面积（S）周长（S）（二）用于边缘检测和模态分割。对相同的图像进行非模式化的标注允许我们将我们提出的标注与原始标注进行比较。虽然所有以下分析都基于这些图像，但我们注意到我们对COCO [24]的注释的统计数据是相似的（它们略有不同，因为COCO图像更混乱）。图5a总结了我们的数据统计。500个BSDS图像中的每一个由5到7个注释者独立地注释。平均每个图像注释由7.3个标记区域组成，每个区域多边形由64个点组成。约84%的图像像素被至少一个区域多边形覆盖。在所有区域中，62%部分闭塞，平均闭塞率为21%。注释单个区域需要102分钟。其中，一半的时间花在初始多边形上，其余的时间花在命名、深度排序和多边形细化上。注释整个图像需要1500万美元，尽管这取决于图像的复杂性和注释者的技能。语义标签：图5b显示了我们数据中的前50个语义标签，单词大小表示区域频率。标签可以让我们深入了解被标记的区域以及注释的粒度。大多数标签对应于基本级别类别，并引用整个对象（而不是对象部分）。使用常用术语[1，11]，我们明确地将标签分为两类：“事物”和“东西”，其中“事物”是具有规范形状的对象（人、鱼、花），而“东西”具有一致的视觉外观，但可以具有任意的空间范围（草、云、水）。“东西”和“东西”标签在我们的数据中都很普遍（东西占我们地区的四分之形状复杂度：非模态线段的一个重要特性是它们的形状相对简单具有大的凸性和简单性值的段意味着它是简单的（并且两个度量都达到其最大值1。0为圆）。表1显示非模态区域确实比模态区域简单，这验证了我们的假设。由于它们的简单性，非模态区域实际上可以比模态区域更有效地标记。我们还比较了原始（模态）BSDS注释（表1的第一列）。有趣的是，原始的BSDS注释甚至比我们的模态注释更简单。从质量上看，最初的注释者倾向于更简单的形状和更平滑的边界。边缘密度：表1的最后一行显示，我们的数据集标记的可见边缘比原始BSDS注释少（边缘密度是边缘像素的图像像素百分比）。这是必然的情况，因为材料边界和对象部分（即，内部边缘）在我们的数据中没有注释。请注意，在§ 4中，我们证明了尽管我们的边缘图密度稍低，但它们可以用于有效地训练最先进的边缘检测器。遮挡：图6a示出了遮挡水平的直方图（定义为被遮挡的区域面积的分数大多数区域被轻微遮挡，而一小部分区域被严重遮挡。我们还显示了3个不同遮挡水平的遮挡示例。场景复杂度：在深度排序的帮助下，我们可以使用有向无环图（DAG）来表示区域。具体地说，我们画一个有向边缘从区域R1到区域R2，如果R1在空间上重叠R2和R1前的深度排序R2给定对应于图像注释的DAG，可以分析一些量。首先，图6b显示了每个DAG的连接组件（CC）数1468量。大多数注释只有一个CC，14690C000一 B0 0.2 0.4C00.6 0.81堵塞程度B一BCCB一一41003806024012001 2 3 4 5 6连接组件数量(a)详细的遮挡统计（b）每个注释252020151510105505101520253035每个CC的区域数（CC大小）02 4 6 8101214#层/CCB(c)连通分量大小（d）每个连通分量图6：详细的数据集统计。详情见正文如实施例A所示如果区域是分散和断开连接的图像将有更多的CCCC的大小测量有多少区域相互重叠，这又给出了场景复杂度的隐式测量图6c示出了多个示例。更复杂的场景（示例B和C）具有较大的CC最后，DAG中任何CC的最长有向路径表征了正确排序DAG中所有区域所需的最小深度层数量注意，深度层的数量通常小于CC的大小例如具有许多非重叠前景对象和单个公共背景的大CC仅需要两个深度层。图6d示出了每个CC所需的深度层的数量的分布大多数组件只需要几个深度层，尽管有些组件要复杂得多。图7进一步研究了CC大小与排序所有区域所需的最小深度层数量之间的相关性。我们观察到，必要的深度层的数量似乎随着CC大小的增长而增长1086422 4 8 16每个CC的区域图7：表示连通分量（CC）所需的最小深度层数量。详情见正文4. 数据集一致性接下来，我们的目标是表明语义非模态分割是一个适定性的注释任务。具体来说，我们表明，独立的注释者之间的协议是高的。一致性是任何人类标记数据集的关键属性，因为它使机器视觉系统能够学习定义良好的概念。在接下来的两节中，我们分析了BSDS上数据集的区域和边缘一致性。作为基线，我们与原始（模态）BSDS注释进行比较。一BCCB一B一C一C百分百分百分百分层数147025201510500 0.51(a) 区域一致性201510500.40.6 0.8 1(b) 边缘一致性train / testODSbsds / bsds .744我们的 / bsds.747bsds /我们的.619我们的 / 我们的SE[8]AP.795.802.603.630HED[44]R50.921.923.761.785ODS.787.775.657.694AP.790.793.578.572R50.855.868.697.752表2：两种最先进边缘图8：（a）原始模态BSDS注释和我们的非模态区域的成对区域一致性得分的直方图。(b)可见边缘的成对边缘一致性4.1. 区域一致性为了衡量区域的一致性，我们使用Intersection overUnion（IoU）来匹配区域。两个线段之间的IoU是它们相交的面积除以它们联合的面积。我们将IoU的阈值设置为0.5，并使用二分匹配来匹配两组区域。我们依次将每个注释设置为基础事实，对于其他每个注释，我们计算精确度（P）和召回率（R），并通过F度量总结结果：F= 2PR/（P+R）。对于n个注释器，这会为每个图像产生n（n-1）个F分数在图8a中，我们显示了来自[2]的原始BSDS模态注释和我们提出的数据集中的非模态注释在数据集的每个分割中的F我们的非模态区域的区域一致性大大高于原始模态区域的一致性：中位数为0.723对0.425。尽管我们的非模态区域包括每个区域的可见部分和被遮挡部分。我们注意到，我们的注释的模态区域一致性是0.756，略高于非模态区域，正如预期的那样。若干因素有助于我们各区域的一致性。最重要的是，我们为注释者提供了更有针对性的说明;具体来说，我们要求注释者只标注语义上有意义的区域，并标注所有前景对象，参见§2。因此，这项任务的内在模糊性就减少此外，在模态分割中，注释的详细程度实质上影响区域一致性。图9示出了注释者对区域的可见部分和被遮挡部分的各个区域的自然，注释对于具有简单形状和很少遮挡的区域是最一致的另一方面，当物体高度铰接和/或严重闭塞，注释者往往不同意更多。4.2. 边缘一致性给定非模态注释和深度排序，以及所有前景区域都被注释的约束，我们可以计算可见图像边缘的集合。接下来，我们验证所获得的边缘图的质量。首先，为了测量注释器之间的边缘一致性，我们计算每对注释之间的F分数探测器对于SE，即使在原始BSDS边缘上进行测试，在我们的数据集上进行训练也可以提高性能。对于HED，使用相同的训练/测试组合可以最大限度地提高性能。这些结果表明，我们的数据集是有效的边缘检测。详情见[2]。图8b显示了边界一致性分数。我们的非模态数据集中的边缘比原始BSDS注释中的边缘更一致（中位数一致性为0.795 vs0.728）。虽然我们的边缘更加一致，但边缘也不那么密集（见表1）。为了评估使用我们的数据进行边缘检测的有效性，我们测试了两种流行的最先进的边缘检测器：结构化边缘（SE）[8]和整体嵌套边缘检测器（HED）[44]。跨数据集泛化的结果如表2所示。对于SE，即使在原始BSDS边缘上进行测试，在我们的数据集上进行训练也可以提高性能。对于HED，使用相同的训练/测试组合可以使性能最大化。这些结果表明，我们的数据集是有效的边缘检测。然而，请注意，我们的测试集实际上更难，因为只有语义边界被注释。最后，我们衡量人类的表现。与[2]中一样，我们将一个注释作为检测，将其他注释的并集作为基础事实（请注意，这与图8b中使用的1-vs-1方法不同在原始的BSDS测试集上，精确率/召回率/F-Score分别为.92/.73/.81。在我们的测试集上，人类的表现要高得多，分数是.98/.83/.90. 然而，特别令人感兴趣的是差距-人与机器之间的关系在原始的BSDS注释中，HED达到了0.79的ODS，而人类的F分数是0.81，仅留下0.02的差距然而，在我们的注释中，HED下降到0.69，而人类F分数增加到0.90。因此，与原始注释不同，我们的数据集为最新技术的改进留下了很大的空间。5. 指标和基线我们的目标是制定措施来量化我们数据上的算法性能。我们首先重申，我们丰富的注释subsequently许多经典的分组任务，包括- ING模态分割，边缘检测和图形背景边缘标记。事实上，我们的 COCO 数据集（5000张图像）比BSDS（500张图像）大一个数量级，BSDS是之前用于这些任务的事实数据集。我们鼓励研究人员使用我们的数据来研究这些经典任务;对于完善的度量，我们请读者参考[2]。BSDStrainBSDS valBSDS testOur trainOur valOur testBSDStrainBSDS valBSDS testOur trainOur valOur test百分百分1471图9：非模态区域一致性的可视化。蓝色边是可见边，而红色边是遮挡边。Ground truth由一个随机选择的注释器确定。显示区域一致性分数（平均IoU分数）和遮挡率。示例大致按垂直方向一致性递减和水平方向遮挡递增排序。在这里，我们提出了两个简单的指标，专注于我们数据集最突出的方面：分割的非模态性质。预测非模态段需要理解对象的相互作用和关于遮挡的推理。具体而言，我们建议评价：（1）非模态段质量和（2）区域之间的成对深度排序。我们还为每个任务定义了强基线。所有实验都是在5000个COCO注释上进行的，分别分成2500/1250/1250个图像用于训练/验证/测试。我们在val上进行评估，并保留测试图像以用于未来可能的挑战，这是COCO上的最佳实践。5.1. 非模态段质量：为了评估非模态段，我们采用一种流行的对象建议度量：平均召回率（AR），在[ 17 ]中提出并用于COCO挑战。为了计算AR ，在多个IoU阈值（0.5-0.95）下计算片段召回为了扩展到我们的设置，我们简单地根据amodal掩码来测量IoU。我们测量每个图像的1000个片段的AR，也分别为事物和东西。最后，我们报告了不同闭塞水平 q 的 AR：无（ q=0 ），部分（0q≤.25）和重度（q>.25），包括39%，31%和30%的数据。基线：我们使用DeepMask[31]和SharpMask[32]，这是当前最先进的模态类不可知方法。对象分割，作为我们的第一个基线。接下来，受Ke etal.[23]（不适用于我们的设置），我们提出了一个深度网络，我们称之为ExpandMask。ExpandMask将图像块和由SharpMask生成的模态掩码作为输入，并输出非模态掩码。最后，我们训练了一个网络，我们称之为AmodalMask，直接从图像补丁中预测 amodal 掩码。 Ex- pandMask 和AmodalMask与SharpMask共享相同的网络架构（除了ExpandMask添加了一个额外的输入通道并使用了稍大的输入大小）。但是，当AmodalMask以卷积方式运行时，Ex- pandMask在SharpMask段之上进行计算。我们使用DeepMask和SharpMask公开可用的代码和预训练模型。我们在相同的代码库上实现了ExpandMask和AmodalMask我们的模型是从原始模态COCO数据上训练的SharpMask网络初始化的。我们使用我们的amodal训练集进行微调。我们还尝试使用合成的amodal数据（ExpandMaskS和AmodalMaskS）通过随机覆盖原始COCO数据集的对象掩码来微调我们的模型为了重现性，并阐明设计和网络选择，所有源代码将被释放。结果：所有方法的AR见表3a，定性结果见图10。SharpMask是一个强大的基线，特别是对于事物和有限的遮挡下，这是它的训练设置。随着更多的遮挡，非模态基线是优越的，表明这些模型可以预测非模态掩模（然而，它们在未遮挡的对象上更差）。使用合成数据改进AR，增加闭塞递减稠度1472DeepMask [31]AR.378所有reARN.456吉翁ARP.407ARH.248AR.422事情只ARN ARP点四七零点四七三ARH.279AR.248东西ARN.367只ARP.242ARH.199训练回忆测验尖锐口罩45%百分之四十一扩大口罩56%百分之五十一阿莫德面具59%百分之五十四地面真实50%百分百地面100%真实百分百SharpMask [32]扩展面罩S.396.384.493.460.428.415.242.256.448.427.510.474.501.480.275.284.246.258.384.374.243.250.187.212区域y轴.696.711.703.708.719.706.715.702.715.702AmodalMaskS.395.457.424.289.435.468.487.316.282.388.268.246OrderNetB.753.764.770.770.765扩展掩码.417.480.428.327.456.495.488.351.305.387.278.289OrderNetM.786.785.791.810.817AmodalMask.434.470.460.364.458.479.498.376.366.414.365.346OrderNetM+I.793.802.814.869.883(a) 非模态分割评价（b）深度排序评价表3：（a）COCO验证集上多个基线和无、部分和重度闭塞（AR N、AR P、AR H）下的非模态分割质量。(b)应用于各种分割结果的成对深度排序基线的准确性。详情见正文GroundTruth SharpMask AmodalMask图10：非模态掩模预测示例（红色表示遮挡）。SharpMask预测模态掩码; ExpandMask和AmodalMask预测非模态掩码。最后一行显示了一个未被包含的对象，ExpandMask对此过于热心。遮挡区域比SharpMask更好，但落后于使用真实训练数据的准确性。最后，我们注意到，人类在这项任务上的准确性仍然要高得多（见第4节）。5.2. 成对深度排序理解完整的场景结构是一件很困难的事情。相反，我们专注于评估成对的深度排序，这仍然需要对对象交互和空间布局进行推理。具体来说，我们报告预测两个重叠的掩模中哪一个在前面的在train/val集合中存在36 k/23 k重叠掩码。请注意，我们已经将深度排序与掩码预测解耦。由于更高质量的掩模应该更容易订购，我们使用多种分割方法的掩模测试每个排序算法。具体来说，对于每个地面真实掩码，我们首先找到由分段器生成的最佳匹配掩码（IoU至少为0）。5），然后我们仅在这些匹配的掩码上评估深度排序。基线：我们从两个简单的基线开始：按面积排序（前面较小的掩模）和按y轴排序（掩模x-在后面的顶部接下来，我们为这个二进制预测任务实现了一些深度网络：OrderNet B采用两个边界框作为输入，OrderNet M采用两个蒙版作为输入，OrderNet M+I采用两个蒙版和一个图像补丁。OrderNetB使用3层MLP，而其他变体使用预训练的ResNet50模型[16]（略有修改以考虑不同数量的输入通道）。我们为每组掩码训练和测试单独的OrderNet模型。对于每个预测，我们运行两次推理（输入顺序颠倒）并对结果进行平均。结果：我们在表3b中报告了结果。除了从多个分割算法中排序掩码之外，我们还在地面真实掩码上训练和测试OrderNet（使用变化的训练数据量），以捕获掩模质量和数据量对排序精度的作用朴素几何学（面积和y轴）均实现约70%的准确度。OrderNet的表现要好得多，OrderNetM+I在生成的掩码上实现了80%的准确率，在地面实况上实现了90%的准确率。OrderNet受益于更好的掩码（每行从左到右的每一行中的每一个都在增加），召回对的百分比也会轻微影响结果（因为有更多的数据用于训练）。考虑到我们的方法的简单性，这些结果是令人惊讶的强大。6. 讨论我们提出了一个新的数据集来研究知觉分组任务。我们的数据集最显著的特点是区域被无模式地注释：区域的可见部分和被遮挡部分都被标记。其动机是鼓励非模态感知，以及对对象交互和场景结构的推理。大量的分析表明，语义非模态分割是一个适定的注释任务。我们还为建议的任务提供了评估指标和强大的基线。我们希望我们的数据集将有助于激发社区的新研究方向。确认我们要感谢Saining Xie和Yin Li帮助培训HED探测器，并感谢Lubomir Bourdev和Manohar Paluri以及其他许多人进行了宝贵的讨论和反馈。1473引用[1] E. H. Adelson和J. R.卑尔根全光功能和早期视力的要素。视觉处理的计算模型。麻省理工学院出版社，1991年。[2] P. Arbelaez，M.迈尔角Fowlkes和J.马利克轮廓检测与分层图像分割。PAMI，2011年。[3] S. Bell，P. Upchurch，N. Snavely和K.巴拉表面开孔：表面外观的丰富注释目录。SIGGRAPH，2013.[4] S. M. Bileschi。街景：静态图像中的场景理解。博士论文，Citeseer，2006年。[5] J. 邓，W。东河，巴西-地索赫尔湖Li，K.Li和L.飞飞Im-ageNet：一个大规模的分层图像数据库。CVPR，2009。[6] P. 多拉尔，Z。 Tu和S. 贝隆吉边缘和对象边界的监督学习CVPR，2006。[7] P. 多尔阿尔角沃杰克湾Schiele 和P. 佩洛娜行人检测：对最先进技术的评估。PAMI，2011年。[8] P. Dol la'r和C. L. 齐特尼克使用结构森林的快速边缘检测PAMI，2015年。[9] M.埃弗灵厄姆湖，澳-地V. Gool，C. K. I.威廉斯，J. Winn和A.齐瑟曼。PASCAL视觉对象类（VOC）挑战。IJCV，2010年。[10] 费尔岑斯瓦尔布河Girshick，D. McAllester和D.拉玛南。使用区分性训练的基于部分的模型进行对象检测。PAMI，2010年。[11] D. A. Forsyth，J. Malik，M. M. Fleck，H. Greenspan，T.Le-ung，S.贝隆吉角Carson和C.布莱格勒在大量图像集合中查找。Springer，1996.[12] C. Fowlkes，D.马丁和J。马利克局部图形-背景线索对于自然图像是有效的。视觉杂志，2007年。[13] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。[14] R. Guo 和 D. 霍伊姆视线之外：标记下面的曲面。ECCV，2012年。[15] S. Gupta，P. Arbelaez，and J.马利克从RGB-D图像感知CVPR，2013。[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[17] J. 霍桑河贝嫩森山口Doll a'r和B. 席勒什么是有效的检测建议？PAMI，2015年。[18] G.卡尼萨愿景中的组织：完形知觉论。Praeger出版社，1979年。[19] A. Kar，S. Tulsiani，J. Carreira和J.马利克自然景物中的非模态完备性和尺寸恒常性。在ICCV，2015年。[20] A. Karpathy，2015.http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/.[21] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma，M.Bernstein和L.飞飞可视化基因组：使用众包密集图像注释连接语言和视觉。IJCV，2017年。[22] A. 克里热夫斯基岛Sutskever和G.辛顿使用深度卷积神经网络进行ImageNetNIPS，2012年。1474[23] K. Li和J.马利克非模态实例分割。在ECCV，2016年。[24] T.- Y.林，M。迈尔，S。贝隆吉湖布尔代夫河女孩J. 海斯角Perona，D. 拉马南角L. Zitnick和P. 多尔拉。Microsoft COCO：上下文中的公用对象。PAMI，2015年。[25] C. 刘，J.Yuen，和A.托拉尔巴非参数场景解析，通过标签转移。PAMI，2011年。[26] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。[27] M. 迈尔，S。X. Yu，和P.佩洛娜分层场景注释。InBMVC，2013.[28] R. Mottaghi，X. Chen，X. Liu，N.- G.周S W.李，S。菲德勒河Urtasun和A.尤尔。上下文在目标检测和语义分割中的作用在野外CVPR，2014。[29] S. E.帕尔默视觉科学：从光子到现象学。麻省理工学院出版社，马萨诸塞州剑桥，1999年。[30] P. O. Pinheiro和R.科洛伯特用于场景标记的递归卷积神经网络。InICML，2014.[31] P. O.皮涅罗河Collobert和P.美元.学习分割候选对象。2015年，在NIPS[32] P. O. Pinhe i ro，T.- Y. 林河，巴西-地Collobert和P. 娃娃。学习细化对象分段。在ECCV，2016年。[33] S. Ren ， K. 赫利河 Girshick 和 J. 太阳 Faster r-cnn ：Towards real-time object detection with region proposalnetworks.2015年，在NIPS[34] B.罗素，A.托拉尔巴K. P. Murphy和W. T.弗里曼。LabelMe：一个数据库和基于网络的图像注释工具。IJCV，2008年。[35] P.Sermanet，D. Eigen，X. Zhang，M.马蒂厄河Fergus和Y.乐存。Overfeat：使用卷积网络集成识别、见ICLR，2014年。[36] J. Shotton，J.温恩角Rother和A.天啊Texton-Boost：联合外观，形状和上下文建模，用于多类对象识别和分割。在ECCV，2006年。[37] N. Silberman，D. Hoiem、P.Kohli和R.费格斯。室内分割和支持从rgbd图像推断。ECCV，2012年。[38] N.西尔伯曼湖沙皮拉河Gal和P. Kohli。一种用于增强曲面重建的轮廓线补全模型。2014年，在ECCV[39] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年，国际会议[40] C. 塞格迪 W. 刘先生， Y. 贾，

下载后可阅读完整内容，剩余1页未读，立即下载