全景分割：语义分割与实例分割的统一任务、全景质量度量及性能研究

112 浏览量更新于2023-10-19 收藏 1.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9404全景分割Ale xanderKirillo v1，2KaimingHe1RossGirshick1CarstenRother2PiotrDolla'r11Facebook AI Research（FAIR）2HCI/IWR，海德堡大学，德国摘要我们提出并研究了一个任务，我们命名为panopticsegmentation（PS）。全景分割统一了语义分割（为每个像素分配类别标签）和实例分割（检测和分割每个对象实例）的典型区分任务。所提出的任务需要产生一个连贯的场景分割，是丰富和完整的，一个重要的一步，现实世界的视觉系统。虽然计算机视觉的早期工作解决了相关的图像/场景解析任务，但这些任务目前并不流行，可能是由于缺乏适当的度量或相关的识别挑战。为了解决这个问题，我们提出了一种新的全景质量（PQ）度量，以可解释和统一的方式捕获所有类别（东西和事物）的性能。使用所提出的度量，我们在三个现有的数据集上对PS的人和机器性能进行了严格的研究，揭示了关于任务的有趣见解。我们的工作的目的是恢复社会的兴趣，在一个更统一的图像分割的观点。有关更多分析和最新结果，请查看论文的arXiv版本：https://arxiv.org/abs/1801.00868。1. 介绍在计算机视觉的早期，事物--可数的对象，如人、动物、工具--受到了主要的关注。阿德尔森质疑这种趋势的智慧，[1]提升了研究识别物体的系统的重要性物与物之间的这种二分法一直持续到今天，反映在视觉识别任务的划分以及为物与物任务开发的特定算法中。学习内容通常被称为语义分割，见图1b。由于东西是无定形的和不可数的，这个任务被定义为简单地为图像中的每个像素分配一个类标签（请注意，语义分割将事物类视为东西）。相反，研究事物通常被公式化为对象检测或实例分割的任务，其中，(a) 图像（b）语义分割(c)实例分割（d）全景分割图1：对于给定的（a）图像，我们显示了以下各项的基本事实：（b）语义分割（每像素类标签），（c）实例分割（每对象掩码和类标签），以及（d）提出的全景分割任务（每像素类+实例标签）。PS任务：（1）包含stuff和thing类，（2）使用简单但通用的格式，以及（3）为所有类引入统一的评估度量。全景分割概括了语义和实例分割，我们预计统一的任务将提出新的挑战，并使创新的新方法。目标是检测每个对象，并分别用一个边界框或分割掩模描绘它，见图1c。虽然看似相关，但这两个视觉识别任务的数据集，细节和指标差异很大。语义分割和实例分割之间的分裂导致了这些任务的方法中的平行裂缝填充分类器通常建立在具有扩张[51，5]的完全卷积网[30]上，而对象检测器通常使用对象提议[15]并且是基于区域的[37，14]。在过去的十年里，这些任务的总体算法进展令人难以置信，然而，孤立地关注这些任务可能会忽略一些重要的东西。一个自然的问题出现了：物与物之间能有和解吗？什么是最有效的设计，一个统一的视觉系统，产生丰富和连贯的场景分割？这些问题特别重要，因为它们与现实世界的应用相关，例如自动驾驶或增强现实。9405有趣的是，虽然语义和实例分割主导了当前的工作，但在前深度学习时代，人们对使用各种名称描述的联合任务感兴趣，例如场景解析[42]，图像解析[43]或整体场景理解[50]。尽管具有实际意义，但这一总体方向目前并不受欢迎，可能是由于缺乏适当的衡量标准或识别挑战。在我们的工作中，我们的目标是恢复这一方向。我们提出了一个任务：（1）包含stuff和thing类，（2）使用简单但通用的输出格式，（3）引入统一的评估指标。为了清楚地与以前的工作消除歧义，我们将由此产生的任务称为全景分割（PS）。“全景”的定义我们为全景分割采用的任务格式很简单：必须为图像的每个像素分配一个语义标签和一个实例ID。具有相同标签和id的像素属于同一对象;对于填充标签，忽略实例ID。请参见图1d的可视化。这种格式以前已经被采用，特别是通过产生非重叠实例分割的方法[18，28，2]。我们采用它为我们的共同任务，包括东西和东西。全景分割的一个基本方面是用于评估的任务度量。虽然许多现有的度量对于语义或实例分割是流行的，但是这些度量分别最适合于东西或事物，但不是两者都适合。我们相信，使用不相交的指标是社区通常孤立地研究东西和事物分割的主要原因之一。为了解决这个问题，我们引入了全景质量（PQ）度量见第4节。PQ是简单和翔实的，最重要的是可以用来衡量性能的东西，以统一的方式。我们希望，拟议的联合衡量标准将有助于更广泛地采用联合任务。全景分割任务包括语义和实例分割，但引入了新的算法，出租mic挑战。与语义分割不同，它需要区分各个对象实例;这对全卷积网络提出了挑战。与实例分割不同，对象分段必须是非重叠的;这对独立地在每个对象上操作的基于区域的方法提出了挑战。生成解决东西和事物之间不一致的连贯图像分割是迈向现实世界用途的重要一步由于PS的基础事实和算法格式必须采用相同的形式，因此我们可以对全景分割的人类一致性这使我们能够更详细地了解PQ指标，包括识别与分段和填充与事情的表现。此外，测量人类PQ有助于我们理解机器性能。这一点很重要，因为它将使我们能够监测PS的各种数据集上的性能饱和度最后，我们进行了初步研究的机器性能的PS。为此，我们定义了一个简单且可能是次优的启发式算法，该算法通过一系列合并其输出的后处理步骤（本质上是一种复杂的非最大抑制形式）来组合两个独立我们的启发式为PS建立了一个基线，并让我们深入了解它所带来的主要算法挑战。我们在三个流行的分割数据集上研究了人类和机器的性能，这些数据集都有东西和东西的注释。这包括Cityscapes [6]、ADE20k[54]和Mapillary Vistas [35]数据集。对于这些数据集中的每一个，我们直接从挑战组织者那里获得了最先进方法的结果。在未来，我们将把我们的分析扩展到COCO [25]，在COCO [4]上有注释。我们在这些数据集上的结果共同构成了研究这两个人的坚实基础人和机器在全景分割上的表现。COCO [25]和Mapillary Vistas [35]都将全景分割任务作为ECCV 2018识别挑战我们希望，在这些流行的识别数据集上，将PS与实例和语义分割轨道一起使用，将有助于更广泛地采用拟议的联合任务。2. 相关工作新的数据集和任务在计算机视觉的整个历史中发挥了关键作用它们有助于促进我们领域的进步和突破，同样重要的是，它们帮助我们衡量和认识我们社区正在取得的进展。例如，ImageNet[38]帮助推动了最近深度学习技术在视觉识别中的普及[20]，并证实了数据集和任务可能具有的潜在变革力量我们引入全景分割任务的目标是相似的：挑战我们的社区，推动研究在新的方向，并使预期和意想不到的创新。我们接下来回顾相关任务。目标检测任务。使用ad-hoc数据集进行人脸检测的早期工作（例如，[44，46]）帮助推广了边界框对象检测。后来，行人检测数据集[8]帮助推动了该领域的进展。PAS- CAL VOC数据集[9]将任务升级为更具挑战性的图像上更多样化的一般对象类。最近，COCO数据集[25]将检测推向了实例分割的任务。通过制定这项任务并提供高质量的数据集，COCO帮助定义了一个新的令人兴奋的研究方向，并导致了实例分割的许多最新突破[36，24，14]。我们对全景分割的总体目标是相似的。语义分割任务。语义分割数据集有着丰富的历史[39，26，9]，有助于推动9406关键创新（例如，完全卷积网络[30]使用[26，9]进行解这些数据集包含stuff和thing类，但最近，该领域出现了许多新的分割数据集，包括 Cityscapes [6] 、ADE20k [54]和Mapillary Vistas [35]。这些数据集实际上支持语义和实例分割，并且每个数据集都选择为这两个任务提供单独的跟踪。重要的是，它们包含PS所需的所有信息。换句话说，全景分割任务可以在这些数据集上自举，而无需任何新的数据收集。多任务学习。随着深度学习在许多视觉识别任务中的成功，人们对多任务学习方法产生了浓厚的兴趣，这些方法具有广泛的竞争力，可以在单个框架中解决多个不同的视觉问题[19，32，34]。例如，UberNet [19]使用单个网络解决了多个从低级到高级的视觉任务，包括对象检测和语义分割。虽然在这方面有很大的兴趣，我们强调，panoptic分割不是一个多任务的问题，而是一个单一的，统一的图像分割视图具体来说，多任务设置允许独立的和潜在的不一致的输出的东西和东西，而PS需要一个单一的连贯的场景分割。联合分割任务。在前深度学习时代，人们对生成连贯的场景解释非常感兴趣。关于图像解析的开创性工作[43]提出了一个通用的基本框架来联合建模分割，检测和识别。后来，基于图形模型的方法研究了一致的东西和事物分割[50，41，42，40]。虽然这些方法具有共同的动机，但没有商定的任务定义，并且使用不同的输出格式和不同的评估指标，包括用于评估物质和事物类结果的单独指标近年来，这一方向已变得不那么受欢迎，也许是因为这些原因。在我们的工作中，我们的目标是恢复这一总的方向，但与以前的工作相比，我们专注于任务本身。具体而言，如前所述，PS：（1）同时处理stuff和thing类，（2）使用简单的格式，以及（3）为stuff和things引入统一形式的度量。以前的联合分割工作使用不同的格式和不相交的metrics评估的东西和东西。生成非重叠实例分割的方法[18，3，28，2]使用与PS相同的格式，但这些方法通常只处理事物类。通过使用简单的格式和引入统一的度量标准来处理东西和事物，我们希望鼓励更广泛地采用联合任务。非模态分割任务。在[55]中，对象被非模式化地注释：每个区域的全部范围都被标记，而不仅仅是可见的。我们的工作重点是分割的所有可见区域，但扩展panoptic分割的amodal设置是未来工作的一个有趣的方向。3. 全景分割格式任务格式。全景分割的格式定义简单。给定由L：={0，. . . ，L-1}，该任务需要全景分割算法将图像的每个像素i映射到对（li，zi）∈ L × N，其中li表示像素i的语义类，zi表示其实例id.zi地面实况注释的编码相同。模糊或类外像素可以被分配一个特殊的空标签;即，并非所有像素都必须具有语义标签。东西和标签。语义标签集包括的子集LSt和LTh，使得L=LSt<$LTh和LSt<$LTh=<$。这些子集分别对应于stuff和thing标签当像素被标记为li∈ LSt时，其对应的实例idzi是不相关的。即对于填充类所有像素属于同一实例（例如，同样的天空）。否则，具有相同（li，zi）分配的所有像素，其中li∈LTh，属于相同的实例（例如，同样的汽车），反之，属于sin的所有像素gle实例必须具有相同的（li，zi）。选择哪些类是stuffvs.事情是留给数据集创建者的设计选择，就像以前的数据集一样。与语义分割的关系。 PS任务格式是语义分割格式的严格概括。事实上，这两个任务都需要为图像中的每个像素分配一个语义标签。如果基础事实没有指定实例，或者所有类都是stuff，那么任务格式是相同的（尽管任务度量不同）。此外，包含事物类（每个图像可能具有多个实例）区分了任务。与实例分割的关系。实例分割任务需要一种方法来分割图像中的每个对象实例。然而，它允许重叠的片段，而全景分割任务只允许一个语义标签和一个实例id被分配给每个像素。因此，对于PS，通过构造不可能有重叠。在下一节中，我们将说明这种差异在绩效评估中起着重要作用。置信度得分。类似于语义分割，但不类似于实例分割，我们不需要与PS的每个分段相关联的这使得全景任务相对于人和机器对称：两者必须生成相同类型的图像注释。它还使评估PS的人类一致性变得简单。这与实例分割形成对比，实例分割不容易服从这样的研究，因为人类注释者不提供明确的置信度分数（尽管可以测量单个精度/召回点）。我们注意到，置信度分数给予下游系统更多的信息，这可能是有用的，因此在某些设置中，仍然希望PS算法生成置信度分数9407|TP|4. 全景分割度量在本节中，我们将介绍一种新的全景分割度量。我们首先注意到，现有的度量标准是专门用于语义或实例分割的，不能用于评估涉及stuff和thing类的联合任务以前关于联合分割的工作通过使用独立的度量（例如，[50、41、42、40]）。然而，这给算法开发带来了挑战，使比较更加困难，并阻碍了通信。我们希望引入一个统一的度量的东西和事物将鼓励研究的统一任务。在进一步讨论细节之前，我们首先确定PS的合适指标的以下必要条件：等网站和资源度量应该以统一的方式处理stuff和thing类，捕获任务的所有方面。可解释性。我们寻求一个具有可识别意义的指标，以促进沟通和理解。简单。此外，度量应该易于定义和实现。这提高了透明度，并允许容易地重新实现。与此相关的是，应该能够有效地计算以实现快速评估。在这些原则的指导下，我们提出了一个新的泛光质量（PQ）度量。PQ测量预测的全景分割相对于地面实况的质量它包括两个步骤：（1）分段匹配和（2）给定匹配的PQ计算。我们接下来描述每个步骤，然后返回到与现有指标的比较。4.1. 片段匹配我们指定预测段和地面实况段只有在它们的交集大于并集（IoU）严格大于0.5时才能匹配。该要求与全景分段的非重叠属性一起给出了唯一的匹配：可以存在与每个地面实况分段匹配的最多一定理1. 给定图像的预测和真实全景分割，每个真实分段可以具有最多一个对应的预测分段，其中IoU严格大于0.5，反之亦然。证据假设g是一个真实片段，p1和p2是两个预测片段。根据定义，p1<$p2=<$（它们天空天空人人人人狗人人草GGRRASSSS地面实况预测人员-TP：{，}; FN：{}; FP：{}图2：图像的地面实况和预测全景分割的玩具说明。相同颜色的线段对的IoU大于0.5，因此是匹配的。我们展示了如何将人类的片段划分为真阳性TP，假阴性FN和假阳性FP。因此，如果IoU（p1，g）>0. 5，则IoU（p2，g）必须小于0.5。颠倒p和g的角色可以用来证明只有一个地面真值片段可以具有严格大于0.5的预测片段的IoU。匹配的要求必须具有大于0.5的IoU，这反过来又产生了唯一匹配定理，实现了我们所期望的两个属性。首先，它是简单和有效的，因为对应是唯一的和微不足道的获得。其次，它是可解释的，易于理解（并且不需要解决复杂的匹配问题，这是这些类型的度量的常见情况[13，49]）。请注意，由于唯一性属性，对于IoU> 0.5，任何合理的匹配策略（包括贪婪和最优）都将产生相同的匹配。对于较小的IoU，将需要其他匹配技术;然而，在实验中，我们将表明，较低的阈值是不，因为IoU ≤ 0.5的匹配在实践中是罕见的。4.2. PQ计算我们计算PQ为每个类独立和平均年龄的类。这使得PQ对类不平衡不敏感.对于每个类别，唯一匹配将预测和地面实况片段分成三个集合：真阳性（TP）、假阳性（FP）和假阴性（FN），分别表示匹配的片段对、不匹配的预测片段和不匹配的真实片段。图2中示出了一个示例。给定这三个集合，PQ定义为：不重叠）。以来|皮比山|≥ |G|，我们得到以下结果：PQ=Σ（p，g）∈TPIoU（p，g）.（一）|皮比山||p i∩g||+1|FP|+1 |FN|FN|对于i ∈ { 1，2 }，IoU（p i，g）=≤。22|p i∪ g||g|检查后PQ直观：1Σ（p，g）∈TPIoU（p，g）对i求和，由于|p1β g|+的|p2β g|≤ |G|由于p1=p2=p2，我们得到：是匹配段的平均IoU，而1|FP|+1|FN|加到分母上，2 2IoU（p，g）+IoU（p，g）≤ |p1β g|+的|p2 βg|≤ 1。12|G|没有匹配的片段。请注意，所有段都接收同样重要的是，不管它在哪个领域。此外，如果我们将PQ乘以TP集的大小，9408PQ可以被视为分割质量（SQ）项和识别质量（RQ）项的乘积来估计准确率/召回率曲线。请注意，虽然置信度分数对于对象检测来说是非常自然的，PQ=n（p，g）∈TPIoU（p，g）|TP||TP|×|TP |+1 |FP |+1 |FN|.（二）不用于语义分割。因此，AP不能用于测量语义分割的输出，或者22`s分割质量（SQ）x`分割质量（RQ）X这样写，RQ是常见的F1分数[45]，广泛用于检测设置中的质量估计[33]。SQ是匹配段的平均IoU。我们发现PQ = SQ × RQ的分解，以提供分析的见解。但是，我们注意到，这两个值并不相同-因为SQ仅在匹配的段上测量我们对PQ的定义实现了我们的愿望。它使用简单且可解释的公式以统一的方式衡量所有类别的性能。最后，我们讨论如何我们处理空区域和实例组[25]。作废标签。在地面实况中有两个空标签的来源：（a）类外像素和（b）模糊或未知像素。由于我们通常无法区分这两种情况，因此我们具体地：（1）在匹配期间，从预测中移除在地面实况中被标记为空的预测片段中的所有像素，并且不影响IoU计算，以及（2）在匹配之后，移除包含超过匹配阈值的空像素的分数的不匹配的预测片段，并且不计为误报。最后，输出也可能包含空像素;这些不影响评估。分组标签。一个常见的注释实践[6，25]是使用组标签而不是实例ID来表示相邻的如果很难准确描述每个实例，则可以使用相同语义类的立场。对于PQ计算：（1）在匹配期间，不使用组区域，以及（2）在匹配之后，去除包含来自相同类别的组的超过匹配阈值的一部分像素的不匹配的预测段，并且不将其计为假阳性。4.3. 与现有产品的比较我们的结论是比较PQ现有的指标语义和实例分割。语义分割度量。语义分割的常用指标包括像素准确度、平均准确度和IoU [30]。这些度量仅基于像素输出/标签进行计算，并完全忽略对象级标签。例如，IoU是正确预测的像素与每个类的预测或地面实况中的像素总数由于这些度量忽略了实例标签，因此它们不太适合评估事物类。最后，请注意，语义分割的IoU与我们的分割质量（SQ）不同，后者是根据匹配片段的平均IoU计算的。实例分段指标。实例分割的标准度量是平均精度（AP）[25，13]。AP要求每个对象段具有置信度分数PS也是如此（另见§3中关于置信度的讨论）。全景质量。 PQ以一种统一的方式对待所有的类（东西和事物）。我们注意到，虽然将PQ分解为SQ和RQ有助于解释结果，但PQ不是语义和实例分割指标的组合。相反，SQ和RQ是为每个类（东西和事物）计算的，并分别测量分割和识别质量。因此，PQ统一了所有类的评估我们通过严格的实验来评估第7节中的PQ，包括分别与IoU和AP进行语义和实例分割的比较。5. 全景分割数据集据我们所知，只有三个公共数据集同时具有密集语义和实例分割注释：城市景观[6]，ADE20k [54]和Mapillary Vistas [35]。我们使用所有三个数据集进行全景分割。此外，在未来我们将把我们的分析扩展到COCO[25]这是一个很好的例子[4]。Cityscapes[6]有5000张城市环境中以自我为中心的驾驶场景的图像（2975张火车，500张val和1525张测试）它具有19个类的密集像素注释（97%覆盖率），其中8个具有实例级分割。ADE 20k[54]有超过25k张图像（20k训练，2k val，3k测试），这些图像使用开放词典标签集进行了密集注释。在2017年的Places Challenge2中，选择了100件物品和50件物品，覆盖了所有像素的89%。我们在学习中使用这个封闭的词汇。Mapillary Vistas[35]有25k街景图像（18k火车，2kval，5k test），分辨率范围很广。数据集的6. 人体一致性研究全景分割的一个优点是它能够测量人类注释一致性。除了这本身作为一个有趣的目的之外，人类一致性研究使我们能够详细了解这项任务，包括我们提出的指标的细节和人类一致性在各个轴上的分解。这使我们能够深入了解任务所带来的内在挑战，而不会使我们的通过算法选择进行分析。此外，人类研究有助于奠定机器性能的基础（在第7节中讨论），并使我们能够校准对任务的理解。1COCO实例分割包含重叠。我们收集了COCO中所有重叠实例对的深度排序，以解决这些重叠：http://cocodataset.org/#panoptic-2018。2http://placeschallenge.csail.mit.edu9409地板地毯建筑有轨电车图3：分割缺陷。图像被缩放和裁剪。顶行（远景图像）：两个注释器都将对象标识为一辆车，但是一个人把车分成两辆车。底行（城市景观图像）：分割是真正模糊的。图4：分类缺陷。图像被缩放和裁剪。顶行（ADE 20k图像）：简单的错误分类底行（城市景观图像）：这个场景非常困难，电车是这个片段的正确类别。许多错误很难解决。PQ城市景观69.7ADE20k 67.1景观57.5PQSt71.370.362.6PQTh67.465.953.4平方84.285.879.5SQ街 SQTh84.483.985.585.981.677.9RQ82.178.071.4RQStRQTh83.4八十二82.4七十PQS PQM PQL SQS SQM SQL RQS RQM RQL城市景观35.162.384.8 67.881.089.9 51.576.5 94.1ADE20k 49.969.479.078.084.087.864.282.5八十九点八景观35.647.769.470.176.683.151.562.3八十二点六表1：人的一致性的东西与。东西全景、分割和识别质量（PQ、SQ、RQ）按类别平均（PQ=SQ×RQ/类别）报告为百分比。令人惊讶的是，我们发现每个数据集上的人类一致性是相对相似的。人类注释。为了实现人类一致性分析，数据集创建者慷慨地为我们提供了30张Cityscapes的双注释图像，64张ADE20k的双注释图像和46张Vistas的双注释图像。对于Cityscapes和Vistas，图像由不同的注释器独立地注释。ADE20k由一名训练有素的注释员进行注释，该注释员标记同一组图像，间隔为六个月。为了测量人类注释者的全景质量（PQ），我们将每个图像的一个注释视为地面实况，另一个请注意，PQ是对称的w.r.t.基本事实和预测，所以顺序并不重要。人性的一致性。首先，表1显示了每个数据集上的人类一致性，以及PQ分解为分割质量（SQ）和识别质量（RQ）。正如预期的那样，人类在这项任务中并不完美，这与[6，54，35]中的注释质量研究一致。人类分割和分类错误的可视化分别如图3和图4所示我们注意到，表1建立了每个数据集上注释者一致性的度量，而不是人类一致性的上限。我们进一步强调，数字在数据集之间不具有可比性，不应用于评估数据集质量。类的数量、注释像素的百分比和场景复杂度在数据集之间各不相同，每一个都显著影响注释难度。表2：人类一致性与比例尺，适用于小型（S）、中型（M）和大型（L）对象。尺度在确定全景分割的人-人一致性在所有数据集上，对于大型物体SQ对于小物体是相当合理的。东西vs.东西 PS需要对东西和事物进行分割。在表1中，我们还示出了PQSt和PQTh，这是在材料类和事物类上平均的PQ，re-bind。对于Cityscapes和ADE20k来说，人类对东西和事物的一致性很接近，在Vistas上，差距有点大。总的来说，这意味着stuff和things有类似的难度，尽管thing类有点难。我们参考arXiv版本的论文，以进一步分析该度量。小VS。大型物体。为了分析PQ如何随对象大小而变化，我们通过分别考虑每个数据集中最小的25%、中间的50%和最大的25%的对象，将数据集划分为小（S）、中等（M）和大（L）对象在表2中，我们看到对于大对象，所有数据集的人类一致性都相当好。对于小对象，RQ显著下降，这意味着人类注释者通常很难找到小对象。然而，如果发现小的对象，则其被相对较好地分割。7. 机器性能基线我们现在提出用于全景分割的简单机器基线。我们感兴趣的三个问题：（1）如何启发式组合的最高性能的实例和语义分割系统进行全景分割？(2)PQ与AP和IoU等现有指标相比如何？(3)机器的结果与我们之前介绍的人类结果相比如何？9410城市景观APAPNOPQThSQThRQTh城市景观IOUPQStSQStRQStMask R-CNN+COCO36.433.154.079.467.8PSPNet多尺度[53]80.666.682.279.3Mask R-CNN [14]31.528.049.678.763.0[53]第五十三话79.665.281.678.0ADE20kAPAP编号 PQThSQThRQThADE20kIOUPQStSQ街RQSt[31]第三十一话30.124.841.181.649.6[12]第十二话32.327.461.933.7G-RMI [10]24.620.635.379.343.2G-RMI [11]30.619.358.724.3表3：实例分割的机器结果（忽略填充类）。非重叠的预测，获得使用提议的APNO是非重叠预测的AP。正如预期的那样，去除重叠会损害AP，因为检测器受益于预测多个重叠假设。具有更好的AP的方法也具有更好的APNO和同样改进的PQ。算法和数据。我们想了解现有的完善的方法方面的因此，我们创建了一个基本的PS系统，通过应用合理的语法（稍后描述）现有的顶级实例和语义分割系统的输出。我们获得了三个数据集的算法输出。对于Cityscapes，我们使用当前领先算法（PSPNet [53]和Mask R-CNN）[14]分别用于语义和实例分割）。对于ADE20k，我们收到了2017年Places Challenge的1k测试图像子集上的语义 [12 ， 11] 和实例 [31 ， 10 对于用于 LSUN'17Segmentation Challenge的Vistas，组织者为我们提供了1k个测试图像以及实例和语义分割轨道的获奖作品的使用这些数据，我们首先分别分析实例和语义分割任务的PQ，然后检查完整的全景分割任务。请注意，我们的例如细分例如分割算法Rithms产生重叠的段。为了测量PQ，我们必须首先解决这些重叠问题。为此，我们开发了一个简单的非最大抑制（NMS）的程序。我们首先根据置信度对预测片段进行排序，并删除得分较低的实例然后，我们从最有信心的开始，对排序后的实例进行排序对于每个实例，我们首先去除已经分配给先前片段的像素，然后，如果片段的足够部分剩余，则我们接受非重叠部分，否则我们丢弃整个片段。通过网格搜索选择所有阈值以优化PQ。Cityscapes和ADE20k的结果如表3所示（Vistas被省略，因为它只有一个2017年实例挑战的条目）。最重要的是，AP和PQ密切跟踪，我们预计检测器的AP的改进语义分割语义分割设计上没有重叠的部分，因此我们可以表4：语义分割的机器结果（忽略事物类）。具有更好的平均IoU的方法也显示出更好的PQ结果。请注意，G-RMI具有相当低的PQ。我们发现这是因为它产生了许多图像中不存在的小块类。虽然这只会轻微影响计数像素错误的IoU，但会严重降低计数实例错误的PQ。直接计算PQ。在表4中，我们比较了平均IoU，这个任务的一个标准度量，到PQ。对于Cityscapes，方法之间的PQ差距对应于IoU差距。对于ADE20k，差距要大得多。这是因为IoU计算正确预测的像素，而PQ在实例级别上操作。详情见表4标题全景分割。为了产生PS的算法输出，我们从前面描述的类似NMS的过程的非重叠实例段开始。然后，我们将这些片段与语义分割结果相结合，通过解决事物类和事物类之间的任何重叠来支持事物类（即，具有事物和材料标签的像素被分配事物标签及其实例ID）。这种启发式是不完美的，但足以作为基线。表5比较了在组合（“全景”）结果上计算的PQSt和PQTh对于这些结果，我们使用来自每个相应竞赛的获胜条目用于实例和语义任务。由于重叠是以有利于事物的方式解决的，因此对于全景预测，PQTh是恒定的，而PQSt略低图5中示出了全景输出的可视化。人类vs. 机器全景分割。为了让人类与机器PQ，我们使用上面描述的机器全景预测。对于人类结果，我们使用§6中描述的双注释图像，并使用bootstrap- ping来获得置信区间，因为这些图像集有小到这些比较是不完美的，因为它们使用不同的测试图像并且在不同的类上平均（省略了在双注释测试集中没有匹配的一些类），但是它们仍然可以给出一些有用的信号。我们在表6中进行了比较。对于SQ来说，机器人只稍微落后于人类。另一方面，机器RQ显著低于人类RQ，特别是在ADE 20k和Vistas上。这意味着承认，分类是当前方法的主要挑战。总的来说，人类和机器的性能之间存在着巨大的差距。我们希望这一差距将激励未来研究提出的全景分割任务。9411图5：Cityscapes（左二）和ADE 20k（右三）上的全景分割结果。预测基于最先进的实例和语义分割算法的合并输出（参见表3和表4）。匹配片段的颜色（IoU> 0.5）匹配（交叉阴影图案表示不匹配的区域，黑色表示未标记的区域）。最佳的彩色和缩放观看。城市景观PQ PQSt PQTh城市景观PQ SQ RQPQStPQTh机器分离n/a66.654.0人类69.6+2。5-2。784.1+0。8-0。882.0+2。7-2。971.2+2。3-2。567.4+4。6-4。9机器全景61.266.454.0机61.280.974.466.454.0ADE20kPQ PQSt PQThADE20kPQ SQ RQPQStPQTh机器分离n/a27.441.1人类67.6+2。0-2。085.7+0。6-0。678.6+2。1-2。171.0+3。7-3。266.4+2。3-2。4机器全景35.624.541.1机35.674.443.224.541.1远景PQ PQSt PQTh远景PQ SQ RQPQStPQTh机器分离n/a43.735.7人类57.7+1。9-2。079.7+0。8-0。771.6+2。2-2。362.7+2。8-2。853.6+2。7-2。8机器全景38.341.835.7机38.373.647.741.835.7表5：全景与独立预测。“机器分离”行示出了独立计算的语义和实例分割方法的PQ（也参见表3和表对于由于所使用的合并试探法，PQTh保持不变，而PQSt略微降级。8. 全景分割的未来我们的目标是通过邀请社区探索新的全景分割任务，推动研究向新的方向发展我们认为，拟议的任务可以导致预期和意想不到的创新。最后，我们讨论了其中的一些可能性和我们未来的计划。出于简单性的考虑，本文中的PS这种方法是基本的第一步，但是我们期望引入更多的互操作算法具体来说，我们希望看到PS至少在两个领域推动创新：（1）深度集成的端到端模型，同时解决PS的双重东西本质设计了一些实例分割方法，包括[28，2，3，18表6：人与机器性能在每个考虑的数据集上，人类的一致性远远高于机器的性能（近似比较，详见文本）。对于RQ尤其如此，而SQ更接近。ADE20k上的差距最大，Cityscapes上最小请注意，由于只有一小部分人类注释可用，因此我们使用自举并显示人类结果的第5和第产生非重叠的实例预测，并可以作为这样一个系统的基础。(2)由于PS不能具有重叠的段，因此某种形式的更高级别的我们希望全景分割任务将振兴这些领域的研究，从而在视觉方面取得令人兴奋的新突破。最后，我们注意到，全景分割任务被COCO [25]和Mapillary Vistas [35]识别挑战作为挑战轨道，并且所提出的任务已经开始在社区中获得牵引力（例如，[23，47，48，27，22，21，17]地址PS）。鸣谢：这项工作部分由欧盟研究委员会（ERC）根据欧盟地平线2020研究和创新计划（GR）资助。#647769）。预测地面实况图像9412引用[1] 爱德华·H·阿德尔森。看东西：人类和机器对材料的感知。人类视觉和电子成像，2001年。1[2] Anurag Arnab和Philip HS Torr。使用动态实例化网络的逐像素实例分段。在CVPR，2017年。二、三、八[3] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在CVPR，2017年。三、八[4] Holger Caesar Jasper Uijlings和Vittorio FerrariCOCO-材料：上下文中的事物和东西类。在CVPR，2018年。二、五[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos ， KevinMurphy ， andAlanLYuille.DeepLab：使用深度卷积网络、无纹理卷积和全连接CRF进行语义图像分割。PAMI，2018年。1[6] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。二三五六[7] Chaitanya Desai ， Deva Ramanan ， and Charless CFowlkes.多类别物件布局的判别模型。IJCV，2011年。8[8] P. 多尔阿尔角沃杰克湾Schiele 和P. 佩洛娜行人检测：对最先进技术的评估。PAMI，2012年。2[9] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman。PASCAL视觉对象类的挑战：回顾。IJCV，2015年。二、三[10] Alireza Fathi，Nori Kanazawa，and Kevin Murphy.地点挑战2017：实例细分，G-RMI团队。2017. 7[11] Alireza Fathi，Kai Yang，and Kevin Murphy.地方挑战2017：场景分析，G-RMI团队。2017. 7[12] 傅军，刘静，郭龙腾，田海杰，刘飞，卢汉庆，李勇，鲍勇军，严伟鹏.地点挑战2017：场景解析，CASIAIVA JD团队。2017. 7[13] BharathHariharan，PabloArbela' ez，RossGirshick，andJi-tendra Malik.同时检测和分割。2014年，在ECCV。四、五[14] Kaimi ngHe，Geor giaGkioxari，PiotrDolla'r，andRossGir-shick.面罩R-CNN。InICCV，2017. 一、二、七[15] J. 霍桑河贝嫩森山口 Doll a'r和B. 席勒什么是有效的检测建议？PAMI，2015年。1[16] J Hosang，R Benenson和B Schiele。学习非最大抑制.PAMI，2017年。8[17] Alexander Kirillov ， Ross Girshick ， Kaiming He ， andPiotr Doll a'r. 光学特性金字塔网络工作。在CVPR，2019年。8[18] Alexander Kirillov，Evgeny Levinkov，Bjoern Andres，Bog- dan Savchynskyy，and Carsten Rother.InstanceCut：从边到实例。在CVPR，2017年。二、三、八[19] Iasonas Kokkinos UberNet：使用不同的数据集和有限的内存训练一个通用的卷积神经网络，用于低，中，高层次的视觉。在CVPR，2017年。3[20] Alex Krizhevsky Ilya Sutskever和Ge

下载后可阅读完整内容，剩余1页未读，立即下载