全景分割中的像素一致性投票

175 浏览量更新于2023-10-20 收藏 1.27MB PDF 举报

卡内基梅隆大学

芝加哥大学

身份认证购VIP最低享 7 折!

30元优惠券

9464用于全景分割的像素一致性投票卡内基梅隆大学whcw@cmu.edu罗若天TTI-Chicagorluo@ttic.edu芝加哥大学mmaire@uchicago.eduGregShakhnarovich TTI-Chicagogreg@ttic.edu摘要我们的方法的核心，像素共识投票，是一个框架，例如分割的基础上，一般化霍夫变换。像素对包含实例质心的可能区域进行离散化的在投票热图中出现的检测到的峰值处，应用反向投影来收集像素并产生实例掩模。与密集枚举对象提案的滑动窗口检测器我们使用卷积神经网络的原生算子实现投票聚合和反向投影。质心投票的离散化将实例分割的训练减少到像素标记，类似于和补充于FCN风格的语义分割，从而产生联合建模事物和材料的高效且统一的架构。我们证明了我们的管道在 COCO 和 Cityscapes PanopticSegmentation上的有效性，并获得了有竞争力的结果。代码将是开源的。1. 介绍视觉识别算法的发展遵循了识别基准的演变。PAS-CAL VOC [13]简化了边界框对象检测和相关IoU/平均精度指标的任务。当时，定义最先进技术的方法，R-CNN [14]和后来的R-CNN家族[17，48]，通过推理密集enumerated框建议来解决对象检测，遵循早期检测器的滑动窗口分类方法[52，51]。SDS [19]扩展了对象检测的范围，包括实例掩码分割，并引入了mAPbbox和mAP掩码的早期版本，随后由COCO数据集[35]推广。然而，边界框仍然是对象推理的主要工具。最近引入的全景分割任务[24]完全消除了盒子的概念。它以统一的格式对待“事物”和“东西”，其中地面实况和预测被表示为标记的分段掩码：对象（“事物”）的实例和类别，只为“物”而生我们的工作集中在图像理解的这个特定框架我们提出了一种方法，像素共识投票（PCV），符合这个更新的任务定义，提升像素的一等公民地位。每个像素都为它可能属于的对象的存在、身份和位置以及对象或物品类别标签提供证据。PCV在Hough变换类框架中聚合并反向投影该证据，使得检测从投票一致对象假设的像素之间的共识中图1总结了我们的方法。值得注意的是，与目前来自R-CNN家族[17，48，20，7]的主要检测工作相比，我们的方法不涉及边界框的推理。它可以被视为早期基于Hough的方法的后代，例如隐式形状模型（ISM）[27，28]。这种方法传统上被称为“自下而上”。与早期的工作不同，PCV利用卷积网络的强大功能来提取丰富的图像特征。由于这些特征具有较大的感受域，并可能捕获高级语义概念，因此不清楚自下而上的指定是否仍然合适。与先前尝试使用投票的另一个区别是我们对这些投票的表示。transmitting方法将投票视为偏移回归，并且遭受“回归到平均值”的问题，其中预测与不确定性合并。在PCV中，我们将对象位置的投票视为离散空间单元的分类。这允许通过非对象像素来表示不确定性和“排除”投票。它还有助于使用（扩张[56]）卷积机制进行有效的投票聚合和反向投影。尽管它的简单性，PCV实现了竞争力的定量结果COCO和Cityscapes全景分割基准。在COCO上，PCV优于所有现有的无建议或单阶段检测方法。我们的工作从现代的角度重新审视了一个经典的想法，我们期望未来的研究扩展我们的方法将产生重大的性能增益和新颖的见解。9465离散化分类投票（转置）卷积反投影滤波图1：PCV概述。左：根据投票过滤器，每个像素周围的大区域被离散化为空间单元，单元的大小随着距离像素越远而分类convnet以包含实例质心的单元格的概率的形式为像素所属的实例的位置投票;像素也可以投票中：来自每个像素的投票被聚合到投票热图中，使用有效的扩张去卷积（转置卷积）。机制热图的峰值区域被视为初始实例检测假设。右图：查询过滤器（投票过滤器的空间反转）与每个峰区域卷积，从投票图反向投影，为该峰生成像素级实例未显示：语义分割分支为事物和东西分配类别，并过滤掉左侧的虚假检测也参见图7 .第一次会议。2. 相关工作滑动窗口检测在过去的二十年里，大多数目标检测和实例分割方法都遵循滑动窗口分类的一般方法早期的密集评估获胜的工作后来被改进为列举和评估选择的建议。这是目前最流行的方法。在典型的流水线中，从输入图像中采样大量候选区域，并且预测器（通常是卷积网络）对每个区域对于排名较高的propos- als，网络还预测其类别，边界框坐标，并可选地生成实例掩码。两阶段方法，如Faster/Mask R-CNN [48，20]使用区域特征池作为注意力机制来提高预测准确性，而单阶段方法，包括YOLO [46]，RetinaNet [34]和SSD[37]，将所有网络决策组合在单个前馈通道中。从像素中分割已经进行了许多尝试来建立图像像素和实例分割之间的直接连接。将像素分组到实例中的一个自然想法是获得用于聚类的像素亲和性的某种度量。在[10，42]中，一个网络被训练来产生像素嵌入，这些像素嵌入在内部是相似的，在不同的实例之间是不同的，并且使用现成的聚类算法进行分组。RPE [26]通过将均值漂移聚类公式化为递归神经网络，将聚类步骤集成到学习过程中。AdaptIS [50]通过一种新的方案进一步改进了区分嵌入的训练提供端到端的监控此外，利用成对像素亲和力中的稀疏性使得可以将聚类步骤实例化为图切割。学习稀疏像素亲和度可以用公式表示为边界检测[25]，或更丰富的多跳扩张连接预测[16，38]。或者，可以使用递归神经网络[47，49]顺序生成实例，或者通过学习的边界距离变换[2]将其视为分水岭盆地广义Hough检测变换霍夫变换[12]将检测分析形状的任务框定为在双参数空间中识别峰;这个想法可以推广到任意对象。广义霍夫变换的要点是收集局部证据，作为对潜在实例的可能位置、尺度和姿态的投票。在这方面的工作，如隐式形状模型[27]依赖于从图像补丁到偏移的记忆映射，并且后来通过使用更先进的学习技术[40，15]进行了改进。它已被应用于各种问题，包括姿态估计[18，4]，跟踪[15]和3D对象检测[45]。我们的工作可以被看作是这些早期努力的后代。最近的一些工作遵循大致相似的哲学，但在许多方面与我们的不同。大多数[41，44，55]将学习投票对象质心作为回归任务，然后将投票表示为参数空间中的点。我们的工作避免了偏移回归的潜在限制，并使用离散化区域分类来捕获像素级的不确定性。我们设计了卷积机制，用于有效的投票聚合和反向投影。9466ΣNi=1在这种分类下。据我们所知，唯一的先前工作使用转置卷积，即。用于基于分类的像素投票的deconv是[32]，应用于单人姿势估计。我们从他们的工作中获得灵感，但动机和实施方式不同语义分割分支全景分割大多数现有的工作通过合并来自例如[20]和语义分割[57，6]的专用组件的输出来解决全景分割。PFPN[23]通过共享建立强大的单一网络基线输入图像实例投票分支可训练扩张去卷积投票热图全景分割实例分割Mask R-CNN [20]和FCN [39]的FPN [33]功能分支机构。[54，29，30，36]使用学习的模块提高分段重叠分辨率。[53，11]通过使用单级物体检测器来权衡性能和速度。无提案方法[50，16，55，8]提供了直接从像素建模实例的新视角，但总体上落后于利用成熟工程解决方案的性能，在具有挑战性的COCO [35]基准上差距特别大。3. 像素共识投票给定一个输入图像，PCV从卷积神经网络开始提取共享表示（特征张量），并将其馈送到两个独立的子分支（图1）。2）。语义分割分支预测每个像素的类别实例投票分支预测每个像素是否是实例掩码的一部分，如果是，则预测实例掩码质心的相对位置。根据投票过滤器，该预测被框定为对像素周围的一组网格单元的分类。两个分支都使用标准交叉熵损失进行训练。来自投票分支的预测被聚合到投票热图（霍夫变换术语中的累加器阵列PCV中的一个关键技术创新是有效实现这一点的扩展卷积机制热图的局部最大值是检测候选。在每个峰值区域，我们卷积一个查询过滤器，以反向投影有利于这个特定峰值高于所有其他峰值的像素。这些像素一起形成类别不可知的实例分割掩码。最后，我们使用一个简单的贪婪策略合并实例和语义分割掩码，产生一个完整的全景分割输出。3.1. 主干和特征提取我们的工作开发了一个Meta架构来建模和分割实例。为此，PCV将物体识别的训练减少到像素标记，这可以通过全卷积网络的各种后代来解决[39]。我们遵循UPSNet [54]的设计，它使用ResNet [33]构建特征金字塔网络（FPN）[ 33 ]。图2：PCV的网络架构。FPN充当语义分割分支和实例投票分支的共享提取器。每个分支预测每个像素的输出，并使用每像素交叉熵损失进行训练。[21 ]第21话大开眼界来自FPN的每个阶段的特征，分别在输入分辨率的1/32、1/16、1/8和1/4处，在被上采样到均匀卷积之前，首先通过共享的可变形卷积模块大小为输入比例的1/4。特征图的通道维数从256减少到128，在通道级连接之前使用1×1卷积。在此之上，我们应用1×1conv，softmax和4×最近邻上采样来生成每个像素的标签。注意，我们使用软-在上采样之前，最大值优先，因为以较低分辨率产生实例掩码更快。语义分割分支预测所有类别的标签，并且与PFPN [23]不同，PFPN将所有“事物”类合并到单个类别中3.2. 区域离散化考虑由一组像素组成的实例遮罩{pi|pi∈R2}N ，实例质心c=1pi.从像素预测相对偏移δi=c-pi通常被视为偏移回归[31，41，55，43]。但是直接回归限制了系统表示不确定性的能力不确定其实例质心位置的像素可能通过在多个候选者之间指向来进行对冲，从而产生虚假峰值和误报。此外，在反投影期间不可能将这些像素归因于对象假设。相反，我们框架的分类，在可能的空间细胞的质心可能驻留。概率直方图产生用于下游推理的显式分布。投票过滤器与YOLO [46]不同，它将整个图像划分为规则平铺的网格，我们考虑以每个像素为中心的区域的离散化。见图1（左）为视觉插图。考虑-FPN9467投票过滤器实例掩码地面实况赋值图4：投票和查询过滤器的网格结构。它覆盖243×243像素的区域，由233个从中心到外围大小为1，3，9，27的图3：投票过滤器和地面实况分配。左图：一个玩具投票过滤器，将像素周围的M×M，M=9区域映射到K=17索引。离散化在外围更粗糙，使用3×3单元。中间：实例蒙版，其中红色像素是蒙版质心。我们需要把蓝色pixel to the centroid质心.右图：将投票过滤器覆盖在蓝色像素的顶部，可以看到蓝色像素的地面实况投票指数为16。对于一个特定的像素pi，我们将以pi为中心的M×M个像素映射到K个离散索引。这种映射可以自然地用大小为M×M的平移不变查找表来记录。通过将查找表覆盖在pi，用于分类的基础真值指数可以直接从实例质心落入的空间单元读取。我们将此查找表称为投票过滤器。图3示出了玩具示例。对于那些对任何实例都不长的填充像素，我们创建一个如果实例质心落在投票过滤器的范围之外，即。像素离质心太远，我们在训练期间忽略它。规模与精度离散化意味着空间精度的损失，但我们认为，知道质心的确切位置是不必要的准确的实例分割。重要的是像素之间的共识，使反投影。大的实例自然可以容忍比小对象更粗糙的预测，如图所示。五、我们构造投票过滤器，使得离实例质心的距离越远，空间单元越大。一个简单的均匀间隔的网格要么太细，引入太多的类让网络学习和收敛，要么太粗，无法准确预测更小的对象。基于这些考虑，我们提出了一个正方形单元格的网格，其大小径向向外扩展，如图所示。4.第一章它涉及在1/4输入处应用于图像的M=243像素的区域上的K=233个单元分辨率，因此在全分辨率下覆盖高达972×9723.3. 转置卷积（Transposed Convolution）实例投票分支产生大小为[H，W，K+1]的张量，其中K+1是不同的可能性的数量，包括填充像素的选择我们大物体的像素只需要粗略估计小物体的像素需要精确图5：投票行为的图示。白点表示我们检查其投票的像素。获得最高投票的单元格显示为白色框，第二高的单元格显示为黄色框。左：远离对象中心的像素（如前面滑雪者的脚）可以提供更多的松弛/空间不确定性，投票给网格周边附近的较大单元。右：靠近对象中心的像素（特别是小对象的任何像素，如远处的滑雪者）需要更高的空间精度，投票给网格中心附近的小单元使用扩张去卷积和平均池化来将概率投票聚集到它们的预期空间位置。回想一下图1中的玩具例子。3.第三章。假设蓝色像素预测概率为0。9，其实例质心落入由9个像素组成的单元16中。投票包括两个步骤：1）转移概率为0。9到单元16，以及2）在9个组成像素之间均匀地共享投票，其中每个像素接收0。1.一、我们用扩张反卷积（deconv）实现步骤1，用平均池化实现步骤2。转置卷积或卷积反卷积可以理解为卷积的反向传递。卷积核将空间信息聚合到单个点，而去卷积核将点信号散布在多个空间位置。它最常用于特征上采样，其中学习内核的参数。然而，出于投票聚合的目的，我们在标记目标位置的每个通道上将deconv内核参数固定为1-hot在这种情况下，膨胀使像素能够将其投票投给远处的点。图3中的玩具投票过滤器将9×9区域离散为边长为1的内部3×3单元，由边长为3的外部3×3单元包围，因此K=9+ 8= 17个投票类。在第1步，在丢弃反对票之后，将沿着通道的[H，W，17]张量分解为大小为[H，W，9]和[H，W，8]的两个分量，并应用大小为[Cin=9，Cout=1，H=3，W=3]的两个解卷积核，其中膨胀110 10 10 999 16 16 1610 10 10 999 16 16 1610 10 10 999 16 16 1611 11 11 218 15 15 1511 11 11 307 15 15 1511 11 11 456 15 15 1512 12 12 13 13 13 14 14 1412 12 12 13 13 13 14 14 1412 12 12 13 13 13 14 14 1410 10 10 999 16 16 1610 10 10 999 16 16 1610 10 10 999 16 16 1611 11 11 218 15 15 1511 11 11 30 715 15 1511 11 11 456 15 15 1512 12 12 13 13 13 14 14 1412 12 12 13 13 13 14 14 1412 12 12 13 13 13 14 14 149468aλ投票过滤器空间反演20 19 18 17 1621 654 1522 703 1423 812 1324 9 10 11 12查询过滤器标签周围的像素应该已经预测，以便已经投票的实例质心是在过滤器放置的中心这种双重关系显示在图的顶行中。六、在反投影过程中，我们首先获得每个像素的argmax索引。这是一个尺寸为[H，W，1]的张量。查询过滤器在峰值处卷积相等比较==-1 -1 18 -1 -19 10 -1 23 821654 15 -1 -1 -1 24 9-1 -10-1 22 6-1 -1 -1 -1248-12 23 703 14 -1249-1 11 12 -11-1 13 -117 16 -1 -1 19 -1 -1 -1 -1 -1每个像素的argmax投票索引然后，在峰值区域内，我们卷积查询过滤器并对Argmax投票索引执行相等比较，以挑选出最强投票落在该峰值区域内的所有像素。参见图6，底行。该操作是可并行的，并且可以实现为在GPU上运行。在实践中，我们将相等性比较扩展到前3个投票，而不仅仅是argmax投票，图6：查询过滤器和反向投影。顶部：查询文件-ter是投票滤波器的空间反转，并且两个滤波器的索引关于中心对称（在此针对两个滤波器中的几个对应单元对突出显示）。投票过滤器捕获像素和周围质心之间的空间关系，而查询过滤器表示质心和周围像素之间的双重关系;底部：查询过滤器在每个峰区域内卷积以生成实例遮罩。为了简单起见，这里的峰值区域是单个红点，但通常是像素的连接分量，因此需要卷积查询过滤器。-1表示其argmax投票决定是保留的像素，即“东西”像素。未投给峰值区域的投票（其中投票和查询过滤器不同意）被忽略。和[Cin=8，Cout=1，H=3，W=3]，其中扩张3以产生两个热图H扩张1，H 扩张3，两者的大小均为[H，W，1]。步骤1之后，所有投票都已发送到中心每个空间细胞。在第2步，我们在每个单元格内均匀地平滑投票。在这种特殊情况下，平滑完全等同于平均池化。我们应用3×3H扩张3的平均合并，以及1×1平均合并Hdilate1（一个恒等运算）。两个热图是汇总在一起，完成最终的投票热图。投票过滤器的其他实例化的投票过程可以类似地完成。其argmax决定是错误的。如果单个像素被多个峰竞争，则该像素被分配给总投票计数最高的峰区域在多个峰值被叠加的边缘情况在相对于像素的相同空间单元内，像素到达空间上最近的峰值（该距离是从峰值区域的封闭边界框的中心到像素测量的）。3.5.分段损失标准化训练一个网络来解决像我们这样的像素标记问题通常涉及对图像上的每像素交叉熵损失进行平均[39]。每个像素对训练的贡献相等，并且不存在实例的概念。这通常是语义分割的情况，因为注释只指定类别。然而，对于全景分割，在评估和训练期间，每个实例段被赋予相等的权重，默认像素平均损失将主要强调大的实例，忽略数量众多且至关重要的小对象因此，我们需要设计一个目标函数来平衡实例之间的损失。设ai表示像素pi所属的掩码段的面积。语义和投票分支的训练损失被归一化为投票热图中的峰值对应于共识检测，我们使用一个简单的阈值策略，然后通过连接组件来定位峰值。我们1L=ΣiwiΣwilog p（yi|第一章（1）我将标识假设实例的峰值区域定义为在对投票热图进行阈值化之后幸存的像素的连接分量。我们设定了阈值值为4。COCO和Cityscapes的价格均为0。见图7 .第一次会议。3.4. 反投影作为滤波反投影的目的是确定每个峰值区域的像素，有利于该特定的最大超过所有其他。为此，我们使用查询过滤器。回想一下，投票过滤器记录了类标签，在过滤器中心对齐的像素应该预测周围区域中给定的可能质心位置查询过滤器是投票过滤器的空间反转。它记录了课堂上其中，yi是地面真值语义/投票标签，并且wi= 1。λ控制归一化的强度当我λ=0，wi=1，我们得到默认的像素平均值损失当λ=1时，我们将每个片段的总损失除以片段面积，这样所有片段对训练的贡献都是相等的。λ=0。5可以被解释为基于长度的归一化，其在像素平均损失和全段归一化之间取得中间地带，损失补偿请注意，stuff和thing片段的处理方式是相同的。最后的损失是语义分割损失和投票损失之和Ltotal=Lsem+Lvote。节中4，我们通过消融实验证明，12 11 10 9 2413 218 2314 307 2215 456 2116 17 18 19 2020 19 18 17 1621654 1522703 1423812 13249 10 11 129469损失标准化显著提高了COCO和Cityscapes的性能。3.6.确定对象类别一旦从反投影中获得实例掩码，我们通过在掩码区域中采用语义分割分支做出的多数决定来预测其类别这一策略类似于[55]所使用的策略。4. 实验我们报告了 COCO [35] 和 Cityscapes [9] PanopticSegmentation的结果。由于PCV将质心预测公式化为区域分类，而不是偏移回归，因此它权衡了预测精度的上限以获得更丰富的表示。我们首先进行Oracle实验，以了解我们系统的潜力。然后，我们比较我们的模型性能COCO和Cityscapes验证集对以前和并发的工作。重点介绍了不同离散化方案和分段损失标准化的使用。4.1. 设置COCO Panoptic Segmentation包括80个事物和53个东西类别。我们使用2017年的分割与118 k训练图像，并在val和test-dev上报告结果。城市景观包括城市街景的图像。我们使用标准的train/val分割，分别包括2975和500张有19个类别，11个东西和8件事。我们通过全景质量（PQ）来衡量性能[24]。PQ可以被解释为反映识别质量RQ和分割质量SQ两者的广义F1分数除了整体PQ，我们还包括PQth和PQst，并特别关注事物类别的性能。4.2. 神使在PCV的投票聚合和反投影步骤中没有可学习的参数，因此一旦骨干网络做出像素分类决策不表1：使用地面真值投票和语义分类标签对COCO和Cityscapesval‘1/4 gt’ is the performance upper boundwhen the output is at 1/4 of input resolution, and thedefault discretization is behind by a small工作，随后的推理是确定性的。因此，我们执行oracle实验，将投票和语义分支的真实分类标签输入到推理管道中。如表1所示，给定我们的默认离散化方案，PCV oracle在COCO和Cityscapes验证集上都实现了PQ中剩余的间隙主要是由于极高遮挡的小实例和具有碰撞质心的实例。我们还显示了另外两个Oracle结果：具有41个投票类的简单径向扩展网格比具有233个投票类的默认网格执行得更差。具有大小为15且总投票过滤器边长为225的均匀间隔箱的均匀网格的尽管它与我们的默认网格具有大致相同数量的分隔类，但均匀的间距严重降低了小实例的性能。4.3. 主要结果和消融对于Cityscapes训练，我们使用批量大小为16的8个GPU，并将输入图像裁剪为1536×1024的统一大小。我们应用随机水平翻转，并将作物的大小从0.5随机缩放到2。该模型训练65个时期（12k次迭代），学习率最初设置为0.01，在9000次迭代时下降10倍。我们使用SGD，动量为0.9，重量衰减设置为1 e-4。对于COCO，我们使用标准的Mask R-CNN1×训练时间表和超参数。输入图像的大小调整为短边长度为800，长边长度不调整大小对于训练和测试都是一致的。左右翻转是唯一使用的数据扩充。我们使用动量为0.9的SGD，并将初始学习率设置为0。0025，重量衰减为0。0001该模型在8个GPU上进行训练，批量大小为16，总共约13个epoch（90k迭代）。学习率在 60k 和 80k 迭代时衰减 10 倍 ResNet 中的BatchNorm [22]层在我们当前的设置中被冻结。在[23，54]之后，对于填充预测，我们过滤掉小的预测片段以减少误报。COCO的阈值设置为4096像素，Cityscapes的阈值设置为2048像素。主要结果我们使用不同的方法比较PCV对代表性方法的性能。在COCO和Cityscapes上，PCV仍然落后于利用Mask RCNN的领先方法，例如分段。在具有挑战性的COCO基准测试中，PCV优于所有其他无提案方法，[53] 它使用RetinaNet进行物体检测。Cityscapes的结果见表4。定性结果显示在图8和图9中。消融：离散化我们通过比较使用简单40单元的模型来PQ平方RQPQth SQth RQth PQs1/4 gt92.5 93.2 99.2 90.6 91.6 98.895.3默认网格90.1 93.0 96.8 86.6 91.3 94.8 95.3Coco简单网格79.2 92.6 85.1 68.6 90.7 75.4 95.3均匀网格67.1 95.8 70.1 49.4 96.0 51.5 93.81/4 gt89.4 89.8 99.6 87.1 87.7 99.491.0默认网格88.6 89.7 98.8 85.4 87.4 97.6 91.0城市景观简单网格83.0 89.3 92.8 72.1 86.6 83.4 91.0均匀网格66.1 92.6 71.8 31.8 94.3 33.4 91.09470图7：PCV中的实例掩码推断的图示。从左到右：输入图像、投票热图、检测到的峰值区域（为每个峰值分配随机颜色）;从颜色匹配区域的反投影得到的六个掩模。PQ SQ RQ PQthSQthRQthPQst默认网格三十七分五77.747.240.078.450.033.7简单网格三十三点三77.241.832.877.440.934.1(a) 分部损失标准化：COCO val的结果，其中λ控制归一化强度。λ=0。5提高了PQth由7点超过常用的像素平均损失。(b) 离散化的影响：与表1中的oracle结果一致，简单网格对于精确定位来说太粗糙，并且默认网格在PQ th上领先COCO val上的7.17个点。表2：消融对分段损失标准化和离散化的方法骨干分裂PQ SQRQPQthSQthRQthPQstSQstRQstPFPN [23]（1x）ResNet 50Val39.4 77.848.345.9 80.955.429.6 73.337.7Mask R-CNNPFPN [23]（3x）ResNet 50Val41.5 79.150.548.3 82.257.931.2 74.439.4UPSNet [54]（1x）ResNet 50Val42.5 78.052.548.6 79.459.633.4 75.941.7SSPS [53]ResNet 50Val32.4--34.8--28.6--单级检测SSPS [53]ResNet 50test-dev32.6 74.342.035.0 74.844.829.0 73.637.7AdaptIS [50]ResNet 50Val35.9--40.3--29.3--[55]第五十五话Xception 71Val33.8--- --- --[55]第五十五话Xception 71test-dev34.3 77.143.137.5 77.546.829.6 76.437.4无提案SSAP [16]ResNet 101Val36.5--- --- --SSAP [16]ResNet 101test-dev36.9 80.744.840.1 81.648.532.0 79.439.3Ours（1x）ResNet 50Val37.577.747.240.078.450.033.776.542.9Ours（1x）ResNet 50test-dev37.777.847.340.778.750.733.176.342.0表3：COCO的比较。PCV优于无建议和单状态检测方法。简单的网格可能使学习更容易，但由于粗略的离散化而牺牲了预测精度。表4：使用ResNet 50输入大小主干投票Backproj. 总COCO800×133393.41.381.8176.5城市景观1024×2048115.62.864.4182.8表5：使用GTX 1080 Ti的运行时间基准（单位：ms）使用233单元格网格与默认模型进行比较。COCOvalset的结果见表2b。完整的网格优于简单的网格，这与我们之前对Oracle实验的观察一致的消融：片段损失归一化我们假设每个像素对最终训练损失的贡献应该通过片段面积的函数进行归一化，以便大的实例不会掩盖对小对象的关注。我们在COCO上训练PCV，λ设置为0，0。五一正如预期的那样，λ = 0的像素平均损失分散了对小对象的关注并拖累了PQ事物，而λ = 1的基于完整区域的分段归一化导致填充PQ的严重退化。λ设置为0.5的基于长度的归一化在事物和材料上都实现了最佳时序表5检查PCV运行时间，以GTX 1080 Ti为基准，并在Cityscapes和COCOval上取平均值。反投影滤波依赖于未优化的索引内实现。PCV以具有竞争力的5fps运行。PQ平方RQPQthSQthRQthPQstλ=032.977.240.533.078.040.332.6λ=0.537.577.747.240.078.450.033.7λ=1.031.874.741.333.975.144.028.6PQPQthPQstMiou德国标准[1]53.842.562.180.1UPSNet [54]59.354.662.775.2PFPN [23]58.152.062.575.7AdaptIS [50]59.055.861.375.3SSAP [16]58.450.6--我们54.247.858.974.19471图8：Cityscapesval和COCOtest-dev上的PCV结果。图9：COCOval2017图像上的PCV结果。5. 结论我们提出了一种新的方法，panoptic segmenta-灰，是完全像素驱动的。与基于区域的自上而下的目标检测方法不同，像素一致性投票将像素提升到一级角色;每个像素提供其可能属于的对象的存在和位置的证据。它提供了有效的推理，这要归功于我们基于过滤的投票聚合和反向投影机制。PCV是基于区域的方法的替代方案，可以仅使用每像素分类损失来有效地训练。它比目前高度工程化的最先进的全景分割模型要简单得多。在Cityscapes和COCO全景分割基准上，PCV在定性和标准全景分割指标上都取得了有竞争力的结果这是有希望的工程努力，因为引入R-CNN [17]，在过去的五年里已经投入到区域建议驱动的系统在高度工程化和优化的既定技术的背景下权衡新方法的科学潜力，仅靠基准是不够的。我们的研究结果表明，广义霍夫变换，一个历史上的竞争对手，滑动窗口检测范式，再次是可行的，一旦结合深神经网络。这应该是未来研究的一个呼吁，探索将传统计算机视觉技术与深度学习相结合的新方法特别是对于PCV，有明显的潜力来探索改进的投票和推断协议。这包括更高维度的投票（例如，尺度空间）和实例检测与类别分配之间的交互的替代模型。6. 确认我们要感谢Deva Ramanan的讨论和反馈。这项工作得到了DARPA L2 M奖FA 8750 -18-2-0126、DARPAGARD 奖HR 00112020003和 AFOSR 奖 FF 9950 -18-1-0166（MADlab）的部分支持。引用[1] Anurag Arnab和Philip HS Torr。具有动态实例化网络的逐像素实例分段。在IEEE计算机视觉和模式识别会议的论文集，第441-450页[2] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在IEEE计算机视觉和模式识别会议论文集，第5221-5229页9472[3] 达纳·H·巴拉德。推广霍夫变换检测任意形状。Patternrecognition，13（2）：111[4] Lubomir Bourdev和Jitendra Malik Poselets：使用3d人体姿势注释训练的身体部位检测器。2009年IEEE第12届计算机视觉国际会议，第1365-1372页。IEEE，2009年。[5] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可可 - 东西：上下文中的事物和东西类。在IEEE计算机视觉和模式识别会议论文集，第1209-1218页[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[7] XinleiChen，RossGirshick，KaimingHe，andPiotrDolla'r.Tensormask ：密集对象分割的基础。 arXiv 预印本arXiv：1903.12174，2019。[8] 放大图片作者：David D.作者：Collins，Yukun Zhu，Ting Liu，Thomas S. Huang，Hartwig Adam，and Liang-Chieh Chen. Panoptic-deeplab，2019年。[9] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213[10] Bert De Brabandere，Davy Neven，and Luc Van Gool.基于判别损失函数的语义实例分割。arXiv预印本arXiv：1708.02551，2017。[11] 达恩·德·格斯，帕纳约蒂斯·梅雷蒂斯，吉斯·杜贝尔-曼.快速全景分割网络。arXiv预印本arXiv：1910.03892，2019。[12] Richard O Duda和Peter E Hart利用霍夫变换检测图象中的直线和曲线。技术报告，斯里兰卡国际人工智能中心，1971年。[13] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[14] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence，32（9）：1627[15] Juergen Gall ， Angela Yao ， Nima Razavi ， Luc VanGool，and Victor Lempitsky.霍夫森林用于物体检测、跟踪和动作识别.IEEE transactions on pattern analysis andmachine intelligence，33（11）：2188[16] Naiyu Gao ， Yanhu Shan ， Yupei Wang ， Xin Zhao ，Yinan Yu，Ming Yang，and Kaiqi Huang.SSAP：使用亲和金字塔的单次实例分割。在IEEE计算机视觉国际会议论文集，第642-651页[17] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构可实现精确的对象检测9473和语义分割。在Proceedings of the IEEE conferenceon computer vision and pattern recognition，pages 580[18] Ross Girshick 、 Jamie Shotton 、 Pushmeet Kohli 、Antonio Criminisi和Andrew Fitzgiant。从深度图像有效回归一般活动人类姿势。在2011年计算机视觉国际会议上，第415- 419422. IEEE，2011年。[19] Bhara thHariharan ， PabloArbela' ez ， RossGirshick ，andJi-ten

下载后可阅读完整内容，剩余1页未读，立即下载