直接回归物体形状的实时检测编码方法

143 浏览量更新于2023-10-16 收藏 13.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

165500直接到形状：实时检测编码形状0Saumya Jetley� Michael Sapienza�† Stuart Golodetz Philip H.S. Torr Departmentof Engineering Science University of Oxford0{sjetley,smg,phst}@robots.ox.ac.uk,m.sapienza@samsung.com0摘要0当前的目标检测方法预测的边界框除了位置、尺度和长宽比之外，提供的实例特定信息很少。在这项工作中，我们提出直接回归到物体的形状，除了它们的边界框和类别。找到一种适当的形状表示是至关重要的，它既紧凑又可解码，并且可以用于比较具有更高阶概念（如视图相似性、姿态变化和遮挡）的物体。为了实现这一点，我们使用去噪卷积自编码器来学习一个低维形状嵌入空间。我们将解码器网络放置在一个快速的端到端深度卷积网络之后，该网络经过训练可以直接回归到自编码器提供的形状向量。据我们所知，这是第一个实时形状预测网络，在高端台式机上以35FPS运行。通过将高阶形状推理与网络流水线紧密集成，网络展示了对与训练集中相似的未见类别的有用的实际质量，这是大多数现有方法无法处理的。01. 引言0在图像中自动检测[13]和描绘[7]物体实例是计算机视觉中的核心问题，具有广泛的应用。例如，了解附近物体的个体边界可以使机器人抓取它们[31]。为了帮助视觉障碍人士更加独立，特制眼镜可以突出显示与之交互的物体的边界[18]。对于这些应用，实时帧处理至关重要，而边界框预测[34]或场景的像素级语义分割提供的信息是不够的。边界框仅捕捉物体的位置、尺度和长宽比，这是一种相当粗糙的表示，不提供更多信息。0�作者贡献相等†M.Sapienza在牛津大学进行了这项研究，目前在三星研究美国山景城分部工作。0图1：使用（a）二进制形状掩码，（b）径向向量和（c）学习的形状嵌入，在PASCAL VOC[11]的验证图像上直接回归形状进行测试。0关于物体边界的问题，自上而下的像素标记方法没有明确的局部和全局物体形状概念。为了在语义空间中实现对局部边界的粘附并强加空间和外观一致性，最近的研究[4，43]使用条件随机场（CRF）进行后处理。这种后处理对于捕捉物体结构、姿态和遮挡所需的高阶结构很快变得难以处理。为了应对上述缺点，我们实现了一个包含物体形状、姿态和遮挡模式概念的嵌入空间。然后，训练一个深度回归网络，将输入图像块映射到这个嵌入空间，以区分物体的类别和形状掩码。图1显示了我们的网络回归到三种不同的形状表示的示例。显然，许多类别的物体形状和类别是相关的，因此使用包含这两个术语的单一目标函数来训练学习器是相互增强的。我们提出了一种在类别不可知的情况下学习的二进制实例掩码的嵌入空间。设计上，嵌入空间是紧凑的、可解码的（支持将二进制实例掩码在空间内外进行映射）、连续的（实例掩码在空间中的兴趣点周围平滑衰减）和可解释的（可以推理形状之间的相似性及其对应的类别）。因此，我们的公式能够利用形状推理并扩展形状的预测。optimising an appropriate loss function. In existing objectdetection pipelines, this loss is computed on the 4D bound-ing box speciﬁcations [33], ignoring the use of shape toguide learning. By contrast, regressing to detailed shapevectors affords the network a more informed supervision.Predicting object shape masks. Predicting object shapemasks has previously been identiﬁed as an important prac-tical challenge [12, 27]. However, these approaches con-tain independently-optimised processing blocks and haveshown limited success, working only for images contain-ing only a single object and/or with high background con-trast. More recently, Pinheiro et al. [29, 30] have exploredthe practical beneﬁts of learning to predict object proposalsas pixel-wise segmentation masks. However, their networksare composed of disjoint stages for predicting segmentationmasks, object locations and object classes. By contrast, andin a spirit similar to YOLO [33], the architecture that wepropose for predicting shape embeddings (from which theshape masks can be reconstructed) is simpler and containsonly one network, with a single objective.Extending bounding box detectors to shape. Recentprogress in bounding box object detection has been fuelledby the representational power of deep networks. R-CNN[14] made massive leaps in detection accuracy by usinga deep network to predict the category of pre-generatedbounding box proposals. Soon after, Faster R-CNN [34]emerged. It does away with separate stages for region pro-posal generation and classiﬁcation, instead using a regionproposal network that shares convolutional features with adetection network, achieving beneﬁts in computational ef-ﬁciency and accuracy. More recently, the YOLO [33] de-tection network streamlined object detection by replacingthe separate proposal generation and classiﬁcation stageswith regression to spatially-separated bounding boxes andclass probabilities. This resulted in real-time object detec-tion rates. Inspired by YOLO, we extend the network to pre-dict shape encodings, achieving similar speeds, but with theadvantage of incorporating additional shape information.Shape embeddings.The simplest embedding spacewe explore in this work consists of appropriately down-sampled binary masks. Other shape representations are alsopossible starting points for establishing this space; a com-prehensive review of shape representations can be found in[41]. Moreover, inspired by the way in which [28] learned65510图2：在YouTube视频中检测以前未见过的类别的形状：（a）一个人抚摸一只老虎，（b）一只熊从窗户里被喂食，（c）一架直升机坠毁在地面上（请参见补充视频）。老虎和熊都被错误地检测为“狗”类，直升机被检测为“飞机”。尽管类别错误，但预测的形状掩码捕捉到了存在的对象类型的有用信息。0将面向我们的网络从未见过的具有类似特征的对象类别的掩码，例如图2中的老虎、熊和直升机。值得注意的是，我们采用自上而下的范式以单次扫描网络的方式来处理单个实例的形状检测。这与最近的工作[8,2]相反，这些工作将自上而下和自下而上的范式结合起来，采用各种顺序的边界框检测、像素级分割和类别识别来实现实例分割。由于顺序处理，上述网络中的错误是累积的。例如，如果边界框检测首先进行并穿过对象边界，那么边界框内的像素级标记将无法恢复正确的对象边界。同样，如果检测跟随像素级标记，很难估计同一类别的重叠实例的对象边界。贡献。所提出的方法通过直接回归到多个对象位置、形状和类别来克服上述困难，如图3所示。该过程的关键是学习一种紧凑且可解码的嵌入空间，用于描述和比较形状。为此，我们演示了使用去噪自动编码器[39]来编码真实世界形状模板。此外，单次扫描处理使我们的实现具备实时能力。据我们所知，这是第一个实时形状预测网络，在高端台式机上以i7-4960处理器（3.6GHz，12核）和Titan XGPU的速度为35FPS运行。因此，我们的形状预测网络建立在目前在目标检测[33]、实例分割[17]和联合嵌入[22]交叉点上的可能性之上。02. 相关工作0图3：回归到具有大量类内形状变化的单个或多个实例：例如，考虑（a）绵羊的头部形状与（b）其身体形状的对比。在（c）中，我们检测到多个重叠的形状，例如一个骑自行车的人。65520通过学习词嵌入来找到一个特征空间，其中相似的单词靠近一起，我们的目标是学习一个形状嵌入，以便推理对象的形状。然而，与[28]不同，我们寻求一个低维编码（与二进制形状掩模的维度相比）以使回归检测可行。我们观察到学习到的形状编码的压缩、噪声处理和重构能力明显优于手工制作的形状表示。学习到的形状嵌入。由于最近对小型二进制数字和人脸图像的学习潜在表示的成功，我们通过训练自动编码器来学习形状嵌入。[10]的形状Boltzmann机（SBM）使用深度限制玻尔兹曼架构来建模一个现实和可推广的形状空间。然而，上述网络被训练来建模形状，而不是为重构进行优化。此外，重要的是要注意SBM的全连接结构限制了它只能处理分辨率约为50×50的小型合成图像。为了克服这个实际限制，我们引入了卷积层，并将模型训练为去噪自动编码器。因此，首先，我们将自动编码器的全部优势扩展到现实世界的形状模板。有趣的是，通过学习连续且可解码的形状嵌入，我们能够预测以前未观察到但与训练集中的形状非常相似的类别的掩模（见图2）。我们能够以手工制作的形状表示的一小部分维度实现这种性能。我们的工作还与Li等人的工作[22]相关，该工作处理单个图像到嵌入映射[37]，并假设输入图像中的对象是显著的。相比之下，我们回归到多个形状嵌入，从而将方法扩展到对象检测（见图3）。另一个重要的区别是[22]中的形状嵌入是手工制作的且不可解码的，从而阻止了从嵌入空间的任意坐标合成新形状并限制了最近邻搜索的检索应用。潜在应用：实例分割和遮挡处理。最近的一些工作[15,7]尝试通过在每个边界框预测中进行像素级别的类别标注来结合自上而下和自下而上的优点。这种基于边界框的方法主要在遮挡对象及其边界方面存在误差。像[5]这样的自下而上方法采用事后对象级或类别特定的推理来组合对象实例的分离部分。还值得注意的是Dai等人的工作[6]，它将完全卷积网络（FCN）[25]扩展为预测位置敏感的实例分数图，然后需要将其组装成对象实例。另一种方法[36]利用循环神经网络（RNN）的架构，该架构通过单个损失函数进行训练，以便顺序预测对象实例。尽管这在有限的一组对象类别上显示出了潜力，但它难以记住所有过去的预测，因此难以找到需要预测的下一个预测。0架构，该架构通过单个损失函数进行训练，以便顺序预测对象实例。尽管这在有限的一组对象类别上显示出了潜力，但它难以记住所有过去的预测，因此难以找到需要预测的下一个预测。0最终，将一个对象描述为一组具有关联类别的像素具有其局限性。特别是，以像素集合表示的形状很难进行比较：在高维对象掩模之间计算有意义的距离没有明显的方法。这是不幸的，因为能够比较形状是非常有用的：对象的形状不仅仅是一个抽象属性，还可以指示对象的能力和角色。例如，尽管世界上有很多腿的动物之间存在很大的差异，但它们显然比无生命的物体如卡车更相似，涉及的形状反映了这一点。因此，如果我们能够找到一种能够定量比较形状的表示，我们可以使用距离值为我们提供关于对象的重要线索，即使对于我们没有训练过的类别。出于这些原因，我们将形状预测问题作为端到端流水线的一部分来解决，使用一个中间嵌入空间，该空间了解来自训练数据的现实类别级姿势、遮挡和形状先验知识。03. 提出的方法0深度回归网络。物体的形状是其基本属性之一，当与其位置、尺度和类别相结合时，可以提供关于其可能的姿态和粗略深度以及如何与之交互的丰富信息。为了利用这一点，我们将我们在第2节中提到的最先进的YOLO[33]物体检测网络扩展到不仅回归到对象位置、置信度分数和每个类别的条件概率，还包括详细的形状编码，如图4所示。我们如何做到这一点的详细信息在第4节中描述。0可解码的形状表示。我们需要一种既紧凑又可解码的形状嵌入来进行物体形状预测应用。此外，我们将从一种能够体现物体形状、真实姿态和遮挡模式的高阶理解的表示中获益良多。例如，我们希望表示中的形状之间的距离能够反映我们对形状相似性的理解。为此，在第5节中，我们研究了三种可解码的形状表示：i）降采样的二进制掩码，ii）径向向量和iii）学习的形状编码。0在第6节中，我们结合了第4节和第5节的思想，并评估了我们的实时形状检测流程的优点。p(c|o) ∗ p(o) ∗ IoU = p(c) ∗ IoU.(1)65530图4：从左边开始，输入图像经过重新缩放并通过一个单一的网络，直接回归到多个对象假设（类别、位置、纵横比和形状）。学习的形状编码是紧凑、可解码、连续和可解释的，允许预测在训练数据中未见过的形状，并在形状之间进行更有意义的距离比较。请注意，预测编码形状使得对鸟的姿态（直立，面向右侧）以及与其他鸟的比较进行高阶推理成为可能：仅通过边界框是不可能的。此外，当前的形状空间是以无监督的方式学习的，任何叠加在形状空间上的注释都会在测试时增加预测信息。04. 深度回归网络0本节从YOLO检测算法[33]中汲取灵感，并将其扩展为形状预测。与YOLO一样，我们的网络在图像中全局推理对象，并被训练以最小化单一目标函数。然而，我们用一个编码向量增强了YOLO的对象表示，该向量表示对象的形状。YOLO流程首先将输入图像划分为一个S×S网格。如果一个对象的中心位于一个单元格内，那么该单元格负责检测该对象。在这里，每个网格单元预测B=2组框、置信度分数和形状，每组的维度为N，以及一个概率质量函数。框的预测对应于完全指定最紧密拟合边界框的4个坐标。置信度分数是通过预测框与目标框之间的交并比（IoU）计算得出的，如果存在目标框，则为交并比，否则为零。每个形状编码表示一个对象的形状，独立于其位置和纵横比。例如，为了计算我们提供作为学习目标的二进制形状掩码，我们采用了真实的对象分割掩码，对其进行二值化和重新缩放作为编码过程的一部分。总体而言，如果形状要由一个16×16的二进制掩码编码，那么N=1+4+256。每个网格单元还预测一个条件概率质量函数，当与对象置信度分数相乘时，会得到反映类别和重叠的置信度得分：0作为我们网络的输入，我们输入448×448的图像，通过随机旋转、平移、空间缩放和像素缩放进行变换。网络的目标通过使用与上述几何变换相同的方式对地面真实形状进行变换来增强。对于单个图像，目标向量的最终大小变为0D = S × S × (N × B + |C|), (2)0其中|C|是数据集类别的数量，N包括置信度分数、最小边界框和形状编码的参数，S ×S是图像网格中的单元格总数。我们在训练和推断中使用Darknet[32]。我们优化预测网络输出与目标张量之间的平方误差的和。用于训练网络的四个组成部分的损失函数可以表示为L= Lbox + Lconf + Lshape + Lpmf，其中0Lshape = λshape0S2 0i = 00B �0j = 00k = 0 1 obj ij (τijk − ˆτijk)2.(3)0这里，τ是目标形状表示，ˆτ是预测的形状表示。其他三个损失组成部分的定义可以在[33]中找到。由于预测只需要通过网络进行一次前向传递，因此在测试时非常快速（§6）。我们使用非最大抑制来减少预测的重叠形状数量。05. 可解码的形状表示0形状嵌入空间是所提出的公式的关键部分。我们认为构建嵌入空间和从图像域到嵌入空间的映射的任务在本质上是独立的，因此应该分别处理。此外，这样做可以使这两个任务更易处理[22]。因此，我们尝试使用两种手工制作的表示和一种学习的形状表示来建立嵌入空间，如下所述。05.1. 下采样的二进制形状掩码0通过对全尺寸二进制形状掩码进行下采样，可以获得一个非常简单的形状描述符。给定一个固定的描述符大小d = k ×k，我们使用OpenCV的INTERAREA重采样方法缩小图像。对于重建，可以使用双三次插值将描述符再次调整为原始大小。65540卷积（1x10; 3x3）0ReLU0最大池化（2x2;2x2）0卷积（10x20; 3x3）0ReLU0最大池化（2x2;2x2）0卷积（20x50; 3x3）0ReLU0最大池化（2x2;2x2）0卷积（50x100; 3x3）0ReLU0最大池化（2x2;2x2）0线性（1600xτij）0卷积（100x50; 3x3）0ReLU0上采样（2x2;2x2）0线性（τij x 1600）0卷积（50x20; 3x3）0ReLU0上采样（2x2;2x2）0卷积（20x10; 3x3）0ReLU0上采样（2x2;2x2）0卷积（10x1; 3x3）0Sigmoid0上采样（2x2;2x2）0输入图像（64x64）0重建图像（64x64）0图5：使用卷积层的去噪自编码器的块图。学习到的形状表示用于训练回归网络。05.2. 径向表示0径向描述符将形状表示为形状边界上某个中心点与确定性分布在形状边界上的点之间的一系列距离。我们通过找到从中心点向外以均匀分布在[0,2π)角度发射的射线与边界相交的位置来选择边界点。为了改善形状重建，选择一个中心点，使其能够直接看到尽可能多的边界是有意义的。实际上，我们为每个形状构建了几个径向描述符，并选择具有最大IoU的描述符。更多细节可以在补充材料中找到。05.3. 学习的形状编码0目标是实现一个能够将输入的二进制掩码压缩到相对较低维度空间的网络。已经证明，与PCA和逻辑PCA相比，自动编码器在数字、曲线和人脸等任务上已经取得了改进[19]。因此，在初始实验中，我们使用[19]中的全连接自动编码器架构（784-1000-500-250-30）来学习Caltech-101轮廓的形状嵌入空间，该数据集包含在trainval集中。除了[19]中的受限玻尔兹曼机风格的预训练之外，我们还使用预测和目标形状掩码之间的交叉熵误差来微调网络权重。这个设置在测试集上得到了0.85的重建IoU。很明显，这个架构也被用在[10,9]中，由于其全连接的特性，它不能充分利用视觉数据中的空间冗余，因此也无法扩展到大型图像。重要的是要注意，输入图像中可以在不同位置找到类似的形状模式或边界形成：例如，自行车或摩托车的前轮和后轮看起来相似。我们可以利用这个0通过使用卷积结构来重复视觉模式，以防止网络在用于数据分离的初始层中学习到一个到更高维度空间的恒等映射，我们在输入图像中引入白噪声，使网络能够泛化为去噪器[39]。我们最小化二进制交叉熵损失来调整网络权重。它可以简化为0L bce =0P �0i = 10� − log (ˆ p i ) if p i = 1 − log (1 −ˆ p i ) if p i = 0 , (4)0其中P是图像中的像素总数，ˆpi是预测的概率，pi是像素值。06. 实验和结果0我们的方法允许我们将检测和分割统一起来，通过将高阶形状概念整合到端到端的预测流程中。因此，我们研究了将我们提出的预测网络应用于实例分割（第6.2节），在那里我们发现具有形状概念使其能够预测即使对于未见过的类别也能预测形状掩码。第6.3节对这种零样本分割能力进行了比较分析。我们的公式中必须从可解释且低维形状空间中重建准确的形状掩码。因此，我们还分析了第6.1节中三种不同形状空间之间的权衡。06.1. 比较形状表示0选择表示形式是至关重要的，因为它决定了形状的哪些方面被明确表示以及它可以被操作的便利性[26]。因此，我们在三个不同的方面上比较了第5节中概述的形状表示：i）它们在低维度下准确表示形状的能力，ii）相关形状空间的连续性，以及iii）形状空间的结构。表示能力：我们计算了我们的三个描述符在SBD数据集上不同尺寸下产生的平均形状重建误差（1减去IoU）。表1显示了每个描述符的误差如何随表示尺寸的变化而变化。在低维度的描述符尺寸下，我们的编码能够比两种手工制作的替代品更好地保留形状。然而，在较大的维度下，这些优势逐渐消失。降低每个形状表示的维度会引入一些伪影，图6中可以看到这种现象：两种手工制作的表示在尺寸减小时都会严重降低质量，而我们的表示即使在尺寸为20时仍能捕捉到形状的主要拓扑特征。65550SBD 20（25）50（49）100 200（196）2560降采样掩码0.15 0.10 0.07 0.05 0.04 径向0.13 0.08 0.07 0.06 0.06形状编码0.125 0.08 0.07 0.06 0.060表1：我们的三种描述符在SBD验证集[11,16]上不同尺寸下实现的平均形状重建误差（1-IoU）。未加括号的数字表示径向和形状编码描述符使用的尺寸；加括号的数字表示设计上使用的降采样掩码描述符的尺寸为正方形。0形状空间的连续性：为了研究形状空间的连续性，我们向编码中添加高斯噪声，并在图7中可视化其对重建的形状掩码的影响。如预期的那样，噪声的增加会降低所有表示的质量；然而，径向向量中的一点点噪声会使形状变得无法识别。二进制掩码在边界处失去了精度，自行车的车轮与图像的边界融合在一起。学习到的形状表示能够比手工制作的替代方案更好地保留细节，例如座位和圆形车轮。形状空间的结构：我们在图8中可视化了与两种表示相关的形状空间的结构-学习到的编码和径向描述。即使乍一看，很明显，学习到的编码的形状空间提供了更好的基于类别的形状掩码聚类。例如，当我们沿着对角线从空间的左上区域向右下移动时，我们观察到从具有大边界投影（马和鸟）的样本到直立的人形状，最后到更加流线型的形状（如瓶子）的过渡。径向描述的形状空间没有这样清晰的结构：事实上，各个类别似乎散布在各种不同的聚类中。我们还可视化了预选集中每个“锚定”图像的最近邻居，在学习到的嵌入空间中，邻近形状之间显示出更接近的匹配。在进行了这种定性分析之后，我们使用PASCAL 3D+[40]数据集来量化形状空间结构的差异，通过收集各自形状空间中邻域周围的对象姿态和类别统计信息。我们将PASCAL3D+数据集分为一个包含11578个图像的训练集和一个包含120个图像的验证集。验证集是通过随机选择PASCAL3D+的12个刚性对象类别中的每个类别的10个图像而形成的，这些类别是PASCALVOC的20个类别的子集。对于每个验证集图像，我们在训练集中找到50个最近邻居，并计算相对于验证图像的姿态和类别的方差。在所有验证图像和类别上平均的结果显示在表2中。我们发现，学习到的形状编码空间中形状附近的对象的姿态（仰角、方位角、距离）比径向描述空间中的对象更相似。0径向（20D）形状编码（20D）0mAV（方位角）1.163 1.008 mAV（仰角）0.294 0.246mAV（距离）21.537 17.968 # GT类别=多数类别12个中的7个12个中的12个 mA%多数类别0.547 0.8000表2：在PASCAL3D+数据集上比较径向表示和学习到的形状编码的可解释性。统计数据是从每个空间中验证形状的50个最近邻居中获得的，然后在所有10个验证样本和12个对象类别上进行平均。0图6：随着维度的降低，二进制掩码和径向向量都会丢失宝贵的细节，例如鸟的腿和头部，而学习到的嵌入能够保留形状的整体拓扑，并且更加优雅地退化。0图7：向每个形状表示添加均值为零、方差递增的高斯噪声的效果。0径向空间（平均平方差较小-mAV）。此外，相邻对象中的大多数类别更有可能（80%的时间）与中心形状的类别匹配。这些数字表明，形状空间比径向空间更易解释。06.2. 实例分割作为一种应用0我们想要测试的假设是，我们能够直接回归到基于对象的场景表示。对于这个实验，我们训练了一个YOLO风格的网络，直接从单个图像映射到一组对象掩码及其位置，可以与最先进的实例分割方法[17, 2,6]生成的掩码进行比较。数据集、分割和性能指标：我们训练和65560图8：使用t-SNE[38]可视化20D学习嵌入空间（左侧）和256D径向向量空间（右侧）。注意两种表示中锚点的最近邻（NNs）之间的差异。例如，考虑自行车锚点（编号10），它朝左：在学习嵌入中，它的最近邻也朝左（即使被遮挡），而在径向空间中，它的最近邻朝右。0我们在已建立的带有SBD注释的PASCALVOC数据集上评估我们的方法，使用与[17,6]相同的分割集。我们报告了不同重叠阈值下的平均精度（mAP r，mAP r vol）[17]。0结果和讨论：在表3中，我们报告了当回归到以下形状表示时我们获得的实例分割结果：i）降采样的二进制形状掩码（d = 256），ii）径向向量（d =256），和iii）学习嵌入（d ∈ {20,50}）。选择这些维度是基于在表1中获得的重构误差，我们观察到我们能够使用比手工制作的形状代码更低维度的学习嵌入（见图6）。形状的参数数量减少意味着我们可以使用更少的参数训练神经网络模型，并且减少过拟合的可能性。这种直觉与我们在表3中的实证发现一致，当将嵌入的维度从50降低到20时，我们实现了更好的性能。与我们的两种嵌入相比，尽管有更多的空间来表示形状，但降采样的16×16二进制掩码和256D径向描述符的性能较差。径向描述符的一个可能原因是它们对噪声更敏感，如图7所示。可以在图9和补充材料中看到我们的方法在SBD数据集上的性能的定性结果。0从表3中可以看出，我们的实例分割结果在当前最先进的方法之后略有滞后；这与YOLO在物体检测结果方面相对于该领域的最先进方法的滞后相似。我们假设这是因为两者都具有以下特点-0SBD（2857个验证图像）时间mAP r @.5 mAP r@.7 mAP r vol ms0二进制掩码 32.3 12.0 28.6 26.3 径向 30.0 6.5 29.0 27.1 嵌入（50）32.6 14.8 28.9 30.5 嵌入（20） 34.6 15.0 31.5 28.00SDS [17] 49.7 – 41.4 48k MNC [6] 65.0 46.7 – 3300表3：在PASCAL SBD2012验证集上的定量实例分割结果。计时结果是在一台配备了Titan X的高端台式机上获得的。0我们的方法与其他方法相比，尤其是小物体（见图9）的精确定位存在困难。然而，与YOLO一样，我们的方法可以实时运行，而其他方法无法实现实时运行（如表3所示，现有方法的运行时间至少要长一个数量级）。我们在识别未见类别方面也比Arnab等人的最先进实例分割方法[2]更好（见图10），如下一节所讨论的。06.3. 零样本分割0传统上，零样本学习的任务是通过使用属性来实现的[35,42]。最近关于零样本边界分割的工作[23]采用了类似的方法。相比之下，我们的方法不需要对属性进行明确定义，就能将形状分割扩展到未见类别（见图10）；形状属性在形状空间的定义中被隐式捕捉到。因此，我们能够在测试时扩展到具有相似形状外观的对象类别。这与65570图9：（a）使用降采样的二进制掩码进行正确预测。（b）使用20D学习的形状编码进行正确预测。在第3张图像中，牛的角被错过了，人体形状掩码由于不正确的边界框预测而变得过长。（c）使用20D形状编码的漏检测。网络在小物体上漏检或误报（第2列）。0列）。图像中的狗被错误地分类为猫，沙发错误地包括附近的餐桌。0人类的表现。例如，一个从未见过老虎的人仍然能够正确地对其进行分割，即使他/她可能将其与猫或狗类动物进行比较，这正是我们的网络处理任务的方式。0为了评估我们对未见类别对象的分割，我们使用在PASCALVOC训练集和验证集上训练的形状预测模型（50D学习编码），并在MS-COCO[24]中的60个对象类别上进行测试，这些类别在PASCALVOC中不存在。我们从整个MS-COCO数据集中筛选出不包含已见类别对象的图像；在我们的测试集中，共有8037张图像，包含24396个未见对象类别的实例。我们收集所有检测分数大于t =0.05的对象预测，因为未见类别的分数可能较低，然后通过[24]提供的评估代码运行它们，我们修改了该代码以计算形状的IoU而不是边界框。结果在表4中特别报告了大型对象，因为用于训练的PASCALVOC数据集主要包含MS-COCO数据集中定义的大尺寸范围内的对象（>80％对象）。鉴于现有方法在未见类别的分割上表现非常差（图10），我们将我们的结果报告为一个强有力的基准。我们希望这些结果能够推动这个方向的研究。0COCO（8037个验证图像）mAP r @.5（全部）mAP r@.5（大）AR r @.5（大）0嵌入（50）3.6 7.1 23.20表4：在MS-COCO的60个类别上运行我们的嵌入（50）预测模型获得的定量零样本分割结果，这些类别在PASCAL VOC中不存在。0图10：（a）语义分割[1]，（b）实例分割[2]和（c）我们的形状检测结果的最新技术的比较，这些结果来自于PASCALVOC训练集中不存在的YouTube动物视频的图像。在前两行中，实例分割预测老虎的腿是人类的。我们的方法在来自同一视频的老虎图像上更加一致。在下面的行中，实例分割方法（b）无法预测任何分割，而我们的方法预测老虎、刺猬、小象和熊为类别“狗”，并将大象预测为类别“马”。07. 结论0在这项工作中，我们首次展示了直接并同时回归到包含形状概念的多个对象表示是可能的。我们结合了目标检测、实例分割和低维嵌入空间的思想，创建了一个实时系统来检测编码形状。使我们能够做到这一点的一个关键因素是引入了一个紧凑、可解码、连续和可解释的形状嵌入空间。我们发现，赋予目标检测器形状知识使我们能够预测以前未见类别的合理掩码，从而能够检测到当前最先进的实例分割方法在图像中表现不佳或失败的对象的存在。我们的下一步是研究如何将我们的形状预测方法扩展到应对更多种类的形状和对象类别，如MS-COCO [24]中的那些。65580致谢.本工作得到了EP-SRC、ERC资助的支持，ERC-2012-AdG321162-HELIOS、EP-SRC SeebibyteEP/M013774/1和EPSRC/MURI EP/N019474/1资助的支持.0参考文献0[1] A. Arnab, S. Jayasumana, S. Zheng, and P. H. Torr.深度神经网络中的高阶条件随机场. 在欧洲计算机视觉会议中,页码524–540. Springer, 2016. 80[2] A. Arnab and P. H. S. Torr.使用深度高阶条件随机场进行自下而上的实例分割.在英国机器视觉会议中的论文集, 2016. 2 , 6 , 7 , 80[3] S. Belongie, J. Malik, and J. Puzicha.使用形状上下文进行形状匹配和对象识别.IEEE模式分析与机器智能交易, 24(4):509–522, Apr. 2002. 20[4] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A.L. Yuille. Deeplab:使用深度卷积网络、扩张卷积和全连接条件随机场的语义图像分割. arXiv预印本arXiv:1606.00915, 2016. 10[5] Y.-T. Chen, X. Liu, and M.-H. Yang.具有遮挡处理的多实例对象分割.在IEEE计算机视觉和模式识别会议论文集中, 页码3470–3478,2015. 30[6] J. Dai, K. He, Y. Li, S. Ren, and J. Sun.实例敏感的全卷积网络. CoRR, abs/1603.08678, 2016. 3 , 6 , 70[7] J. Dai, K. He, and J. Sun.通过多任务网络级联实现实例感知的语义分割. CoRR,abs/1512.04412, 2015. 1 , 30[8] J. Dai, K. He, and J. Sun.通过多任务网络级联实现实例感知的语义分割.arXiv预印本arXiv:1512.04412, 2015. 20[9] S. Eslami and C. Williams.一种基于部件的对象分割生成模型. 在F. Pereira, C. J. C. Burges,L. Bottou, and K. Q.Weinberger编辑的《神经信息处理系统25》中, 页码100–107.Curran Associates, Inc., 2012. 50[10] S. A. Eslami, N. Heess, C. K. Williams, and J. Winn.形状Boltzmann机: 一个强大的对象形状模型.《国际计算机视觉杂志》, 107(2):155–176, 2014. 3 , 50[11] M. Everingham, L. Van Gool, C. Williams, J. Winn, and A.Zisserman. Pascal视觉对象类别挑战结果.可从www.pascal-network.org获得, 2005. 1 , 6 , 70[12] V. Ferrari, F. Jurie, and C. Schmid.从图像到形状模型进行对象检测. 《国际计算机视觉杂志》, 2009. 20[13] R. Girshick. 快速R-CNN. 在计算机视觉国际会议中的论文集,2015. 10[14] R. Girshick, J. Donahue, T. Darrell, and J. Malik.用于准确的

下载后可阅读完整内容，剩余1页未读，立即下载