自然图像中的对象骨架检测基于CNN的二维向量场预测

115 浏览量更新于2023-10-17 1 收藏 1.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5287DeepFlux for Skeletons in the Wild王育康1，徐永超1，斯塔夫罗斯·措卡斯2，3，4 <$，白翔1，斯文·迪金森2，3，4 <$，卡莱姆·西迪基51华中科技大学2多伦多大学3Vector Institute for Artificial Intelligence4三星多伦多AI研究中心5麦吉尔大学{wangyk，yongchaoxu，xbai}@ hust.edu.cn，{tsogkas，sven}@ cs.toronto.edu，siddiqi@cim.mcgill.ca摘要由于自然图像中物体的外观和尺度变化很大，以及处理背景杂波的复杂性，许多最近的方法框架对象骨架检测作为一个二进制像素分类问题，这是类似的精神，基于学习的边缘检测，以及SE-MANIC分割方法。在本文中，我们通过训练CNN来预测二维向量场，将每个场景点映射到候选骨架像素，从而脱离这种策略，这是基于通量的骨架化算法的精神。这种首先，它显式地将骨架像素的相对位置编码为语义上有意义的实体，例如其空间上下文中的图像点，并且因此也是所实现的对象边界。其次，由于骨架检测上下文是基于区域的向量场，因此它能够更好地处理大宽度的对象部分。我们评估所提出的方法在三个基准数据集的骨架检测和两个对称检测，实现considerably优越的性能超过国家的最先进的方法。该代码可在https://github.com/YukangWang/DeepFlux上获得。1. 介绍形状骨架或中轴[3]是一种基于结构的对象描述符，它揭示了局部对称性以及对象部分之间的连接性[31，10]。通过物体的对称轴来建模，特别是使用骨架，在计算机视觉中有着悠久的历史。离散化算法提供了一种简洁有效的*通讯作者†Sven Dickinson和Stavros Tsogkas以个人名义对本文有贡献。分别担任多伦多大学教授和博士后。所表达的观点（或得出的结论）是他们自己的观点，并不一定代表Samsung Research America，Inc.的观点。2413浅深NMS12边缘检测34骨架检测(a) 以前基于CNN的骨架检测依赖于NMS。(b) Flux为精确检测骨架提供了另一种方法图1.（a）先前的基于CNN的方法将骨架检测视为二进制像素分类，随后是非最大抑制（NMS）。这可能导致定位不良以及连通性不良。（b）所提出的DeepFlux方法通过一种新的通量表示（左）对电子元上下文进行建模通量矢量场在相关图像像素的上下文中对骨架位置进行编码，因此也对隐含的对象边界进行编码这允许人们将骨架像素与吸收通量的汇相关联，这是基于通量的非线性方法的精神[39]。红色：地面实况骨架;绿色：检测到骨架。可变形对象的有效表示，同时支持许多应用，包括对象识别和检索[54，14，2，45]、姿态估计[15，38，48]、手势识别[34]、形状匹配[41]、场景文本检测[52]和空中场景中的道路检测[44]。早期的算法直接从5288图像[22，25，16，50，33，51，23]产生梯度强度图，由像素和边缘片段之间的几何约束驱动。这样的方法不能容易地处理没有关于对象形状和位置的先验信息的复杂图像数据。基于学习的方法[21，42，47，35，44]具有改进的自然图像中对象骨架检测能力，但此类方法仍无法应对复杂背景或杂波。最近卷积神经网络（CNN）的工作激增，导致对象骨架检测算法的性能得到了巨大的改进[37，36，19，26、53、24]。这些现有的基于CNN的方法通常来自整体嵌套边缘检测（HED）[49]，并将问题框定为二进制像素分类。大多数此类方法侧重于设计适当的网络，并利用更好的多层次功能来捕获一系列空间尺度上的骨架。使用CNN从自然图像中计算对象骨架本质上不同于边缘检测问题如图1（a）所示，由于局部外观变化或纹理变化，通常可以局部检测与对象边界相因此，具有准确空间信息的浅卷积层可以捕获潜在的边缘位置。然而，对象特别地，骨架位于对象部分内的区域，在该区域中存在局部对称性，因为中轴线平分对象角度[40]。纯粹从本地图像信息（例如，图1（a）中编号为3的绿框）是不可行的，因为这需要更大的空间范围，在这种情况下是马躯干的宽度。由于浅层不允许捕获离散点，因此需要具有相关粗糙特征的CNN的较深层。但这带来了一个混淆在本文中，我们提出了一种新的图像上下文流量的概念，以准确地检测CNN框架内的对象骨架更确切地说，我们利用骨架上下文，通过使用二维矢量场来捕获通量表示。对于每个骨架上下文像素，通量由指向其最近骨架像素的二维单位向量定义。在该通量表示中，对象骨架对应于净向内通量为正的像素，遵循过去用于对二进制对象进行归一化的基于通量的方法背后的动机[39，11]。然后，我们开发了一个简单的网络来学习图像上下文流量，通过逐像素回归任务代替二进制分类。在学习的上下文流编码的背景像素和骨架之间的相对位置的指导下，我们可以轻松，准确地恢复对象的骨架。此外，骨架上下文提供了用于估计的更大的感受野大小，这可能有助于去与更大的空间尺度相关的保护骨骼。本文的主要贡献有三个方面：1）提出了一种新的上下文流来表示对象骨架。这个概念明确地编码图像像素和它们最近的骨架点之间的关系。2)基于上下文流量，我们开发了一种称为DeepFlux的方法，可以准确有效地检测图像中的对象骨架。3)DeepFlux在五个公共基准测试中始终优于最先进的方法。据我们所知，这是第一次应用通量概念，已成功地用于二进制对象的离散化，在自然图像中的对象骨架的检测这也是直接从自然图像中学习这种基于通量的表示的第一次尝试。本文的其余部分组织如下。第二节回顾了相关工作.我们在第3节中开发了DeepFlux方法，并在第4节中进行了广泛的实验评估。最后，我们将在第5节讨论我们的结果。2. 相关工作近几十年来，物体的非对称化得到了广泛的研究在我们的综述中，我们将传统方法与基于深度学习的方法进行了对比。传统方法：许多早期的骨架检测算法[22，25，16，50，33，51，23]都是基于梯度强度图。在[39]中，作者研究了欧氏距离函数到2D或3D对象边界的梯度的极限平均向外通量。骨架与违反能量原理的那些位置相关联，在那里存在净向内通量。其他研究人员通过将局部骨架片段与学习的片段连接模型合并来构建骨架。 Levinshtein等人 [21]提出了一种直接在图像上工作的方法，该方法使用多尺度超像素和相邻超像素之间的学习亲和力来对近端中间点进行分组。然后应用基于图的聚类算法来形成完整的骨架。Lee等人 [42]通过使用可变形圆盘模型改进[ 21 ]中的方法，该模型可以检测弯曲和锥形对称零件。在[46]中提出了一种新的外观中轴变换（AMAT）定义，以纯粹自下而上、无监督的方式检测在[17]中，作者提出了一种基于联合共分解和共分割的非常规方法在其他文献[47，35，44]中，对象骨架检测被视为逐像素分类或回归问题。Tsogkas和Kokkinos [47]在每个像素上提取手工设计的他们采用多实例学习（MIL）框架，以适应未知的规模和方向的对称轴。[35]第35话：5289图2. DeepFlux管道。给定一个输入图像，网络计算骨架上下文流量的二维向量场（右侧的幅度和方向的可视化）。然后通过定位净向内通量高的“终点”，然后进行形态学闭合操作来恢复对象骨架在[47]中，通过训练一组MIL分类器来捕获对称模式的多样性。Sironi等人 [44]提出了一种基于回归的方法来提高骨架位置的他们训练回归器，学习尺度空间中最接近的骨架的距离，并通过找到局部最大值来识别骨架。基于深度学习的方法：随着CNN的普及，基于深度学习的方法[37，36，19，26，53，24]对物体骨架检测产生了巨大的影响。Shen等人 [37]基于HED的架构融合尺度相关深侧输出（FSDS）[49]。考虑到不同尺度的骨架可以在不同阶段捕获，它们用与尺度相关的地面实况数据来监督侧输出Shen等人。 [36]然后通过学习多任务规模相关的深侧输出（LMSDS）来扩展他们的原始方法。这导致改进的骨架局部化、规模预测和更好的整体性能。Ke等人 [19]提出了一种侧输出残差网络（SRN），它利用输出残差单元来拟合地面实况和侧输出之间的误差。SRN通过将残余单元以由深到浅的方式级联，可以有效地检测不同尺度下的骨架。Liu et at. [26]开发一个双流网络，将图像和分割线索结合起来，以捕获骨架定位的补充信息。在[53]中，作者引入了分层特征集成（Hi-Fi）机制。通过将多尺度特征与双向指导、高层语义和低层细节可以互相受益。Liu等人。 [24]提出了一种线性跨度网络（LSN），该网络使用线性跨度单元来提高卷积特征的独立性和特征集成的效率。虽然我们在本文中提出的方法受益于基于CNN的学习，但由于其不同的学习目标，它与[37，36，19，26，53，24DeepFlux没有将自然图像中的对象骨架检测视为二进制分类问题，而是专注于学习骨架的上下文流量，并且因此包括更多信息的非局部线索，例如骨架点与其附近的图像点的相对位置这种强大的图像上下文通量表示的直接结果是，简单的后处理步骤可以直接从学习的通量中恢复骨架，从而避免在复杂的深度学习方法中由非最大值抑制引起的不准确的金属点定位。此外，DeepFlux通过使用骨架上下文流量来扩大CNN用于检测骨架的空间范围。这种基于区域的通量表示允许我们的方法捕获更大的对象部分。我们注意到，所提出的DeepFlux在精神上类似于基于对象边界定义的通量[39，11]的原始概念，用于2D/3D二进制对象的离散化因此，DeepFlux继承了其数学特性，包括骨骼点的独特映射，框架上下文通量幅度方向骨架扩张的骨骼上下文通量F监督90˚0˚学习情境变迁幅度CNN图像LearnedFlux骨骼恢复方向90˚0˚闭合骨架终点蒙面F^上下文流的可视化529090˚0˚pNpNpp膨胀骨架上下文通量可视化图3.对于扩张骨架掩码中的每个上下文（非骨架）像素p，我们找到其最近的骨架像素Np。通量F（p）被定义为从p指向Np的二维单位向量。对于骨架点，通量设置为（0，0）。在右边，我们可以看到通量场的方向边界点然而，我们是第一个将这种通量概念扩展到自然图像中的骨架检测，通过计算膨胀骨架上的通量进行监督学习。我们的工作也与[1，30，5，8]中的方法有关，这些方法学习边缘检测和物体分割的方向线索。在本文中，该方向信息被编码在通量表示中，并且被implantly学习用于骨架恢复。3.1. 骨架上下文流我们把F（x，y）=（Fx，Fy）表示为一个双通道映射，其连续值分别对应于通量矢量的x和y坐标。直观的可视化如图3所示。当骨架检测被框定为二进制分类任务时，地面真值是一个1像素宽的二进制骨架图;对于我们的回归问题，地面真值必须进行适当的修改。我们将二进制骨架图划分为三个不重叠的区域：1）骨架上下文，Rc，其是骨架的邻域; 2）骨架像素，由Rs表示;以及3）背景像素，Rb。在实践中，Rc通过用半径为r的圆盘扩张二进制骨架图并减去骨架像素Rs来获得。然后，对于每个上下文像素，p∈Rc，找到它的最近（L2距离）骨架像素Np∈Rs.然后，将从p指向远离Np的单位方向向量计算为上下文像素p上的通量。这可以借助于距离变换算法有效地计算。对于由Rs和Rb组成的其余像素，我们将通量设置为（0，0）。形式上，我们有：− →。−→。。.3. 方法许多最近的基于CNN的骨架检测方法建立在HED架构的一些变体上[49]。强大的分类器（CNN）和使用pNp/. pNp. ，p∈ RcF（p）=0（0， 0），p∈Rs<$Rb，. −→。（一）..在多个尺度上提取和组合特征的边输出的增加使得这些系统能够精确地定位自然图像中的对象的中间点。然而，虽然现有技术的骨架检测系统在提取细长结构的中轴线方面非常有效，但是它们在推理结扎区域时仍然很困难。预期情况如下：与它们连接的骨骼分支相反，结扎区表现出的结构规则性要少得多，使得它们的确切定位不明确。因此，大多数方法导致结扎点的定位差，或对象部分的中轴之间的连通性差。我们建议通过将骨架检测作为在固定大小的邻域内预测从场景点到附近骨架点的二维通量场的问题然后，我们将骨架点定义为局部通量最小值，或者，替代地，作为从附近点“吸收”通量的汇我们认为-并我们还认为，考虑真实骨架点周围的小邻域就足够了，这与过去的二进制对象非线性化方法一致[11]。然而，预测整个物体的通量将使我们也能推断出中间半径函数，在这项工作其中. pNp. 表示从p到Np的向量的长度。作为与每个骨架像素相关联的空间上下文的表示，我们提出的图像上下文通量在用于检测野外对象骨架时具有一些明显的优势。与大多数为每个像素单独预测骨架概率的学习方法不同，我们的DeepFlux方法利用了每个候选像素周围邻域内通量预测之间的一致性。相反，如果真正的骨架位置发生变化，周围的通量场也会发生显著变化。一个有益的副作用是，我们的方法不直接依赖于更深的CNN层产生的粗糙响应来定位更大尺度的骨架，这进一步减少了定位误差。正如我们在实验中所示，这些属性使我们的方法对骨架点的定位更加鲁棒，特别是在连字区域周围，并且不太容易出现由局部误预测引起的间隙、不连续和不规则性最后，如3.4节所述，利用预测通量的大小和方向，很容易准确地重新覆盖二元物体骨架。3.2. 网络架构用于学习骨架上下文通量的网络紧密遵循[28]的全卷积架构，并且我们专注于改进中间点定位。过-所提出的方法的所有流水线（适当地命名为DeepFlux）在图2中示出。事实上，在二元对象的非线性化的上下文中[40]，这个通量向量将在与从骨架像素到其相关联的边界像素的轮辐向量的方向相反的方向上。5291n，p∈R <$R采样我们使用双线性插值。网络的最终输出是2通道响应图，其包含图像中的每个像素的图像内容通量场F f（p）的x和y坐标的预测。3.3. 培养目标我们选择L2损失函数作为训练目标.由于上下文和背景像素数量的严重不平衡，我们采用了类似于[49]中的类平衡策略。我们的平衡损失函数是Σ¨ ¨L=w（p）<$<$F（p）−F<$（p）<$，（2）¨ ¨2p∈Ω图4.网络架构。我们采用预训练的VGG16 [43]，ASPP模块[6]作为骨干网络，并通过级联进行多级特征融合。网络被训练以预测所提出的上下文通量F，这是一个其中，f（p）是图像域，F（p）是预测通量，w（p）表示像素p的权重系数。权重w（p）计算如下：|Rb||Rc|+|Rb|+|俄.西|Cs表示二维向量场的图像。w（p）=|Rc|+|俄.西| ，p∈R，（三）如图4所示。它由三个模块组成：1）用于提取3D特征图的骨干网络; 2）一个“atrous”空间金字塔池化（ASPP）模块[6]，用于扩大感受野，同时避免过度的下采样; 3）多级特征融合模块。为了确保与以前的工作进行公平比较，我们还采用VGG16 [43]作为骨干网络。与[49]一样，我们丢弃最后一个池化层和随后的全连接atrous模块的使用是出于对广泛接受域的需要：当提取电子束时，我们必须保证网络的接收场比输入图像中对象部分的最大中间半径宽。VGG16骨架的感受野为196，这对于大的光学元件来说不够宽。此外，在[29]中已经证明，有效感受野仅占整个理论感受野的一小部分。因此，我们使用ASPP来捕获多尺度信息。具体来说，四个平行具有3 ×3内核但不同atrous速率（2，4，8，16）的atrous卷积层被添加到主干，然后是沿着通道维度的级联。通过这种方式，我们获得了具有708的理论感受野大小的特征图，我们发现该大小对于我们实验过的图像来说足够大。为了构建输入图像的多尺度表示，我们在conv3，conv4，conv5和ASPP层融合来自侧输出的特征图，然后将它们与1×1内核卷积由于不同级别的特征地图具有不同的空间分辨率，因此我们将它们全部调整为不同的大小。conv3的名称，然后将它们连接起来。然后对融合的特征图执行预测，然后上采样到输入图像的维度为了-|+|R b|+|俄.西|B|b哪里|Rc|、|Rb|和|俄.西|分别表示上下文、背景和骨架像素的数量。3.4. 从通量到骨架点我们提出了一个简单的后处理过程，以重新覆盖从预测的上下文流量的对象骨架如等式（1）中所述，骨架周围的像素用单位二维向量标记，而其它像素被设置为（0，0）。因此，对向量场的幅度进行阈值处理揭示了上下文像素，而计算通量方向揭示了上下文像素相对于骨架的位置。我们请读者参考图2，以获得算法1中列出的后处理步骤的可视化。让|F|并且是相对于速度的预测的下一个通量F的幅度和方向。对于一个giv enpix elp，F把这两个量计算出来，提取骨架是直接的-ward：接近真实对象骨架的像素应该具有高的向内通量，这是由于矢量场F的奇异性，如[11]中所分析的。这些像素被定义为最后，我们应用一个半径为k1的圆盘结构元素的形态膨胀，然后用半径为k2的圆盘进行形态腐蚀，将结束点分组在一起并产生对象骨架。4. 实验我们在五个著名的增强数据集上进行实验，包括三个骨架检测（SK- LARGE [36]，SK 506 [37]，WH-SYMMAX [35]）和两个1x1转换X4Atrous空间金字塔合并X4rate=2率=4率=8率=161x1转换1x1转换X21x1转换1x1转换1x1转换x4VGG16骨架LearnedFlux5292算法一：从已学习的数据流中恢复骨架的算法。|F|：幅值;N <$F<$：方向;N<$F<$（p）（p）：p在方向N <$F<$（p）上的邻居。输入：预测的最小xt通量F，阈值λ输出：二进制骨架图S1-函数Sk∈R（F∈，λ）2//初始化3S←假4//查找骨架5foreachp∈Ndo6如果|F（p）|>λ和|F（N<$F（p）（p））|≤λ，则7S（p）←True8//应用形态学关闭9S←εk2（δk1（S））10返回SDeepFlux不直接输出骨架概率，我们使用恢复的骨架上的预测上下文流量的倒数大小作为“骨架置信度”的替代。在不同的值下保持恒定产生PR曲线，并且根据公式F= 2PR/（P+R）选择最佳阈值作为产生最高F测量的阈值。F-measure通常报告为单个标量性能指标。4.2. 实现细节我们的实现涉及以下超参数（括号中的值表示我们实验中使用的默认值）：骨架上下文邻域的宽度r= 7;用于从预测通量场恢复骨架点的阈值λ= 0。4;在用于骨架恢复的形态学操作中涉及的结构元素的大小，k1=3和k2= 4。用于局部对称检测（SYM-PASCAL [19]，SYM-MAX300 [47]）。我们通过将骨架与前景对象相关联来区分这两个任务，并通过任何对称结构进行局部对称检测，无论是前景对象还是背景杂波。4.1. 数据集和评价方案SK-LARGE[36]是基于MS COCO数据集[7]构建的对象骨架检测基准数据集。它包含1491张图像，746张用于训练，745张用于测试。SK 506（又称SK-SMALL）是SK- LARGE的早期版本，包含300个训练图像和206个测试图像。WH-SYMMAX[35]包含来自Weizmann Horse数据集[4]的328幅裁剪图像，带有骨架注释。它分为228个训练图像和100个测试图像。SYM-PASCAL[19]来源于PASCAL-VOC- 2011分割数据集[13]，目标是在野外进行对象对称性检测它由648张训练图像和787张测试图像组成SYMMAX 300[47]建立在Berkeley Segmentation Dataset（BSDS 300）[32]上，其中包含200张训练图像和100张测试图像。前景和背景对称性都被认为是。评估协议我们在实验中使用精确度-召回率（PR）曲线和F-测量度量来评估骨架检测性能。对于输出骨架概率图的方法，首先应用标准的非最大抑制（NMS）算法[12]，并获得细化的骨架图。然后将该地图阈值化为二进制地图并与地面实况骨架地图匹配，允许小的定位误差。以来对于训练，我们采用标准数据增强策略[37，36，53]。我们将训练图像调整为3个不同的比例（0.8，1，1.2），然后将它们旋转到4个角度（0°，90°，180°，270°）。最后，我们相对于不同的轴翻转它们（上下，左右，无翻转）。建议的净-工作使用在ImageNet [9]上预训练的VGG16模型进行初始化，并使用ADAM [20]进行优化。前100k次迭代的学习率设置为10−4，然后降低到10−5，用于剩余的40k次迭代。我们使用Caffe [18]平台来训练DeepFlux。所有实验在具有Intel Xeon 16核CPU（3.5GHz）、64 GBRAM和单个Ti- tan Xp GPU的工作站上进行。使用批量大小为1的SK-LARGE培训大约需要2小时。4.3. 结果所有方法的PR曲线见图5。Deep- Flux的性能尤其在高精度领域表现出色，明显优于竞争对手的方法。这表明局部背景对骨架点的更稳健和准确定位的贡献表1列出了所有方法的最佳F-测量分数DeepFlux始终优于使用VGG16主干的所有其他方法[43]。具体来说，它比最近的Hi-Fi [53]提高了0。8%、1. 4%，3。SK-LARGE、SK 506和WH-SYMMAX分别为5%，尽管Hi-Fi在训练期间使用了更强的监督（骨架位置和比例）。DeepFlux也比另一种最近的方法LSN[24]高出6。4%，6. 2%，4。SK-LARGE、SK 506和WH-SYMMAX分别为3%对于对称性检测任务观察到类似的结果。DeepFlux在SYM-PASCAL数据集上的表现明显优于最先进的方法，记录了4. 8%和7. 7%，分别与Hi-Fi [53]和LSN [24]相比。在SYMMAX300上，DeepFlux也比LSN提高了1。百分之一。一些定性的结果是52930的情况。0的情况。0.30的情况。0.30的情况。方法SK-大号SK506WH-SYMMAXSYM-PASCALSYMMAX300MIL [47]0.3530.3920.3650.1740.362HED [49]0.4970.5410.7320.3690.427RCF [27]0.6260.6130.7510.392-FSDS*[37]0.6330.6230.7690.4180.467LMSDS*[36]0.6490.6210.779--SRN [19]0.6780.6320.7800.4430.446[24]第二十四话0.6680.6330.7970.4250.480[53]第五十三话0.7240.6810.8050.454-DeepFlux（我们的）0.7320.6950.8400.5020.491表1.F-measure比较* 表示还使用了秤监督竞争方法的结果来自各自的论文。10.750.50.2510.750.50.250.25 0.5 0.751召回(a) SK-大号0.25 0.5 0.751召回(b) SK506表2. SK-LARGE的性能和可靠性。对于DeeFlux，我们列出了总推理（GPU）+后处理（CPU）时间。10.750.50.250.25 0.5 0.751召回(c) WH-SYMMAX10.750.50.250.25 0.5 0.75 1召回(d) SYM-PASCAL相同的架构，但经过训练用于二进制分类。如表3所示，采用通量表示法，结果为2. SK-LARGE的改善为0%，4. 9%的SYM-PASCAL。然后，我们进行了实验，没有使用的上下文流量，并研究增加的ASPP模块提供的接收场单独的ASPP模块导致1。比SK-LARGE提高6%，7%的SYM-PASCAL。这表明，从ASPP和上下文流量的增益是正交的;事实上，com-bining都提高了SK上的基线模型1.4%图5.四个数据集的PR曲线。DeepFlux提供高精度特别是在高召回制度。如图6所示，包括故障情况。4.4. 运行时分析我们将运行时分析分解为两个阶段：网络推理和后处理。对于300×200的图像，使用VGG16在GPU上进行推理平均需要14 ms，后处理阶段平均需要3 ms在CPU上。如表2所示，DeepFlux与竞争方法一样快，同时实现了卓越的性能。4.5. 消融研究本文研究了SK-LARGE和SYM-PASCAL上两个主要模块（ASPP模块和通量表示）对骨架检测的贡献。我们首先删除ASPP模块，并研究与基线模型相比，建议的上下文流量表示的效果，在SYM-PASCAL上的 LARGE和10%我们还研究了上下文流量定义的邻域大小的影响。我们在SK-LARGE和SYM-PASCAL数据集上进行了不同半径的实验，范围从r= 3到r= 11。r= 7时获得最佳结果，使用较小或较大的值似乎会略微降低性能。我们的理解是，较窄的上下文邻域提供较少的上下文信息来预测最终的骨架图。另一方面，使用更宽的邻域可能增加在严重不连续区域周围的通量预测中出错的机会，例如完全包含在上下文邻域中的薄对象的边界周围的区域。然而，好消息是DeepFlux对r的值不敏感。最后，人们可能会争辩说，简单地使用扩张的真实数据就足以使基线模型在准确定位骨架点方面更加鲁棒。为了检验是否是这种情况，我们使用双-我们的F=0.732SRNF=0.678LMSDS F=0.649FSDSF=0.633HEDF=0.497MILF=0.353F=0.695SRN F=0.632FSDSF=0.623HEDF=0.541MILF=0.392我们的F=0.840SRNF=0.780LMSDS F=0.779FSDSF=0.769HEDF=0.732MILF=0.365我们的F=0.502SRN F=0.443FSDSF=0.418HEDF=0.369MILF=0.174精度精度精度精度方法F-measure单位：秒HED [49]0.4970.014FSDS [37]0.6330.017LMSDS [36]0.6490.019[24]第二十四话0.6680.021SRN [19]0.6780.016[53]第五十三话0.7240.030DeepFlux（我们的）0.7320.0175294与FSDS（左和中）/SRN（右）的定性比较DeepFlux的定性结果GTFSDS/SRN不含NMSFSDS/SRN与NMSDeepFluxGTDeepFluxGTDeepFlux（a）（b）（c）（d）（e）（f）图6. SK-LARGE、WH-SYMMAX和SYM-PASCAL（a-c）、SK 506（d）、SYMMAX 300（e）和两种故障情况（f）的定性结果。红色：GT;绿色：检测到的骨架;黄色：检测到骨架和GT重叠。DeepFlux由于严重的模糊无法检测到鸟身上的骨架。在第二个失败的例子中，DeepFlux检测到了一个在地面实况中没有注释的对称轴从基于学习的骨架检测作为二进制分类问题的通常观点来看我们已经开发了一个简单的卷积神经网络来计算这样的通量，然后是一个简单的后处理方案，可以准确地恢复对象骨架在120毫秒。我们的方法避免了许多与本地化不佳相关的限制，特别是在处理大规模的绑扎点和骨架方面有很大的优势。表3.上下文流表示和ASPP的效果模块性能。数据集R=3R=5r=7R=9r=11SK-大号0.7210.7270.7320.7260.724SYM-PASCAL0.4810.4980.5020.5000.501表4.上下文大小r对F-测度的影响在我们用于DeepFlux的同一个扩大的基础事实上没有任何交叉熵如果没有上下文流量，性能会下降到F =0。673（-6%）在SK-大号上，F = 0。425（-8%）的SYM-PASCAL，验证了我们的重要性提出了精确定位的表示方法。5. 结论我们提出了DeepFlux，这是一种用于在野外准确检测物体骨架的新方法。出发在五个流行且具有挑战性的基准测试上的实验结果表明，DeepFlux在定量和定性方面系统地改进了最先进的技术。此外，DeepFlux超越了对象骨架检测，并在检测野外通用对称性方面取得了最先进的结果。在未来，我们希望探索用适当的NN模块替换用于恢复骨架的后处理步骤，使整个管道以端到端的方式可训练。确认这项工作得到了国家自然科学基金 61703171 和61573160的支持，部分得到了中国湖北省国家科学基金会2018CFB 199号基金的支持。徐永超获中国科协青年科学家资助项目。数据集语境流ASPPF-measure0.696SK-大号CC0.7120.716CC0.7320.409SYM-PASCALCC0.4260.458CC0.5025295引用[1] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在proc 第2858-2866页，2017年。4[2] Xiang Bai ， Xinggang Wang ， Longin Jan Latecki ，Wenyu Liu，and Zhuowen Tu.用于非刚性物体检测的主动骨架在ICCV的Proc.，pages 575-582，2009中。1[3] 哈里·布鲁姆生物形态与视觉科学（上）。Journal of theoretical Biology，38（2）：205-287，1973.1[4] Eran Borenstein和Shimon Ullman类特定的，自上而下的细分。在ECCV的Proc.中，第109-122页，2002年。6[5] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang，and Hartwig Adam.Masklab：通过语义和方向特征细化对象检测进行实例分割。在CVPR中，第4013-4022页，2018年。4[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2018。5[7] XinleiChen ， Hao Fang ， Tsung-Yi Lin ， RamakrishnaVedan-tam ， SaurabhGupta ， PiotrDol la´r ， andCL awrenceZitnick. Microsoft coco字幕：数据收集和评估服务器。CoRR，abs/1504.00325，2015。6[8] 海慈、淳于王、益州王。通过学习位置敏感嵌入的视频对象分割。ECCV程序，第501-516页，2018年。4[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. Imagenet：一个大规模的分层图像数据库。在CVPR的Proc.，第248-255页，2009年。6[10] 斯文·迪金森。对象分类：计算机和人类视觉的前景。剑桥大学出版社，2009年。1[11] 作者：James N.达蒙和卡利姆·西迪基形状的通量不变量。在CVPR的Proc.，2003年。二三四五[12] 皮奥特·多尔和C·L·劳伦斯·齐特尼克。使用结构森林进行快速边缘检测IEEE Transactions on Pattern Analysisand Machine Intelligence，37（8）：1558-1570，2015。6[13] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010. 6[14] Pedro F Felzenszwalb和Daniel P Huttenlocher。用于物体识别的图形结构。 International Journal of ComputerVision，61（1）：55-79，2005。1[15] Ross Girshick、Jamie Shotton、Pushmeet Kohli、AntonioCriminisi和Andrew Fitzgiant。从深度图像有效回归一般活动人类姿势在proc ，第415-422页，2011年。1[16] 张正勋和洪基相一种用于灰度图像无分割重建的伪距离图。在ICCV的Proc.，第2卷，第18-23页，2001年。2[17] 蔡剑飞，卢江波，袁俊松.对象协同分割。在CVPR程序中，第3881-3889页，2017年。2[18] 杨庆贾、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe：用于快速特征嵌入的卷积架构在Proc. of ACM-MM，第675-678页，2014中。6[19] Wei Ke ， Jie Chen ， Jiabin Jiao ， Guoying Zhao ， andQixiang Ye. Srn：用于野外对象对称性检测的侧输出残差网络。在CVPR程序中，第302-310页，2017年。二三六七[20] D Kinga和J Ba Adam。随机优化的一种方法。InProc. ofICLR，volume 5，2015. 6[21] 亚历克斯·莱文斯坦，克里斯蒂安·斯明奇塞斯库，斯文·迪克森.多尺度对称零件检测和分组。InternationalJournal of Computer Vision，104（2）：117-134，2013.2[22] 托尼·林德伯格。边缘检测和脊线检测与自动尺度选择。 International Journal of Computer Vision ， 30（2）：117-156，1998。2[23] 托尼·林德伯格。广义尺度空间兴趣点检测器的尺度选择性质。Journal of Mathematical Imaging and Vision，46（2）：177-210，2013。2[24] 刘畅，魏柯，秦飞，叶奇香。用于物体骨架检测的线性跨度网络。ECCV程序，第136-151页，2018年。二三六七[25] Tyng-Luh Liu，Davi Geiger，and Alan L Yuille. 通过寻找对称轴进行分段。在ICPR的Proc.，第2卷，第994-998页，1998年。2[26] Xiaolong Liu，Pengyuan Lyu，Xiang Bai，Ming-MingCheng.融合图像和分割线索用于野外骨骼提取。InProc.of ICCV Workshop on Detecting Symmetry in the Wild，第6卷，第8页，2017年。二、三[27] 刘云、程明明、胡晓伟、王凯、白翔。用于边缘检测的更丰富的卷积特征。在CVPR程序中，第5872-5881页，2017年。7[28] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在CVPR的Proc.中，第3431-3440页，2015年。4[29] Wenjie Luo ， Yujia Li ， Raquel Urtasun ， and RichardZemel.理解深度卷积神经网络中的有效感受野。在NIPS的Proc.中，第4898-4906页，2016年。5[30] Kevis-K okitsiManinis，JordiPont-Tuset，PabloArbela' ez，and Luc Van Gool.面向

下载后可阅读完整内容，剩余1页未读，立即下载