外观冲击文法：从真实图像中快速提取中轴

173 浏览量更新于2023-10-25 收藏 18.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1143820从真实图像中快速提取中轴的外观冲击文法0Charles-Olivier Dufresne Camaro 1，Morteza Rezanejad 4，Stavros Tsogkas1，2�，Kaleem Siddiqi 4，Sven Dickinson 1，2，3�01 多伦多大学 2 三星多伦多人工智能研究中心 3 Vector人工智能研究所 4计算机科学学院和麦吉尔大学智能机器中心0{camaro,tsogkas,sven}@cs.toronto.edu，{morteza,siddiqi}@cim.mcgill.ca0摘要0我们将冲击图理论与更近期的基于外观的复杂自然场景中的中轴提取方法相结合，改进了目前最好的无监督方法，从效率和性能上进行了改进。我们具体的贡献如下：i）我们将冲击图表示扩展到真实图像领域，通过使用局部的基于外观的准则来推广冲击类型定义；ii）然后我们使用冲击文法的规则来指导我们对中轴点的搜索，与其他方法相比，大大减少了运行时间，其他方法会耗尽输入图像中的所有点；iii）我们在推导中轴解决方案时遵循冲击文法规则，消除了典型的后处理步骤，包括细化、非极大值抑制和分组；iv）最后，我们对以前的工作中使用的评估方案提出了一些基本问题，并提出了一种更合适的评估中轴从场景中提取性能的替代方案。我们在BMAX500和SK-LARGE数据集上的实验证明了我们方法的有效性。我们在高精度范围内表现优异，运行速度快一个数量级，并且不需要后处理。01. 引言0物体形状在视觉感知理论中起着基本作用。形状定义了在物理世界中结构的空间范围，并驱动物体识别。二维形状的一种流行表示是中轴变换（MAT）[4]。0� Sven Dickinson和StavrosTsogkas以他们在多伦多大学的教授和兼职教授的身份为本文做出了贡献。所表达的观点（或所得出的结论）是他们自己的，不一定代表三星研究美国公司的观点。0中轴在人类和计算机视觉中特别受到关注，因为它与物体的局部对称性有直接关系。局部对称性有效地将形状分解为显著的部分，有助于识别和姿态估计，同时对视点变化具有鲁棒性。同时，对称性在复杂场景分析中被证明是非常重要的[26,32]，有助于对形状进行编码以及从记忆中区分和回忆[3,23,39]。对于场景分类，对称性的重要性最近在[21,41]中得到了重新确认。0二维二进制形状的MAT有很多计算算法。这个问题首先由Blum在他的开创性工作中讨论[4,5]，之后又有几个扩展和变体，包括平滑局部对称性[6]，冲击图[25,31]，骨图[15,16,17]，Hamilton-Jacobi骨架[29]，增强的快速行进[34]，分层骨架[33]和比例轴变换[10]。0为了扩大这类方法的应用，最近重新关注了从自然图像中提取骨架的问题，重点是使用监督学习。第一个这样的方法是Tsogkas和Kokkinos的方法[37]，随后又有其他方法，包括随机森林的部署[35]，或卷积神经网络[8,11,13,14,27,40,43]。Tsogkas和Dickinson从这个趋势中脱离出来，定义了彩色图像的第一个完整的MAT，将中轴提取形式化为一个集合覆盖问题[36]。然而，所有这些最近的方法都有一个重要的限制：中轴点是孤立提取的，没有明确考虑局部上下文，即它们必须位于由曲线界定的区域内的骨架段上，具有相关的中轴点类型的通用分类[9]。因此，必须为每个点考虑多个尺度的中轴提议，导致一个非常庞大的中轴点提议空间需要搜索。更糟糕的是，14383̸̸143840用于物体识别应用。对应于显著物体部分的中轴分支被标记为骨骼，而连结段[2]将这些骨骼连接在一起。0自然图像中的中轴提取。最近关于从自然图像中提取骨架的工作主要依赖于监督学习。Tsogkas和Kokkinos[37]提出了一种多实例学习方法，结合手工特征，专门针对局部反射对称性。Teo等人[35]通过使用更强大的随机森林分类器，并通过MRF表示鼓励全局对称一致性，改进了这种方法。Shen等人[27]引入了解决这个问题的第一个深度学习方法，其中完全卷积神经网络（CNN）提取骨架点的位置，同时估计局部中轴盘半径，通过在多个尺度上组合深度特征。Ke等人[11]提出了一个类似的框架，在其侧输出中堆叠残差单元，提高了性能和鲁棒性。与简单地融合（连接）侧输出响应的作品不同，Zhao等人[43]在不同尺度上创建了一个显式的骨架特征层次结构。这允许使用高级语义上下文来细化更细尺度的响应，同时使用CNN的早期层的高细节局部响应来细化更粗尺度的响应。最后，Wang等人[40]将骨架提取问题作为使用CNN生成2D矢量场的问题，其中每个矢量将图像点映射到骨架点，类似于Hamilton-Jacobi骨架算法[7，29]。完全不同的无监督方法AMAT是由Tsogkas和Dickinson[36]提出的。AMAT将彩色图像中的中轴提取作为几何集覆盖问题，并使用贪婪近似解决方案[38]解决它。分配给每个潜在覆盖元素（圆盘）的成本由一个函数提供，该函数优先选择最大圆盘，从而得到近似表示场景中结构的中轴的解决方案。在本文中，我们使用相同的圆盘成本概念来推广冲击的定义[31]，从而利用RGB领域中的冲击图理论。与[31]不同，我们不假设中轴已知。相反，我们使用SG语法的规则来限制在每一步考虑的合格中轴圆盘的数量。这使我们比AMAT[36]更高效，因为AMAT将所有可能位置和尺度的圆盘都视为贪婪算法的有效候选项。03. 冲击理论0冲击图（SG）[30，31]是从骨架构建的有向无环图（DAG）。其节点对应于相同类型的冲击的连接组件，其边表示这些组件之间的连接。边的方向表示中轴的方向。0半径导数是粗粒度和细粒度冲击之间的变化率。图的根被称为出生冲击。冲击用特定尺度（中轴半径）梯度对中轴点进行着色。类型4冲击（斑点）对应于在尺度上是局部最大值的单个中轴点。它的对应物，类型2冲击（颈部），表示在尺度上是局部最小值的单个中轴点，并在移除时将其中轴分支分成单独的部分。类型3冲击（带状物或弯曲物）是一组具有相等尺度的连接中轴点。最后，类型1冲击（突出物）是一组具有单调递减尺度的连接中轴点。形式上，冲击可以定义如下。对于给定的闭合形状X，令M（X）为其中轴表示。M（X）由尺度R（x）≡Rx的中轴点x组成。对于中轴点x∈M（X）和以x为中心、半径�的开放圆盘D（x，�），令N（x，�）= M（X）∩D（x，�）\{x}表示其�-邻域。x是0type 4 如果 � � > 0 s.t. R x > R y , � y ∈ N ( x , � ) ;0type 3 如果 � � > 0 s.t. R x = R y , � y ∈ N ( x , � ) � = � ;0type 2 如果 � � > 0 s.t. R x < R y , � y ∈ N ( x , � ) �= � and N ( x , � ) is not connected;0type 1 否则。0尽管冲击图表示介质点之间的关系，但是冲击图文法在时间上颠倒了底层的火草流。其规则的连续应用定义了一个生成过程，用于增长对象的部分。出生规则规定出生冲击只能是类型3或4，而死亡规则允许冲击图在任何冲击类型处终止。突出规则定义了介质点区间如何以单调变化的半径值连接在交叉点上。最后，联合规则定义了在哪些条件下可以连接不同的分支。03.1. 为自然图像定义冲击。0在第3节中提出的思想假设已经使用某种骨架化算法提取出了M(X)。在这项工作中，我们将问题颠倒过来：我们不是使用冲击文法在预先存在的骨架上定义图形，而是使用文法所施加的规则来限制介质点的搜索空间。为了做到这一点，首先我们必须正式扩展冲击类型定义到自然图像的领域。我们在第3节中使用相同的符号，需要时引入新的符号。确定二进制领域中冲击着色的关键组成部分是计算R(x)，即以x为中心的最大圆盘的半径，该圆盘仍然包含在封闭的2D形状的开放内部X中。这些圆盘的轮廓与形状的边界相切。C(x, Rx) + δr < C(x, Rx + ǫr).(1)143850(a) 1-冲击（突出部分）。0(b) 2-冲击（颈部）。0(c) 3-冲击（带状）。0(d) 4-冲击（斑点）。0图2：基于外观的冲击类型示例来自BMAX500[36]。中轴以红色显示，轮廓以蓝色显示，选择的冲击以黄色显示。0至少2个点。准确计算R(x)是可行的，因为2D形状的边界是明确定义的（即图像值从“0”到“1”或反之的点）。这在自然图像领域不适用，提取对象边界是一个不适定问题，通常采用概率解决方案。为了处理这种模糊性，我们遵循[36]的基于区域的方法，为每个圆盘提案D(x,r)=Dx,r分配一个成本C(x,r)。该成本作为“软最大性”指示器：如果r接近理想（最大）值，C(x,r)较低，而不是最大的或跨越图像边界的圆盘则受到严重惩罚。具体而言，设x∈R2，y∈N(x,�)为介质点，R x , R y ∈R表示分别以x和y为中心的最大圆盘的半径。另外，设一个小量δ r > 0表示确定圆盘最大性的可接受“成本边界”，� r> 0。直观地说，如果C(x,r + � r) - C(x,r) < δ r，则Dx,r + �r是以x为中心的最大圆盘的更好候选项，而不是Dx,r。我们将尺度最大性准则形式化如下：0对于添加到我们解决方案中的所有圆盘提案，应满足此条件。我们还定义了“成本平滑性”准则，表达了相邻介质点的成本不应显著变化。这是对二进制形状的冲击理论的另一个直接类比，该理论规定相邻介质点的半径必须缓慢变化。这是因为冲击与连续欧几里得距离函数的奇点重合。设δ c >0，我们将成本平滑性准则定义为：0∥C(x，Rx) - C(y，Ry)∥ < δc. (2)0通过将这两个标准与RGB震荡类型定义相结合，我们在RGB中重新定义了震荡着色规则。0主要。这些规则对于代价函数的确切性质是不可知的 -我们在第4.1节中讨论了C的潜在选择。然而，请注意，与二进制情况相反，我们必须考虑所有可能的位置和尺度候选(x，rx)，因为我们既不知道中心x ∈M(X)也不知道真实介质盘的半径R。最后，我们的震荡着色定义被调整以适应离散像素网格。例如，点N(x，1)的邻域对应于其即时的8连通邻居，而半径仅取正整数值。04.使用Shock Graph语法进行约束介质点搜索0在第3.1节中描述的RGB震荡的正式定义允许使用SG语法逐步构建对象骨架，同时约束候选介质点的搜索空间。我们在算法1中总结了这种方法的步骤。0算法1：算法概述0输入：RGB图像I输出：介质点M01 初始化：M ← �02 D ← generateProposals(I);03 Qs ← extractSeeds(D);04 while notEmpty(Qs) do05 (xs，rs) ← selectSeed(Qs);06 M ← growSeed((xs, rs), D);07 Qs ← pruneSeeds(Qs, M);08 M ← growEndPoints(D, M):0首先，我们在多个尺度r上生成介质盘（点）提案Dx，r。其次，我们从提案池中提取出出生种子(xs，rs)并将它们存储在队列Qs中。我们通过迭代地连接低成本的介质点将每个种子生长成介质轴。每次我们将一个新点连接到轴上时，我们确保该连接符合SG语法的规则，并且介质轴保持连接且为单像素宽。我们贪婪地继续生长轴，直到没有点可以添加而不违反这些约束，然后选择Qs中的下一个种子进行生长。请注意，由于出生种子只能是类型3或4的震荡，这些震荡对应于局部尺度极大值，介质轴是以粗到细的方式构建的。在耗尽Qs之后，我们放宽δc并生长可能由于成本约束而被截断的分支端点。此步骤允许算法将分支生长扩展到更昂贵/模糊的图像区域以实现完整性。我们现在0事实上，我们添加介质片段而不是单个点。请参阅本节中关于“种子生长”的段落。F143860详细描述每个步骤。0提案生成。每个介质盘候选Dx，r都与代价C(x，r)相关联，该代价表示Dx，r与“最大化”有多接近。在真实图像领域中，C的低值等同于在圆盘形状区域DIx，r �I内具有感知上均匀的外观。在第4.1节中，我们详细描述了基于以下两种选项的C的计算方法：i）RGB编码[36]；和ii）图像强度直方图。我们在图像中的所有点x，以及所有潜在的尺度r ∈[rmin，rmax]上计算C(x，r)。忽略未完全包含在图像中的圆盘对应的提案。0种子提取应仅返回类型3或类型4的震荡。要提取4震荡种子候选，我们扫描位置和尺度空间，并检查是否满足类型4的条件。对于3震荡种子候选，我们检查是否至少有一个共享相同尺度的有效邻居，根据震荡类型3的定义。最后，我们施加额外的要求：只有当类型3/4震荡xs符合局部代价最小的条件时，它才能作为种子。0C ( x s , r x s ) ≤ C ( y , r y ) , � y ∈ N ( x s , 1) . (3)0所有种子候选项都添加到队列Qs中。因为4个种子最终可以生长成附近的3个种子，即使中轴形成后（前提是两个种子都是同一个对象的一部分），一旦一个种子停止生长，我们还会从M中删除任何已添加到Qs中的其他种子。0种子选择遵循由粗到细的策略。我们优先选择半径较大、成本较低的种子，因为我们预计它们的成本计算对噪声的敏感性较低，从而导致更鲁棒的轴生长。0种子生长涉及将中轴点提案附加到选定的种子(x s , r s)，遵循震荡语法。在每一步中，轴附近的最便宜的有效提案(x , r x )将被添加到M中。那些其区域D I x , r被MI（以M中点为中心的圆盘区域的并集）所包含的提案将被忽略，因为它们对于对象的形状没有提供新的信息。当没有更多有效的提案可以添加时，生长过程结束。为了模拟RGB震荡着色定义中的成本约束，我们引入了一个成本上限。0Ctol = C ( x s , r s )(1 + α c ) > 0 , (4)0其中αc是一个小的任意正常数。我们忽略成本大于Ctol的提案，以确保在生长过程中附加点的质量不会降低。单个点无法提供足够的空间上下文来确定鲁棒的轴生长方向。为了解决这些问题，我们引入了一个成本上限。0为了解决不确定性，我们通过连接有效的连接中轴点F来生长种子，而不是生长种子。为了简单起见，我们将中轴片段F建模为长度小于lmax的线性段，从而产生真实中轴的分段线性近似。为了评估候选片段的质量，我们定义了一个片段成本。0¯ C F = α ( l F )0j = 1 C ( x j , r j ) , (5)0它与其组成点的平均成本成比例。片段的成本越高，它成为中轴的可能性就越小。为了优先选择更长的片段，它提供更多的上下文，¯ C F 乘以一个长度相关的参数α(l F)进行加权，即在具有相等平均成本的两个片段之间，将选择较长的片段。在每次迭代中，我们生成多个候选片段，并将具有最低¯ C F的片段添加到M中。然后，生长过程从最后添加的片段的端点继续。重复此步骤，直到无法再附加任何有效的片段，即无法将遵循SG语法且其区域未被MI所包含的片段附加到当前中轴分支。实际上，这可能是因为分支已完全生长，或者因为剩余的片段候选项太昂贵。然后，可以从种子(x s , r s)继续生长其他中轴分支。中轴分支也可以在连接点终止：从中轴点发出多个分支。在这种情况下，也可以从该点生长新的分支，如图2d所示。为了识别连接点，我们检查是否可以将多个片段附加到该点，而不违反SG语法的突出规则。0端点生长。使用基于成本的阈值限制中间片段的生长，可以促进鲁棒性并避免承诺潜在错误的生长路径。然而，由此产生的中轴可能不完全完善：与细节图像对应的分支最后生长，并不总能在修剪步骤中幸存。为了恢复这些丢失的中轴分支，我们进行最后的细化步骤：我们重新访问每个中轴端点，并允许它通过放宽容差约束Ctol来进一步生长，从而允许添加不太显著的片段。当没有更多有效的片段可以添加到任何中轴端点时，算法终止。04.1. 代价函数0颜色均匀性。我们在使用[42]对输入图像I进行平滑处理后，使用AMAT[36]的默认代价函数C。具有面积Ar的圆盘区域DIx,r的代价是0C color ( x , r ) = c ( 0A r + w s0r , (6)02 严格来说，交叉点是具有至少3个邻居的中点。dBhatt.(H1, H2) =143870其中c(x,r)表示基于DIx,r内的平均CIELAB空间值fx,r的均匀性度量0c ( x , r )= �0k0�0l || f x ,r − f x k ,r l || 2 2 � k, l : D I x k ,r l �D I x ,r . (7)0强度直方图。虽然计算简单，但方程（6）对强度的渐变变化很敏感。我们考虑了一种更强大的代价函数，它基于图像强度的局部直方图，并且更适用于具有纹理的区域应用。我们首先使用[42]对图像进行平滑处理。然后，我们使用6×6的方块对图像进行划分。对于每个方块，我们计算每个颜色通道的平均强度值。然后，我们为每个通道构建一个局部直方图H，将这些平均值放入10个bin中。为了计算c(x,r)，我们将方程（7）中的l2范数替换为归一化直方图H1和H2之间的标准Bhattacharyya距离0�01 0H 1 ( i ) ∙ H 2 ( i ) 0i H 1 ( i ) ∙ �0i H 2 ( i ) ,(8)0在无监督纹理分割中，对三个颜色通道求平均，与[20]中的基于区域的主动轮廓方法相同。对于每个考虑的圆盘，仅使用其中的图块计算直方图。我们还进行了重新缩放，并添加了一个与尺度相关的常数，以获得0C hist ( x , r ) = c ( x 0r + w s0r . (9)05. 实验0我们在两个代表性数据集上进行场景和物体骨架检测的实验：BMAX500 [36]和SK-LARGE[27]。BMAX500是通过从BSDS500数据集[1]中自动提取人工注释的区域段的骨架构建的；每个图像通常带有5-7个这样的注释。我们使用[36]中的降采样版本，但我们还在全分辨率数据集上进行评估，以更有效地突出我们方法的计算优势。另一方面，SK-LARGE侧重于以物体为中心的骨架检测：每个图像包含一个居中的物体，地面真值只是前景物体的骨架。请注意，这是一个与ASG（和AMAT）旨在解决的问题不同的问题，因此在SK-LARGE上的比较对我们的算法是不公平的，但为了完整起见，我们仍然包括它。05.1. 评估协议和批评0传统上，骨架提取方法的评估遵循最初用于BSDS500基准测试的边界检测任务的协议[8][18,19]。根据该协议，提取的0图3：在BSDS/BMAX500上的边界（中间）和骨架（右侧）注释。不同颜色表示从不同分割中提取的注释。尽管相同场景的边界形成了自然的层次结构，但骨架实际上彼此冲突，使得[36]中使用的评估协议不适用。0图4：分割（左）、二进制GT骨架（中间）及其基于中心盘面积唯一性的加权版本（右）[22]。保留最显著的骨架部分（黄色），而具有较低边界支持的骨架点具有较低的权重（蓝色）。0(边界/骨架)图被二值化，然后与给定图像的每个可用注释进行匹配，使用允许小的定位误差的二分图匹配算法。为了计算精确度 (P)，检测到的点可以与其任何一个地面真值 (GT)对应物匹配，而对于完美召回率(R)，所有地面真值点必须与输出中的一个点匹配。我们认为，这种基准测试方法对于骨架检测任务来说可能是误导性的。为了更好地理解为什么，参见图3。同一场景的边界注释形成了一个自然的层次结构：对场景的细粒度解释与粗粒度解释相互补充，导致召回率得分的适度变化。而骨架注释不仅在源分割发生变化时发生了显著变化，而且实际上彼此相互冲突。即使预测的骨架与地面真值之一完全匹配，它可能与其他地面真值完全相悖，损害相关的召回率和F-score。尽管为了保持一致性，我们采用了与之前工作相同的评估方案，但我们提出以下替代方案：对于每个图像，我们单独考虑每个注释，并报告具有最大F-score的注释的得分。这是一个更合理的期望 -我们要求输出至少与一个可接受的注释匹配。143880分辨率 161 × 241 像素 (一半) 321 × 481 像素 (全尺寸)0方法 ( C ( x , r ) ) AMAT (颜色) ASG (颜色) AMAT (直方图) ASG (直方图) AMAT (直方图) ASG (直方图)0P .393 .237 .396 .246 .431 .268 .506 .343 .471 .295 .641 .4740R .640 .665 .452 .485 .623 .658 .541 .595 .769 .794 .503 .5460F1 .487 .350 .422 .326 .509 .380 .522 .435 .584 .431 .564 .5070*R 增益 +.043 +.047 +.032 +.039 +.016 +.020 +.035 +.040 +.018 +.020 +.036 +.0400*F1 增益 +.012 +.006 +.014 +.008 +.006 +.004 +.016 +.011 +.005 +.003 +.022 +.0150t (s) 57.4 7.0 ( ↓ 8 . 2 × ) 33.7 6.5 ( ↓ 5 . 2 × ) 393.2 34.7 ( ↓ 11 . 3 × )0表1：使用标准评估 (黑色) 和我们提出的单注释协议 (蓝色)在BMAX500上的结果。BMAX500的连结加权版本的增益用*表示。计时是在BMAX500测试集上的平均值。为了进行头对头的比较，计算成本函数的时间不包括在运行时间测量中。0场景解释，而不是所有的解释都联合起来。我们还观察到，大部分的中轴可能与边界重建无关，而是由于连结或者将物体的部分粘合在一起的“胶水”[5]。有趣的是，所有基于BMAX500或SK-LARGE进行基准测试的研究都忽视了这个事实。考虑到这一点，我们使用Rezanejad提出的基于中轴点的独特中心盘面连结度量来衡量每个中轴点的贡献，该度量在[0,1]的范围内进行加权。图4展示了一个典型的例子，其中分支点附近较低的权重表示连结。0参数在BMAX500验证集上进行优化。我们使用 α c = 0.75，lmax = 10. α (l F) 设置为从 α (1) = 1 线性减少到 α (l max) =0.85。我们对所有实验使用相同的值，包括在SK-LARGE上的实验。对于颜色成本函数，我们使用与[36]中相同的值，即 w s =1e-4，并使用默认值进行平滑操作[42]。对于基于直方图的成本函数，我们使用 w s =2e-8。最后，对于半分辨率图像，我们设置 r ∈ [2,41]，对于全分辨率图像，我们设置 r ∈ [2,82]。在评估过程中，任何在距离等于图像对角线的1%的范围内（以像素为单位）与地面真值匹配的检测到的中轴点都可以视为真正的阳性。05.2. 结果0我们在半分辨率和全分辨率的BMAX500数据集上报告了场景骨架提取的定量结果，见表1。我们将AMAT[36]与后处理（即分组和细化）以及ASG进行了比较，使用了第4.1节中描述的两个成本函数。我们包括了标准和我们提出的评估协议的结果，以及由于我们的连字加权而带来的收益。0成本函数很重要。使用基于直方图的成本函数可以显著提高AMAT和ASG的性能（分别增加2%和10%的F-score）。这个结果验证了我们的假设，即一个对纹理和其他局部外观变化具有鲁棒性的强大成本函数对于获得良好质量的中轴线至关重要。0性能分析。我们重点关注基于直方图的成本函数的结果。标准评估协议奖励AMAT的密集但不精确的输出：预测点有多个“射击”与多个GT注释匹配，反之亦然，GT点更有可能与检测到的点匹配。这增加了召回率，使AMAT的性能与我们的方法相当，后者在全分辨率下产生了更稀疏（比全分辨率少59%的点），但更精确的输出。使用每个图像的一个GT（蓝色）校准了P/R，使半分辨率和全分辨率的F-score分别增加了5.5%和7.6%，并将定量结果与我们在图5中定性观察到的结果相一致：遵循骨架检测的冲击文法规则的明显优势。ASG的骨架更平滑，正如奇点理论所预示的[9]，并且对边界伪影不太敏感，同时与真实值保持一致。相反，AMAT的骨架在孤立评估中包含了虚假点和无效的分支拓扑。最后，使用连字加权版本的BMAX可以增加两种算法的召回率，对ASG而言具有明显优势，这表明我们的方法错过的分支对于边界重建来说不太重要。0ASG大大减少了运行时间。表1中AMAT和ASG的直方图变体的比较显示，后者在半分辨率下加速了5倍，在全分辨率下加速了11倍。我们的方法不仅快了一个数量级，而且在输入图像大小和考虑的尺度数量方面也更具可扩展性。算法的详细分解如表2所示。0与监督方法的比较。在表3中，我们与监督学习方法进行了比较。SK-LARGE只包含前景对象骨架的注释，因此我们在评估过程中忽略了对象外的中轴线。AMAT和ASG的F-score都低于Hi-Fi [43]和DeepFlux[40]，但这是预期的，因为它们并不解决同样的问题：前者仅依赖自下而上的特征提取中轴线。F1.509.511.724.732t (s)511.963.20.030 (GPU)0.019 (GPU)143890图5：定性结果。从左到右：真实值（单个注释），ASG（本文），AMAT[36]（后处理）。我们的方法产生了更稀疏、更清晰、更准确的中轴线，而无需任何后处理。0分辨率 161 × 241 321 × 4810提案生成 3.63秒 36.0% 63.51秒 64.7% 种子生长 4.60秒45.6% 18.28秒 18.6% 终点生长 1.85秒 18.3% 15.71秒15.9% 其他 0.01秒 0.1% 0.73秒 0.8%0总计 10.09秒 100% 98.23秒 100%0表2：ASG的运行时间分解。时间是在BMAX500测试集中的200张图像上的平均值。其他包括种子提取、选择和修剪步骤。0AMAT [36] ASG Hi-Fi [43] DeepFlux [40]0表3：在SK-LARGE[27]上的结果。运行时间是在SK-LARGE测试图像上的平均值。0对于均匀图像区域，前者包含高级、对象特定的信息来检测语义对象的骨架。仅仅从这些数字出发也忽略了监督学习的许多“隐藏成本”：1）训练深度CNNs用于骨架提取需要昂贵且耗时的GPU和分割；2）这些模型不能推广到其他数据集：[36]表明，FSDS[28]在SK-LARGE上训练时无法推广到BMAX500；3）它们不容易扩展到新的类别或粒度；例如，如果数据集中添加了一个新的类别，必须重新训练模型。06. 讨论0我们从形状的震荡图理论中提出了一种高效提取杂乱自然场景中中轴线的新方法。特别地，我们通过考虑基于区域的代价函数将震荡的概念推广到RGB领域，并设计了一种算法，利用震荡图语法的规则来引导中轴点的搜索。我们的方法具有以下几个优点：1）它是完全无监督的，因此可以推广到没有任何训练的新数据集；2）它在无监督方法中表现优异，并且在生成的骨架像素数量方面比现有技术快一个数量级，并且更加高效；3）它不需要后处理，如细化或中轴点的分组。在我们的实验中，我们还提出了一个关于场景骨架检测框架通常如何评估的问题。为了解决这个问题，我们提出了一种基于连字的加权评估方案，该方案考虑了每个中轴点对边界重建的相对重要性，并更好地反映了在具有多个场景真实注释的基准上的性能。0致谢0我们感谢加拿大自然科学和工程研究理事会（NSERC），魁北克自然和技术研究基金（FRQNT）以及三星的研究资助。143900参考文献0[1] Pablo Arbelaez，Michael Maire，CharlessFowlkes和Jitendra Malik. 轮廓检测和分层图像分割。IEEETrans. Pattern Anal. Mach.Intell.，33(5):898–916，2011年5月。60[2] Jonas August，Kaleem Siddiqi和Steven W Zucker.形状感知组织中的连字不稳定性。计算机视觉和图像理解，76(3):231–243，1999年。30[3] H.B. Barlow和B.C. Reeves.在随机点显示中检测镜像对称性的多功能和绝对效率。视觉研究，19(7):783–793，1979年。10[4] Harry Blum.一种提取形状新描述的转换。在“语音和视觉形式感知模型”研讨会上，1967年。1，20[5] Harry Blum.生物形状和视觉科学（第一部分）。理论生物学杂志，1973年。1，2，4，70[6] Michael Brady和Haruo Asada.平滑的局部对称性及其实现。国际机器人研究杂志，3(3):36–61，1984年。10[7] Pavel Dimitrov，James N Damon和Kaleem Siddiqi.用于形状的通量不变量。在2003年IEEE计算机学会计算机视觉和模式识别会议上，卷1，页I–I。IEEE，2003年。30[8] Christopher Funk，Seungkyu Lee，Martin ROswald，Stavros Tsogkas，Wei Shen，Andrea Cohen，SvenDickinson和Yanxi Liu.2017年ICCV挑战赛：在野外检测对称性。在2017年IEEE国际计算机视觉会议研讨会（ICCVW）上，页1692–1701。IEEE，2017年10月。1，60[9] Peter J. Giblin和Benjamin B. Kimia.关于对称集合、中轴线和震荡的局部形式和转换。计算机视觉国际期刊，54(1-3):143–157，2003年。1，70[10] Joachim Giesen，Balint Miklos，Mark Pauly和CamilleWormser.尺度轴变换。在第二十五届计算几何年度研讨会论文集上，页码106–115。ACM，2009年。10[11] 柯伟，陈杰，焦剑斌，赵国英和叶其祥. SRN:野外对象对称性检测的侧输出残差网络。在IEEE计算机视觉与模式识别会议论文集上，页码1068–1076，2017年。1，30[12] Peter Lax.冲击波和熵。在非线性函数分析的贡献中，页码603–634。Elsevier，1971年。20[13] 刘畅，柯伟，焦剑斌和叶其祥. RSRN:丰富的侧输出残差网络用于中轴检测。在国际计算机视觉会议（ICCV）研讨会上，2017年10月。10[14] Xiaolong Liu，Pengyuan Lyu，Xiang Bai和Ming-MingCheng.融合图像和分割线索用于野外骨架提取。在国际计算机视觉会议（ICCV）研讨会上，2017年10月。10[15] Diego Macrini，Sven Dickinson，David Fleet和KaleemSiddiqi. 骨图：中央形状解析和抽象。0Computer Vision and ImageUnderstanding，115(7):1044–1061，2011年。1，20[16] Diego Macrini，Sven Dickinson，David Fleet和KaleemSiddiqi. 使用骨图进行对象分类。Computer Vision and ImageUnderstanding，115(8):1187–1206，2011年。1，20[17] Diego Macrini，Kaleem Siddiqi和Sven Dickinson.从骨架到骨图：用于对象识别的中央抽象。在2008年IEEE计算机视觉和模式识别会议上，页码1–8。IEEE，2008年。1，20[18] David Martin，Charless Fowlkes，Doron Tal和JitendraMalik.人类分割的自然图像数据库及其在评估分割算法和测量生态统计方面的应用。在第八届IEEE国际计算机视觉会议（ICCV2001）上，卷2，页码416–423。IEEE，2001年。60[19] David R Martin，Charless C Fowlkes和Jitendra Malik.使用局部亮度、颜色和纹理线索学习检测自然图像边界。IEEETransactions on Pattern Analysis and MachineIntelligence，26(5):530–549，2004年。60[20] Oleg Michailovich，Yogesh Rathi和Allen Tannenbaum.使用Bhattacharyya梯度流驱动的主动轮廓的图像分割。IEEETransactions on ImageProcessing，16(11):2787–2801，2007年。60[21] Morteza Rezanejad，Gabriel Downs，John Wilder，DirkB. Walther，Allan Jepson，Sven Dickinson和Kaleem Siddiqi.基于轮廓的场景分类：基于中轴的显著性度量。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。10[22] Morteza Rezanejad和Kaleem Siddiqi.通过流图对视图球进行分区，提高了对稀疏视图的识别能力。Front. ICT，2:24，2015年。6，70[23] Fred L Royer. 对称性检测。Journal of ExperimentalPsychology: Human Perception andPerformance，7(6):1186，1981年。10[24] Thomas B. Sebastian, Philip N. Klein, and Benjamin B.Kimia.基于Shock的大型形状数据库索引。在欧洲计算机视觉会议上，页码731–746。Springer，2002年。20[25] Thomas B. Sebastian，Philip N. Klein和Benjamin B. Kimia.通过编辑其冲击图形识别形状。IEEE Transactions on PatternAnalysis and MachineIntelligence，26(5):550–571，2004年。1，20[26] Daniel Sharvit, Jacky Chan, H¨useyin Tek, and Benjamin B.Kimia. 基于对称性的图像数据库索引。J. Visual Communicationand Image Representation，9(4):366–380，1998年。10[27] Wei Shen，Kai Zhao，Yuan Jiang，Yan Wang，XiangBai和Alan Yuille. Deepskeleton:学习多任务尺度相关的对象骨架提取的深度侧输出。IEEETransactions on ImageProcessing，26(11):5298–5311，2017年。1，3，6，80[28] Wei Shen，KaiZhao，姜元，王岩，张志江和白翔。通过融合与尺度相关的深度侧输出在自然图像中提取物体骨架。在IEEE计算机视觉和模式识别会议论文集中，页码为222-230，2016年。8143910[29] Kaleem Siddiqi，Sylvain Bouix，Allen Tannenbaum和Steven WZucker。Hamilton-Jacobi骨架。国际计算机视觉杂志，48(3)：215-231，2002年。1，30[30] Kaleem Siddiqi和Benjamin B.Kimia。用于识别的冲击语法。在1996年计算机视觉和模式识别会议（CVPR'96）上，页

下载后可阅读完整内容，剩余1页未读，立即下载