对象对称性检测：野外对象对称性检测的SRN方法

70 浏览量更新于2023-10-17 收藏 13.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

110680SRN：用于野外对象对称性检测的Side-output Residual Network0魏科�1,2，陈杰2，焦建斌1，赵国英2和叶启翔†101 中国科学院大学，北京，中国 2 Oulu大学CMVS，芬兰{kewei11}@mails.ucas.ac.cn，{jiechen, gyzhao}@ee.oulu.�，{jiaojb,qxye}@ucas.ac.cn0摘要0在本文中，我们通过提出一个新的基准和一个端到端的深度学习方法，在复杂背景中建立了对象对称性检测的基线，为野外的对称性检测开辟了一个有前途的方向。新的基准名为Sym-PASCAL，涵盖了远远超出现有数据集的对象多样性，多对象，部分不可见性和各种复杂背景的挑战。提出的对称性检测方法名为Side-output Residual Network(SRN)，利用输出残差单元(RUs)来拟合对象对称性的真实值和RUs的输出之间的误差。通过以深度到浅层的方式堆叠RUs，SRN利用多个尺度之间的误差'流动'来缓解使用有限层数拟合复杂输出的问题，抑制复杂背景，并有效匹配不同尺度的对象对称性。实验结果验证了基准及其与现实世界图像相关的挑战性方面，以及我们对称性检测方法的最新性能。基准和SRN的代码可在https://github.com/KevinKecc/SRN上公开获取。01. 引言对称性在视觉对象中普遍存在，既包括自然生物如树木和鸟类，也包括航空图像中的飞机和油管等人工对象。对称部分及其连接构成了形状的强大基于部分的分解[19,25]，为对象识别任务提供了有价值的线索。在对称性约束下，图像分割[24]、前景提取[5]、对象提议[10]和文本行检测[29]的性能都可以显著提高。早期的对称性检测，即骨架提取，通常仅涉及二值图像[8,18]。近年来0� 该工作部分得到了中国CSC的支持。† 通讯作者0Sym-PASCAL0SYYMAXWH-SYYMAXSK5060图1：我们提出了一个名为Sym-PASCAL的新基准，用于野外对象对称性检测。与SYMMAX [26]，WH-SYMMAX[21]和SK506[22]相比，我们的Sym-PASCAL涵盖了对象多样性，多对象，部分不可见性和各种复杂背景的挑战。（最佳观看颜色）0多年来，对称性检测往往处理彩色图像[13,14]，但仍局限于带有很少背景的裁剪图像补丁。这种限制部分是由于缺乏基本基准的原因，考虑到大多数现有的对称性检测数据集，例如SYMMAX [26]，WH-SYMMAX [21]和SK506[22]，要么缺乏对象级注释，要么缺乏野外环境设置，即多对象，部分不可见性和各种复杂背景。在本文中，我们提出了一个具有复杂背景的新的具有挑战性的基准，并提出了一种端到端的深度对称性检测方法，该方法可以处理野外图像，并旨在为对称性的实际应用开辟一个有前途的方向。新的基准名为Sym-PASCAL，由1453个来自PASCAL-VOC-2011[4]分割数据集的1742个对象组成。这样的基准更接近实际应用，具有远远超出现有数据集的挑战。those in existing datasets: (1) diversity of objects: multi-class objects with different illuminations and viewpoints;(2) multi-object co-occurrence: multiple objects exist ina single image; (3) part-invisibility: objects are partiallyoccluded; and (4) complex backgrounds: the scenes whereobject located could be contextually cluttered.For the in-the-wild symmetry detection problem, weexplore the deep Side-output Residual Network (SRN)that directly outputs response image about object symme-try. SRN roots in the Holistically-nested Edge Detection(HED) network [28] but updates it by stacking multipleResidual Units (RUs) on the side-outputs. The ResidualUnit (RU) is designed to ﬁt the error between the objectsymmetry ground-truth and the outputs of RUs, whichis computationally easier as it pursuits the minimizationof residuals among scales rather than only struggles tocombine multi-scale features to ﬁt the object symmetryground-truth.The RU we deﬁned not only signiﬁcantlyimproves the performance of SRN, but also solves thelearning convergence problem left by the baseline HEDmethod. By stacking multiple RUs in a deep-to-shallowmanner, the receptive ﬁelds of stacked RUs could adaptivelymatch the scale of symmetry.The contributions of thispaper include:• A new object symmetry benchmark that spans chal-lenges of diversity, multi-objects, part-invisibility, andvarious complex backgrounds, promoting the symme-try detection research to in-the-wild scenes.• A Side-output Residual Network that can effectivelyﬁt the errors between ground-truth and the outputs ofthe stacked RUs, enforcing the modeling capability tosymmetry in complex backgrounds, achieving state-of-the-art symmetry detection performance in the wild.side-view horses while SK506 consists objects with littlebackground.Neither of them involves multiple objectsin complex backgrounds, leaving a plenty of room fordeveloping new object symmetry benchmarks.Methods:Early symmetry detection methods, alsonamed skeleton extraction [8, 18], are mainly developedfor the binary images by leveraging morphological imageoperations. When processing color images, they usuallyneed a contour extraction or an image segmentation step aspre-processing. Considering that segmentation of in-the-wild images remains a research problem, the integration ofcolor image segmentation and symmetry detection not onlyincreases the complexity but also accumulates the errors.Researchers have tried to extract symmetry in colorimages based on multi-scale super-pixels. One hypothesisis that the object symmetry axes are the subsets of linesconnecting the center points of super-pixels [11]. Such linesubsets are explored from the super-pixels using a sequenceof deformable disc models extracting the symmetry pathes[9]. Their consistence and smoothness are enforced withspatial ﬁlters, e.g., a particle ﬁlter, which link local skeletonsegments into continuous curves [27].Due to the lackof object prior and the learning module, however, thesemethods are still limited to handle the images with simplebackgrounds.More effective symmetry detection approaches root inpowerful learning methods. On the SYMMAX benchmark,the Multiple Instance Learning (MIL) [26] is used to traina curve symmetry detector with multi-scale and multi-orientation features. To capture diversity of symmetry pat-terns, Teo et al. [24] employ the Structured Random Forest(SRF) and Shen et al. [21] use subspace MIL with the samefeature. Nevertheless, as the pixel-wise hand-craft featureis computationally expensive and representation limited,these methods are intractable to detect object symmetry incomplex backgrounds.Most recently, a deep learning approach, Fusing Scale-associated Deep Side-outputs (FSDS) [22], is shown to becapable of learning unprecedentedly effective object skele-ton representations on WH-SYMMAX [21] and SK506[22].FSDS takes the architecture of HED [28] and su-pervises its side-outputs with scale-associated ground-truth.Despite of its state-of-the-art performance, it needs theintensive annotations of the scales for each skeleton point,which means that it uses much more human effort than otherapproaches when preparing the training data. Comparedwith FSDS, our proposed SRN can adaptively match thescales of symmetry, without using scale-level annotation.3. The Sym-PASCAL BenchmarkSymmetry annotation involves pixel-level ﬁne details,and is time consuming. We thus leverage the semantic seg-mentation ground-truth and a skeleton generation algorithmto aid the annotation of symmetry [20].106902. 相关工作由于适用性和美感，对称性在过去十年中引起了很多关注。对称性检测的目标从二值图像演变为彩色物体图像，而对称性检测方法则从手工制作逐渐更新为基于学习的方法。基准：在早期的研究中，对称性提取算法在非常有限的二值形状上进行定性评估[8]。这些形状是从MPEG-7Shape-1数据集中选择的，用于主观观察[2]。后来，刘等人[13]使用了很少量的真实世界图像进行对称性检测竞赛。老实说，SYMMAX[26]可以被视为一个包含数百个带有局部对称性注释的训练/测试图像的真实基准。但是，它所定义的局部反射对称性主要集中在低级图像边缘和轮廓上，缺少了对象的高级概念。WH-SYMMAX[21]和SK506[22]是最近提出的带有对象骨架注释的基准。然而，WH-SYMMAX仅由侧视马组成，而SK506则包含了背景很少的对象。它们都没有涉及到复杂背景中的多个对象，为开发新的对象对称性基准留下了很大的空间。方法：早期的对称性检测方法，也称为骨架提取[8,18]，主要是通过利用形态学图像操作来处理二值图像。在处理彩色图像时，它们通常需要进行轮廓提取或图像分割预处理步骤。考虑到野外图像的分割仍然是一个研究问题，彩色图像分割和对称性检测的集成不仅增加了复杂性，还积累了错误。研究人员尝试基于多尺度超像素提取彩色图像中的对称性。一个假设是对象的对称轴是连接超像素中心点的线段的子集[11]。这样的线段子集通过使用一系列可变形的圆盘模型从超像素中探索出来，提取对称路径[9]。它们的一致性和平滑性通过空间滤波器（例如粒子滤波器）加以强制，将局部骨架段连接成连续曲线[27]。然而，由于缺乏对象先验和学习模块，这些方法仍然局限于处理具有简单背景的图像。更有效的对称性检测方法源于强大的学习方法。在SYMMAX基准上，多实例学习（MIL）[26]被用于训练具有多尺度和多方向特征的曲线对称性检测器。为了捕捉对称模式的多样性，Teo等人[24]采用了结构化随机森林（SRF），Shen等人[21]使用了相同特征的子空间MIL。然而，由于像素级的手工制作特征在计算上很昂贵且表示有限，这些方法无法在复杂背景中检测对象的对称性。最近，一种深度学习方法Fusing Scale-associated DeepSide-outputs（FSDS）[22]在WH-SYMMAX[21]和SK506[22]上展示了学习到的非凡有效的对象骨架表示能力。FSDS采用HED[28]的架构，并使用与尺度相关的真实标注来监督其边缘输出。尽管其具有最先进的性能，但它需要为每个骨架点进行尺度的密集标注，这意味着在准备训练数据时比其他方法需要更多的人力。与FSDS相比，我们提出的SRN可以自适应地匹配对称性的尺度，而无需使用尺度级别的注释。3.Sym-PASCAL基准对称性注释涉及像素级的细节，耗时较长。因此，我们利用语义分割的真实标注和骨架生成算法来辅助对称性的注释[20]。010203040506070traintest020406080100120140160180200traintest10700(c)可用（困难）图2：对象对称性注释。绿色掩模是标注的语义分割真值。棕色掩模是从分割中扩展出来的。红线是语义分割掩模的骨架。黄线和蓝线是对应于扩展掩模的骨架。蓝线是对象对称性的真值。（最好以彩色查看）3.1.分类和注释0Sym-PASCAL是从PASCAL-VOC-2011分割数据集[4]派生而来，其中包含1112个训练图像和1111个测试图像，涵盖20个对象类别，包括：人、鸟、猫、牛、狗、马、羊、飞机、自行车、船、公共汽车、汽车、摩托车、火车、瓶子、椅子、餐桌、盆栽植物、沙发和电视/显示器。我们将这20个对象类别分为具有对称性和不具有对称性的两类，如图2所示。在分割掩模中包含许多不连续部分的对象是不具有对称性的，具体包括盆栽植物、餐桌、摩托车、自行车、椅子和沙发，如图2a所示。其他14个对象类别具有对称性。一些对象很细长，因此容易注释，如图2b所示，而其他具有小长宽比或遮挡的对象则难以注释，如图2c所示。总共从PASCAL-VOC-2011的训练和测试集中选择和注释了648/787张图像。其中，31.3%的图像包含多个对象，45.6%的图像包含部分不可见性。对于对象对称性明显的图像，即由容易注释的细长部分组成的对象，我们直接使用骨架提取算法[20]从对象分割掩模中提取对称性，如图2b所示。对于这样的对象，对象对称性（用蓝色曲线标记）和它们的骨架（用红色曲线标记）是一致的。对于对象对称性不明显的图像，我们手动扩展语义分割掩模并在其上注释对称性，如图2c所示。对于图2c顶部所示的宽对象，我们沿着对象的长轴方向扩展掩模，并选择长轴作为真值。对于图2c底部所示的遮挡对象，我们需要手动填充分割掩模的缺失部分。对于包含部分对象的图片，我们根据经验想象遮挡部分来扩展分割掩模。0在上述处理中，使用骨架提取算法[20]从对象分割掩模中提取对称性。对象对称性的真实值被设置为分割掩模内的骨架点，如图2c中的蓝色曲线所示。3.2.讨论接下来，我们将提出的基准与其他三个代表性基准进行比较，分别是SYMMAX[26]，WH-SYMMAX[21]和SK506[22]。SYMMAX是从BSDS300[1]派生而来，其中包含200/100个训练和测试图像。它在前景和背景上都标注了局部反射对称性。考虑到大多数计算机视觉任务关注的是前景，使用对象对称性而不是整个图像的对称性更有意义。WH-SYMMAX是为对象骨架开发的，但它只由裁剪的马图像组成，对于一般对象对称性来说不够全面。SK506涉及到16类对象的骨架。然而，它们的背景过于简单，不能代表野外图像。如表1所示，提出的基准涉及更多的训练和测试图像。特别是，这些图像涉及复杂的背景、多个对象和/或遮挡。它是为野外端到端对象对称性开发的，提供了一种评估算法是否能够在不使用额外对象检测器的情况下检测对称性的协议。在Sym-PASCAL中，每个类别的图像比其他数据集更平衡，如图3b所示，只是人体对象的数量比其他对象更多。相比之下，在SK506中，不同类别的对象更不平衡，如图3a所示。0(a) SK5060(b) Sym-PASCAL0图3：SK506和Sym-PASCAL数据集的物体类别分布。0SYMMAX WH- SK506 Sym-0SYMMAX PASCAL0数据本地物体物体物体类型对称骨架骨架对称0野外图像简单简单野外类型图像图像图像图像0#物体 – 1 16 140#训练 200 228 300 6480#测试 100 100 206 7870表1：四个对称检测数据集的比较。( )ryyBy stacking the RUs deﬁned, we implement a kind ofnew side-output deep network, named Side-output ResidualNetwork (SRN), which incorporates the advantages of boththe scale adaptability and residual learning. For SRN, theinput of the ﬁrst RU can be chosen as the shallowest side-output or deepest side-output, which derives two versionsof SRN, Fig. 4. In what follows, the RU is numbered as theside-output (SOP) index, and the output of the i−th RU isdenoted as RUOPi, for short.Deep-to-shallow.In this SRN architecture, RUs arestacked from deep to shallow, Fig. 4a. Assume that si isthe i-th side-output, and ri+1, ri are the input and output ofi-th RU respectively . For the ﬁrst stacked RU2, the input isset as the deepest SOP3, i.e., r3 = s3. And SOP2 is usedto learn the residual between RUOP3 and the ground-truth,which updates RUOP3 to RUOP2. The RUs are stacked inorder until the shallowest side-output, in other words, theinputs of which are set as the output of the former one.Sigmoid is used as classiﬁer on the output of the last stacked10710输入0SOP10SOP20SOP30真实值0sigmoid0输出02倍上采样02倍上采样0RU10RU20RUOP30RUOP10RUOP20深度监督0(a) 从深到浅0SOP10SOP20SOP30输入真实值0输出0上采样20上采样30RUOP30RUOP10RUOP20sigmoid0深度监督0RU20RU30(b) 从浅到深0图4：通过堆叠残差单元(RU)实现的提出的边输出残差网络(SRN)的架构，其中(a)是从深到浅的策略，(b)是从浅到深的策略。RU用虚线框标记。通过在RU的输入和输出上进行深度监督，计算出真实值和RU输出之间的残差(RUOP)。沿着堆叠方向，残差逐渐减小，使得RUOP更接近真实值。04. 边输出残差网络0提出的边输出残差网络(SRN)源于精心设计的输出残差单元(RU)和从深到浅的学习策略。给定对称真实值，SRN以端到端的方式进行学习。04.1. 输出残差单元0给定训练图像，端到端的对称学习追求最佳拟合对称真实值的深度网络参数。这种学习目标与学习分类网络[7]的目标不同。为输出定义的RU（图5）与为特征定义的残差网络中的RU本质上不同。通过在RU的输入和输出上进行深度监督，计算出真实值的残差。形式上，将RU的输入表示为r，附加映射表示为F(y)，深度监督表示为：� r ≈ y r + F(y) ≈ y，(1)0其中 r 和 r + F(y) 分别是RU的输入和输出。F(y)被视为y的残差估计。RU提供了来自不同尺度的真实值和输出之间的快捷连接，这意味着在不同尺度之间的错误'流'的功能模块，从而更容易适应具有更高适应性的复杂输出。极端情况下，如果输入r是最优的，将残差推向零比拟合附加映射F(y)更容易。0( ) y0r0图5：输出残差单元(RU)。通过在RU的输入和输出上进行监督，附加映射F(y)估计y的残差。04.2. 网络架构log Pr(yj = 1|X; W, wb)j∈Y−(yj = 0|X; W, wb),(5)Li(W, θi, wi) = −β �j∈Y+log Pr(yj = 1|X; W, θi, wi)− (1 − β)j∈Y−log Pr(yj = 0|X; W, θi, wi)L(W, θ, w) = αMLb(W, wb) +1�i=M−1αiLb(W, θi, wi).(W, θ, w)∗ = arg min L(W, θ, w).(8)ˆY = Pr(yj = 1|X; W∗, θ∗, w∗).(9)10720上采样0权重层0连接0权重层0ir0is0� 1ir0riw0(a) 0权重层0连接0上采样0权重层0ir0� 1ir0is0ciw0isw0(b) 浅到深图6: 第i个RU的实现。0RU用于生成最终的输出图像。深到浅架构中RU的实现如图6a所示。需要注意的是，该架构中RU的输出大小与侧输出相同，而不是输入图像。因此，引入了高斯反卷积层到RU的输出。由于上采样是非线性变换，因此堆叠了一个权重层以提高尺度适应性。不直接将上采样ri+1和si相加，而是利用一个1×1卷积层生成ri。RU的公式为，0ri = wic(si + wri ri+1), (2)0其中wic，wir是连接层和上采样ri+1的卷积权重。根据公式(1)和(2)，计算输出残差Fi(y)，0Fi(y) = wci∙si + (wriwci−1)ri+1. (3)0当wri∙wci接近1.0时，残差仅与侧输出相关。在极端情况下，沿着RU的堆叠方向，残差F(y)接近0.0。我们知道，CNN的深层包含忽略图像细节但捕捉高级表示的特征。因此，期望深层的SOP3更接近最优训练解。RU2将残差推向零，响应图RUOP2与响应图RUOP3相似。在深到浅的架构中，最深的侧输出用作基准值的良好初始化，因此，深到浅的架构比浅到深的架构产生更好的结果，如第5.2.1节所示。浅到深。架构如图4b所示。0和图6b中的RU。侧输出通过高斯反卷积层进行上采样，使其大小与输入图像一致。与公式(3)类似，计算残差，0Fi(y) = wsiwci∙si + (wci−1)ri+1，(4)0其中wis是上采样si的权重参数。图4b表明，最浅的RUOP1与基准值相比具有大量误报像素，因为SOP1表示输入图像的局部结构。沿着堆叠方向0，RU3减小残差，使得RU3的输出，即RUOP3，与基准值相比更接近。04.3. 学习0给定对象对称检测训练数据集S = { (Xn, Yn)} Nn =1，其中N个训练对，Xn = {x(n)j, j = 1, ∙ ∙ ∙ , T}和Yn ={y(n)j, j = 1, ∙ ∙ ∙ ,T}分别是输入图像和基准二值图像，具有T个像素。y(n)j =1表示对称方向0像素，y(n)j =0表示非对称像素。为了简化表示，我们省略下标n，因为我们独立考虑每个图像。将W表示为基础网络的参数。假设网络有M个侧输出，第M个侧输出设置为基本输出，使用M-1个RU。以图4a为例，其中M =3，RUOP3是基本输出。图4b具有类似的公式。对于基本输出，计算损失，0L b ( W , w b ) = - β �0其中 w b 是基本输出的分类器参数。Y + 和 Y -分别表示对称和非对称的真实标签集。损失权重 β = | Y + |/ | Y | ，| Y + | 和 | Y - | 分别表示对称和非对称像素数。Pr(y j = 1 | X ; W , w b ) ∈ [0 , 1]是基本输出的sigmoid预测，用于衡量点在对称轴上的可能性。对于第 i 个RU，i = M - 1，...，1，计算损失，0(6) 其中 θ i = ( w c i , w s i ) 是第 i个RU之后的连接层和侧输出层的卷积参数。w i 是第 i个RU输出的分类器参数。所有堆叠的RUs的损失函数由以下公式得到：0(7) 最后，我们获得最优参数，0在测试阶段，给定一张图像 X，最后一个堆叠的RU输出一个对称预测图，107304.4. 与其他网络的差异0提出的SRN与其他端到端深度学习实现（即HED[28]，FSDS [22]和Laplacian Reconstruction[6]）有显著差异。在HED中，直接在侧输出上应用深度监督，而在SRN中，深度监督应用于RU的输出。根据（2），每个RU至少包含两个侧输出的信息，使SRN能够平滑地建模深层的多尺度对称性。FSDS是HED的改进，为侧输出指定了尺度，这需要为每个尺度进行额外的注释。相反，SRN使用RUs来模拟尺度信息，而不需要任何多尺度注释。SRN采用了Laplacian重建的思想，该思想使用掩码来指示分割的重建残差。不同之处在于SRN追求尺度适应性，而Laplacian重建侧重于多尺度误差最小化。05. 实验结果0首先在提出的Sym-PASCAL基准上评估和比较了提出的SRN。然后在其他流行数据集上与最先进的深度学习方法进行评估和比较，包括SYMMAX [26]，WH-SYMMAX[21]和SK506 [22]。05.1. 实验设置0实现细节。SRN是根据HED[28]的参数设置实现的，通过微调预训练的16层VGG网络[23]。SRN的超参数包括：小批量大小（1），学习率（对于野外图像数据集为1e-8，对于简单图像数据集为1e-6），每个RU输出的损失权重（1），动量（0.9），嵌套滤波器的初始化（0），权重衰减（0.002）和最大训练迭代次数（18,000）。在测试阶段，应用非最大抑制（NMS）算法[3]在输出图上获取对象对称性。评估指标。使用F-度量的精确度-召回率指标用于评估对称性检测的性能，如[26]中介绍的那样。为了获得精确度-召回率曲线，首先将检测到的对称响应阈值化为二进制图，然后与真实对称性掩码进行匹配。通过改变阈值，获得精确度-召回率曲线并计算最佳F-度量。05.2. Sym-PASCAL上的结果05.2.1 SRN设置0首先在新的基准测试中使用不同的设置评估了SRN，如表2所示。架构：表2显示了使用深-浅架构的SRN（F-measure0架构增强 Conv1 F-measure0浅-深 1× 0.3810无 0.39700.8×，1×，1.2× 0.3710无 0.3960深-浅 1× 0.4430无 0.44300.8×，1×，1.2× 0.3840无 0.3970表2：SRN在Sym-PASCAL基准测试中的不同设置下的性能。00.443）的性能明显优于浅-深架构（F-measure0.397）。这证实了深-浅架构比浅-深架构更容易减小残差，因为初始化更好。数据增强：数据增强可以聚合训练数据集。在这项工作中，使用图像旋转、翻转、上采样和下采样（多尺度）进行数据增强。对比了使用/不使用多尺度数据增强的性能。实验结果表明，尽管多尺度增强可以产生更多的训练数据，但F-measure会随着多尺度增强而降低。原因如下所述。对称性的真实值由一像素厚度的曲线组成。上采样操作会产生厚度大于一个像素的曲线，而下采样操作会产生不连续的对称曲线。Conv1：FSDS[22]不使用VGG的conv1阶段，因为感受野的大小太小（仅为5），会引入对称性的局部噪声（太小无法捕捉到任何对称性响应）。小感受野对SRN也有负面影响。通过对比表2，没有conv1的F-measure略优于有conv1的F-measure。05.2.2 性能比较使用具有数据增强但没有conv1的深-浅SRN，我们与最先进的方法进行了性能比较，如图8和表3所示。所有比较结果均通过运行默认参数设置的开源代码生成。观察到传统方法的性能较差且耗时。传统方法的最佳F-measure为0.174，表明了所提出基准测试的挑战性。Lindeberg [12]的运行速度最快，每帧5.79秒。Levinshtein [11]、MIL [26]、Lee[9]和Particle Filter[27]需要更多的运行时间，因为它们使用了复杂的特征。端到端的深度学习方法表现良好。HED的F-measure为0.369，仅需要10毫秒处理一幅图像。当不使用尺度信息时，FSDS退化为HED。当使用每个侧输出的切片和连接时，其F-measure达到0.418。我们提出的SRN以F-measure0.443获得最佳性能，比基准方法HED提高了7.4%。它还比最先进的方法FSDS提高了2.5%。为了展示端到端流程在复杂背景中的有效性，我们将提出的SRN与由语义分割/目标检测和骨架提取组成的两阶段方法进行了比较。我们选择最佳的分割网络FCN-8s[15]来定位对象，选择骨架方法[20]来提取对称性，得到F-measure0.386，如图8所示。我们还将FSDS [22]与最先进的目标检测方法FasterRCNN[17]和YOLO[16]的检测结果进行了比较。如图8所示，它们的F-measure分别为0.343和0.354。实验结果表明，与两阶段方法相比，所提出的端到端学习方法是一种更有效和高效的检测对象对称性的方法。最先进的深度学习方法的对象对称性检测结果如图7所示。从第一和第二列可以观察到，我们的SRN方法在单对象图像中获得的对象对称性与带有/不带有复杂背景的真实值更一致。第三和第四列显示了包含多个对象的示例，在这些示例中，所提出的SRN方法比其他方法获得更准确的对象对称性检测结果。最后两列显示了带有遮挡对象的图像的结果。HEDSRN(ours) HED when the scale information is not used.Its F-measure reaches 0.418 when slicing and concatenating ofeach side-output is used. Our proposed SRN gets the bestperformance with F-measure 0.443 which outperforms thebaseline HED approach by 7.4%. It also outperforms thestate-of-the-art method, FSDS, by 2.5%.To show the effectiveness of the end-to-end pipeline incomplex backgrounds, we compare the proposed SRN witha two-stage approach composing of semantic segmenta-tion/object detection and skeleton extraction. We choosethe best segmentation network FCN-8s [15] to localizeobjects,

下载后可阅读完整内容，剩余1页未读，立即下载