学习语义边界的新层和损失：提高对象边界预测性能

69 浏览量更新于2023-10-19 收藏 2.77MB PDF 举报

边缘检测器

图像分割

身份认证购VIP最低享 7 折!

30元优惠券

1魔鬼在边缘：从嘈杂的注释中学习语义边界David Acuna1， 2， 3 Amlan Kar2， 3 Sanja Fidler1， 2， 31 NVIDIA2多伦多大学3Vector Institute{davidj，amlan}@ cs.toronto.edu，sfidler@nvidia.com摘要我们解决了语义边界预测的问题，其目的是识别属于对象（类）边界的像素。我们注意到，相关数据集包括显著水平的标签噪声，这反映了精确的注释很难获得的事实，因此注释者权衡了质量和效率。我们的目标是通过在训练过程中明确推理注释噪声来学习清晰我们提出了一个简单的新层和损失，可以与现有的基于学习的边界检测器。我们的层/损失强制检测器预测沿边缘处的法线方向的最大响应，同时还正则化其方向。我们在训练过程中使用水平集公式进一步推理真实对象边界，这允许网络以端到端的方式从未对齐的标签中学习。实验表明，我们在CASENet [36]骨干网络上的MF（ODS）和AP方面的改进分别超过4%和18.61%，优于所有当前最先进的方法，包括处理对齐的方法。此外，我们还证明了我们的学习网络可以用于显着改进粗略的分割标签，使其成为标记新数据的有效方法。1. 介绍图像边界是识别的重要线索[26，15，2]。人类可以单独从草图中识别物体，即使在边界的重要部分缺失的情况下[6，38]。边界也被证明对3D重建[23，21，39]，定位[35，31]和图像生成[19，32]有用。在语义边界检测任务中，目标是从低级别图像边缘转移到识别属于对象（类）边界的图像像素它可以被看作是一个双重的任务，以图像分割识别对象区域。直觉上，预测语义边界是一项更容易的学习任务，因为它们主要植根于可识别的高频图像位置，而区域像素通常颜色均匀，导致识别模糊。另一方面，性能指标更难：在正确获得粗糙区域的图1：我们介绍了STEAL，一种学习更清晰、更准确的语义边界的方法。STEAL可以插入到任何现有的语义边界网络中，并且能够显着改进当前数据集中的噪声可能导致人为的高Jaccard指数[20]，边界相关的度量将其评估紧紧地集中在对象边缘。正确地获得这些对于诸如对象实例分割、机器人操作和抓取或图像编辑等任务非常重要。然而，注释精确的对象边界非常慢，每个对象需要30- 60秒[1，9]。因此，大多数现有的数据集由显著的标签噪声（图1，左下），标签效率的交易质量组成这可能是大多数学习检测器输出厚边界预测的根本原因，这对于下游任务是不期望的。在本文中，我们的目标是通过在训练过程中明确推理注释噪声来学习清晰和精确的我们提出了一个新的层和损失，可以添加到任何端到端边缘检测器的顶部。它迫使边缘检测器预测沿正常方向在边缘的最大响应，同时也正规化其方向。通过这样做，我们减轻了预测过厚边界的问题，并直接优化非最大抑制（NMS）边缘。我们使用水平集公式进一步推理真实的对象边界，这允许网络以端到端的方式从未对齐的标签中学习。实验表明，该方法提高了骨干网的性能，即 .CASENet [36]在MF（ODS）方面提高了4%以上，在AP方面提高了18.61%我们11075STEAL：语义细化边缘对齐学习魔鬼在边缘标记地面实况标记地面实况主动对准由粗到细分割11076KK进一步表明，我们预测的边界明显优于从最新的DeepLab-v3 [10]分割输出中获得的边界，同时使用更轻量级的我们学习的网络还能够改进粗注释的分割掩码，16px，32px误差分别将其准确度提高20%和30%以上。这使我们的方法成为一种有效的手段来收集新的标记数据，允许注释者只需点击几下就可以粗略地勾勒出对象，并使用我们的方法生成更精细的地面实况我们通过细化Cityscapes粗标签集并利用这些标签来训练最先进的分割网络来展示这一想法[10]。我们观察到一个显着的改善超过1.2%，在一些细化的类别。2. 相关工作语义边界检测。基于学习的语义边缘检测可以追溯到[28]，其学习了在标准边缘检测器之上操作的分类器在文献 [16] 中，作者介绍了语义边界数据集（SBD），并正式研究了真实世界图像中的语义轮廓检测他们提出了一种结合自底向上边缘和自顶向下检测的逆检测器的想法最近，[36]扩展了[34]中提出的基于CNN的类无关边缘检测器，并允许每个边缘像素与多个类相关联。所提出的CASENet架构结合了低和高层次的功能与多标签丢失功能，以监督融合的激活。大多数作品使用非最大值抑制[7]作为后处理步骤，以处理预测边界的厚度。在我们的工作中，我们在培训期间直接针对NMS进行优化。我们进一步的原因与真实对象边界，这是通常没有在以前的工作中完成未对齐的地面实况注释请注意，我们这里的重点不是提出一种新的边缘检测方法，而是对现有架构进行简单的添加。与我们最密切相关的工作是SEAL [37]，因为它在训练期间处理未对齐的标签。与我们类似，SEAL将底层的地面真值边界视为在训练期间联合优化的潜在变量。最优化被配制成一个计算昂贵的二分图最小成本分配问题。为了使优化易于处理，没有成对成本，I.E.两个相邻的地面实况像素可以与潜在地面实况中相距很远的两个像素相匹配，这可能导致训练中的模糊性。在我们的工作中，我们通过水平集公式推断真实对象边界，该水平集公式保持连接性和邻近性，并确保推断的地面真实边界表现良好。此外，SEAL限于边界检测的领域，并且需要具有相当好的注释数据，因为对齐被定义为注释数据之间的一对一映射。并推断出了真实情况在我们的方法中，大量的差异（拓扑结构和偏差）在地面真理可以处理。因此，我们的方法可以很自然地用于改进粗糙的分割标签，从而为有效地注释数据集提供了一种新的方法。水平集分割水平集方法[27]已广泛用于图像分割[8，13，30，18，24，5，22，14]由于它们能够自动处理各种拓扑变化，如分裂和合并。大多数较早的工作在标准图像梯度观测的基础上推导出不同的水平集公式，而最近的工作则将这些公式与神经网络输出进行了交换[18]。在[24]中，作者提出了一种深度结构化活动轮廓方法，该方法使用CNN学习活动轮廓模型的参数[20]介绍了一种用于对象建议生成的方法，通过学习有效地放置种子，使得源自这些种子的关键水平集击中对象边界。在并行工作中，[33]学习CNN特征提取和水平集进化，以端到端的方式进行对象实例注释。在我们的工作中，我们在训练过程中利用水平集优化作为迭代细化地面实况语义边界的手段。3. STEAL方法在本节中，我们将介绍我们的语义细化边缘对齐学习（STEAL）方法。我们的方法包括一个新的边界变薄层连同损失函数，旨在产生薄和精确的语义边缘。我们还提出了一个框架，该框架在学习将嘈杂的人类注释边缘与训练过程中的真实边界对齐的同时，联合学习对象边缘我们将后者称为主动对齐。直观地说，通过使用真实的边界信号来训练边界网络，我们希望它能够学习并产生更准确的预测。STEAL对主干CNN架构是不可知的，并且可以插入任何现有的基于学习的边界检测网络之上我们在图中说明了框架。二、亚秒3.1给出了语义边界检测和相关符号的概述我们的边界薄化层和损失介绍在Subsec。三点三在子秒中3.4，我们描述了我们的主动对齐框架。3.1. 语义感知的边缘检测语义感知边缘检测[36，37]可以定义为给定输入图像x的K个对象类的预测边界图的任务。设ym∈ {0，1}表示像素m是否属于类k。我们的目标是计算概率图P（yk|x;θ），其通常被假设为分解成逐像素概率P（y，m）的集合|x;θ）由伯努利分布建模。它使用具有k个S形输出和参数θ的卷积神经网络f来计算。因此，允许每个像素属于多个类，以处理多类遮挡11077pp固定卷积（正态估计）边界个法向角θ分类层边界分类损失softmax注释地面实况边界检测网络网管体系结构推理培训主动对准NMS损失细化标签方向损耗固定卷积（正态估计）图2：STEAL架构。我们的架构可以插在任何骨干架构之上。边界层变薄对边界层分类通过计算边缘法线并在每个边界像素处沿着法线采样5个位置来进行预测我们在这些地方执行softmax帮助我们像标准NMS一样增强边界像素。在训练过程中，我们通过主动对齐方案使用我们的预测迭代地改进地面实况标签。NMS和法线方向损失仅应用于（精确的）地面实况边界位置。边界请注意，标准的类无关边缘检测可以被视为k=1的特殊情况（消耗所有前景类）。对于类别k，我们将沿着法线方向d→k的响应归一化如下：语义边缘学习。最先进的边界检测系统h k（p|x，θ）= λLexp（f k（p|x，θ）/τ）exp（f（p |x，θ）/τ）（二）通常使用标准二进制交叉[2019 - 03 -14][2019 - 03 - 14][2019 - 03 - 19]来处理高其中：t=−Lk不边缘和非边缘像素之间的不平衡，加权项β = |Y−|/|Y|经常使用，其中|Y −|考虑了小批量中所有类别中的非边缘像素的数量，以及|Y|是像素总数。在多类场景中，假设类是独立的，凹痕[36，37]。因此，在学习中，以下加权二进制交叉熵损失被最小化：ΣL BCE（θ）= − log P（yk|x; θ）Kx（pt）=x（p）+t·cosd→p（3）y（pt）=y（p）+t·sind→p（4）这里，t∈ {−L，−L+1，. . .，L}，并且L表示像素p t沿着法线距p的最大距离。可视化见图2。我们使用基本三角学和估计二阶导数的固定卷积层从地面实况边界图计算法向d→k 方程中的参数τ（2）表示ΣΣ=−{β y mlog f（m|x，θ）+（一）softmax的温度我们使用L = 2和τ = 0。1 .一、直观地说，我们希望鼓励真正的边界像素KM+（1 − β）（1 − y m）log（1 − f（m|x，θ））}p以实现沿其法线方向的最高响应kk我们通过一个额外的损失来实现这一点，称为NMS其中y表示地面实况边界标签。3.2. 语义边界细化层损失，将用h计算的预测分类分布推向狄拉克δ目标分布：Σ Σ在标准公式中，每个边界图中的附近像素被认为是独立的，并且可以导致Lnms（θ）=−Klogh k（p|x，θ）（5）p预测在对象边界周围密集地“发射”。我们的目标是鼓励沿着每个边界像素的法线进行预测，以在实际边界元上给出最大响应。这是受到基于边缘的非最大抑制（NMS）的启发，可以追溯到Canny此外，我们添加了一个额外的损失项，鼓励从预测的边界图估计的法线与从地面实况边缘计算的法线一致。这两种损失共同作用，沿法线和切线方向产生更清晰的预测3.3. 薄层和NMS损耗形式上，在训练过程中，我们在边界预测图的顶部添加一个新的对于每一个位置-11078目录pp请注意，p仅索引每个类别的正边界像素，其他像素不会导致NMS丢失。我们计算f k（p t|x，θ），（2）对于非整数位置，使用双线性核。方向损失。理想情况下，预测的边界将具有与根据地面实况边界计算的那些方向类似的法线方向。我们遵循[4]将误差定义为角域中的均方损失函数：L（θ）=θ||cos−1<$d→，e→（θ）<$||、（6）KP其中d→p是边界pixel中的地面真实法线方向p，e→p是从预测边界计算的法线11079普雷特普雷特K地图我们在f k上使用相同的卷积层来得到→e。最后，我们将全部增广损失计算为以下三项的这里κ是欧几里德曲线，→n是边界的输入该计算的详细信息可参见[8]，附录B和C。L=α1 LBCE +α2Lnm+α3L方向（七）通过微分方程。（8）很容易证明，如果ykevolves根据最小值k（t） =βN→则嵌入其中α1，α2，α3是控制im的超参数函数φ可以变形为φ φ（t）=β|∇→φ|. Wecan每一项的重要性（见实验）。3.4. 主动对准学习好的边界检测器需要高质量的注释数据。然而，精确的边界是耗时的注释。因此，数据集在质量和注释效率之间进行权衡。与[37]一样，我们注意到标准SBD基准[16]包含显著的标签噪声。在本节中，我们提出了一个框架，允许我们共同推理真实的语义边界，并训练网络来预测它们。我们采用水平集公式，确保推断的设y={y∈1，y∈2，.，表示噪声地面实况标签y的更准确的版本，我们旨在推断其作为我们的训练过程的一部分。我们将y_k定义为嵌入符号函数φ的零yk={r：φ（r，t）=0}t（8）因此，re用φ表示yk的演化，如下：φ（t）n= g（f k，yk，λ）（κ + c）|∇φ|+ gφ（13）其中c可以被看作是一个恒定的速度，有助于避免某些局部最小值[8]。当量13也可以解释为水平集方法的测地线活动轮廓公式[8，27]。3.5. 学习最小化方程（9）可以用迭代的两步优化过程来执行。在一个步骤中，我们将所提供的边界yk向网络高度自信的区域演进。由t索引的演化步骤的数量可以被视为潜在变量，并且y_k通过选择使等式（1）最小化的y_t来选择。（九）、在第二步中，我们使用计算出的yk优化θ。形式上，我们想要解决：minL（y，θ）=minminL（y，θ）（14）我们的目标是共同优化潜在的变量，yθ，θθy边网络的参数θ。优化被定义为以下损失的最小化：Σ其中，我们可以在保持θ固定和优化yθ之间选择：minL（yk，θ）=min{−logP（yt|x;θ）−C}minL（y，θ）=−yθ，θlogP（yk，yk|x;θ）（9）yˆktk（十五）KΣ。Σ=−logP（yk|yk）+logP（yk|x;θ）K第二项是模型的对数似然，可以如前一节所述定义。第一项编码的先验，鼓励yk接近yk。直到一个常数，并且不失一般性，我们可以用下面的能量形式重写这项：∫E（y|y=g（f，y，λ）y=（p）|ˆ′ |并通过Eq. （7）当持有yfix ed时。这里C是一个不影响优化的常数。3.6. 从粗到精注释将y的演化嵌入φ的演化有两个主要的好处。首先，对y的拓扑变化进行了自由处理，其次，φ可以自然地解释为分割对象的掩模，其中φ<0KKKk kkpyk（p）宾馆（10）对应于分割的区域。此外，我们的方法也可以很容易地用于加速对象注释。其中λ是控制yk和g（. ）是以下递减函数：第假设一个场景，注释器绘制了一个粗略的屏蔽感兴趣的对象内，通过只使用几次点击.g（f，y，λ）=1+λ（十一）这就是Cityscapes数据集的粗略子集K K1个以上|f k|1个以上|yk|已发表评论[12]我们可以使用我们的学习模型，直观地说，当曲线veyk位于fk的高概率质量区域中时，该能量最小化，并且以λ的因子接近给定的地面实况yk。我们可以将Eq。（10）通过欧拉-拉格朗日方程，并找到梯度下降方向，该方向允许将初始yk朝向方程（11）的（局部）最小值变形。（10）：总重量（t）=κg（f，y，λ）→n−（κg（f，y，λ）→n）→n（12）普雷特11080水平集公式（Eq.（13）），设置λ=0和c=1以通过t次迭代来演化给定的粗略掩模，以产生改进的分割掩模，其边缘与由我们的模型预测的边缘对齐3.6.1实现细节形态水平集。在这项工作中，我们遵循形态学的方法来计算微分算子11081度量方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视是说MF（ODS）CASENetCASENet-S密封74.8476.2678.4160.1762.8866.3273.7175.7776.8347.6851.6652.1866.6966.7367.5278.5979.7879.9366.6670.3269.7176.2378.9079.3747.1749.7249.4569.3569.5572.5236.2339.8441.3875.8877.2578.1272.4574.2974.5761.7865.3965.9873.1075.3576.4743.0147.8549.9871.2372.0372.7848.8251.3952.1071.8773.1374.0554.9357.3558.1663.5265.7766.79我们的（NMS损失）我们的（NMS损失+AAlign）78.9680.1566.2067.8077.5377.6954.7654.2669.4269.5481.7781.4871.3871.3478.2878.9752.0151.7674.1073.6142.7942.8279.1879.8076.5776.4466.7167.6877.7178.1649.7050.4374.9975.0650.5450.9975.5075.3159.3259.6667.8768.15APCASENetCASENet-S密封50.5367.6474.2444.8853.1057.4541.6969.7972.7228.9240.5142.5242.9762.5265.3954.4673.4974.5047.3963.1065.5258.2875.2677.9335.5339.9640.9245.6160.7465.7625.2230.4333.3656.3972.2876.3148.4565.1568.8542.7956.5758.3155.3870.8073.7627.3133.9138.8748.6961.9266.3139.8845.0946.9345.0567.8769.4034.7748.9351.4043.7157.9561.02我们的（NMS损失）我们的（NMS损失+AAlign）75.8576.7459.6560.9474.2973.9243.6843.1365.6566.4877.6377.0967.2267.8076.6377.5042.3342.0970.6770.0531.2332.1177.6678.4274.5974.7761.0461.2877.4477.5238.2839.0269.5368.5140.8441.4671.6971.6250.3951.0462.3262.57表1：我们的方法在重新注释的SBD测试集中与最新技术的比较。分数以%表示。方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视是说CASENet [36][37]第三十七话83.384.976.078.680.784.663.466.269.271.381.383.074.976.583.287.254.357.674.877.546.453.080.383.580.282.276.678.380.885.153.358.777.278.950.153.175.977.766.869.771.474.4我们85.880.085.668.471.685.778.187.559.178.553.784.883.479.585.360.279.653.780.371.475.6表2：按照原始评价方案进行的SBD测试结果和来自[16]的测试集度量方法活动对齐嘈杂的火车噪音火车（+8px错误）MF（ODS）Ours（CASENet）Ours（CASENet）+ NMS层CC64.0364.1068.1550.5852.6956.41AP我们的（CASENet）我们的（CASENet）C45.6045.4129.3227.60+ NMS层C62.5743.97表3：NMS丢失和主动对齐对SBD数据集的影响。评分（%）表示所有类别的平均值。用于曲线的演化。该方法基于数值方法，具有简单、快速、稳定的特点。另外，在该方法中，水平集只是二进制分段常数函数，并且不需要水平集函数我们建议读者参考[25]以获得更详细的解释和实现细节。表4：主动对齐对SBD数据集的影响。评分（%）表示所有类别的平均值。结构我们在PyTorch中重新实现了CASENet [36]。我们重新实现的性能（稍微好一点）在表中显示为CASENet Ours，以进行公平比较。我们使用472×472作为训练分辨率。训练是在NVIDIA DGX站，使用4个GPU的总批量大小为8。我们在损失函数中使用α1=1，α2=10，α3=1。对于SBD，我们使用1 e-7的学习率在20k iter时，我们将学习率降低10倍，并设置β=0。从55k iter开始，每5kiter（λ=1）进行一次主动对齐完整的模型收敛于约70千iter，并采取约-培训战略。我们的主动对齐在很大程度上依赖于网络预测的质量在训练的初始阶段，网络并不自信，可能会导致我们推断出可能更嘈杂的标签。因此，我们在网络的精度开始变平之后引入对齐在我们的公式中，这可以看作是为一定数量的迭代设置λ=inf为了节省计算时间，还可以每n次训练迭代应用主动对准。4. 实验结果在本节中，我们提供了对标准SBD基准[16]以及Cityscapes数据集[12]的方法的广泛评估我们进一步展示了我们的方法如何用于显着改善粗分割标签，模拟我们在具有中等噪声的标记数据集上训练的场景，并使用训练后的模型仅从粗注释的数据（以较少的手动注释工作收集）生成更精细的注释。实施详情。在所有实验中，我们选择CASENet [36]作为骨干网络，因为它是当前最先进的语义感知边缘检测领域。两天的训练。对于Cityscapes，我们将学习速率为5e-8，并且每20k次迭代以因子20进行衰减。由于图像的注释更密集，因此我们将损失函数的权重设置为1。我们在Cityscapes中不使用主动对齐，因为列车集经过了精细注释。这将在稍后用于粗数据的细化。该模型在大约60k次迭代时收敛。4.1. 数据集和评估指标语义边界数据集（SBD）[16]包含来自PASCAL VOC2011的训练集的11355张图像，其中8498张图像分为训练，2857张作为测试。该数据集包含符合PASCALVOC中20类定义的注释。在我们的实验中，我们从训练集中随机选择100张图像，用作我们的验证。对剩余的8398张图像进行训练我们还报告了来自[37]的高质量重新注释的SBD测试集的性能这构成了来自SBD测试的1059张图像。Cityscapes Dataset [12]包含5000张精细注释的图像，分为2975张训练图像，500张验证图像和1525张测试图像。由于没有提供边界，并且测试被搁置，因此我们遵循[36]来生成地面实况度量方法测试NMS或.测试集雷安诺测试集MF（ODS）CASENet62.2163.52我们的（CASENet）我们的（CASENet）C63.2064.8464.0366.58+ NMS层+ NMS层C64.1565.9364.9967.87+ 活动对齐C64.8368.15APCASENet42.9943.71我们的（CASENet）我们的（CASENet）C34.6044.8345.6060.48+ NMS层+ NMS层C53.6760.1054.1862.32110824.1.1图像（b）CASENet（c）我们的（d）+薄层（e）地面实况图3：SBD数据集的定性结果。图4：主动对齐。从左到右（GT，细化）。度量方法测试NMS路s.walkbuild.壁围栏极T形灯 T形符号蔬菜地形天空人骑手车卡车总线火车电机自行车是说MF（ODS）CASENetOurs（CASENet）Ours（CASENet）C87.0687.2388.1375.9576.0876.5375.7475.7376.7546.8747.8648.7047.7447.5748.6073.2373.6774.2172.7071.7774.5475.6575.1976.3880.4280.5881.3257.7758.3958.9886.6986.7887.2681.0281.0081.9067.9368.1869.0589.1089.3190.2745.9248.9950.9368.0567.8268.4149.6350.8452.1154.2155.3056.2373.7474.1675.6668.9269.2970.31+ NMS丢失88.0877.6277.0850.0249.6275.4874.0176.6681.5159.4187.2481.9069.8789.5052.1567.8053.6055.9375.1770.67+ NMS丢失C88.9478.2177.7550.5950.3975.5476.3177.4582.2860.1987.9982.4870.1890.4053.3168.5053.3956.9976.1471.42CASENet54.5865.4467.7537.9739.9357.2864.6569.3871.2750.2873.9972.5659.9266.8435.9156.0441.1946.8863.5457.65AP我们的（CASENet）我们的（CASENet）C68.3888.8369.6173.9470.2876.8640.0042.0639.2641.7561.7469.8162.7474.5073.0276.9872.7779.6750.9156.4880.7287.7376.0683.2160.4968.1079.4391.2040.8644.1762.2766.6942.8744.7748.8452.0464.4275.6561.3068.13+NMS丢失89.5475.7274.9542.7241.5365.8667.5575.8477.8552.7282.7079.8962.5991.0745.2667.7347.0850.9170.7866.44+NMS丢失C90.8678.9477.3643.0142.3371.1375.5777.6081.6056.9887.3083.2166.7991.5945.3366.6446.2552.0774.4168.89表5：Cityscapes数据集上的val集的结果训练使用精细注释的训练集完成。分数以%表示边缘，并使用验证图像作为我们的测试集。评价方案：我们遵循[ 37 ]中提出的评估协议，该协议比[16，3，36]中使用的协议要难得多。一个重要的参数是匹配距离容限，其被定义为允许边界预测被认为是与地面实况的正确匹配的最大松弛。我们遵循[37]并设置它SBD为0.0075，Cityscape为0.0035。为了进一步比较，我们还在表2中报告了原始SBD评价方案的性能[16]。粗略标签模拟。为了量化我们的方法可以处理的注释噪声，我们按照[40]中描述的过程对给定的标签进行合成粗化。该算法受到Cityscapes [12]中收集粗糙标签的方式的启发，侵蚀然后简化真实标签，生成具有各种质量的受控掩模。此外，我们还计算估计的点击次数需要注释这样的对象。这通过计算简化多边形中的顶点数来模拟。评估指标：我们使用两个定量的措施来评估我们的方法在边界预测的任务。1）我们在最佳数据集规模（ODS）下使用最大F-度量（MF），以及2）每个类的平均精度（AP）。为了评估改进后的粗分割掩模的质量，我们使用了交集-并集（IoU）度量。4.2. 语义边界预测结果和比较。我们首先比较我们的方法与当前最先进的方法的性能。我们的基线包括CASENet [36]和最近提出的CASENet-S和SEAL [37]。CASENet-S可以被看作是CASENet的改进版本，而SEAL构建在CASENet-S之上，也处理未对齐的标签。表1说明了高质量重新注释的SBD测试集中的每个类别的性能。令人惊讶的是，通过在CASENet上引入NMS层，我们的方法11083727068666462600.001875（~2.15px）0.00375（~4.30px）0.00500（~ 5.72p表6：细化SBD上的粗略标签。模型在有噪声的SBD训练集上训练（约4px误差）。重新标注的测试集然后被简化以模拟具有给定质量的粗糙数据（参见正文）。分数（%）表示所有20个对象类的平均值。图5：我们的边界与从DeepLabv3+在最严格的制度下，我们的表现要好4.2%95939189878583817977757371696765脚踏车骑手车汽车客车火车自行车剩余mIoUFigure 6：Semantic Segmentation on Cityscapes val：DeepLab V3+在使用精细数据和（蓝色）vanilla train extra set训练时的性能，（橙色）我们从train extra中提取的精细数据（8个对象类）。我们看到骑手，卡车和公共汽车的改善超过1.2IoU %。在MF（ODS）和AP中的性能均优于SEAL（一种处理错位的方法）1%以上通过与主动对齐相结合，我们可以看到性能得到进一步改善在表5中，我们还评估了我们的方法在Cityscapes数据集中的性能。虽然我们的方法优于以前的国家的最先进的，我们强调，所提出的方法的主要优点是它的能力被添加到任何现有的架构，如CASENet，CASENet-S或SEAL。边界层变薄的分析。我们评估在两个不同的测试集中，NMS的性能和SBD数据集上的方向损失这些包括原始噪声注释测试集及其来自[37]的重新注释版本。表3中所示的比较突出了NMS的有效性和两个测试集上的方向损耗在原始测试集上，我们的方法在MF（ ODS ）方面提高了 3.72% ，在 AP 方面提高了17.11%。在高质量的测试集中，我们分别比基线高出5.35%和18.61%NMS丢失（不带边缘NMS）：我们还比较了我们的方法的性能时，在测试时不使用后处理。表3显示，即使在推断过程中不使用边界薄层，NMS损失也同样提高了原始预测的清晰度。因此，我们可以看到与CASENet 相比，原始数据集中的 1.94% （ MF ）和10.68%（AP）以及1.47%（MF）和10.47%（AP）。主动对准分析。我们还评估了我们在训练中的积极配合。为了实现更可控的分析，我们创建了几个噪音更大的真实地面数据版本，4.1.注意，给定[40]引入的标签错误的概念，原始表7：在Cityscapes上优化粗略标签。模型在精细的Cityscapes trainset上训练，并用于细化粗糙数据。Real Coarse对应于粗略的人类注释值集，而x-px error对应于模拟的粗略数据。分数（%）表示所有8个对象类别的平均值。地面实况是大约4px的误差，如基于精细（重新注释的）地面实况所测量的。我们使用噪声训练集上的主动对齐来训练我们的模型，并对[37]中的高质量测试集进行评估。表4中所示的结果说明了在小噪声和极端噪声条件下主动对准的有效性STEAL vs DeepLab-v3 [10]：语义分割可以被视为语义感知边缘检测的双重任务，因为边界可以很容易地从分割掩码中提取。因此，我们比较了我们的方法与最先进的语义分割网络的性能。具体地说，我们使用作者在[10]中提供的DeepLabV3+的实现（Cityscapes val集中的78.8mIoU），并通过对输出分割掩码计算sobel滤波器来获得边缘为了评估的公平性，我们在图像的角落设置了5个像素的余量，在底部设置了135个像素的余量这消除了DeepLab表现不佳的自我汽车和图像边界。在不同匹配阈值下的比较（图5）显示，STEAL在所有评估机制中均优于 DeepLab 边缘，例如：4.2%，在102px thrs。这是一个令人印象深刻的结果，因为DeepLab使用了比我们更强大的功能提取器，即。Xception 65 [11] vs Resnet101 [17，36]，并进一步采用细化对象边界的解码器[10]。这些数字还表明，仅计算基于区域的指标（IoU）的分割基准将通过包括边界相关测量而后者更难，并且更好地反映了预测在对象边界周围的准确性。定性结果图3、7分别显示了我们的方法在SBD和Cityscapes数据集上的定性结果。我们可以看到我们的预测比基础网络更关键。在图4中，我们还展示了在训练期间通过主动对齐获得的真实边界。4.3. 细化粗略注释的数据我们现在评估我们学习的边界检测网络如何用于细化粗略注释的数据（第二节）。3.6）。我们评估我们的方法对双方的模拟-我们的DeepLab V3+CASENet粗由粗到细IOU标签质量4px错误8px错误16px错误32px错误.每图像的点击测试IoU70.3491.2244.7678.9526.7862.2014.6441.31GrabCut68.7470.3269.7662.82我们的（从粗到精）IoU92.7888.1682.8976.20平均MF（ODS）标签质量4px错误8px错误16px错误32px错误真粗图片点击数测试IoU175.2374.8595.6353.3249.2133.7127.0019.4498.7848.67GrabCut26.0028.5129.3525.9932.11我们的（从粗到精）IoU78.9369.2158.9650.3567.43110844.3.1图片（b）CASENet（c）我们的（d）地面实况图7：Cityscapes数据集的定性结果。图8：定性结果。粗略到精细的粗略注释的城市景观列车额外设置。粗数据（如第2节所述）4.1），以及Cityscapes trainextra和val set中提供的为了进行定量比较，我们使用Cityscapes值集，其中我们有精细和粗略的注释。由于精细注释不可用，因此我们使用训练额外集进行定性结果和比较。我们的方法的结果显示在表6中的SBD数据集。我们强调，在本实验中，使用在噪声数据上训练的模型（SBD训练集）进行细化。另一方面，表7说明了Cityscapes数据集的相同比较。然而，在这种情况下，模型是使用精细注释的训练集训练的。在这两个实验中，我们使用GrabCut [29]作为健全性检查基线。为此，我们使用粗糙掩模初始化前景像素，并在几次迭代中运行算法（1，3，5，10）。我们报告平均得分最高的一个（通常为1）。在我们的例子中，我们对4px错误运行我们的方法1步。对于具有较高误差的情况，我们从8px误差开始将其增加5。定性结果。我们在图8中显示了我们方法的定性结果。可以观察到，通过从非常粗糙的分割掩模开始，我们的方法能够获得非常精确的细化掩模。我们相信，我们的方法可以在目前的注释工具，节省大量的注释时间。更好的分割。此外，我们还评估我们的细化数据是否真的对训练有用。为此，我们在整个训练额外集（20K图像）中细化8个对象类。然后，我们用相同的超参数集训练我们的DeepLabV3+实现，在粗训练额外集中有和没有细化。图6提供了8个类与其余类的单独性能。我们看到骑手，卡车和公共汽车以及整体平均IoU（80.55 vs 80.37）的改善超过1.2 IoU%。5. 结论在本文中，我们提出了一个简单而有效的薄化层和损失，可以与现有的边界检测器结合使用。我们进一步介绍了一个框架，在训练过程中对真实对象边界进行推理我们的实验表明，显着的改进，在流行的SBD和Cityscapes基准现有的方法。我们评估了我们的方法在细化具有显著噪声的粗注释数据，在训练和推理过程中表现出高容忍度。这是一种标记未来数据集的有效方法，因为注释器只绘制粗略的，很少点击的多边形。致谢。我们感谢于智定提供了重新标注的SBD子集。我们感谢KaranSapra Yi Zhu分享他们的DeepLabV3+实现，以及Mark Brophy的有益讨论。11085引用[1] D. Acuna，H. Ling、红腹锦鸡儿A. Kar和S.菲德勒使用RNN ++对分割数据集进行有效注释在CVPR，2018年。[2] P. Arbelaez，M.迈尔角Fowlkes和J.马利克轮廓检测与分层图像分割。T-PAMI，33（5）：898[3] P. Arbelaez，M.迈尔角Fowlkes和J.马利克轮廓检测与分层图像分割。T-PAMI，33（5）：898[4] M. Bai和R.乌塔松深度分水岭变换用于实例分割.在CVPR，2017年。[5] M. Be r gtholdt，D. Cremers和C.

下载后可阅读完整内容，剩余1页未读，立即下载