边缘对齐和学习：解决边缘学习中的错位问题

144 浏览量更新于2023-10-13 收藏 2.95MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

同时边缘对齐和学习于志定1，刘伟阳3，邹阳2，陈锋4，斯里库马尔·拉马林加姆5，B. V. K. Vijaya Kumar2和Jan Kautz11NVIDIA{zhidingy，jkautz}@ nvidia.com2卡内基梅隆大学{yzou2@andrew，kumar@ece}. cmu.edu3佐治亚理工wyliu@gatech.edu学院4纽约大学cfeng@nyu.edu5犹他大学srikumar@cs.utah.edu抽象。边缘检测因其在感知分类中的作用和广泛的应用而成为最基本的视觉问题之一表征学习的最新进展导致了这一领域的显著许多现有技术的边缘检测模型是用全卷积网络（FCN）学习的。然而，基于FCN的边缘学习往往容易受到未对齐的标签，由于边缘的deli-cate结构。虽然在评估基准中考虑了这样的问题，但在一般边缘学习中没有明确解决类似的问题。在本文中，我们表明，标签错位会导致相当程度上降低边缘学习质量，并提出了一个同时边缘对齐和学习框架来解决这个问题为此，我们制定了一个概率模型，其中边缘对齐被视为潜在变量优化，并在网络训练期间进行端到端学习。实验表明，这项工作的几个应用程序，包括改进的边缘检测与最先进的性能，和自动细化的噪声注释。1介绍在过去的几十年里，边缘检测在计算机视觉中扮演着重要的角色。早期的边缘检测方法通常将任务制定为低级或中级分组问题，其中格式塔定律和感知分组在算法设计中发挥相当大的作用[23，7，44，16]。后者的工作开始考虑以数据驱动的方式学习边缘，通过查看边界附近特征的统计数据[25，34，12，39，1，2，31，13]。最近，深度表示学习[26，43，18]的进步进一步导致边缘检测的显著改进，将最先进性能[49，20，3，24，50]的边界推向新的相关任务也从传统的二进制边缘检测问题扩展到最近更具挑战性的类别感知边缘检测问题[38，17，4，22，52]。作为这种进步的结果，各种各样的其他视觉问题已经享受到可靠的边缘检测器的好处。这些应用的示例包括但不限于（语义）分割[1，51，9，4，5]、对象提议生成[53，4，50]、对象检测[29]、深度估计[32，19]和3D视觉[33，21，42]等。2Zhiding Yu etal.Aero自行车鸟船瓶总线C ar猫椅子牛表狗马姆比凯人植物羊沙发火车电视(a) 原始图像（b）地面实况（c）CASENet（d）SEAL路人行道建筑壁围栏极交通灯交通SGN植被地形天空人骑手车卡车总线火车摩托车自行车(e)原始图像（f）地面实况（g）CASENet（h）SEALFig. 1. SBD（a-d）和Cityscapes（e-h）上通过不同方法预测的边缘的示例。“CA S E N e t”表示来自[ 52 ]的原始C A S E N e t。“S E A L”指示用CASENet主干训练的所提出的框架。最好用彩色观看由于深度网络的强大表示能力和边缘检测的密集标记性质，许多现有技术的边缘检测器都基于FCN。尽管边缘学习问题与其他密集标记任务有潜在的相似之处，但它面临着一些典型的挑战和问题。首先，鉴于正样本（边缘像素）和负样本（非边缘像素）的高度不平衡量，使用正样本加权更高的重新加权损失已成为最近深度边缘学习框架中的主要选择[49，24，22，30，52]。虽然这种策略在某种程度上呈现更好的学习行为6，但它也引起更厚的检测到的边缘以及更多的假阳性。这个问题的一个例子是在图中示出1（c）和图1（g），其中由CASENet [52]预测的边缘映射包含厚对象边界。一个直接的后果是，许多局部细节丢失，这是不赞成使用边缘检测器的其他潜在的应用。边缘学习的另一个挑战性问题是由注释期间不可避免的未对齐引起的训练标签噪声与分割不同，边缘学习通常更容易受到这种噪声的影响，因为边缘结构本质上比区域更脆弱即使是轻微的不对准也可能导致地面实况和预测之间的显著比例的不匹配为了预测尖锐边缘，模型应该学习区分少数真实边缘像素，同时抑制它们附近的边缘响应。这已经呈现出6例如，更稳定的训练，更平衡的预测，更小的类。同时边缘对齐和学习3图二. 训练期间边缘对齐的演变（从左到右的进展）。蓝色表示由SEAL学习的对齐边缘标签，而红色表示原始人类注释。对齐的边标签和原始注释之间的重叠像素将被颜色编码为蓝色。注意对齐的边缘标签如何随着训练的进行而逐渐收紧最好用彩色观看这对模型是一个相当大的挑战，因为边缘附近的非边缘像素很可能是具有相似特征的硬负片，而未对准的存在通过在训练期间连续发送假阳性而进一步引起严重的混淆在重新加权损失下，该问题进一步加剧，其中预测边缘附近的更多假阳性是减少损失的有效方式，这是由于正样本的显著更高的权重。不幸的是，考虑到人的精确度的限制以及由于额外的努力而导致的注释质量的增益递减，在注释期间完全消除未对准几乎是不可能的对于像C-ityscapes [11]这样的数据集，其中高质量的标签是由专业注释者生成的对于具有众包注释的数据集，质量控制提出了另一个挑战，问题可能会变得更加严重。我们提出的解决方案是一个端到端的框架，向同步边缘对齐和学习（SEAL）。特别是，我们制定了一个概率模型的问题，治疗边缘标签作为潜在变量，在训练过程中共同学习我们表明，潜在的边缘标签的优化可以转化为一个二分图的最小成本分配问题，并提出了一个端到端的学习框架模型训练。图图2示出了一些示例，其中模型逐渐学习如何将噪声边缘标签与边缘学习一起对齐到更准确的位置。与人们普遍认为的重新加权损失有利于边缘学习问题的直觉相反，本文中一个有趣且反直觉的观察结果是，尽管分布极不平衡，但在所提出的框架深层原因是边缘对齐通过增加正边缘样本的纯度显著降低了训练另一方面，在没有边缘对齐的情况下，标签噪声的存在以及不平衡的分布使得模型更难以正确地学习正类。由于增加的标签质量和使用未加权损失的更好的负抑制的益处，我们提出的框架产生具有高质量尖锐边缘的现有技术的检测性能（参见图2）。1（d）和图1（h））。4Zhiding Yu etal.2相关工作2.1边界图对应我们的工作部分受到使用精确召回和F度量的边界评估的早期工作的启发[34]。为了解决预测和人类地面实况之间的不一致，[34]提出通过解决最小成本分配问题来计算来自两个域的可匹配边缘像素子集的一对一对应关系。然而，[34]只考虑了固定边界映射之间的对齐，而我们的工作解决了一个更复杂的学习问题，其中边缘对齐成为具有可学习输入的优化的一部分2.2通过能量最小化的Yang等人。[50]提出使用密集CRF来细化对象掩模和轮廓。尽管目标相似，但我们的方法与[50]的不同之处在于：1.[50]中的细化框架是一个单独的预处理步骤，而我们的工作以端到端的方式与模型共同2.[50]中的CRF模型仅利用低级特征，而我们的模型通过深度网络同时考虑低级和高级信息3.第三章。[50]中的细化框架是基于分割的，而我们的框架直接针对边缘细化。2.3物体轮廓和掩模学习一系列作品[40，8，37]试图以监督的方式学习对象轮廓/掩模。深度活动轮廓[40]使用学习的CNN特征来引导给定初始化轮廓输入的轮廓演化。Polygon-RNN [8]引入了一种用于对象遮罩注释的半自动方法，通过学习提取给定输入边界框的多边形。DeepMask [37]提出了一种对象提议生成方法，以输出类别不可知的分割掩码。这些方法需要精确的地面真相轮廓/掩模学习，而这项工作只假设噪声地面真相，并寻求自动完善它们。2.4噪声标签学习我们的工作可以被广泛地看作是一个结构化的噪声标签学习框架，我们利用丰富的结构先验来纠正标签噪声。现有的噪声标签学习文献已经提出了有向图模型[48]，条件随机场（CRF）[45]，神经网络[46，47]，鲁棒损失[35]和知识图[27]来建模和校正图像级噪声标签。另外，我们的工作考虑像素级标签，而不是图像级标签。2.5贝叶斯网络我们的工作也与虚拟证据[36，6，28]有相似之处，其中观察的不确定性由分布而不是单个值建模。在我们的问题中，噪声标签可以被视为不确定的观察，它给出了对齐标签的不同配置的条件先验分布同时边缘对齐和学习53边缘学习的概率观在许多分类问题中，模型的训练可以被公式化为关于参数最大化以下似然函数：maxL（W）= P（y |x; W），⑴W其中y、x和W分别指示训练标签、观察到的输入和模型参数。取决于条件概率如何被参数化，上述似然函数可以对应于不同类型的模型。例如，广义线性模型函数导致众所周知的逻辑回归。如果参数化被形成为分层表示，则模型可以变成CNN或多层感知器。可以观察到，许多传统的监督边缘学习模型也可以被视为上述概率框架下的在这里，我们主要关注使用全卷积神经网络的边缘检测。在这种情况下，变量y指示每个像素处的边缘预测配置的集合，而X和W分别表示输入图像和网络参数4同时进行边缘对齐和学习为了引入在训练期间校正边缘标签的能力，我们考虑以下模型。代替将观察到的注释y视为拟合尺寸，我们将这些注释y作为一个整体来处理，因为这些注释y是更准确的。我们的目标是在学习过程中保持一致，这导致以下似然最大化问题：maxL（y，W）=P（y，y|x;W）=P（y|y）P（y|x;W），y，Wwhichhereyoungindicateicatthe e eeanderlylyingtruegroundtruth. 形式部分 P（y|y（）可以被认为是注释器的边先验概率模型，该注释器在给定观察结果的情况下生成La bels，其中Laterpart（y（）|x;W）是预测模型的标准似然。4.1多标记边学习考虑多标签边缘学习设置，其中假设y不需要在每个像素处互斥。换句话说，任何像素可对应于多个类别的边缘。假设类间独立性，似然可以分解为一组类联合概率：L（yk，W）=YP（yk|yk）P（yk|x;W），⑶K其中yk∈ { 0， 1}N表示对应于第k一个典型的多标签边缘学习的例子，也假设类间独立性是CASENet [52]。此外，HED [49]等二进制边缘检测方法可以被视为多标签边缘学习的特殊情况（二）6Zhiding Yu etal.p4.2边缘先验模型溶液Eq. （2）不等于y给出y的首方向空间。当然，有一些先验知识可以用来有效地正则化y。其中一个重要的方面是，它不会对我们造成任何影响。在其他方面，我们将所有的数据点都集中在一个单独的存储过程中，其中|yk|为|yk|. 我不在w或ds，letykdentetQ pExistsasetofon e-to-o-one e cor respon dencesbetw e ned gep ixelsiny kandyk：M（yk，y（k））={m（·）|u，v∈{q|yk=1}：yk= 1，qm（u）km（v）（四）= 1， u/ = v⇒m（u）/=m（v）}，其中a_c_m（·）与一组限定的对相同：m（·）<$Em={（p，q）|y（p，yq=1，m（q）=p}。（五）因此，边缘先验可以被建模为在所有可能的对应关系上最大化的高斯相似性的乘积：P（yk|yk）∝supY.exp−p−q2σ2m∈M（yk，y（k）（p，q）∈E.Σp−q（六）=exp− infm2σ2，∈M（yk，yk）（p，q）∈Em其中σ是控制对未对准的灵敏度的带宽通过测量成对像素之间的平方距离的最低可能总和来量化误对准，其由最紧密的对应关系确定。4.3网络似然模型我们现在考虑预测模型的似然性，其中我们假设类联合概率可以分解为一组由具有二进制配置的伯努利分布建模的像素概率：P（yk|x;W) = YP（ypkp|x;W) =Yykhk（p |x; W）p（1 − hk（p |x; W））p（1−yk）（七）其中p是像素位置索引，并且hk是指示第k个类的概率我们将预测模型视为具有k个S形输出的FCNs因此，等式（1）中的假设函数（7）成为函数的集合，其中在该集合的剩余部分中将不被定义为σ（·）。4.4学习取Eq（6）和（7）中的方程。（3），并且取可能性的对数，我们有：logL（y，W）=Σ- infm∈M（yk，y（k））KΣΣΣ（p，q）∈Emp−q2σ2Σ，（8）+yklogσk（p|x;W）+（1−yk）lo g（1−σk（p|x;W）），p ppyM、同时边缘对齐和学习7其中第二部分是广泛使用的S形交叉熵损失。因此，学习模型需要求解约束优化：miny，W-l〇 gL（y（，W）（九）S. t.|yk|为|yk|，k给定一个训练集，我们采用一种替代的优化策略，其中W在d处被up，其中y∈fixed，并且v∈a。如果是固定的，则可选择以下选项：Σ ΣΣ Σmin-yklogσk（p|x;W）+（1−yk）lo g（1−σk（p|x;W）），Wp p（10）KP这是具有对齐的边缘标签的典型网络训练，并且可以用标准梯度下降来求解。当W固定时，优化可以建模为每个类别的约束离散优化问题：minMINF ˆΣp−q22σ2yk∈M（yk，yk）ΣΣ（p，q）∈EmΣ-yklogσk（p）+（1−yk）logg（1−σk（p））（十一）p ppS. t. |yk|为|yk|其中σ（p）表示σ（p |x; W）。解决上述优化问题似乎很困难，因为需要在isfying处枚举y s的所有可能配置|yk|为|yk|并将其作为局部成本进行评估。然而，可以发现，上述优化可以被优雅地转换为具有可用求解器的二分图分配问题我们首先有以下定义：在1上找到。 LetY={y||y|为|y|}中，一个映射空间M是该空间是所有可能的一对一映射：M={m|m∈M（y，y），y∈Y}定义2.标签实现是将对应关系映射到给定的对应标签的函数：fL：Y×M›→YfL（y，m）=yLemma1. L（·）的计算是连续的。Remark：Lemmalshwthatacretainabelconfigurationymaycorrespondtomultiple underlying mapping.这显然是真的，因为在任何情况下都可能存在多个算法，其中该算法被指定为该算法。8Zhiding Yu etal.Lemma2. 在这种情况下|y|为|y|，if：ΣΣ Σy*=argmin−yplogσ（p）+（1−yp）logg（1−σ（p）ym*=arg minm∈MthenfL（y，m*）=y*.pΣ（p，q）∈EmΣΣlog（1−σ（p））−logσ（p）Proof：Sup posein thebebeginingalpixelsinyare0. 日志上的C或RP因此是：ΣCN（0）=−plog（1 −σ（p））将yp翻转为1将相应地在像素p处引入成本log（1-σ（p））-log σ（p）。因此，我们有：CN（y）=CN（0）+Σp∈{p|y{p =1}ΣΣlog（1−σ（p））−logσ（p）另外，假设L（·）的映射是有效的，其中映射的空间是M × acticcoverY（·）。因此，引理2中的最优解问题可以转化为最优解问题。引理2促使我们重新公式化方程中的优化。（11）通过交替地观察以下问题：minm∈MΣ（p，q）∈EmΣǁp−qǁ2Σ2σ2+ log（1−σ（p））−logσ（p）（十二）当量（12）是一个典型的最小成本二部指派问题，可以通过标准求解器来求解，其中每个指派对（p， q）的成本与二分图形边缘的权重相关联。在[34]之后，我们制定了一个稀疏分配问题，并使用Goldbergos CSA包，这是最知名的最小成本稀疏分配算法[15，10]。在获得该标记后，每个都可以重新转换（经过足够长的时间）。然而，解决Eq。（12）假设潜在的松弛，其中搜索空间包含m，其可能不遵循等式（12）中的下确界要求。（十一）、换句话说，可能的是，等式（1）中的最小化问题可以是：（12）是对Eq.（十一）、然而，下面的定理证明了Eq的最优性。（12）：定理1. 给定最小化Eq.（12），该解也是等式（11）中的问题的最小化者。（十一）、证明：我们用反证法证明定理1。假设存在（12）的解，其中：fL（y，m*）=y，m*/=arg minΣp−q22σ2m∈M（yk，y（k）（p，q）∈EM同时边缘对齐和学习9MQ必须存在另一个映射m′，它满足：fL（y，m′）=y，Σ（p，q）∈E′p−q2σ2<Σ（p，q）∈Em*p−q2σ2如果fL（y，m′）=fL（y，m*）=y¨，则substitutingm′to（1 2）l导致一个平均最低成本，这与m*是（12）的最小化者的假设相矛盾.在实践中，我们遵循最低限度的战略发展目标，而资产负债表和资产负债表的数量在最低限度上有所增加。为了与h一起给出，对于第一批中的每个图像，y被初始化为y。基本上，优化可以写为网络中的损耗层，并且与端到端训练完全兼容。4.5推理我们现在考虑给定训练模型的推理问题。理想情况下，由Eq.（2）将为以下各项：yy=argmaxP（y|y）P（y|x;W）（13）y然而，在y在测试期间不可用的情况下。我们可以选择性地查看（2）的第二部分，其中，模elelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelelyxx=argmaxP（yx|x;W）（14）y这两种情况都可以找到实际应用。特别地，（14）对应于一般边缘预测，而（13）对应于细化数据中的噪声边缘标签。在此情况下，y是可用的，并且此改进的y用于输出改进的标签。在实验中，我们将展示这两种应用程序的示例。5有偏高斯核与马尔可夫先验SEAL的任务并不容易，因为它往往会在杂乱的背景下生成伪影造成这种失败的主要原因是片段化的对齐标签，如图1B所示。第3（a）段。这并不奇怪，因为我们假设一个各向同性的高斯内核，其中标签往往会沿着边缘向容易的位置断裂和移位。鉴于这个问题，我们假设边缘先验遵循有偏高斯（B.G.）核的长轴垂直于局部边界切线。因此，这种模型鼓励垂直于边缘切线的对齐，同时抑制沿着它们的移位。另一个方向是考虑边缘的马尔可夫性质。好的边缘标签应该是相对连续的，并且附近的对齐向量应该是相似的。考虑到这些，我们可以将边缘先验建模为：P（y|y（）∝supYexp（−mΣqmq）Yexp（−λmq−mv2）m∈M（y，y）（p，q）∈Em（u，v）∈Em，v∈N（q）（十五）10Zhiding Yu etal.XyyXXyQXM(a) 各向同性高斯（b）B.G.+管理成果框架（c）说明图3.第三章。使用不同先验的边缘对齐示例和图形说明。其中λ控制平滑度的强度。N（q）是q的邻域，由沿着边的测地线距离定义。mq =p-q，以及mv =u-v。改进的比对的实例和图示在图3（b）和图3（c）中示出。此外，精度矩阵Σq定义为：2 2cos（θq）+sin（θq）sin（2θq）−sin（2θq）q=2σ22σ24σ2y24∗σ22sin（2θq）−sin（2θq）sin（θq）+cos（θq）4σ24σ22σ22σ2其中θq是边缘切线和正x轴之间的角度，σy对应于垂直于边缘切线的内核带宽。利用新的先验，对准优化变成以下问题：minm∈M C（m）=C一元（m）+C对（m）Σ=（p，q）∈EmΣΣm<$$>qmq+ log（（1−σ（p））/σ（p））（十六）Σ Σ+λmq− mv2（p，q）∈Em（u，v）∈Em，v∈N（q）注意，定理1对于（16）仍然成立然而，由于包括成对依赖性，求解（16）变得更加困难因此，不能直接应用标准的赋值求解器，我们可以选择将CPair解耦为：ΣC对（m，m′）=Σmq−m v（p，q）∈Em（u，v）∈E′v∈N（q）并且采用迭代条件模式，如迭代近似，其中相邻像素的对准取自前一轮中的对准初始化：m（0）= arg minC一元（m）m∈M赋值：m（t+1）= arg minC一元（m）+C对（m，m（t））m∈M更新：CPair（m，m（t））→ CPair（m，m（t+1））其中“分配”和“更新”步骤重复多次。该算法在实践中收敛速度非常快。通常两个甚至一个分配就足够了。、同时边缘对齐和学习116实验结果在本节中，我们全面测试了SEAL在类别件语义边缘检测上的性能，其中检测器不仅需要定位对象边缘，还需要分类到预定义的语义类集合。6.1骨干网为了保证不同方法之间的公平比较，需要一个固定的骨干网络进行受控评估。我们选择CASENet [52]，因为它是我们任务的最新技术。有关其他实现细节，如超参数的选择，请参阅补充材料。6.2评价基准我们遵循[17]来评估具有类别精确召回曲线的边缘然而，我们的工作的基准与[17]不同，因为它施加了相当严格的规则。具体而言：我们认为对象内部的非抑制边缘是误报，而[17]忽略了这些像素。二、我们在任何图像上累积误报，而[17]的基准代码只在包含某个类的图像上累积该类的误报。我们的基准也可以被视为BSDS基准的多类扩展[34]。[17]和[34]都默认在匹配之前细化预测。我们建议将原始预测与未细化的地面事实相匹配，其宽度与训练标签保持相同。因此，基准还考虑了概率的局部计算。我们将此模式称为“R a w“，将传统模式称为“Thin”。与[34]类似，两种设置都使用最佳数据集规模（ODS）下的最大F-测量（MF）来评估性能。我们的工作和[17]的问题设置之间的另一个区别是，我们认为任何两个实例之间的边都是正的，即使这些实例可能属于同一个类。这与[17]不同，其中忽略了这些边缘。我们做出这些改变的动机有两个方面：1.我们认为实例敏感的边缘是重要的，区分这些位置更有意义。二、实例敏感设置可以更好地有益于需要区分实例的其他6.3SBD数据集语义边界数据集（SBD）[17]包含来自PASCAL VOC2011 [14]的训练集的11355个图像，其中8498个图像被划分为训练集和2857个图像作为测试集。该数据集包含类别级和实例级语义分割注释，其中语义类定义遵循PASCAL VOC中的20个类定义。参数分析我们设置σx= 1并且σy> σx以有利于垂直于边缘切线的对齐关于σy和λ验证的详细信息见补充说明。12Zhiding Yu etal.表1. SBD测试集的结果。MF评分以%衡量。公制方法航空自行车鸟船瓶公共汽车车猫椅牛桌狗马摩托车人种羊沙发火车电视平均CASENet83.6 75.3 82.3 63.170.583.5 76.5 82.6 56.8 76.3 47.5 80.8 80.975.680.754.177.7 52.3 77.9 68.0 72.3MFCASENet-S 84.5 76.5 83.7 65.3 71.3 83.9 78.3 84.5 58.8 76.8 50.8 81.9 82.3 77.282.755.9 78.1 54.0 79.5 69.4 73.8（瘦）CASENet-C 83.9 71.1 82.5 62.671.082.2 76.8 83.4 56.5 76.9 49.2 81.0 81.175.481.454.0 78.5 53.3 77.1 67.0 72.2密封84.5 76.5 83.7 64.9 71.7 83.8 78.1 85.0 58.8 76.6 50.9 82.4 82.277.183.055.178.4 54.4 79.3 69.6 73.8MF（原始）CASENet-SCASENet-C71.875.880.460.265.067.172.678.479.949.556.257.959.364.765.973.376.477.665.271.872.670.875.279.251.955.253.564.968.772.741.245.845.567.972.876.772.577.079.464.168.171.271.276.578.344.047.150.871.775.577.645.749.050.765.470.271.655.860.661.662.066.568.5密封81.1 69.6 81.7 60.6 68.0 80.5 75.1 80.7 57.0 73.1 48.1 78.2 80.3 72.179.850.0 78.2 51.8 74.6 65.0 70.3表2.SBD测试集的结果（重新注释）。MF评分以%衡量公制方法航空自行车鸟船瓶公共汽车车猫椅牛桌狗马摩托车人种羊沙发火车电视平均MFCASENet74.5 59.7 73.4 48.067.178.6 67.3 76.2 47.5 69.7 36.2 75.7 72.761.374.842.671.8 48.9 71.7 54.9 63.6（瘦）CASENet-S 75.9 62.4 75.5 52.066.779.7 71.0 79.0 50.1 70.0 39.8 77.2 74.565.077.047.372.7 51.5 72.9 57.3 65.9CASENet-C 78.4 60.9 74.9 49.764.475.8 67.2 77.1 48.2 71.2 40.9 76.1 72.964.575.951.4 71.3 51.6 68.6 55.4 64.8密封78.0 65.8 76.6 52.4 68.6 80.0 70.4 79.4 50.0 72.8 41.4 78.1 75.0 65.578.549.4 73.3 52.2 73.9 58.1 67.0MFCASENet65.8 51.5 65.0 43.157.568.1 58.2 66.0 45.4 59.8 32.9 64.2 65.852.665.740.965.0 42.9 61.4 47.8 56.0（原始）CASENet-S 68.9 55.8 70.9 47.462.071.5 64.7 71.2 48.0 64.8 37.3 69.1 68.958.270.244.368.7 46.1 65.8 52.5 60.3CASENet-C 75.4 57.7 73.0 48.762.172.2 64.4 74.3 46.8 68.8 38.8 73.4 71.462.272.150.3 69.8 48.4 66.1 53.0 62.4密封75.3 60.5 75.1 51.2 65.4 76.1 67.9 75.9 49.7 69.5 39.9 74.8 72.762.174.248.4 72.3 49.3 70.6 56.7 64.4我们将SEAL与CASENet、使用常规S形交叉熵损失训练的CASENet（CASENet-S）以及在[50]之后通过密集CRF细化的标签上训练的CASENet-S（CASENet-C）进行了比较，结果在图中可视化5中，并在表1中定量。结果表明，当考虑边缘锐度时，SEAL与CASENet-S和“Thin”设置相当，而其特征信息在重新注释的SBD测试集上的结果更仔细的分析表明，SEAL实际上符合CASeNet-Scideralyn e terthe“T h i n“s etting i n g。原始的SBD标签原来是嘈杂的，这可能会影响评估的有效性。我们使用La-belMe [41]在SBD测试集上重新注释了1000多个图像，并在表2中报告了使用这些高质量标签的评估。结果表明，SEAL在两种设置下的性能均优于CASENet-S。SBD GT细化的结果我们输出SEAL对齐的标签，并与密集CRF和原始注释进行比较我们匹配对齐的标签与重新标注的标签，通过改变公差阈值和生成F-测量分数。图4表明，SEAL确实可以提高标签的质量，而密集CRF表现甚至不如原始标签。事实上，CASENet-C的结果也表明了模型性能的下降。0.850.80.750.70.650.60.553.544.555.566.57七点五最大距离#10-3见图4。MF与宽容非实例不敏感（非IS）模式我们也在非IS模式下训练/评估，其中评估使用重新注释的SBD标签。表3示出了分数与IS模式具有高相关性表3. 非IS结果。原始56.160.662.1六十四点六原始地面实况致密CRF密封F-measure模式 CNETCNet-S CNet-C 密封薄63.666.464.766.9同时边缘对齐和学习13方法航空自行车鸟船瓶巴士车猫椅牛桌狗马摩托车人种羊沙发火车电视平均[五十二]83.3 76.0 80.7 63.481.3 74.9 83.2 54.3 74.8 46.480.276.680.853.377.250.1 75.9 66.8 71.4密封84.9 78.6 84.6 66.2 71.3 83.0 76.5 87.2 57.6 77.5 53.0 83.5 82.278.385.158.7 78.9 53.1 77.7 69.7表4.SBD测试的结果遵循与[52]相同的基准和地面实况表5. Cityscapes数据集上的结果。MF评分以%衡量。公制方法道路人行道建筑物墙壁栅栏杆t形灯t形标志蔬菜地形天空人骑手小汽车卡车公共汽车火车摩托车MF（瘦）CASENet-S密封86.287.687.674.977.177.574.575.975.947.648.747.646.546.246.372.875.575.570.071.471.273.375.375.479.380.680.957.059.760.186.586.887.480.481.481.566.868.168.988.389.288.949.350.750.264.668.067.847.842.544.155.854.652.771.972.773.068.169.169.1MF（原始）CASENet-S密封66.879.284.464.670.873.566.870.472.739.442.543.440.642.443.271.773.976.164.266.768.565.168.269.871.174.677.250.254.657.580.382.585.373.175.777.658.661.563.677.082.784.942.046.048.653.259.761.939.139.141.246.147.049.062.264.866.759.663.365.5Aero自行车鸟船瓶总线C ar猫椅子牛表狗马姆比凯人植物羊沙发火车电视图五. 地面实况、CASENet、CASENet-S、CASENet-C和SEAL之间的定性比较（从左到右排序）。最好用彩色观看。尽管提出了不同的评估标准，但我们仍然遵循[52]，使用实例不敏感标签训练SEAL，并使用相同的基准和地面事实进行评估表4中的结果显示，该工作显著优于现有技术的先前状态。6.4在Cityscapes数据集Cityscapes数据集包含2975张训练图像和500张图像作为验证集。在[52]之后，我们在训练集上训练SEAL，并在验证集上进行测试，结果如图所示在表5中定量。同样，SEAL的总体表现优于所有比较基线。对齐可视化我们表明，错位仍然可以在Cityscapes上找到。图7显示了未对齐的标签和SEAL进行的纠正14Zhiding Yu etal.路人行道建筑壁围栏极交通灯交通SGN植被地形天空人骑手车卡车总线火车摩托车自行车见图6。地面实况、CASENet、CASENet-S和SEAL之间的定性比较（图中从左到右排序）。最好用彩色观看。图7.第一次会议。Cityscapes上的边缘对齐颜色编码如下图。二、最好用彩色观看7总结发言在本文中，我们提出了SEAL：用于联合边缘对齐和学习的端到端学习框架。我们的工作考虑了一种新的像素级噪声标签学习问题，利用结构化先验知识来解决边缘学习中的一个公开问题。大量的实验表明，该框架是能够正确的噪声标签，并产生更好的质量尖锐的边缘。同时边缘对齐和学习15引用1. Ar bela'ez，P.，我是M Fowlkes，C.， Malik，J. ：Contordetectin和hierchi mal imageg ementin。IEEETrans. PAMI33（5），8982. A r bela'ez，P.，彭特-图瑟特，J.，布朗，J.， Marques，F.， Malik，J. ：Mult是一个可比较的双边分组。在：CVPR（2014）13. Bertasius，G.，施，J.，Torresani，L.：Deepedge：一个用于自顶向下轮廓检测的多尺度分叉深度网络。在：CVPR（2015）14. Bertasius，G.，施，J.，Torresani，L.：高对低，低对高：从深层物体特征进行有效的In：ICCV（2015）15. Bertasius，G.，施，J.，Torresani，L.：边界神经场语义分割在：CVPR（2016）16. Bilmes，J.：贝叶斯网络中的虚拟证据与软证据Tech. （2004年）47. 坎尼，J：边缘检测的计算方法。IEEE Trans. PAMI（6），679- 698（1986）18. Castr ejon，L.， Kundu，K.，你是一个人R Fidler、S. ：一个没有任何东西可以让你和你的朋友在一起。在：CVPR（2017）49. Chen，L.C.，巴伦J.T. G. Papandreou，K.M.，Yuille，A.L.：基于cnn和区分训练域变换的特定任务边缘检测语义图像分割。在：CVPR（2016）110. Cherkassky，B.V.，Goldberg，A.V.：最大流问题的推-重标记方法的实现In：Int.Conf. 关于整数规划和组合优化（1995）811. Cordts，M.，Omran，M.，Ramos，S.，Rehfeld，T.，Enzweiler，M.，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：Cityscapes数据集用于语义城市场景理解。在：CVPR（2016）312. Dollar，P.，Tu，Z.，Belongie，S.：边缘和对象边界的监督学习。在：CVPR（2006）113. 做吧，P Zitni ck，C. L. ：Fasted etecti onustust IEEETrans. PAMI37（8），1558-1570（2015）114. Everingham，M.凡古尔湖威廉姆斯，C.K.I.，Winn，J.，齐瑟曼，A.：PASCAL Visual Object Classes Challenge 2011（VOC2011）http://www.pascal-network.org/challenges/VOC/voc2011/workshop/index.html1115. Goldberg，A.V.，Kennedy，R.：指派问题的一个有效的成本缩放算法SIAM J. Discrete Math.（1993年）816. 汉考克急诊室Kittler，J.：使用基于字典的松弛的边缘标记 IEEET系列PAMI12（2），16517. Hariharan，B. Ar bela'ez，P.

下载后可阅读完整内容，剩余1页未读，立即下载