基于卷积随机游走网络的语义图像分割

187 浏览量更新于2023-10-15 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于卷积随机游走网络的语义图像分割1，Lorenzo Torresani2，Stella X.余3、石建波11宾夕法尼亚大学2达特茅斯学院3加州大学伯克利分校ICSI{gberta，jshi}@berkeley.edult@dartmouth.edu摘要目前大多数语义分割方法都依赖于全卷积网络（FCN）。然而，它们使用大的感受野和许多池化层导致深层内的低空间分辨率。这导致边界周围的预测定位较差。先前的工作试图通过用CRF或MRF后处理预测来解决这个问题。但这种模型往往无法捕捉对象之间的语义关系，这导致空间不相交的预测。为了克服这些问题，最近的方法将CRF或MRF集成到FCN框架中。这些新模型的缺点是它们比传统的FCN具有更高的复杂性，这使得训练和测试更具挑战性。在这项工作中，我们介绍了一个简单而有效的卷积随机游走网络（RWN），解决了边界定位差和空间碎片预测的问题，模型复杂性几乎没有增加。我们提出的RWN共同优化像素级亲和力和语义分割的目标。它通过一个新的随机游走层将这两个目标结合起来，该层在网络的深层中强制执行一致的空间分组。我们的RWN是使用标准卷积和矩阵乘法实现的。这允许容易地集成到现有的FCN框架中，并且它能够通过标准的反向传播对整个网络进行端到端的训练与传统的FCN相比，我们的RWN实现只需要131个额外的参数，但它在语义分割和场景标记方面始终优于FCN。1. 介绍全卷积网络（FCN）首次在[20]中引入，在那里它们被证明在语义图像分割方面有显着的改进。采用FCN方法，许多后续方法已经实现了更好的性能[6，27，8，12，17，6，27，8，19，23]。然而，传统的基于FCN的方法往往受到几个限制。大的感受野输入DeepLab [6] DeepLab-CRF [6]图1：示出现有语义分割方法的缺点的示例。由FCN产生的片段在对象边界周围局部化较差，而密集CRF产生空间不相交的对象片段。卷积层和池化层的存在导致最深FCN层中的低空间分辨率因此，它们的预测片段往往是斑点状的，并且缺乏精细的对象边界细节。我们在图中报告1一些示例说明了在FCN的输出中对象的典型不良定位最近，陈在.[6]通过在粗FCN分割之上应用密集CRF后处理步骤[ 15 ]解决了这个问题。然而，这样的方法不能准确地捕捉对象之间的语义关系，并且导致空间上碎片化的分割（参见图1的最后一列中的示例）。①的人。为了解决这些问题，最近的几种方法将CRF或MRF直接集成到FCN框架中[27，19，17，5]。然而，这些新模型通常涉及（1）大量参数，（2）需要专门模型训练的复杂损失函数，或(3)递归层，这使得训练和测试更加复杂。我们在表1中总结了这些方法中最突出的方法及其模型复杂性。我们注意到，我们并不主张使用复杂的损失函数总是使模型过于复杂和难以使用。如果将复杂损失集成到FCN框架中，使得FCN仍然可以以标准方式进行训练，并且产生比使用标准损失更好的结果，则这样的模型是有益的。然而，在现有的分割方法[27，19，17，5]的背景下，这种复杂的损失通常需要：1）修改网络结构（将CNN转换为RNN）[27，5]，或2）使用复杂的多阶段学习方案，其中不同的层在不同的训练阶段进行优化[19，17]。由于这种复杂的训练程序，858859[6]美国[五]《中国日报》[23日][27日][19个]RWN需要后期处理吗377777使用复杂的损失？777337需要循环层吗737377模型大小（MB）7979961514>100079表1：最近语义分割模型的总结。对于每种模型，我们报告它是否需要：（1）CRF后处理，（2）复杂损失函数，或（3）递归层。我们还列出了模型的大小（使用Caffe [13]模型的大小，单位为MB）。我们注意到，与以前的方法不同，我们的RWN不需要后处理，它是使用标准层和损失函数实现的，并且它也具有紧凑的模型。这些模型适用于特定的任务和数据集，但是这些模型可能很难适用于新的任务和数据集，这是不利的。受随机游走方法[21，3，24]的启发，在这项工作中，我们介绍了一种简单而有效的替代方法来替代TRANSCFCN：卷积随机游走网络（RWN）结合了FCN和随机游走方法的优势。我们的模型解决了以下问题(1) 周围的边界受到的FCN和（2）密集的CRF产生的空间上不相交的段此外，与最近的语义分割方法[23，27，19，17]不同，我们的RWN这样做不会显著增加模型的复杂性。我们提出的RWN联合优化了（1）像素级亲和力和（2）语义分割学习目标，这些目标通过一个新的随机游走层联系在一起，这在网络的最深层中加强了空间一致性随机游走层通过矩阵乘法实现。因此，RWN无缝地集成了亲和性和分割分支，并且可以通过标准反向传播进行端到端的联合训练，对现有的FCN框架进行最小的此外，我们的RWN的实施只需要131个额外的参数。因此，我们的模型的有效复杂度与传统FCN的复杂度相同（见表 1 ）。我们将我们的方法与DeepLab语义分割系统的几个变体[6，7]进行了比较，并表明我们提出的RWN在语义分割和场景标记任务的基线上始终产生更好的2. 相关工作最近引入的全卷积网络（FCN）[20]导致了语义分割的显着进步。然而，由于大的感受野和许多池化层，由FCN预测的片段往往是斑点状的，并且缺乏精细的对象边界细节。最近有几个尝试来解决这些问题。这些方法可分为几类。[4，6，25，14，4]中的工作使用FCN预测作为单独全球化模型中的一元势，该模型使用基于区域或边界的相似性线索来细化细分。这些方法的一个缺点是一元势函数的学习和全球化模型的训练是完全不相交的。因此，这些方法通常无法捕获对象之间的语义关系，这会产生空间上不相交的分割结果（见图1右侧）。①的人。为了解决这些问题，最近的几种方法[27，19，17]提出将CRF或MRF集成到网络中，从而实现联合模型的端到端培训。然而，这两个模型的合并导致了复杂性和参数数量的急剧增加。例如，[27]中的方法需要将原始FCN转换为递归神经网络（RNN），这使得模型的大小更大（见表1）。最近的方法[5]联合预测边界和分割，然后使用递归层将它们组合起来，这也需要对现有的FCN框架进行复杂的修改。[19]中的工作建议使用局部卷积层，这导致参数数量明显增加类似地，[17]中的方法提出对一元模型进行和成对的潜力，由单独的多尺度分支。这导致网络的参数至少是传统FCN的两倍，并且多阶段训练过程复杂得多除了上述方法之外，值得一提的是去卷积网络[23，12]，它使用去卷积和去池化层从粗略的FCN预测中恢复精细的对象细节然而，为了有效地恢复精细细节，必须采用与卷积层的数量几乎一样多的解卷积层，这导致参数数量的大幅增长（参见表1）。与这些先前的方法不同，我们的RWN实现只需要在基本FCN上增加131个这些附加参数仅表示0。网络中参数总数的0008%。另外我们RWN使用标准卷积和矩阵乘法。因此，它不需要包含复杂的损失函数或新的复杂层[27，5，19，17]。最后，不-与[4，6，25，14]中的方法一样，我们的RWN模型以端到端的方式联合我们的实验表明，这导致空间上更平滑的分割。3. 背景Random Graph Walks. 随机游动是图论中最广为人知和使用的方法之一[21]。最值得注意的是，随机游走的概念导致了860图2：我们提出的随机游走网络（RWN）的架构（最佳彩色视图）。我们的RWN包括两个分支：（1）一个分支专用于分割预测，以及（2）另一个分支预测像素级亲和度。然后，这两个分支通过一个新的随机游走层合并，该层鼓励空间平滑的分割预测。整个RWN通过标准的反向传播算法进行端到端的联合优化。PageRank [24]和Personalized PageRank [3]的发展设G=（V，E）表示具有一个点集V和一个边集E的无向图.然后随机进入这种图可以由其顶点之间的转移概率来表征。设W是一个n×n的对称亲和矩阵，其中n表示图中节点的个数，Wij∈[0，1]表示节点i和j的相似程度.在语义分割问题的上下文中，图像中的每个像素都可以被视为图中的一个单独节点，其中，两个节点可以根据某个度量（例如，颜色或纹理相似性等）。 D表示一个诊断，一个n×nmP矩阵，它存储每个MRF已广泛用于结构化预测问题[16]。最近，CRF和MRF也被集成到用于语义分割的全卷积网络框架中[27，19，17]。我们要强调的是，虽然CRF/MRF和随机游走方法的目标是相同的（即，在图结构中全局传播信息），但是在这两种方法中实现该目标的机制非常不同。虽然MRF和CRF通常采用具有固定网格结构的图（例如，其中每个节点连接到它的四个最近的邻居），随机游走方法更加灵活，并且可以通过亲和矩阵规范来实现任何任意的图形结构因此，由于我们提出的RWN是基于随机游走的，它可以采用任何任意的图结构，节点：Dii=nj=1 对于所有j，除了i = j。然后我们还可以这在不同问题可能需要将随机游走转移矩阵表示为A=D−1W。在这种设置下，我们想对图中的信息如何传播进行建模，如果我们从一个特定的节点开始，并在这个图中执行随机游走设yt是一个n×1向量，表示时间t的节点分布。背景下PageRank算法yt可以指示在时间t与n个网页中的每一个相关联的排名估计。然后，根据随机游走理论，我们可以通过执行一步随机游走来传播图中的秩信息该过程可以表示为yt+1=Ayt，其中yt+1表示在一个随机游走步骤之后新获得的秩分布，矩阵A包含随机游走转移概率，并且yt是时间步骤t处的秩分布。因此，我们可以观察到，通过简单地将随机游走转移概率矩阵A乘以特定时间t处的秩分布yt，可以在节点之间扩散信息。这个过程可以重复多次，直到达到收敛更详细的调查请参见[21，24]。与管理成果框架/通用报告格式方法的区别。crf和不同的图形结构。此外，为了在节点之间全局传播信息，MRF和CRF需要采用近似推理技术，因为精确推理在具有网格结构的图中往往是难以处理的。将这种近似推理技术集成到FCN训练和预测的步骤中可能具有挑战性，并且可能需要大量特定于域的修改。相比之下，随机游走方法通过简单的矩阵乘法在节点之间全局传播信息。矩阵乘法不仅高效准确，而且易于集成到传统的FCN框架中，用于训练和预测方案。此外，由于使用了标准卷积和矩阵乘法运算，我们的RWN可以通过端到端的标准反向传播进行简单的训练。4. 卷积随机游走网络在这项工作中，我们的目标是将随机游走过程集成到FCN架构中，以鼓励连贯性，W∈Rn×n2 2f∈Rn×m2亲和学习分会稀疏成对L1距离稀疏像素相似矩阵地面实况像素相似性F∈Rn×n ×k22FC8激活分割×n ×随机游走层DeepLabFCN架构2 2A∈Rn×n行归一化：成对L1距离y=AfExp1x1xkconv861在彼此相似的像素之间进行Mantic分割。这样的过程引入了明确的分组机制，这应该有益于解决以下问题：（1）边界周围的不良定位，以及（2）空间碎片化分割。我们提出的RWN架构的示意图如图所示。二、我们的RWN是一个由两个分支组成的网络：（1）预测语义分割潜力的一个分支，以及（2）致力于预测像素级亲和性的另一分支。这两个分支合并通过一个新的随机游走层，鼓励空间连贯的语义分割。整个RWN可以端到端联合优化。我们现在更详细地描述RWN架构的每个组件。4.1. 语义分割分支对于语义分割分支，我们给出了DeepLab分割系统的几个变体的结果，包括DeepLab-LargeFOV [6]，DeepLab-attention [7]和DeepLab-v2，这是性能最好的分割系统之一。DeepLab-largeFOV是VGG [26]架构的完全卷积适配，其中包含 16 个卷积层。 DeepLab-attention [7]是一种基于多尺度VGG的网络，其中每个多尺度分支专注于图像的特定部分。最后，DeepLab-v2是一个基于残差网络实现的多尺度网络[11]我们注意到，即使我们在实验中使用DeepLab架构，其他架构（如[2]和许多其他架构）也可以集成到我们的框架中。4.2. 像素级亲和分支为了学习成对的像素级亲和度，我们采用了一个单独的亲和度学习分支，该分支具有自己的学习对象（见图 2 ）。 2 ）的情况。仿射分支与输入的n×n×3RGB图像连接，低层conv1_1和conv1_2层。对应于这些层的特征图的宽度和高度为n×n，但它们具有不同数量的通道（分别为3、64和64）。设k是亲和学习参数的总数（在我们的情况下k=3+64+64=131 ）。然后，设 F 是一个稀疏的n2×n2×k矩阵，存储半径R内每个像素与其所有邻居之间的L1距离，根据每个频道。注意，距离不是跨k个通道相加，而是针对每个通道单独计算然后将得到的矩阵F用作亲和分支的输入，如图2所示。亲和分支由1×1×k卷积层和指数层组成指数函数的输出然后，tial层被附加到欧几里德损失层，并被优化以预测从原始语义分割和输入DeepLab_v2 RWN_v2图3：说明我们的RWN和DeepLab-v2网络的分割结果的图。请注意，RWN产生的分割在空间上更平滑，并且比DeepLab-v2系统产生更少的假阳性预测。符号。具体地，如果像素共享相同的语义标签并且彼此之间的距离小于R，则我们将两个像素之间的地面真实亲和度设置为1。注意，用作亲和分支的输入的F是稀疏矩阵，因为F中的所有条目中只有一小部分填充有非零值。在计算过程中忽略其余条目。还要注意的是，我们只使用 RGB ， conv1_1 和conv1_2层的特征我们还尝试使用更深的FCN层（如fc6和fc7）的特性。然而，我们观察到，来自更深层的特征与预测的语义分割一元势高度相关，这导致了分割性能的冗余和小的改进。我们还尝试在亲和学习分支中使用多个卷积层，但观察到额外的层在准确性方面提供的改进可以忽略不计。4.3. 随机游走层为了整合语义分割潜力和我们学习到的像素级亲和力，我们引入了一种新的随机行走层，该层基于学习到的亲和力传播语义分割信息随机游走层连接到两个底层：（1）包含语义分割潜力的fc8层，以及(2) 输出稀疏n2×n2随机游走转移矩阵A的亲和层。然后，让f表示激活，从fc8层中提取像素值，重新整形为n2×m的维度，其中n2是指像素数，m是数据集中对象类的数量。单个随机游走层实现随机游走的一个步骤862y夫阿吉亚方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视是说整体DeepLab-largeFOV 79.8 71.5 78.9 70.9 72.1 87.9 81.2 85.7 46.9 80.9 56.5 82.6 77.979.380.164.477.6 52.7 80.3 70.073.876.0RWN-大视场81.6 72.1 82.3 72.0 75.4 89.1 82.5 87.4 49.1 83.6 57.9 84.8 80.780.281.265.779.7 55.5 81.5 74.075.877.9DeepLab关注 83.4 76.0 83.0 74.2 77.6 91.6 85.2 89.1 54.4 86.1 62.9 86.7 83.884.282.470.284.7 61.0 84.8 77.979.080.5RWN关注84.7 76.6 85.5 74.0 79.0 92.4 85.6 90.0 55.6 87.4 63.5 88.2 85.084.883.470.185.9 62.6 85.1 79.379.981.5deeplab-V285.5 50.6 86.9 74.4 82.7 93.1 88.4 91.9 62.1 89.7 71.5 90.3 86.286.384.675.187.6 72.2 87.8 81.381.483.4RWN-v286.0 50.0 88.4 73.5 83.9 93.4 88.6 92.5 63.9 90.9 72.6 90.9 87.386.985.775.089.0 74.0 88.1 82.382.184.3表2：根据每像素交集对并集评估度量的SBD数据集上的语义分割结果。从结果中，我们观察到我们提出的RWN始终优于DeepLab-LargeFOV，DeepLab-attention和DeepLab-v2基线。过程，其可以被执行为y=Af，其中y表示扩散分割预测，并且A表示随机游走转移矩阵。然后将随机游走层附加到softmax loss层，并进行优化以预测地面实况语义分割。我们提出的随机游走层的一个优点是它是作为矩阵乘法实现的，这使得可以反向传播梯度到（1）亲和分支和（2）分段分支。假设softmax-loss梯度是一个n2×m矩阵，其中n2是fc 8层中的像素数并且m是预测的对象类的数量然后，反向传播到语义分割分支的梯度被计算为Δ T Δ L=Δ TΔ L，其中Δ T是转置的随机游走转移矩阵。此外，反向传播到亲和分支的梯度计算为： fcL= fcLf T，其中f T是一个m ×n2矩阵，包含来自fc8层的转置激活值的分割分支。我们注意到，推理技术来传播分割信息全局。相比之下，我们的随机游走方法是有利的，因为它可以使用1）任何任意的图结构和2）一个精确的矩阵乘法运算来实现相同的目标。让我们首先将t +1个随机行走步骤之后的分割预测表示为y=t+1。那么我们的一般预测方案可以写为：yt+1=αAyt+（1−α）f（1）其中，α表示参数[0，1]，其控制（1）沿着随机游走转移矩阵的连接扩散分割信息与（2）不偏离初始分割值太多（即，FCN的最后一层的输出）。让我们现在初始化y=0，以包含来自fc8层的输出值，我们用f表示。然后，我们可以通过代入递归表达式来写出我们的n2×n2A矩阵，这意味着上述矩阵mul-迭代仅考虑对应于随机游走转移矩阵A中的非零项的像素对。yt+1=（αA）t+1f+（1−α）Xti=0时（αA）if（2）4.4. 测试时的随机游走预测在前面的小节中，我们提到了随机游走层中的预测可以通过一个简单的现在，因为我们想应用随机游走算法直到收敛，所以我们设置t=∞。然后，因为我们的随机游走转移矩阵是随机的，证明了limPt→ ∞（α A）t+1=0.此外，我们可以写矩阵乘法运算y=Af，其中A表示随机游走转移矩阵，并且f描绘了激活的St=ti=0A i=I+A+A2+.. . +At，我在哪里fc8层的值。通常，我们希望应用多个随机游走步骤，直到达到收敛。然而，我们也不想偏离我们的目标太多单位矩阵，并且其中St表示以下的部分和：随机游走过渡直到迭代t。然后我们可以写St−ASt=I−At+1，这意味着：初始分割预测，在随机游走转移矩阵不完全准确的情况下，这是一个真正的（I−A）St=I−At+1（3）合理的期望因此，我们的预测方案需要平衡两个影响：（1）使用随机游走转移矩阵在节点上传播分段信息，以及（2）不偏离初始分段太多。这两个量之间的权衡与MRF和CRF模型背后的想法非常相似，MRF和CRF模型试图最小化由一元项和成对项形成的能量。然而，如前所述，MRF和CRF方法倾向于使用1）网格结构图和2）各种近似从前面的推导中，我们已经知道，limt→∞（A）t+1= 0，这意味着S∞=（I−A）−1（4）因此，我们的最终预测方程，对应于应用重复的随机游走步骤直到收敛，可以写为863y∞=（I−αA）−1f（5）864方法平均IOU总借据DeepLab-largeFOV-CRFRWN-大视场75.775.877.777.9DeepLab-attention-CRFRWN关注79.979.981.681.5DeepLab-v2-CRFRWN-v281.982.184.284.3DeepLab-DTRWN76.676.778.778.8输入DeepLab_v2-CRF RWN_v2图4：我们的RWN与DeepLab-v2-CRF系统产生的分割结果的比较。可以注意到，尽管没有使用任何后处理步骤，我们的RWN预测精细的对象细节（例如，自行车车轮或飞机机翼），比DeepLab-v2-CRF更准确，它无法捕捉这些物体的一些部分。实际上，随机游走转移矩阵A相当大，求逆是不切实际的。为了解决这个问题，我们使用[1]中提出的一种简单而有效的技术来收缩矩阵（I-αA），然后将其逆成com-A。完成最后的分割。在实验部分中，我们证明了这样的预测方案产生了可靠的结果，并且仍然非常有效（每幅图像10.1秒我们还注意到，我们只在测试期间使用这种预测方案。在培训期间，我们采用了一种使用单个随机行走步骤（但具有更大的半径），这更快。我们将在下一小节中解释这一过程。4.5. 实现细节我们以端到端的方式联合训练我们的RWN，迭代2000次，学习率为10- 5，0。9个力矩，重量衰减为5·10−5，每批15个样品。对于RWN模型，我们将权衡参数α设置为0的情况。01.在测试过程中，我们设置随机游走连接半径R=5，并应用随机游走过程，直到收敛。然而，在训练过程中，我们设置R=40，并应用单个随机游走步骤。这种训练策略效果很好，因为增加半径大小消除了对多个随机行走步骤的需要，这加快了训练速度。然而，使用R=5并应用无限数量的随机游走步骤直到收敛仍然会产生稍微好一点的结果（参见5.4中的研究），所以我们在测试中使用它。对于我们所有的实验，我们都使用Caffe li [13]。在训练过程中，我们还采用了数据增强技术，如裁剪和镜像。5. 实验结果在本节中，我们介绍了SBD [10]数据集上的语义分割结果，该数据集包含20个Pascal VOC类（不包括背景类）的对象及其每像素标签。我们还包括场景标签-表 3 ：我们的 RWN 模型与使用密集 CRF 或域转移（DT）过滤器进行后处理的DeepLab系统的几个变体之间的定量比较这些结果表明，我们的RWN是一种有效的全球化方案，因为它产生的结果类似于甚至优于用CRF或DT后处理DeepLab输出所获得的结果。在常用的斯坦福背景[9]和Sift Flow [18]数据集上的结果。我们使用每个数据集的所有类中每个像素的平均交叉联合（IOU）的标准度量来我们还包括类不可知的整体像素交叉-联合得分，其测量所有类中的每像素IOU。我们使用DeepLab系统的几个变体[6，7]作为我们整个实验的主要基线进行实验： DeepLab-LargeFOV[6]、DeepLab-attention [7]和DeepLab-v2。我们的评估为四个结论提供了证据• 在第5.1，5.2小节中，我们证明了我们提出的RWN 在语义分割和场景标记任务方面优于DeepLab基线。• 在5.1小节中，我们证明了，与密集CRF方法相比，RWN预测的分割在空间上更平滑。• 在5.3小节中，我们证明了我们的方法比denseCRF推理更有效。• 最后，在第5.4小节中，我们证明了我们的随机游走层是有益的，并且我们的模型可以灵活地使用不同的图结构。5.1. 语义分割任务标准评价。在表2中，我们展示了Pascal SBD数据集[10]上的语义分割结果，该数据集包含8055个训练图像和2857个测试图像。这些结果表明，RWN始终优于所有三个 DeepLab 基线。在图 3 中，我们还比较了DeepLab-v2网络和我们的RWN模型的定性分割结果。我们注意到，RWN分割包含更少的假阳性预测，并且在对象区域上也更平滑。8650.550.50.450.40.350.3边界附近的定位误差0.250.202468101214161820三重图宽度（像素）表4：空间分割平滑度的定量比较。我们从预测的分割中提取边界，并使用最大F分数（MF）和平均预处理值对地面真实对象边界进行评估。图5：三重图中对象边界周围的定位误差。与DeepLab系统（蓝色）相比，我们的RWN（红色）在所有trimap宽度的对象边界周围实现了更低的分割错误。此外，在表3中，我们展示了实验，其中我们将RWN 与使用密集 CRF [15]的模型进行比较，以对DeepLab 系统的预测进行后处理。我们还包括DeepLab-DT [5]，它使用域转移过滤来细化FCN内的分割。基于这些结果，我们观察到，尽管没有使用任何后处理，但我们的RWN产生的结果类似于甚至优于采用后处理的DeepLab模型这些结果表明，RWN可以用作一个全球化机制，以确保语义分割预测的空间一致性。在图4中，我们展示了定性结果，其中我们比较了RWN和DeepLab-v2-CRF系统的最终分割预测。基于这些定性的结果，我们观察到，RWN更准确地捕捉到物体的细节，如自行车车轮，或飞机机翼。DeepLab-v2-CRF系统遗漏了其中一些对象部分。在边界附近定位。早些时候，我们声称，由于使用大的感受野和许多池化层，FCN往往会产生缺乏精细对象边界细节的斑点分割。我们希望表明，我们的RWN产生更准确的分割周围的对象边界的传统的FCNs。因此，采用[15]的实践，我们评估对象边界周围的分割精度。我们这样做是通过计算在围绕地面实况对象边界的窄带（我们在图5中展示了这些结果。结果表明，对于本测试中考虑的所有三重图宽度，RWN实现了比DeepLab（DL）系统更高的分割精度。空间平滑度。我们还认为，应用密集CRF [15]作为后处理技术通常会导致空间碎片化的分割（见图1右侧）。①的人。我们如何评估给定的方法是否产生空间平滑或空间碎片片段？精确度（AP）度量。这些结果表明，在所有基线上，RWN分割在空间上比DeepLab-CRF分割更平滑。什么事直观地，空间碎片分割将产生许多不对应于实际对象边界的假边界。因此，为了测试给定分割的空间平滑性，我们从分割中提取边界，然后使用标准的最大F分数（MF）和平均精度（AP）标准将这些边界与地面真实对象边界进行比较，如在流行的BSDS基准中所做的那样[22]。我们在Pascal SBD数据集上进行了这个实验，并在表4中给出了这些结果。我们可以看到，与从DeepLab-CRF系统的不同变体中提取的边界相比，从RWN分割中提取的边界产生了更好的MF和AP结果。因此，这些结果表明RWN产生比DeepLab-CRF更平滑的空间分割。5.2. 场景标记我们还使用两个流行的数据集测试了我们的RWN在场景标记任务上的表现：斯坦福背景[9]和Sift Flow[18]。Stanford Background是一个相对较小的场景标记数据集。它包含715张图像，我们将其随机分为600张训练图像和115张测试图像。相比之下，Sift Flow数据集包含2489个训练示例和201个测试图像。对于我们所有的实验，我们使用DeepLab-largeFOV [6]架构，因为它更小，训练和测试更有效。为了评估场景标记结果，我们使用总体IOU评估指标，这是此任务常用的指标在表5中，我们展示了这两个数据集上的场景标记结果。我们的结果表明，我们的RWN方法比DeepLab基线高出2。57%，2。这两个数据集分别为54%5.3. 运行时比较我们还包括我们的RWN方法与denseCRF推理的运行时比较我们注意到，使用一个2的单核。7GHz英特尔酷睿i7处理器，在denseCRF推理上每幅图像需要3.301秒DeepLabRWN像素分类误差（%）方法MFAPDeepLab-largeFOV-CRFRWN-大视场0.6760.7030.4570.494DeepLab-attention-CRFRWN关注0.7220.7470.5210.556DeepLab-v2-CRFRWN-v20.7630.7730.5840.595866准确度与随机游走步0.765平均类IOU0.760.7550.750.7450.740.735051015202530405060inf随机游走步输入图像迭代0迭代50图6：说明概率预测如何随着我们应用更多的随机游走步骤而变化的图。请注意，随着应用更多的随机游走步骤，RWN预测变得更加精细，并且更好地定位在对象边界周围。Pascal SBD数据集的平均值。相比之下，随机游走的单次迭代（简单地说是稀疏矩阵乘法）在相同的PascalSBD数据集上平均需要0.032秒。使用denseCRF后处理的DeepLab_v2达到81。9%的IOU分数在这个相同的Pascal SBD数据集上。相比之下，具有单个随机行走迭代和R=40（半径）的RWN_v2达到82。2%IOU，这比denseCRF推理更准确，效率也高出100倍以上。5.4. 消融实验最佳随机漫步步数。在图7中，我们说明了当我们使用不同数量的随机游走步骤时，IOU准确性如何变化我们观察到，随着我们应用更多的随机游走步骤，分割精度不断提高，并且当随机游走过程收敛时，它达到其峰值在图6中，我们还说明了预测的对象分割概率如何随着我们应用更多的随机游走步骤而变化。我们观察到，对象的边界变得更好地本地化，因为更多的迭代的随机游走应用。半径大小。为了分析RWN架构中半径大小的影响，我们测试了我们的具有不同半径大小的模型。结果表明，在R >3和R20的区间内，当采用随机步过程时，RWN模型在不同半径下产生相似的结果<我们还注意到，如果我们选择R=40，并且仅应用一次随机游走步骤，则可以实现75的分割精度。5%，77。6%，根据两个评价指标，图7：IOU准确性作为随机步行步数的函数。从该图中，我们观察到，随着我们应用更多的随机游走步骤，分割精度不断提高，并且当随机游走过程收敛时，分割精度达到峰值DeepLab-largeFOVRWN-大视场斯坦福-BG65.7468.31筛流67.3169.85表5：根据总体IOU评估度量测量的斯坦福背景和Sift-Flow 数据集上的场景标记结果我们使用 DeepLab-largeFOV网络作为基础模型，并表明我们的RWN在这两个场景标记数据集上都能产生更好的结果。分别相比之下，选择R=5并应用随机游走直到收敛产生75的精度。8%，77。9%，稍微好一点。然而，请注意，选择R=40并应用多个随机游走步骤不会产生分割准确性的任何改善。这些实验表明，我们的模型的灵活性相比，MRF或CRF模型，通常使用具有固定网格结构的图形。我们的模型能够根据问题使用不同的图结构。6. 结论在这项工作中，我们介绍了随机游走网络（RWN），并表明，与传统的全卷积网络（FCN）相比，它们在相同的模型复杂度下提高了我们的RWN解决了以下问题：1）分割边界周围的局部化较差，2）空间不相交的分割。此外，我们的RWN实现仅使用131个额外的可学习参数（0。0008%的网络中的参数的原始数量），并且它可以很容易地集成到标准FCN学习框架中，用于联合端到端训练。最后，RWN提供了一个更有效的替代denseCRF方法。我们未来的工作包括试验替代RWN架构和应用RWN到新的领域，如语言处理或语音识别。IOU准确性867引用[1] Pablo Arbelaez，J.放大图片作者：Jon Barron，F.侯爵和吉坦德拉·马利克多尺度组合分组在计算机视觉和模式识别（CVPR），2014年。6[2] Vijay Badrinarayanan，Ankur Handa和Roberto Cipolla。Segnet：一种深度卷积编码器-解码器架构，用于强大的语义像素标记。arXiv预印本arXiv：1505.07293，2015年。4[3] Bahman Bahmani Abdur Chowdhury和Ashish Goel。快速增量和个性化的 PageRank 。Proc. VLDB Endow. ， 4（3）：173-184，2010年12月。二、三[4] Gedas Bertasius，Jianbo Shi，and Lorenzo Torresani.基于边界神经场的语义分割。在IEEE计算机视觉和模式识别会议（CVPR）中，2016年6月。2[5] 放大图片作者： JonathanT.Barron ， GeorgePapandreou，Kevin Murphy，and Alan L.尤尔。使用cnn和区分性训练域变换的具有特定任务边缘检测的语义图像分割CVPR，2016年。一、二、七[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。语义图像分割与深度卷积网络和充分。2015年，国际会议一二四六七[7] Liang-Chieh Chen，Yi Yang，Jiang Wang，Wei Xu，and Alan L.尤尔。注意秤：尺度感知语义图像分割。CVPR，2016年。二、四、六[8] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在IEEE计算机视觉国际，2015年12月。1[9] S.古尔德河Fulton和D.科勒将场景分解为几何和语义一致的区域。在2009年国际计算机视觉会议（ICCV）上。六、七[10] Bharath Hariharan、Pablo Arbelaez、Lubomir Bourdev、Subhransu Maji和Jitendra Malik。从反向检测器的语义轮廓2011年国际计算机视觉会议（ICCV）。6[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。4[12] 洪承勋卢贤宇韩宝亨用于半监督语义分割的解耦深度神经网络。在NIPS），2015年12月。一、二[13] 杨庆贾、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe：用于快速特征嵌入的卷积架构arXiv预印本arXiv：1408.5093，2014。二、六[14] Iasonas Kokkinos使用深度学习在边界检测方面超越人类CoRR，abs/1511.07386，2015年。2[15] Philipp Krähenbühl和Vladlen Koltun。具有高斯边缘势的全连接crfs中的有效推理在J. Shawe-Taylor，R.S. Zemel，P.L. Bartlett，F.佩雷拉，以及K.Q. Weinberger，编辑，神经信息处理系统进展24，第109-117页。柯伦联合公司股份有限公司、2011. 1、7[16] John D. Lafferty，Andrew McCallum，and Fernando C. N.佩雷拉.条件随机字段：用于序列数据分段和标记的概率模型。在 Proceedings of the Eighteenth InternationalConference on Machine Learning，ICML'01，第282-289页，美国加利福尼亚州旧金山，2001年。摩根考夫曼出版公司3[17] 林国胜，沈春华，Ian D. Reid，and Anton安东van范den登Hengel亨格尔.用于语义分割的深度结构化模型的高效分段训练。CoRR，abs/1504.01013，2015。一、二、三[18] Ce Liu，Jenny Yuen，and Antonio Torralba. 非参数场景解析通过标签传输，第 207-236 页。 SpringerInternational Publishing，Cham，2016. 六、七[19] Ziwei Liu，Xiaoxiao Li，Ping Luo，Chen Change Loy，and

下载后可阅读完整内容，剩余1页未读，立即下载