门控反馈细化网络：解决密集图像标记中的模糊不清问题的深度学习框架

200 浏览量更新于2023-10-15 收藏 13.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{amirul, mrochan, bruce, ywang}@cs.umanitoba.ca137510用于密集图像标记的门控反馈细化网络0Md Amirul Islam，Mrigank Rochan，Neil D. B. Bruce和YangWang，加拿大曼尼托巴大学计算机科学系0摘要0对于密集标记问题，有效地整合局部和全局上下文信息至关重要。大多数基于编码器-解码器架构的现有方法仅仅是将较早层的特征连接起来，以在细化阶段获得更高频率的细节。然而，如果传递的信息模糊不清，细化的质量存在限制。在本文中，我们提出了门控反馈细化网络（G-FRNet），这是一个端到端的深度学习框架，用于密集标记任务，解决了现有方法的这一限制。最初，G-FRNet进行粗略预测，然后在细化阶段有效地整合局部和全局上下文信息来逐步细化细节。我们引入了控制前向传递信息的门单元，以过滤模糊不清的信息。在三个具有挑战性的密集标记数据集（CamVid，PASCAL VOC 2012和Horse-CowParsing）上的实验证明了我们方法的有效性。我们提出的方法在CamVid和Horse-CowParsing数据集上取得了最先进的结果，并在PASCAL VOC2012数据集上产生了有竞争力的结果。01. 引言0近年来，深度学习在计算机视觉问题上取得了快速进展。这取得了巨大的成功，并导致了神经网络结构的大量多样性。许多当前的深度学习模型应用了由重复的卷积阶段和空间池化组成的级联。通过池化进行下采样可以得到非常大的不同和丰富的特征，尽管以空间分辨率为代价。对于识别问题，空间精度的损失并不特别成问题。然而，密集图像标记问题（例如语义分割）需要像素级的精度。它们通常涉及逐渐恢复像素级别的类别规范的解码过程。在某些情况下，这种解码是在0图1.显示不同层之间感受野大小和可能出现的模糊不清的关系的示例。在这种情况下，更大（更具辨别性）的感受野（蓝色）位于网络的较深层，可能对改善早期层次（橙色）所携带的表示以解决模糊不清和提高标记性能有价值。0在某些情况下，模式的编码和空间分辨率的逐渐恢复都是分层的。有趣的是，这反映了人类视觉的观察计算结构，其中空间被抽象为丰富的特征，模式的识别优先于其精确的定位。一些在分割问题上取得成功的模型共享一种常见的结构，包括对输入图像进行逐阶段编码，然后逐阶段解码以恢复每个像素的分类。在抽象层面上，这类似于一个单一的网络，它涉及前馈传递，然后从顶层向下进行循环传递，其中进行额外的计算和细化。然而，存在明显的区别，解码通常仅由满足解决特定标签问题的信息流驱动，并且所有解码可能仅由最高编码器层所携带的表示所通知。在编码的最深阶段，可以获得最丰富的特征表示，但从每个神经元的角度来看，空间分辨率相对较低。虽然从每个神经元的角度来看，空间分辨率可能较低，但是37520这并不意味着恢复精确空间信息是不可能的。例如，一种粗编码策略[13，7]可以允许在空间定位方面具有很高的精度，但代价是编码的特征的多样性和涉及的区分度。这个重要的含义是，只要最高层不需要精确定位模式的能力，就可以实现更丰富的特征级表示。在编码的较早层之间传递的信息具有更大的空间局部性，但可能较少具有区分度。鉴于每一层都存在图像特征的现有表示，自然可以假设在解码阶段利用较早的编码表示可能会有价值。通过这种方式，可能会逐渐从较早的表示中恢复在编码的深层中可能丢失的空间精度。这减轻了更深层次代表图像高度区分特征的责任，同时促进了精确的定位。这种直觉出现在我们提出的模型中，如我们网络中编码器层和解码器层之间的连接所示。这意味着编码层之间的责任转移，以及网络中更深层次的区分能力或容量。如果只使用早期层对图像进行分类，这可能会有问题，特别是在局部部分模糊的情况下。在解码阶段重复使用来自较早编码层的信息受到其缺乏区分度的削弱。例如，如果假设依赖于卷积和反池化（涉及一组固定的权重）来恢复信息并最终分配标签，这意味着任何模糊的表示都必然参与解码，这可能会降低预测的质量。例如，尽管网络中深层的卷积层可以在牛和马之间提供强大的区分能力，但来自较早层的表示可能是针对动物的，但对两者都表达自信。如果这种自信传递到解码阶段，并且存在一种固定的组合这些表示的方案，这会导致标签错误。这个观察结果形成了我们提出的模型最新和最重要的方面的动机，这个直觉在图1中有所体现。尽管来自早期编码层的信息对于定位非常有价值，但是过滤这些信息以减少分类的模糊性是合理的。此外，自然地使用更深层次的区分度更高的层次来过滤从区分度较低但更细粒度定位的较早层次传递的信息。实现这一点的精确方案在本文的其余部分中进行了详细讨论。我们证明了在应用一个相对简单的模型结构和一个可以应用的规范门控机制的情况下，可以在各种基准测试中取得很高的成功率。0对于由编码器和解码器组件组成的任何网络来说，这也是一个可以与人类神经信息处理进行类比的领域，在这个领域中，更精确的局部表示可能是模糊的，通过更高层次的特征进行调节或门控，以迭代和自上而下的方式[24]。02. 背景0在本节中，我们描述了与我们提出的模型最相关的背景。0编码器-解码器架构：我们的模型（图2）基于用于密集图像标记问题的深度编码器-解码器架构（例如[1，22]），编码器网络从图像中提取特征，解码器网络根据编码器网络生成的特征生成语义分割结果。编码器网络通常是一个CNN，其中包含交替的卷积层、池化层、非线性激活等。编码器网络中每个卷积层的输出可以被解释为具有不同感受野的特征。由于空间池化，编码器网络生成的特征图的空间维度比原始图像小。解码器网络将使用上采样和反池化来扩大特征图，以生成最终的语义分割结果。许多流行的基于CNN的语义分割模型都符合这种编码器-解码器框架，例如FCN[21]，SegNet [1]，DeconvNet [22]。0跳跃连接：在标准的编码器-解码器架构中，来自编码器网络顶层的特征图被用作解码器网络的输入。这个特征图包含高级特征，这些特征对于“干扰因素”（如小的平移、光照等）是不变的。这种不变性对于某些高级任务（如目标识别）非常重要，但对于许多需要精确像素级信息的密集图像标注任务（如语义分割）来说并不理想，因为重要的关系可能被抽象化。一种可能的解决方案是使用“跳跃连接”[12,21]。跳跃连接直接将编码器层与解码器层连接起来。由于编码器网络的底层往往包含精确的像素级信息，跳跃连接允许将这些信息直接传递给解码器网络以产生最终的分割结果。03. 门控反馈细化网络0在本节中，我们描述了我们提出的用于密集图像标注问题的门控反馈细化网络（G-FRNet）。37530图2.我们门控反馈细化网络（G-FRNet）的概述。我们使用编码器（f1，f2，...，f7）产生具有不同空间尺寸的特征图来重建一个小的（即粗略的）标签地图PmG。解码器通过从编码器网络中的特征图中添加细节来逐步改进标签地图。在解码的每个阶段，一个细化单元（RU1，RU2，...，RU5）通过将前一个标签地图和编码器层的信息作为输入（用连接Gi和RUi表示的边）来产生具有较大空间尺寸的新标签地图。该模型的主要创新之处在于，来自较早的编码器层的信息在传递到解码器之前会经过一个门单元。我们在每个类别分数图上使用标准的2倍双线性上采样，然后将其传递给下一个阶段的细化模块。我们还使用下采样的地面实况标签地图在每个解码阶段提供监督（l1，l2，...，l6）。03.1. 网络概述0我们的G-FRNet受到编码器-解码器架构[22, 1,14]在密集图像标注中的启发。图2显示了G-FRNet架构的概述。我们的编码器网络基于VGG-16网络[25]，但去除了VGG-16中的softmax和全连接层。根据[22, 3,21]的做法，在编码器末尾添加了两个卷积层conv6和conv7。对于输入图像I，编码器网络产生7个特征图（f1，f2，...，f7），其空间分辨率逐渐降低。从conv7获得的特征图f7的空间尺寸小于输入图像。我们通过在f7上应用3×3卷积来获得粗略的预测地图PmG，其中我们将输出通道数设置为可能标签的数量。换句话说，PmG是一个h×w×C的地图，其中C是类别的数量。PmG对应于预测每个空间位置作为C个类别之一的置信度。由于Pm G0由于较小的空间维度，它只携带图像的粗略标签。虽然我们可以直接将 Pm G上采样（例如使用双线性插值）以匹配输入图像的尺寸，但上采样的标签地图不会非常精确，因为 Pm G中缺少更细的图像细节（例如边界和细微结构）。为了获得更准确的标签地图，我们使用解码器网络逐步扩大标签地图，同时在标签预测中包含更细的细节。请注意，我们在整篇论文中使用 Pm 来表示预测（或标签）地图。0我们提出了一种反馈细化网络（FRN），它构成了我们的解码器网络。根据之前关于跳跃连接的工作[21,14]，FRN利用特征图0从编码器层获取细节以生成放大的标签映射。例如，为了获得放大的标签映射PmRU1，我们可以使用编码器层f5的信息。传统的方法是使用跳跃连接直接连接网络中的两个层，即一个编码器层连接到一个解码器层。例如，在图2的网络架构中，传统的跳跃连接可能将f5连接到PmRU1。虽然这允许网络将更细的详细信息从早期的编码器层传递到解码器，但可能会降低预测的质量。如前所述，早期的编码器层中的分类模糊可能会传递给解码器。0我们工作的主要创新之处在于我们使用门控机制来调制通过跳跃连接传递的信息。例如，假设我们想要从编码器层f5传递信息到解码器层PmRU1。我们不直接传递特征图f5，而是首先基于f5和上面的编码器层（例如图2中的f6）计算一个门控特征图G1。其直觉是f6包含的信息可以帮助解决f5中存在的模糊性。例如，f6中的一些神经元可能在看起来像动物的图像块上激活（无论是牛还是马）。仅凭f5无法解决关于类别（牛还是马）的这种模糊性，因为对应于该编码器层的感受野可能不够大或具有辨别力。但是上面的编码器层（例如f6）可能不受这些限制，并为正确的类别提供明确的置信度。通过从f5和f6计算门控特征图，可以在到达解码器之前过滤掉分类模糊。37540解码阶段。图1提供了一个分类模糊的示例。来自G1的门控特征图包含有关更细的图像细节的信息。然后，我们将其与粗糙的标签映射PmG相结合，产生一个放大的标签映射PmRU1。我们重复这个过程，产生逐渐变大的标签映射（PmRU1，PmRU2，PmRU3，PmRU4，PmRU5）。我们在以下章节中详细描述了如何组成门控特征（第3.2节）以及如何在解码器中的一个阶段计算放大的标签映射（第3.3节）。03.2. 门单元0之前的工作[23]通过将来自较早层的卷积特征相结合，提出了在不同层级之间进行细化的方法。我们引入了门单元来控制传递的信息，而不是直接将卷积特征与粗糙的标签映射相结合。门单元被设计为以自上而下的方式调制编码器层对每个空间区域的响应，从而控制传递的信息。图2（右）显示了门单元的架构。门单元以两个连续的特征图fig和fi+1g作为输入。fig中的特征具有较小的感受野（即小的上下文）和高分辨率，而fi+1g中的特征具有较大的感受野（即大的上下文）和低分辨率。门单元将fig和fi+1g相结合，生成丰富的上下文信息。其他使用细化过程的方法直接通过连接将卷积特征（使用跳跃连接[21]）与粗糙的标签映射进行串联，生成新的标签映射。在这种情况下，如果高分辨率特征图携带对类别模糊的激活，模型很可能无法充分利用其贡献。因此，仅使用跳跃连接在识别缺失的空间细节方面具有固有的局限性。因此，与跳跃连接不同，我们首先获得一个门控特征图，然后将高分辨率编码传递给细化单元。现在我们解释如何从门单元获得门控特征图。两个输入特征图fig和fi+1g具有不同的空间维度和通道维度。我们对fig和fi+1g进行一系列操作，然后进行逐元素乘积。首先，我们对两个特征图都应用3×3的卷积，进行批量归一化和ReLU操作。在这些操作之后，设cig和ci+1g分别为fig和fi+1g中的通道数，使得cig=ci+1g。然后，将fi+1g上采样2倍，得到新的特征图fi+1g'，其空间维度与fig相匹配。我们获得第i个门控特征图。0阶段的门控（来自图2中的Gi）特征图Mf，通过fig和fi+1g'的逐元素乘积得到。最后，将得到的特征图Mf馈送到门控精化单元（参见第3.3节）。从门单元Gi获取门控特征图Mf的公式可以写成如下形式：0图3详细展示了我们的门控精化单元的架构（参见图2中的RU）。每个精化单元RUi0其中Tf表示由上述提到的一系列操作组成的变换函数，⊙表示逐元素乘积。0图4.分层门控精化方案的可视化。精化过程将高频细节与每个阶段的低分辨率标签映射集成在一起。每个门的类别激活图显示为热图。0vi = Tf(fi+1g)，ui = Tf(fig)，Mf = vi⊙ui (1)0lk =03.3. 门控精化单元0mf = C3×3 � Mf �，γ = mf⊕Rf，R'f = C3×3(γ) (2)03.4. 阶段性监督0其中C（.），⊕分别表示批量归一化、卷积和连接。ξ R η , PmGi4.2. CamVid4.3. PASCAL VOC 201237550图4.分层门控精化方案的可视化。精化过程将高频细节与每个阶段的低分辨率标签映射集成在一起。每个门的类别激活图显示为热图。0我们的网络在解码器阶段产生一系列具有不断增加的空间维度的标签映射，尽管0lk =0ξ � R i ( η ) , Pm RU i � 否则（3）0其中ξ表示交叉熵损失。我们网络中的损失函数是精细化网络各个阶段的交叉熵损失之和（即损失（I）=�6 k =1 ℓk）。网络使用反向传播进行训练以优化此损失。图4说明了门控精细化方案的有效性。我们可以看到，精细化方案逐步改善了密集标签图的空间细节。它还显示了顶部卷积层（我们编码器网络中的conv7）可以预测出不捕捉更细的图像细节的粗糙标签图。反馈精细化网络能够恢复粗糙标签图中丢失的细节（例如公共汽车和汽车的边界）。04. 实验0在本节中，我们首先讨论一些实现细节（第4.1节）。然后我们在三个具有挑战性的密集标注基准数据集上展示实验结果：Cambridge Driving LabeledVideo（CamVid）（第4.2节），PASCAL VOC2012（第4.3节）和Horse-Cow Parsing（第4.4节）。04.1. 实现细节0我们使用Caffe [15]在一块Titan XGPU上实现了我们的网络。预训练的VGG-16 [25]参数0用于初始化编码器网络中的卷积层（即conv1到conv5层）的参数。其他卷积层的参数根据Xavier初始化随机分配。网络输入的是大小为（h min × wmin）的随机裁剪补丁。我们将（h min × wmin）设置为320×320用于PascalVOC，360×480用于CamVid和Horse-Cowparsing数据集。对于PASCAL VOC2012数据集，我们使用VGG-16的均值和标准差对数据进行归一化。我们采用像素级交叉熵损失（权重相等）作为所有语义类别的优化目标函数。对于CamVid数据集，由于类别不平衡，我们使用加权交叉熵损失，遵循先前的工作[1]。权重是使用[6]中提出的类别平衡技术计算的。在测试过程中，我们的网络可以接受原始尺寸的图像作为输入，因为所有的门控精细化模块都可以处理任意尺寸的输入。因此，网络可以为每个测试图像在原始分辨率上生成密集的预测。0Cambridge-driving LabeledVideo（CamVid）数据集[2]由从具有挑战性的城市环境中记录的视频镜头中提取的701个高分辨率视频帧组成。根据32个语义类别进行了地面真值标注。我们根据[17, 1,28]考虑了11个较大的语义类别（道路，建筑物，天空，树木，人行道，汽车，柱子-杆子，栅栏，行人，自行车手和标志符号）进行评估。我们按照[26]将数据集划分为训练集、验证集和测试集。最终，我们有367个训练图像，100个验证图像和233个测试图像。为了使我们的实验设置与先前的工作[17, 32, 28,1]可比较，我们将数据集中的图像下采样了2倍（即480×360）。表1显示了我们的模型在该数据集上与其他最先进方法的比较结果，表明我们在该数据集上取得了最先进的结果。对于每种方法，我们报告了类别IoU得分和平均IoU得分。LRN [14]的平均IoU得分超过SegNet [1]11%以上，而我们的方法（即G-FRNet）与DeepLab[3]相比的准确率提高了6%，与Dilation [32]和FSO[17]相比提高了近2%。图5显示了该数据集上的一些定性结果。我们可以看到，与[17]相比，我们的模型在具有挑战性的对象类别（如柱子-杆子，人行道，自行车手和标志符号）上特别准确。0PASCAL VOC 2012[8]是一个具有挑战性的语义分割数据集。该数据集包含1,464个训练图像和1,449个验证图像，涵盖20个对象类别（加上背景类）。有1,456个测试图像。37560方法0建筑物0树0天空0汽车0标志0道路0行人0栅栏0电线杆0人行道0骑自行车者0mIoU0SegNet [1] 68.7 52 87 58.5 13.4 86.2 25.3 17.9 16.0 60.5 24.8 50.2 Spatial-temporal DPN [20] 80.6 73.1 91.4 77.9 4090.8 43.9 29.2 16 71.9 47.9 60.25 DeepLab-LargeFOV [3] 81.5 74.6 89.0 82.2 42.3 92.2 48.4 27.2 14.3 75.4 50.1 61.6Dilation [32] 82.6 76.2 89.9 84.0 46.9 92.2 56.3 35.8 23.4 75.3 55.5 65.29 Dilation + FSO [17] 84.0 77.2 91.3 85.7 49.892.6 59.3 37.6 16.9 76.2 56.8 66.11 Dilation + FSO – DiscreteFlow [17] 84.0 77.2 91.3 85.6 49.9 92.5 59.1 37.6 16.9 76.057.2 66.120LRN [14] 78.6 73.6 76.4 75.2 40.1 91.7 43.5 41.0 30.4 80.1 46.5 61.7 G-FRNet 82.5 76.8 92.1 81.8 43.0 94.5 54.6 47.133.4 82.3 59.4 68.00表1. CamVid数据集[2]上的定量结果。我们报告了每种方法的每类IoU和平均IoU。我们的方法在该数据集上取得了最先进的结果。值得注意的是，我们的模型在较小和更精细的物体上的改进尤为显著。0图像真实标签 FSO [17] G-FRNet 图5.CamVid数据集上的定性结果。与FSO[17]相比，G-FRNet能够更准确地保留较小和更精细的物体类别的形状（例如柱子、人行道、骑自行车者和标志符号）。0真实标签并不公开。我们通过将最终预测提交到评估服务器上来获得测试集上的结果。按照之前的工作[3, 21,1]，我们使用来自[11]的额外标记的PASCALVOC图像来增强训练集。最终，我们有10,582个标记的训练图像。在表2中，我们将我们在验证集上的结果与之前的工作进行了比较。G-FRNet +CRF在平均IoU准确率方面达到了最佳结果，为71.0%，相比于编码器-解码器架构（[22, 31,21]）。当我们切换到一个表现更强的基础模型（例如ResNet-101 [4]而不是VGG）时，我们的模型G-FRNet-Res101+CRF在平均IoU方面达到了77.8%，与基于最新的ResNet的最先进方法相比非常有竞争力。表3显示了我们的方法在测试集上的定量结果。与其他基准方法相比，我们取得了非常有竞争力的性能。LRN[14]的平均IoU为64.2%，超过了FCN [21]和SegNet[1]。我们提出的方法G-FRNet将平均IoU准确率提高了4%。许多现有的工作（例如[3, 22, 4,5]）使用CRF模型[16]作为后处理来提高性能。当我们在最终预测结果上应用CRF（G-FRNet +CRF）时，我们在测试集上的平均IoU进一步提高到70.4%。G-FRNet-Res101（带CRF）进一步提高了性能，在测试集上达到了79.3%的平均IoU。0方法平均IoU（%）0DeepLab-MSc-CRF-LargeFOV [3] 68.7 FCN[21] 61.3 OA-Seg + CRF [31] 70.3 DeconvNet[22] 67.1 Attention [5] 71.4 DeepLabv2 [4]77.70LRN [14] 62.8 G-FRNet 68.7 G-FRNet + CRF71.0 G-FRNet-Res101 + CRF 77.80表2. PASCAL VOC 2012验证集上不同方法的比较。注意，DeconvNet[22]的结果来自[31]。0与现有的最先进方法相比，测试集表现非常有竞争力。图6展示了在PASCAL VOC2012验证集上的定性结果。近年来，基于PASCAL VOC2012的许多语义分割方法已经被提出，这些方法在IoU度量方面越来越精确，并且引入了显著的额外模型复杂性。然而，只有很少的最近方法[22,1]在这个问题上使用了更简单的编码器-解码器架构，直接将我们的方法与这个相关的模型家族进行比较是最自然的。与其他基准方法不同，我们在不使用任何性能增强技术的情况下获得了这些结果，例如使用目标提议[22]和多阶段训练[22]。值得注意的是，虽然所提出的模型在多个数据集上表现出很高的能力，但本文更深层次的目标是展示通过门控提供的基本信息路由机制在改善性能方面的能力。编码器-解码器架构为这个演示提供了一个自然的载体。预计抽象空间精度以换取更复杂的特征池的各种网络可能会从安装类似逻辑中受益。37570方法飞机自行车鸟船瓶子公共汽车汽车猫椅子牛桌子狗马摩托车人植物羊沙发火车电视 mIoU0FCN-8s [21] 76.8 34.2 68.9 49.4 60.3 75.3 74.7 77.6 21.4 62.5 46.8 71.8 63.9 76.5 73.9 45.2 72.4 37.4 70.9 55.1 62.2 SegNet [1] 74.5 30.661.4 50.8 49.8 76.2 64.3 69.7 23.8 60.8 54.7 62.0 66.4 70.2 74.1 37.5 63.7 40.6 67.8 53.0 59.1 DeconvNet[22] 87.8 41.9 80.6 63.9 67.3 88.178.4 81.3 25.9 73.7 61.2 72.0 77.0 79.9 78.7 59.5 78.3 55.0 75.2 61.5 70.5 DeepLab [3] 84.4 54.5 81.5 63.6 65.9 85.1 79.1 83.4 30.7 74.159.8 79.0 76.1 83.2 80.8 59.7 82.2 50.4 73.1 63.7 71.6 Dilation [32] 91.7 39.6 87.8 63.1 71.8 89.7 82.9 89.8 37.2 84.0 63.0 83.3 89.0 83.885.1 56.8 87.6 56.0 80.2 64.7 75.3 Attention [5] 93.2 41.7 88.0 61.7 74.9 92.9 84.5 90.4 33.0 82.8 63.2 84.5 85.0 87.2 85.7 60.5 87.7 57.884.3 68.2 76.3 LRR [9] 92.4 45.1 94.6 65.2 75.8 95.1 89.1 92.3 39.0 85.7 70.4 88.6 89.4 88.6 86.6 65.8 86.2 57.4 85.7 77.3 79.3 DeepLabv2[4] 92.6 60.4 91.6 63.4 76.3 95.0 88.4 92.6 32.7 88.5 67.6 89.6 92.1 87.0 87.4 63.3 88.3 60.0 86.8 74.5 79.70LRN [14] 79.3 37.5 79.7 47.7 58.3 76.5 76.1 78.5 21.9 67.7 47.6 71.2 69.1 82.1 77.5 46.8 70.1 40.3 71.5 57.4 64.2 G-FRNet 84.8 39.6 80.353.9 58.1 81.7 78.2 78.9 28.8 75.3 55.2 74.7 75.5 81.9 79.7 51.7 76.3 43.2 80.1 62.3 68.2 G-FRNet + CRF 87.7 42.9 85.4 51.6 61.0 82.9 81.781.6 29.1 79.3 56.1 77.6 78.6 84.6 81.6 52.8 79.0 45.0 82.1 64.1 70.4 G-FRNet-Res101 91.4 44.6 91.4 69.2 78.2 95.4 88.9 93.3 37.0 89.761.4 90.0 91.4 87.9 87.2 63.8 89.4 59.9 87.0 74.1 79.30表3. PASCAL VOC 2012测试集上的平均IoU定量结果。注意，G-FRNet-Res101包括CRF。0图像 LRN G-FRNet G-FRNet-Res101 图6. PASCAL VOC 2012验证集上的定性结果。04.4. 马牛解析数据集0为了进一步确认我们的模型在密集标注问题上的价值和普适性，我们在[29]中引入的对象部分解析数据集上评估了我们的模型。该数据集仅包含马和牛的图像，这些图像是根据PASCAL VOC2010基准[8]上最可观察实例手动选择的。任务是根据像素是否属于一个身体部位（头部、腿部、尾巴、身体）来标记每个像素。我们按照[29]的方法划分数据集，得到294个训练图像和227个测试图像。0表4显示了我们模型的性能以及与其他基线方法的比较。所提出的G-FRNet架构在平均IoU方面优于所有基线。我们模型取得的卓越性能表明，在图像中捕捉复杂的上下文模式对于区分和分割实例的不同局部语义部分起到了至关重要的作用。04.5. 消融分析0在本节中，我们通过省略一个或多个组件来研究网络的每个提出组件的贡献。我们首先进行了一项对门单元效果进行隔离的对照研究。然后我们包含了门单元并在所有数据集上训练网络。图7显示了G-FRNet和LRN[14]的阶段性能。从这个分析中可以清楚地看出，门单元的引入不仅改善了网络的整体性能，而且在每个反馈细化网络的阶段都实现了性能提升。05. 讨论0从图5和图6中的定性结果可以看出，我们的预测比基线更精确和语义有意义。例如，马牛解析数据集中的较小区域（例如尾巴）和CamVid数据集中的较细对象（例如柱子、行人、标志符号）可以被G-FRNet精确标记。G-FRNet还能够有效处理外观相似的类别（例如马和牛）。通过门单元的全局上下文引导可以区分外观相似的区域（例如马和牛的身体部位）。通过从早期层获取的低频信息，可以保留不同语义区域的局部边界。图8显示了随着每个细化阶段的进行，预测质量逐渐提高。在粗糙级别的预测中，网络只能识别出一些对象或语义类别的部分。随着每个阶段的门控细化，可以恢复对象的缺失部分并纠正错误标记的部分。图9显示了在PASCAL VOC2012数据集上模型参数总数和平均IoU（%）方面的不同方法之间的比较。尽管我们的模型只有其他最先进方法（FCN[21]和DeconvNet[22]）参数数量的12至25％，但它达到了非常有竞争力的性能。这表明12345650525456586062646668StagesMean IoU (%)Stage−wise IoU plot for CamVid dataset G−FRNetLRN12345658596061626364656667StagesMean IoU (%)Stage−wise IoU plot for PASCAL VOC 2012 G−FRNetLRN12345660626466687072StagesMean IoU (%)Stage−wise IoU plot for Horse parsing G−FRNetLRN1234565657585960616263646566StagesMean IoU (%)Stage−wise IoU plot for Cow parsing G−FRNetLRNDeepLabFCN−8sDeconvNetSegNetLRNG−FRNet050100150200250300 Model ParamsMean IoU37580马牛0方法背景头部身体腿尾巴 IoU 背景头部身体腿尾巴 IoU0SPS- Guidance [27] 76.0 55.0 52.4 46.8 37.2 50.3 69.7 57.6 62.7 38.5 11.8 48.03 HC [12] 85.71 57.30 77.88 51.93 37.1061.98 81.86 55.18 72.75 42.03 11.04 52.57 JPO [30] 87.34 60.02 77.52 58.35 51.88 67.02 85.68 58.04 76.04 51.12 15.0057.18 DeepLab-LargeFoV [3] 87.44 64.45 80.70 54.61 44.03 66.25 86.56 62.76 78.42 48.83 19.97 59.31 LG - LSTM [19]89.64 66.89 84.20 60.88 42.06 68.73 89.71 68.43 82.47 53.93 19.41 62.790LRN [14] 90.11 53.23 81.57 56.50 48.03 65.89 90.30 64.41 81.52 53.44 23.03 62.53 G-FRNet 91.79 60.44 84.37 64.0753.47 70.83 91.48 69.26 84.10 57.58 24.31 65.350表4. 与Horse-Cow解析数据集[29]上最先进方法的对象解析性能比较。请注意，LRN [14]在该数据集上没有报告结果。0(a) (b) (c) (d) 图7. LRN [14]和提出的网络G-FRNet在(a) CamVid数据集；(b) PASCAL VOC 2012验证集；(c) Horse解析；(d)Cow解析数据集上的阶段性平均IoU比较。0图8. 在PASCAL VOC2012验证集图像上，经过每个细化阶段后的类别热图可视化。有趣的是，网络逐渐与语义标签更加精确地对齐，同时纠正最初错误标记的区域。最右侧的列显示了最终预测层的热图。0图9. 不同方法在PASCAL VOC2012验证集上的模型参数数量（以百万计）和平均IoU（%）的分析结果。最右边的方法是我们提出的模型，即使参数数量较少，模型结构更简洁，也能取得最佳性能。0尽管我们的模型非常简单，但其效率仍然很高，而且提出的门控机制的价值更为广泛。此外，该门控机制的价值已经得到证明。0在每个实验中都展示了G-FRNet的优势，其优势在定性和定量结果中都很明显。LRN方法仅使用上层特征图。我们报告了所有数据集上LRN的结果。很明显，与LRN相比，G-FRNet中提出的门控机制显著提高了性能。06. 结论0我们提出了一种新颖的端到端深度学习框架，用于密集图像标注，称为门控反馈细化网络。我们的模型使用编码器-解码器架构逐步生成更精细分辨率的密集标注。我们模型中的门单元能够有效地调节从编码传递的信号，以解决模糊性。我们在几个具有挑战性的数据集上的实验结果表明，所提出的模型的性能要么与现有方法相当，要么明显优于现有方法。此外，基于消融分析的实验结果揭示了粗到细门控细化的普遍价值。鉴于门控细化与各种经典神经网络架构自然结合，广泛的卷积神经网络可能会受益于这些简单的架构修改。0致谢0这项工作得到了NSERC和马尼托巴大学研究资助计划（URGP）的支持。我们衷心感谢NVIDIA Corporation GPUGrant Program的支持。37590参考文献0[1] V. Badrinarayanan, A. Kendall, and R. Cipolla. SegNet:一种用于场景分割的深度卷积编码器-解码器架构. TPAMI, 2017.1, 2, 3, 5, 6, 70[2] G. J. Brostow, J. Fauqueur, and R. Cipolla.视频中的语义对象类别：一个高清真实数据库. PatternRecognition Letters, 30(2):88–97, 2009. 5, 60[3] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A.L. Yuille. 使用深度卷积网络和完全连接的CRF进行语义图像分割.在ICLR 2015中. 3, 5, 6, 7, 80[4] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A.L. Yuille. Deeplab:基于深度卷积网络、空洞卷积和全连接CRFs的语义图像分割.arXiv:1606.00915 , 2016. 6 , 70[5] L.-C. Chen, Y. Yang, J. Wang, W. Xu, and A. L. Yuille.注意力尺度：尺度感知的语义图像分割. In CVPR , 2016. 6 , 70[6] D. Eigen and R. Fergus.使用共同的多尺度卷积架构预测深度、表面法线和语义标签. InICCV , 2015. 50[7] C. W. Eurich and H. Schwegler.粗编码：大感受野神经元群体所达到的分辨率计算. 生物控制 ,76(5):357–363, 1997. 20[8] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, andA. Zisserman. PASCAL视觉对象类别（VOC）挑战. IJCV ,88(2):303–338, 2010. 5 , 70[9] G. Ghiasi and C. C. Fowlkes.用于语义分割的拉普拉斯金字塔重建和细化. In ECCV , 2016. 70[10] K. Grill-Spector and N. Kanwisher.一旦你知道它在那里，你就知道它是什么：视觉识别. 心理科学 ,16(2):152–160, 2005. 10[11] B. Hariharan, P. Arbelaez, L. Bourdev, S. Maji, and J.Malik. 逆向检测器的语义轮廓. In ICCV , 2011. 60[12] B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik.超列用于对象分割和细粒度定位. In CVPR , 2015. 2 , 80[13] G. E. Hinton, J. L. McClelland, and D. E. Rumelhart.分布式表示. In 并行分布式处理：认知微结构的探索 . 1986. 20[14] M. A. Islam, S. Naha,

下载后可阅读完整内容，剩余1页未读，立即下载