全局卷积网络：解决语义分割分类与本地化问题的改进网络架构

22 浏览量更新于2023-10-15 收藏 1.02MB PDF 举报

清华大学软件学院

论文摘要

身份认证购VIP最低享 7 折!

30元优惠券

1大型核心问题--用全局卷积网络彭超翔宇张刚于贵明罗建孙清华大学软件学院，{pengc14@mails.tsinghua.edu.cn，gluo@tsinghua.edu.cn}迈谷信息技术有限公司(Face++），{张翔宇，于刚，孙健}@ megvii.com摘要网络架构设计的最新趋势之一[31，32，14]是堆叠小过滤器（例如，1 × 1或3 × 3），因为在给定相同的计算复杂度的情况下，堆叠的小滤波器比大核更有效。然而，在语义分割领域，我们需要执行密集的每像素预测，我们发现，当我们必须同时执行分类和定位任务时，大的内核（和有效的感受野）起着重要的作用。根据我们的设计原则，我们提出了一个全球卷积网络来解决语义分割的分类和本地化问题。我们还提出了一个基于残差的边界细化，以进一步细化对象的边界。我们的方法在两个公共基准上实现了最先进的性能，并显著优于之前的结果，PASCAL VOC 2012数据集上的82.2%（vs 80.2%）和Cityscapes数据集上的76.9%（vs 71.8%）。1. 介绍语义分割可以被认为是逐像素分类问题。在这项任务中有两个挑战：1）分类：与特定语义概念相关联的对象应被正确标记; 2）定位：像素的分类标签必须与输出分数图中的适当坐标对准。一个设计良好的分割模型应该同时处理这两个问题。然而，这两项任务自然是相互矛盾的。对于分类任务，要求模型对各种变换（如平移和旋转）具有不变性。但是对于本地化任务，模型应该是转换敏感的，即，精确定位每个语义类别的每个像素。传统的语义分割算法主要针对定位问题，如图1B所示但这可能会减少图1.A：分类网络; B：常规分割网络，主要用于本地化; C：我们的全球会议网络。分级性能在本文中，我们提出了一种改进的网络架构，称为全球卷积网络（GCN），同时处理上述两个挑战。我们遵循两个设计原则：1）从局部化的角度来看，模型结构应该是完全卷积的以保持局部化性能，并且不应该使用完全连接或全局池化层，因为这些层将丢弃局部化信息; 2）从分类的角度来看，网络结构应该采用大的核尺寸，以实现特征映射和每像素分类器之间的密集连接，这增强了处理不同变换的能力。这两个原则导致了我们的GCN，如图2A所示。[25]第二十五话作为我们的基本框架，我们的GCN是用来生成语义得分地图。为了使全局卷积实用化，我们采用对称的、可分离的大滤波器来减少模型参数和计算量。为了进一步提高目标边界附近的定位能力，我们引入了边界细化块，将边界对齐建模为残差结构，如图2C所示。与CRF类后处理不同，我们的边界43534354细化块被集成到网络中并进行端到端训练。本文的主要工作包括：1）提出了全局卷积网络的语义分割算法，该算法同时解决了“分类”和“局部化”问题：2）引入了边界细化模块，进一步提高了在对象边界附近的局部化性能; 3）我们在两个标准基准测试中取得了最先进的结果， PASCAL VOC 2012 的 82.2% 和 PASCALVOC 2012的76.9%。城市景观。2. 相关工作在本节中，我们快速回顾了有关语义分割的文献。最流行的基于CNN的工作之一是全卷积网络（FCN）[25]。通过将全连接层转换为卷积层并连接中间得分图，FCN在语义分割方面优于许多传统方法。根据FCN的结构，有几个工作试图改进语义分割任务基于以下三个方面。语义切分中的语境嵌入是一个研究热点。首先，Zoom-out [26]提出了一个手工制作的分层上下文特征，而ParseNet [23]添加了一个全局池分支来提取上下文信息。此外，Dilated-Net [37]在分数图之后添加了几个层以嵌入多尺度上下文，Deeplab-V2 [7]使用Atrous SpatialPyramid Pooling，这是卷积的组合，直接从特征图嵌入上下文。分辨率扩大是语义分割的另一个研究方向。最初，FCN [25]提出了去卷积（即，卷积的逆）操作来增加小分数图的分辨率。此外，Deconv-Net [27]和SegNet [3]引入了unpooling操作（即，池化的逆）和一个类似玻璃的网络来学习上采样过程。最近，LRR [12]认为对特征图进行上采样比分数图更好。代替学习上采样过程，Deeplab [24]和Dilated-Net[37]提出了一种特殊的扩张卷积来直接增加小特征图的空间大小，从而产生更大的分数图。“边界对齐”尝试优化对象边界附近的预测。在众多的方法中，条件随机场（CRF）是经常使用的，因为它良好的数学构造 Deeplab [6] 直接采用了denseCRF[18]，这是一种建立在全连接图上的CRF变体，作为CNN之后的后处理方法。然后CRFAsRNN[38]将denseCRF建模为RNN风格的运算符，并提出了一个端到端的管道，但它涉及Permutohe-RNN Lattice[1]上的太多CPU计算。[24]第24话不同的人，我们在denseCRF上进行了一次测试，并将整个流水线完全放在GPU上。此外，Adelaide [21]深度结合了CRF和CNN，其中手工制作的势被卷积和非线性取代除此之外，还有一些CRF的替代品。[4]提出了一个类似于CRF的模型，称为双边求解器，但实现了10倍的速度和可比的性能。[16]介绍了双边滤波器来学习CNN中的特定成对电位。与以前的工作相反，我们认为语义分割是一个大的特征图上的分类任务，我们的全局卷积网络可以同时满足分类和定位的要求3. 方法在本节中，我们首先提出了一种新的全局卷积网络（GCN）来解决矛盾的方面- 语义分割中的分类和定位然后，使用GCN，我们设计了一个全卷积的框架工作的语义分割任务。3.1. 全球卷积网络语义分割或逐像素分类的任务需要输出为来自输入图像的每个像素分配语义标签的得分图正如引言部分所提到的，这项任务意味着两个挑战：分类和本地化。然而，我们发现分类和局部化问题的要求自然是矛盾的：（1）对于分类任务，要求模型对输入的变换是不变的--对象可以被移动、旋转或重新缩放，但分类结果预计是不变的。(2)而对于局部化任务，模型应该是变换敏感的，因为局部化结果依赖于输入的位置。在深度学习中，分类和本地化之间的差异导致了不同风格的模型。对于分类，大多数现代框架，如AlexNet [20]，VGG Net [31]，GoogleNet [32，33]或ResNet [14]，采用了图1A所示的连接层[20，31]或全局池化层[32，33，14]，这使得特征对于局部干扰是鲁棒的，并且允许分类器处理不同类型的输入变换。相比之下，对于定位，我们需要相对较大的特征图来编码更多的空间信息。这就是为什么大多数语义分割框架，例如FCN [25，30]，U-Net [28]，DeepLab [6，7]，Deconv-Net [27]，采用诸如反卷积[25]，解集[27，3]和扩张卷积[6，37]等技术用于生成高分辨率特征图，然后将分类器与4355K图2. 整个管道的概述（A）。全局卷积网络（GCN）和边界细化（BR）块的细节分别在（B）和（C）中示出。局部连接到特征图上的每个空间位置以生成逐像素的语义标签。我们注意到，当前最先进的语义分割模型[25，6，27]主要遵循本地化的设计原则，然而，这对于分类来说可能是次优的。由于分类器是局部连接到特征图而不是全局连接到特征图，因此分类器很难处理输入上的不同变换例如，考虑图3中的情况：分类器与输入对象的中心对齐，因此期望为对象提供语义标签。首先，有效接收场（VRF）1足够大以容纳整个对象。然而，如果输入对象被调整到大尺度，则VRF只能覆盖对象的一部分，这可能对分类有害。如果使用更大的特征图，情况会更糟，因为分类和定位之间的差距变得更大。基于以上观察，我们试图设计一种新的体系结构来克服这些缺点。首先，从局部化的角度来看，结构必须是完全卷积的，没有许多分类网络使用的任何全连接层或全局池化层，因为后者将1来自现代网络的特征图，如GoolgeNet或ResNet，由于其深层架构，通常具有非常大的感受野。然而，研究[39]表明，网络倾向于主要从感受野中的一个小得多的区域收集信息，本文称之为有效感受野（VRF）。丢弃定位信息。其次，从分类的角度来看，受分类模型的密集连接结构的激励，卷积结构的核大小应该尽可能大特别地，如果核大小增加到特征映射的空间大小（称为全局卷积），则网络将与纯分类模型共享相同的收益。基于这两个原则，我们提出了一种新的全局卷积网络（GCN），如图2B所示.我们的GCN模块没有直接使用更大的内核或全局卷积，而是采用了1×k+k×1和k×1+ 1×k卷积的组合，这使得在特征图中的大k×k区域与[33]使用的可分离内核不同，我们在卷积层之后不使用任何非线性。与平凡的k×k卷积相比，GCN结构的计算量和参数数都只有O（2），这对于大核更实用.3.2. 总体框架我们的整体细分模型如图2所示。我们使用预训练的ResNet [14]作为特征网络，FCN4 [25，36]作为分割框架。从特征网络的不同阶段提取多尺度特征图。全局卷积网络结构用于为每个4356图3. [39]引入的有效感受野（VRF）可视化。图像上的区域显示位于鸟中心对于传统的分割模型，即使感受野与输入图像一样大，但是，VRF也只能覆盖鸟（A），并且如果输入尺寸调整到更大的尺度（B），则无法保持整个对象作为比较，我们的全局卷积网络显着扩大了VRF（C）。课与[25，36]类似，较低分辨率的分数图将使用反卷积层进行上采样，然后与较高的分数图相加以生成新的分数图。最终语义得分图将在最后一次上采样之后生成，其用于输出预测结果。此外，我们提出了一个边界细化（BR）块，如图2C所示.在这里，我们模拟了作为残余结构的对齐更具体地说，我们将S*定义为细化的分数图：S*=S+R（S），其中S是粗略的分数图，R（·）是残差分支。细节可以参考图2。4. 实验我们在标准基准 PASCAL VOC 2012 [11 ， 10] 和Cityscapes [8]上评估我们的方法。PAS-CAL VOC 2012有1464张用于训练的图像，1449张用于验证的图像和1456张用于测试的图像，它们属于20个对象类和一个背景类。我们还使用语义边界数据集[13]作为辅助数据集，得到了10，582张用于训练的图像。我们选择最先进的网络ResNet 152 [14]（在ImageNet上预训练[29]）作为我们的基础模型进行微调。在训练期间，我们使用标准SGD [20]，批量大小为1，动量为0.99，权重衰减为0.0005。在训练中还应用了均值相减和水平翻转等数据增强性能通过标准平均交并比（IoU）来衡量。所有实验均使用Caffe [17]工具运行。在接下来的小节中，首先我们将进行一系列消融实验，以评估我们的方法的有效性然后我们将报告PASCAL VOC 2012和Cityscapes的完整结果。4.1. 消融实验在本小节中，我们将进行苹果与苹果之间的比较，以评估我们在第3节中提出的方法。作为如上所述，我们使用PASCAL VOC 2012验证集进行评估。对于所有后续实验，我们将每个输入图像填充为512×512，以便最顶部的特征图为16 ×16。图4. （A）全球卷积网络。(B)1×1卷积基线。(C)k×k卷积(D)3×3卷积的堆栈。4.1.1全局卷积网络-大核问题在第3.1节中，我们提出了全局卷积网络（GCN），以实现分类器和特征之间的密集连接。GCN的关键思想是使用大内核，其大小由参数 k 控制（参见图2B）。为了验证这种直觉，我们列举了不同的k和测试的性能分别。整个网络架构如图2A所示，除了不应用边界细化块。为了获得更好的一致性，添加了一个简单的基线，以便用简单的1×1卷积替换GCN（如图4B所结果示于表1中。我们尝试不同的内核大小，从3到15。请注意，仅使用奇数大小仅是为了避免对准误差。在在 k=15 的情况下，它大致等于特征图的大小（16×16），结构变成“真正的全局卷积”4357表1. 不同k设置的全局卷积网络的实验结果。通过PASCALVOC 2012验证集上的标准平均IoU（%）评价评分。的”。从结果中，我们可以发现，性能一致地随着内核大小k而增加。特别地，“全局卷积”版本（k = 15）超过最小版本显著的裕度5。百分之五结果表明，大内核在我们的GCN结构中带来了很大的好处，这与我们在3.1节中的分析一致。进一步讨论：在表1中的实验中，由于基线和不同版本的GCN之间存在其他差异，因此似乎没有得到证实。将改进归功于大内核或GCN。例如，有人可能会认为，较大的k带来的额外参数导致性能增益。或者有人可能会想到使用另一种简单的结构来代替GCN来实现大的等效内核大小。因此，我们将提供更多的证据，以更好地理解。(1) 更多参数有用吗？在GCN中，参数的数量随着核大小k而线性增加，因此一个自然的假设是表1中的改进主要是由参数数量的增加带来的。为了解决这个问题，我们将GCN与图4所示的具有平凡k×k卷积的平凡大内核设计进行了比较C. 结果示于表2中。从结果中我们可以看出，对于任何给定的核大小，平凡卷积设计包含比GCN更多的参数。然而，后者在性能上始终优于前者。同样清楚的是，对于平凡卷积版本，K3579评分（GCN）70.171.172.873.4评分（Conv）69.870.469.668.8参数数量（GCN）260K434K608K782K参数数（Conv）387千1075K小行星2107K小行星3484K表2. 全局卷积网络与普通实现的比较实验。在标准平均IoU（%）下测量评分，第3行和第4行显示res-5后GCN和平凡卷积的参数数量如果k≤5，则较大的内核将导致更好的性能，但GCN，另一种形成大内核的简单方法是使用小内核卷积的堆栈（例如，图4D中的3×3内核堆栈），这在现代CNN架构（如VGG-net）中非常常见[31]。例如，我们可以使用两个3×3卷积来近似一个5×5内核。在表3中，我们比较了GCN与卷积堆栈在不同等效内核大小下的情况。与[31]不同的是，为了与GCN结构保持一致，我们没有在卷积堆栈结果表明，GCN仍然优于平凡的卷积堆栈的任何大的内核大小。K357911评分（GCN）70.171.172.873.473.7评分（叠加）69.871.871.369.567.5表3. 全局卷积网络与小核卷积等价栈的比较实验。该分数是在标准平均IoU（%）下测量的。GCN在大内核（k >7）的情况下仍然更好。对于较大的内核大小（例如，k=7）3×3卷积堆栈会带来比GCN多得多的参数，这可能会对结果产生副作用。因此，我们尝试减少卷积堆栈的中间特征图的数量，并进行进一步的比较。结果见表4。很明显，它的性能受到退化较少的参数。总之，与普通卷积堆栈相比，GCN是一种更好的结构。m（堆叠）204810242102048（GCN）评分71.370.468.872.8参数数量小行星75885K28505K小行星4307K608K表4.小核卷积叠加通道的实验结果分数是在标准平均IoU下测量的。GCN优于具有较少参数的卷积堆栈设计。(3)GCN如何对细分结果做出贡献？在第3.1节中，我们声称GCN通过向特征图引入密集连接来提高分割模型的分类能力，这有助于处理大的变换变化。基于此，我们可以推断，位于大对象中心的像素可能从GCN中受益更多，因为它非常接近于对于ob-的边界像素，对于k≥7，性能下降。一个假设是，太多的参数使训练遭受过拟合，这削弱了较大内核的好处。然而，在这方面，在训练过程中，我们发现微不足道的大核实际上使网络难以收敛，而我们的GCN结构将不会遭受这个缺点。因此，其具体原因还有待进一步研究。(2) GCN vs. Stack of small convolutions. 而不是然而，性能主要受本地化能力的影响。为了验证我们的推断，我们将分割分数图分为两部分：a）边界区域，其像素点靠近目标边界（距离≤7）; b）内部区域，作为其它像素点。我们评估我们的分割模型（GCN与k=15）在这两个地区。结果示于表5中。我们发现我们的GCN模型主要K基地3579111315评分69.070.171.172.873.473.774.074.54358提高了内部区域的精度，而在边界区域的影响很小，这有力地支持了我们的论点。此外，在表5中，我们还评估了第3.2节中提到的边界细化（BF）块。与GCN结构相比，BF主要提高了边界区域的精度，这也证实了其有效性。表5. 剩余边界对齐的实验结果。边界和内部列通过每像素精度测量，而第三列通过标准平均IoU测量4.1.2用于预训练模型的全局卷积网络在上面的小节中，我们的分割模型是从ResNet-152网络中微调的。由于大内核在分割任务中起着关键作用，因此将GCN的思想也应用于预训练模型是很自然的因此，我们提出了一个新的ResNet-GCN结构，如图5所示。我们删除了ResNet使用的原始瓶颈结构中的前两层，并将其替换为GCN模块。为了与原始保持一致，我们还在每个卷积层之后应用Batch Normalization[15图5. A：原始ResNet中的瓶颈模块B：我们的ResNet-GCN中的全局卷积网络我们将我们的ResNet-GCN结构与原始ResNet模型进行了比较。为了公平比较，ResNet-GCN的大小经过仔细选择，使得两个网络具有相似的计算成本和参数数量。更多详情见附录。我们首先在ImageNet 2015 [29]上预训练结果示于表6中。请注意，我们采用ResNet50模型（带或不带GCN）因为大型ResNet152的训练成本非常高。从结果中我们可以看到，我们基于GCN的ResNet作为ImageNet分类模型比原始ResNet稍差。然而，在对分割数据集进行微调后，ResNet-GCN模型的性能明显优于原始ResNet5.5%。随着GCN和边界细化的应用，基于GCN的预训练模型的增益变得较小，但仍然占主导地位。我们可以安全地得出结论，GCN主要有助于提高分割性能，无论是在预训练模型还是特定于分割的结构中。预训练模型ResNet50公司简介ImageNet cls err（%）7.77.9隔离区评分（基线）65.771.2隔离区评分（GCN +BR）72.372.5表6. 在ResNet 50和ResNet 50-GCN上的实验结果。ImageNet分类错误中使用了256×256图像上224×224中心裁剪的前5个错误分割分数在标准平均IoU下测量。4.2. Pascal VOC 2012在本节中，我们将讨论我们在PASCAL VOC 2012数据集上的实践在[6，38，24，7]之后，我们使用Microsoft COCO数据集[22]来预训练我们的模型。COCO有80个类，这里我们只保留了PASCAL VOC2012中相同的20个类的图像训练阶段分为三个阶段：（1）在第一阶段，我们混合了COCO，SBD和标准PASCAL VOC 2012中的所有图像(2)在第2阶段，我们使用SBD和标准PASCAL VOC 2012图像，与第4.1节相同。(3)对于Stage-3，我们只使用标准PASCAL VOC2012数据集。输入图像在第1阶段填充为640×640，在第2阶段和第3阶段填充为512×512对验证集的评价见表7。相基线GCNGCN + BR1期（%）69.674.175.02期（%）72.477.678.63期（%）74.078.780.3阶段3-MS（%）80.43期-MS-CRF（%）81.0表7. PASCAL VOC 2012验证集上的实验结果。结果通过标准平均IoU进行评价。我们的GCN + BR模型显然占上风，同时后处理多尺度和密集CRF [18]也带来了好处。图6中给出了一些视觉比较。我们还将我们的最佳模型提交给在线评估服务器，在PASCAL VOC 2012测试集上获得82.2%模型边界（acc.）内部（根据）的方式总体（IoU）基线71.393.969.0GCN71.595.074.5GCN + BR73.495.174.74359图6. PASCAL VOC 2012上的语义分割结果示例。对于每一行，我们列出输入图像（A），1×1卷积基线（B），全局卷积网络（GCN）（C），全局卷积网络加边界细化（GCN + BR）（D）和地面实况（E）。如表8所示。我们的工作已经超过了所有以前的国家的艺术。方法平均IoU（%）FCN-8 s重型[30]67.2[26]第二十六话69.6[9]第九话71.0DeepLab-MSc-CRF-LargeFOV [6]71.6[38]第38话最后一次见面74.7[24]第二十四话77.5牛津TVG HO CRF [2]77.9[34]第三十四话78.3[35]第35话最后一句话79.1LRR 4x ResNet COCO79.3Deeplabv2-CRF [7]79.7中央供应商深G-CRF[5]80.2我们的方法82.2表8.PASCAL VOC 2012测试集上的实验结果4.3. 城市景观Cityscapes [8]是为城市街道场景的语义分割而收集的数据集。它包含了来自50个不同条件的城市的24998幅图像，属于30类，没有背景类。由于某些原因，30个班级中只有19个在排行榜上被评估根据图像的标记质量将其分为两组其中5，000个是精细注释的，而其他19，998个是粗略注释的。5，000个精细注释的图像被进一步分组为2975个训练图像、500个验证图像和1525个测试图像。Cityscapes中的图像具有1024×2048的固定大小，这对于我们的网络架构来说太大了因此，我们在训练阶段随机将图像裁剪为800×800。我们还将GCN的k从15增加到25，因为最终的特征图是25×25。培训阶段分为两个阶段：（1）在第1阶段，我们将粗略注释的图像和训练集混合，得到22，973个4360相GCN + BR1期（%）73.02期（%）76.9阶段2-MS（%）77.22期-MS-CRF（%）77.4图像. (2)对于第二阶段，我们只在训练集上微调网络。在评估阶段，我们将图像分成4个1024×1024的作物，并融合它们的评分图。结果在表9中给出。表9. Cityscapes验证集上的实验结果。这里使用的是标准的平均IoU我们将我们的最佳模型提交给在线评估服务器，在Cityscapes测试集上获得76.9%，如表10所示。再一次，我们超越了所有以前的出版物，并达到了新的艺术水平。5. 结论通过对分类和分割的分析，我们发现大核函数是缓解分类和局部化矛盾的关键。根据大规模核的原理，我们提出了全局卷积网络。烧蚀实验表明，我们提出的结构满足有效的感受野和参数的数量为了进一步细化对象边界，我们提出了一个新的边界细化块。同时，我们的全局卷积网络主要改善内部区域，而边界细化提高了边界附近的性能.我们最好的模型在两个公共基准上达到了最先进的水平：PASCAL VOC 2012（82.2%）和Cityscapes（76.9%）。引用[1] A. Adams，J. Baek，and M. A.戴维斯使用置换面体晶格的快速在Computer Graphics Forum，第29卷，第753-762页中。Wiley Online Library，2010。2[2] A. Arnab，S. Jayasumana，S. Zheng，和P. H.乇深度神经网络中的高阶条件随机场。欧洲计算机视觉会议，第524施普林格，2016年。7[3] V.巴德里纳拉亚南，A. Handa和R. 西波拉Seg- net：一个深度卷积编码器-解码器架构，用于强大的语义像素标记。arXiv预印本arXiv：1505.07293，2015年。2[4] J. T. Barron和B.浦耳快速双边求解器。ECCV，2016。2[5] S.钱德拉和我Kokkinos基于深度高斯crfs的快速、精确、多尺度语义图像分割 arXiv 预印本 arXiv ：1603.08358，2016年。7表10.Cityscapes测试集上的实验结果[6] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。2015年，国际会议。一二三六七[7] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。arXiv预印本arXiv：1606.00915，2016。二、六、七、八[8] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。arXiv预印本arXiv：1604.01685，2016年。四、七[9] J. Dai，K. He和J. Sun. Boxsup：利用边界框来监督卷积网络进行语义分割。在 Proceedings of the IEEEInternational Conference on Computer Vision ，第 1635-1643页，2015年。7[10] M. Everingham，S. A.埃斯拉米湖凡古尔角，澳-地K. 威廉姆斯J. Winn和A.齐瑟曼。pascal visual object classes挑战：回顾展。 International Journal of Computer Vision ， 111（1）：98-136，2015。4[11] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J. Winn和A. 齐瑟曼。 pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：3034[12] G. Ghiasi和C.C. 福克斯用于语义分割的拉普拉斯金字塔表示和细化欧洲计算机视觉会议，第519-534页施普林格，2016年。二七八[13] B. 哈里哈兰山口阿尔韦湖 Bourd ev，S. Maji和J. 马力。从反向检测器的语义轮廓。2011年国际计算机视觉会议，第991IEEE，2011年。4[14] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年6月。一、二、三、四[15] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。第32届国际机器学习会议论文集，第448-456页，2015年。6[16] 诉Jampani，M.Kiefel和P.诉盖勒学习稀疏高维滤波器：图像滤波，密集crfs和双边方法平均IoU（%）[30]第三十话65.3DPN [24]59.1CRFasRNN [38]62.5尺度不变CNN + CRF [19]66.3扩张10 [37]67.1DeepLabv2-CRF [7]70.4阿德莱德背景[21]71.6LRR-4x [12]71.8我们的方法76.94361神经网络。在IEEE计算机视觉和模式识别（CVPR）会议上，2016年6月。2[17] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构 arXiv 预印本 arXiv ：1408.5093，2014。4[18] V. Koltun.具有高斯边缘势的全连接crfs中的有效推理。高级神经感染过程Syst，2011. 二、六[19] I. Kre sanzio ，D. Cau se vi c'，J. Krapac和S. 请给我。语义分割的卷积尺度不变性。德国模式识别会议，第64施普林格，2016年。8[20] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页，2012年。二、四[21] G.林角，澳-地Shen，中国古猿A.范登亨格尔和我里德用于语义分割的深度结构化模型的高效分段训练。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。二、八[22] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco：上下文中的通用对象。在欧洲计算机视觉会议上，第740-755页。Springer，2014. 6[23] W. Liu ，中国粘蝇 A. Rabinovich 和 A. C. 伯格。Parsenet：看得更宽，看得更好。arXiv预印本arXiv：1506.04579，2015。2[24] Z. Liu，X.李，罗，C.- C. Loy和X.唐基于深度解析网络的语义在IEEE计算机视觉国际会议论文集，第1377-1385页，2015年。二、六、七、八[25] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在 IEEE计算机视觉和模式识别会议论文集（Proceedings of the IEEEConference on Computer Visionand PatternRecognition），第3431-3440页，2015年。一、二、三、四[26] M. Mostajabi山口Yadollahpour和G.沙赫纳洛维奇具有缩小功能的前馈语义分割。在IEEE计算机视觉和模式识别会议论文集，第3376-3385页，2015年。二、七[27] H. Noh，S. Hong和B.韩用于语义分割的学习反卷积网络在IEEE计算机视觉国际会议论文集，第1520- 1528页二、三[28] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234-241页。施普林格，2015年。2[29]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。国际计算机视觉杂志（IJCV），115（3）：211-252，2015年。四、六[30] E. Shelhamer，J. Long和T.达雷尔。用于语义分段的全卷积网络。2016. 二七八[31] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。一、二、五[32] C. 塞格迪 W. 刘先生， Y. 贾， P. Sermanet S. 里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。更深的回旋。在IEEE计算机视觉和模式识别会议论文集，第1-9页一、二[33] C. 塞格迪河谷Vanhoucke，S.Ioffe，J.Shlens和Z.沃伊纳重新思考计算机视觉的初始架构。arXiv预印本arXiv：1512.00567，2015。二、三[34] Y.王杰，刘杰，Y. Li，J. Yan，and H. 陆对象感知语义分割。2016年ACM多媒体会议，第307-311页。ACM，2016。7[35] Z.吴角，加-地Shen和A. v. d.亨格尔使用非常深的全卷积网络进行高性能语义分割。arXiv预印本arXiv：1604.04339，2016年。7[36] S. Xie和Z.涂。整体嵌套边缘检测。在IEEE计算机视觉国际会议的Proceedings，第1395-1403页三、四[37] F. Yu和V.Koltun.通过扩张卷积的多尺度上下文聚合。arXiv预印本arXiv：1511.07122，2015。二、八[38] S. Zheng，S. Jayasumana湾Romera-Paredes，V.维尼特，Z. Su，D.杜角，澳-地Huang，和P.H. 乇作为递归神经网络的条件在IEEE计算机视觉国际会议论文集，第1529-1537页，2015年。二、六、七、八[39] B. Zhou，中国古柏A.科斯拉A.拉佩德里萨A.Oliva和A.托拉尔巴目标检测器出现在深场景cnn中。arXiv预印本arXiv：1412.6856，2014。三、四

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

全局卷积网络：解决语义分割分类与本地化问题的改进网络架构

全卷积网络（FCN）实战：使用FCN实现语义分割.zip

ESPNet：一种高效的卷积神经网络用于语义分割

弱监督级联卷积网络：用于改进弱监督对象检测、分类和定位的深度神经网络方法

增量稀疏卷积：在线3D分割的准确语义和实例分割方法

高效点云卷积网络：ShellNet和ShellConv的应用和效果分析

matlab 卷积神经网络 语义分割

换句话说：在语义分割任务进行卷积操作时，一般会通过边框补0的方式来维持输入特征和输出特征的大小相同。

语义分割模型属于卷积神经网络吗

深度卷积神经网络 语义分割

语义分割基础算法逻辑与架构

提高语义分割卷积神经网络分割性能的办法有哪些

图像分割和语义分割的区别

语义分割轻量化神经网络

有哪些针对这一问题改进的卷积种类?

全卷积语义分割算法原理

卷积神经网络图像分割

基于卷积神经网络的字符分割

卷积神经网络的图像分割

图像分割和语义分割区别

最新资源

matlab 卷积神经网络语义分割

深度卷积神经网络语义分割