多项式池：一种改进的语义分割方法

23 浏览量更新于2023-10-19 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1利用多项式池构建细节敏感语义分割甄伟2、3、张静怡1、3、刘丽3、范铸3、沈福民1、周毅3、刘思4、孙耀2、邵凌31. 电子科技大学计算机科学与工程学院未来媒体研究中心，成都，中国2. 中国科学院信息工程研究所，中国3. Inception Institute of Artificial Intelligence，阿布扎比，阿联酋4. 北京市数字媒体重点实验室，北京航空航天大学计算机学院{weizhen，sunyao}@iie.ac.cn，{jingyi.zhang1995，liuli1213，fanzhu1987，fumin.shen}@gmail.com，yi. inceptioniai.org，liusi@buaa.edu.cn，ling. ieee.org摘要语义分割是一项重要的计算机视觉任务，其目的是为图像中的每个像素分配一个语义标签。在训练分割模型时，通常会对在大规模数据集上预先训练的分类网络进行微调。然而，作为分类模型的固有属性，对细节敏感性的损失导致的空间扰动的不变性阻止分割网络实现高性能。标准池的使用是这种不变性的关键因素之一最常见的标准池是最大池和平均池。最大池化可以增加对空间扰动的不变性和网络的非线性。另一方面，平均池化对空间扰动敏感，但它是一个线性函数。对于语义分割，我们更喜欢保留局部特征区域内的详细线索和增加的非线性网络在这项工作中，我们提出了一个多项式池（P-池）功能，找到一个中间的形式之间的最大和平均池提供一个最佳的平衡和自我调整池策略的语义分割。P池是可微的，可以应用到各种预先训练的网络中。延长在PASCAL VOC、Cityscapes和ADE 20 k数据集上的研究证明了P-池的优越性。在各种网络架构和最先进的训练策略上的实验也表明，具有P-池层的模型始终优于那些直接作者贡献相等†通讯作者使用预先训练的分类模型进行微调1. 介绍语义分割是一项非常重要且极具挑战性的计算机视觉任务，它具有广泛的实际工业用例，例如医学成像和自动驾驶。受益于深度学习的进步，深度分割网络已经大大提高了这项任务的性能。语义分割的本质是对输入图像进行逐像素为此，深度分割网络需要对细节敏感。此外，对于分割网络既是一个强大的特征提取器和分类器，它必须是高度非线性和复杂的。与图像级标签相比，像素级注释需要更多的人力，因此，像素级注释数据的数量是有限的。因此，为了获得更好的性能，通常会微调已经在大规模数据集上进行过预训练的分类网络。然而，分类和分割网络被设计为具有矛盾的目的，其中前者要求预训练的模型对输入图像上的小空间扰动（例如，小的平移、缩放或旋转），并且后者要求网络知道局部区域内的详细变化。以前的方法主要是用新的网络组件解决这个矛盾[3，37，22，1，27]，修改卷积[33，30，4，9]，不同的网络架构[23，24，21，11，25，36]或学习最佳感受野[32，35，9，6，34]。然而，通过以下方式改进预训练的分类模型，71157116塞济岛我X有效地修改分段网络的池化层在以前的工作中被很大程度上忽略了。在现有的池化层中，最大池化和平均池化是卷积神经网络（CNN）中最常用的两种机制最大池对分类网络的空间扰动不变性和非线性有显著贡献，而平均池是线性的并且对空间扰动敏感对于语义分割，我们倾向于池化机制，即：（a）对微小的空间扰动敏感，以及（b）高度非线性，以便扩展网络的容量。为此，我们提出了一种多项式池化（P-池化）机制，该机制具有（i）非线性和细节敏感性之间的最佳平衡，（ii）允许端到端训练的可微形式，（iii）足够的灵活性和针对各种数据动态调整的潜力，以及(iv) 与任何预先训练的分类模型兼容。我们强调我们的三个主要贡献如下：• 据我们所知，本文是第一个工作，提出了一个新的池功能的语义分割。所提出的P-池化增强了分割网络的细节敏感性，同时保持其高非线性• P池是一个可学习的函数，具有动态可调机制，可以在细节敏感性和非线性之间进行权衡，灰色。P池也是可区分的，以允许端到端的训练。• P-池化方法持续改进了标准的微调分割模型，具有不同的网络结构、数据集和不同的训练策略。2. 相关作品改进CNN模型中的池化已经研究了很长时间在解析的文献中，[16，12]提出对具有各种大小的输入特征使用[9]提出了一种变形采样方案，以数据驱动的方式选择输入特征。虽然[32，35]最初是为了自适应地正则化卷积层中的感受野而提出的，但它们也可以直接转移以确定池化内核大小。其他专注于池化核函数的工作主要在图像分类任务的背景下进行研究。其中， [13] 使用 Lp 范数（或Minkowski范数）来扩展max pooling。作者人工选择介于最大和平均池化之间的中间池化函数，以更好地拟合输入数据的分布[20]广义池化方法，通过使用学习的线性P-合并单元深度方向卷积层预测致密α输入特征图X输出特征图Y合并区域Rj池化操作图1.P-池单元的结构侧分支网络将待池化的特征作为输入，并生成用于P池化的α值。最终被提议用于图形任务。DPP学习不同池化区域上的像素的加权求和，其中对突出像素给予更高的重要性，以便在池化结果上实现更高的视觉满意度。提供了一种池化方法的替代方法，[29]在一个小的分类模型中用跨步卷积和激活函数取代了所有的最大池化层，该模型从头开始训练并获得了更好的性能。最近的分类网络，如[17]，也使用了步幅卷积层进行特征下采样。然而，相关的工作要么局限于提高池化层的使用，而不是核函数，或者主要集中在从头开始训练的分类模型，而不是在分割网络的关于上述方法的更多讨论将在第3.6节中提供。3. 多项式池化（P-池化）3.1. 符号为了方便和更好地理解，将在整个文件中使用的符号对于池化层，输入特征图表示为X，输出特征图表示为Y。输出特征图Y上的第j个元素yj是第j个池化区域Rj在X. Rj ={x1，x2，. x N}包含第j个池化区域内X上的N个输入元素的集合。对于梯度，假设第（1）层的后向梯度Δ E是δ 1。给定一个特定的池化函数f，一般的池化是：Y=f（X）。3.2. P-Pooling的定义本文提出了一种新的池化函数的多项式形式（记为P-池化），最大池和平均池的组合细节保护Pooling（或DPP）[26]借鉴了细节保护的思想y=f（R）=Σxi∈Rjα+1i.（一）[31]中的图像降尺度（DPID）方法，它是原始的。jpjαxi∈Rj我X7117DPP（λ =4）平均值我我我P-池化函数有一个参数α∈[0，+∞），它控制它的多项式阶数，进而控制函数的阶数.在这项工作中，α的具体值取决于基于相应的输入数据，使其成为数据驱动的参数。关于α的学习和预测的细节将在3.5节中进一步阐述。在实践中，由于深度网络中的大多数池函数输入要素MaxP合并（α=2）附加在卷积层和ReLU层之后，通常可以假设输入特征映射中的所有元素都是非负的，这确保多项式项不会生成虚数。然而，对于不可避免的负输入值的不太常见的情况我们提出了一个近似形式的P-池。假设X的最小值为xmin，则yj=fp（Rj）=fp（Rj−xmin）+xmin。（二）输入特征最大值DPP（λ =4）P合并（α=2）Ave虽然近似函数与Eq. 1，它与原始P-池化函数具有几乎相同的性质。3.3. 边界条件P-池是标准池的超集表示.这是因为最大池和平均池是P-池函数的特殊情况，当α=0和α→+∞时形成边界条件。通过学习[0，+∞）内的α值，P-池化表现为最大池化和平均池化之间的中间函数，在不同程度上继承了两者的优点。下面的命题提供了P-池命题1：当α = 0时，P-合并等价于平均合并.命题2：P-pooling的行为与max pooling相同，α → +∞。这些命题的数学证明是预先的。在补充文件中。注意，证明表明P-池的向前和向后过程与最大和平均池的过程相同这与其它方法，包括Lp范数函数法一样，具有重要意义图2.演示不同池化方法的功能所有池化都是在内核大小为2、步幅为1的情况下执行的。较亮的颜色表示较高的响应值，较暗的颜色表示较低的响应。不同的细节，表现类似于平均池化。相比之下，在图3中，当针对2D输入数据绘制α=2时，P-池化的函数曲面具有比平均池化显著得多的重要的是，P-池化非线性度。这些演示表明，P-池是能够统一在一个单一的功能优越的细节敏感性和高非线性。在第3.6节中，我们通过与其他最近和相关的池函数以及下采样方法的比较，进一步了解P池3.5. 学习自适应多项式池化核在α为正且所有输入特征均为非负的情况下，P-池化函数是可微的，并且可以与整个网络一起参与联合端到端训练。我这样(see第3.6节），忽略反向过程的等价性。3.4. 性能的的非线性和细节ExiΣ∂E∂yj=我的天（α+1）xαxα−αxα−1xα+1灵敏度xi∈Rj=Σ我我xi∈Rjδ1+ 1，作为最大池和平均池的中间形式，P-池继承了两种标准池的优点图2和图3提供了关于JE（xi∈Rjxα）2J（三）不同条件和参数下P-池化性质的有效性=∂α∂yj ∂αln（x）xα+1xα−ln（x）xαxα+1在特征空间中保留详细结构的能力如图2所示。当α= 2时，P-池化算法在保持白角点和灰角点信息方面取得了很大的进步.这说明它的分辨能力很强Σ=xi∈Rj我我i∈Rj（我Σxi∈Rj我xα）2我xi∈Rj我l+1j（四）Jδ我.7118Lp-范数合并门控池P池化我标准合并（一）（b）（c）（d）图3.二维输入数据的池化函数曲面的演示显示了标准合并以及Lp范数[13]、门控合并[20]和具有不同参数的P -合并。DPP [26]不需要显示，因为它始终等于2D数据的平均合并。为了使P池具有最高的灵活性，以便根据特定的输入数据进行调整，每个池的α值用侧支网络动态预测了窗口。每个侧预测分支将池化之前的要素作为其输入，然后输出密集α图解决相关问题的方法。在本节中，通过与这些方法的比较，进一步阐述了P-池Lp范数池化（或Minkowski范数）用于[13，29，2]来统一标准池，并定义为：与池化特征图大小相同的区域。第j个稠密α映射中的α值对应于池化区域（2）A=（xi∈Rj x p）1/p。但是，相比P-Rj，通过下式获得：αj=Convside_branch（Rj）.（五）图1显示了P池单元的结构.该单元能够取代大多数网络骨干中的池层。在装置内部，侧支管由两个深度卷积层与pReLU [15]激活。为了避免数值问题，来自侧分支的输出值被裁剪为（0，C]，其中C是预定义的正常数。深度卷积消除了通道间的相关性，因此α值仅基于来自相应区域的输入数据。它还引入了非常有限数量的附加参数和计算成本。例如，在VGG-16模型中，侧支占总参数的不到0.08%分支是完全可微的。给定相对于α的梯度，侧分支也可以以端到端的方式进行训练。3.6. P-Pooling的比较研究在其他计算机视觉任务的文献中，即图像分类，有几种池化和下采样有两个因素使其不合适作为端到端培训中的一种池化替代方案首先，它的输出可能大于任何输入元素，导致数据分布的轻微偏移。这种现象可以在图3（b）中观察到，特别是当p=3时。除此之外，后向过程中的不完善性使得Lp范数不适合端到端训练。这不仅是因为在平均（p=1）或最大（p→+∞）池化中，当p=0或1时，梯度将爆炸，更加困难.实际上，[13]选择手动选择p顺序价值观，而不是学习改善网络。详细的向后公式在补充文件中给出。门控池[20]用于将最大和平均池与线性组合融合，其权重从输入数据中生成。与P-池化相比，门控池化是找到中间函数的简单解决方案，tween max和average pooling函数的复杂性与易用性相交换。如图3所示，函数曲面由两个以不同角度折叠的平面组成，这使得它的非线性程度远远低于P-池化。细节保存池[26]借用了7119方法VOC 2012城市景观ADE20KVGGResNetVGGResNetVGGResNetMax53.9*60.057.2*54.325.4*23.5平均52.859.653.552.124.723.7Strided-C [29，17][29，17]50.9不收敛60.3*56.125.255.9*23.9不收敛23.9*（20）53.359.556.753.325.123.7民进党[26]54.260.157.854.425.324.1P-合并（我们的）55.161.158.656.325.924.7表1.基线的定量比较w.r.t.在PASCAL VOC 2012、Cityscapes和ADE 20K数据集的验证集上执行mIoU。对于基于ResNet的模型，* 表示预训练网络的原始设置全部结果见补充文件。计算机图形中的细节保持图像缩小（DPID）[31]本质上，DPP是输入元素的加权平均值，对更异常的特征赋予更高的重要性。相比之下对于P-汇集，DPP假设在分割任务中不成立。这是因为特征空间表示特定模式的响应。当函数在填充有高响应的区域上选择低值作为池化结果时，这可能会产生误导。如图2所示，DPP的输出可以完全转换输入要素，其中白色和深色角点都在结果中消失。步幅卷积被用来取代池层的作品，如[29，17]。在[29]中，作者提出了两种不同类型的步幅卷积：conv层和与P-合并相比，(a) 步幅卷积仍然是刚性的，因为它适用于相同核在所有空间区域上，因此不响应于不同的数据分布。显然，单个卷积层很难获得与最大池化相当的非线性。(b)“All-C”带来的预训练模型中新初始化的层4. 实验为了验证所提出的P-池的有效性，进行了广泛的实验，在不同的数据集与不同的网络骨干。4.1. 比较研究P-池是比较与几个最相关的方法。实验设置如下。数据集：模型在PASCAL VOC 2012 [10]，Cityscapes [8]和ADE 20K [38]数据集上进行训练和测试。这三个常见的分割基准涵盖了对象和场景分割，这使我们能够分析P-池在不同条件下的属性。所有模型根据其平均交叉联合（mIoU，或平均Jaccard相似性）进行评估。PASCAL VOC 2012分割数据集由官方分割基准[10]和[14]提供的额外注释组成。有10，582张图像用于训练，1499张图像用于验证，包括20个前景对象类和一个背景类。Cityscapes [8]是来自50个不同欧洲城市的街景图像数据集该数据集为19个类别提供了训练集有2975张图像，验证集有500张图像。ADE20K [38]是一个场景解析数据集，为超过20K场景图像上的150个类提供密集标签类别包括各种各样的对象（例如，人、车等）和材料（例如，天空、道路等）。验证集由2000个图像组成。网络：在我们的实验中使用了预训练的VGG [28]和ResNet [17]模型。VGG模型是标准的单路径网络，是开发更复杂网络架构的基础。对于ResNet模型，我们主要关注比较预训练的步幅卷积。选择VGG和ResNet模型是因为它们是在分段任务中使用的最常见的网络骨干，[21，32，3，4，35，23]。这些模型也是非常基本的，因此可以得出结论，用于将P-池推广到其他现有作品。在实验中使用VGG-16模型[28]。为了建立分割模型，池5层中的步幅被移除以放大更高层中的特征图，从而产生16的总体步幅。网络末端的双线性插值恢复预测的分辨率。对于基线模型，不同的池化方法取代了五个原始的最大池化层。ResNet-50模型[17]也被使用。在实践中，最终的全局平均池化层被移除，并且总步幅为32。为了建立基线模型并与预先训练的步幅卷积进行具体比较，pool1层保持不变。删除conv1、res3a、res4a和res5a阶段中的所有步幅在conv1层和res2c、res3d和res4f层之后插入不同的池化方法培训设置：基本上，7120VOC城市景观ADE20K图4.基于VGG的基线模型（w/max合并）和拟议模型（w/ max合并）的分割结果的演示P-pooling）在VOC和Cityscapes数据集上更多的演示在补充文件中显示比较研究遵循大多数完全卷积网络的一般微调实践以在VOC数据集上训练的基于VGG16的网络为例，学习率为2×10−7，模型迭代10，000次6，000次和步数。对于侧枝来说，新初始化的层，它们的学习率乘以3，输入特征被放大100倍以加速它们的收敛。对于初始化，每个侧分支的最后卷积层中的偏置项被设置为大的正值（例如，20）使P池化能够从最大池化开始，从而在微调开始时保持预训练模型不变。此外，由于潜在的...对于流量问题，α值被限制为小于给定的常数，即基于VGG16的网络为35。我们的实现基于Caffe库[19]。所有的实验都是在带有NVIDIA V100图形卡的DGX-1工作站上进行的基线：一系列的基线模型进行比较，以验证P池的有效性超过其他最相关的池方法中使用的语义分割。基线模型包括标准池（最大和平均池），门控池[20]，DPP [26]和跨步卷积[29，17]。其中，我们实现了[20]中描述的推荐的民进党使用它的对于基于VGG的网络，我们实现了步幅卷积策略对于基于ResNet的网络，基线使用其vanilla网络。评价结果：在 PASCAL VOC 2012 、 Cityscapes 和ADE 20K的验证集上评估了使用基线合并方法以及P合并训练的模型。表1和图4分别显示了定量和定性结果图5比较了类别级别性能的变化。从表1中可以得出结论，P-池优于所有基线.对于基于VGG的网络，与广泛用于分割的最大池化相比，P池化实现了1.2/1.4/0.5的mIoU改进，（图5.与从原始预训练VGG直接微调相比，P-池化带来的最大积极变化（a）VOC，(b) 城市景观和（c）ADE20K数据集。VOC/Cityscapes/ADE 20 K数据集。对于基于ResNet的网络， P 池也始终表现最好，比默认设置提高了0.8/0.4/0.8。虽然基于ResNet的网络和基于VGG的网络分别用于Cityscapes和ADE 20K数据集，尽管这些基线的改进似乎不太显著，但考虑到其他基线的变化较小，它们仍然显示出显著的效果。此外，与最近提出的DPP方法相比，P-池在所有情况下都显示出稳定的优势.图4展示了所有数据集的几个分割结果。总的来说，与直接对预训练模型进行微调相比，使用P池使网络能够为细节建立更强大的特征表示。对在Cityscapes和ADE 20 K数据集中，P-池有助于保留更详细的结构，如在VOC数据集上，P-池化对抑制有更显著的影响在物体边界附近的误报，表明更好的感知细节。从图5中可以得出结论，P池化提升了所有VOC、Cityscapes和ADE 20K数据集上许多类别的性能。具体来说，P-池GT我们基线图像7121方法Deeplab×C91.291.176.878.133.433.975.275.462.161.267.066.683.283.577.976.279.979.830.531.167.767.749.650.273.272.965.366.570.470.678.478.046.049.071.771.439.841.974.975.253.757.865.165.6FCN×C90.491.378.680.032.834.774.475.955.254.765.766.076.881.173.676.176.077.023.127.058.160.130.242.066.365.059.660.762.365.976.678.242.043.567.866.136.932.170.972.554.356.960.662.3Deeplabv3×C93.293.380.981.637.238.285.785.966.165.076.577.692.091.982.682.790.991.930.931.586.587.547.748.287.287.085.085.680.283.682.382.451.551.885.586.952.546.182.486.272.073.073.874.2表2.PASCAL VOC 2012测试集w.r.t.最先进的模型w/和w/oP池化层。所有结果均在5个模型上取平均值，这些模型分别进行训练以消除训练波动。用平均IoU度量对模型进行评估方法Deeplab×C91.992.079.778.736.135.676.977.459.960.763.564.283.882.978.579.879.781.127.128.370.171.35457.075.175.671.273.279.781.878.478.552.453.977.878.147.146.071.370.158.560.067.2767.95FCN×C90.791.576.782.636.335.570.167.652.254.561.464.773.776.970.475.274.273.720.024.356.359.738.151.264.763.568.666.874.275.875.677.145.947.768.372.845.743.368.065.349.752.961.0162.99Deeplabv3×C93.593.887.788.439.239.486.581.969.769.673.773.990.690.585.784.591.592.435.334.983.483.859.563.487.188.484.185.986.083.982.182.156.758.784.383.354.853.582.684.768.671.575.3775.64表3.PASCAL VOC 2012验证集w.r.t.的定量评价结果具有和不具有P池化层的最先进的模型所有模型均使用平均IoU度量进行评估。还提供了VOC评估服务器上的结果的URL。专门为分割任务设计的恢复模块，例如大视场[3]、ASPP模块[5]和跳过层[23]。这些方法显著地减少了提取高水平硒和低水平硒之间的不一致性表4.实验中使用的最先进的模型及其特定设置对于小型对象或具有许多详细结构的其他对象具有特别显著的积极影响，例如Cityscapes数据集的“杆”或“交通标志”，ADE 20K数据集的“枝形吊灯对于大型对象或类别，例如“墙”、“人行道”、“山”等，P-池仍然提供了改进，尽管程度较小.4.2. 最先进型号然后将P池化模块应用于几个最先进的语义分割管道，以进一步验证其在这些更复杂的设置下的有效性。网络：我们重新实现了三种最先进的模型及其典型设置，表4. 在这个实验中，我们解决P-池网络骨干，更重要的是，（b）这些模型采用的其他细节恢复方法。在选定的网络骨干中，VGG 16 -20 [3]是标准VGG16模型的截断版本。池5层的步幅被移除，并且改变的数量FC层的NEL被减小到1024。权重的fc6层用膨胀的3×3卷积核代替。所有这些变化都最小化了模型，使网络更适合细分。InceptionV 2-BN [18]和Xception-38 [7]采用多尺度特征提取和融合机制，以提高特征方差的稳定性，包括增加更多的细节敏感性。不同的培训策略包含额外的细节-在较大的感受野中保持较低层次的细节结构信息。在这个实验中，我们证明了P-池可以进一步提高模型实验设置：一般来说，我们使用与原始论文相同的实验设置。P-池化重新放置所有下采样操作以及步幅为1的其他池化层。为了将比较集中在下采样模块上，在其他数据集上，删除了测试和后处理期间的数据扩充。因此，一些重新实现的模型可能具有比最初报告的模型更差的性能。所有型号均在PASCAL VOC验证/测试集和ADE 20 K验证集上进行评价评价结果：定量结果见表2、3和5。可以看出，P-池进一步改进了具有不同训练策略和细节恢复模块的所有模型。特别是，P池实现了基于Inceptionv2的在VOC验证/VOC测试/ADE 20 K验证集上，模型并将平均IoU分数提高了1.7/1.9/2.3。我们还观察到基于VGG 16 - 20 M和基于Xception-38的模型在其整体表现。从表2和表3所示的类别级别比较来看，P-池化对于分割具有详细结构的对象特别有帮助所有模型在某些类别上的性能，如“表”和“植物”，都得到了改善。总之，即使使用其他细节恢复方法，P-池仍然可以使网络以互补的方式保留更详细的结构信息。骨干培训战略设置VGG16-20M [3][18]第十八话Xception-38 [7]迪普拉布[3]简体中文[CN]Deeplab v3 [5]16秒，大视野8秒16秒，7122通道平均α值0 10 20 30 40 50输入图像conv1 res2 res3 res4（一）（b）决议3Res40100 200 300400 50002004006008001000表6.P-池法治疗原发性肝癌疗效的消融研究(c)信道ID信道ID每个网络阶段。所有模型都使用基于VGG的图6.在Cityscapes数据集上训练的基于ResNet的模型的不同阶段的α地图上的可视化(a)输入图像，（b）不同通道中的α图，（c）每个通道中的平均α值α贴图上较亮的像素表示较大的α值。对于（b）中的每个图，x轴代表通道方法P-合并像素精度MiouDeeplab×C68.4569.2228.4429.01FCN×C66.8868.0225.8128.09Deeplabv3×C73.3373.5833.9334.70表5. ADE20K测试集的定量评估结果w.r.t.具有和不具有P池化层的最先进的模型所有模型都使用像素精度和平均IoU度量进行评估4.3. α映射的分析图6显示了从测试图像预测的α图的几个示例α图来自ResNet-50模型的每个池化阶段。对于每张地图，α值随图像上的不同位置而变化，表明P-池化算法适应不同输入数据的灵活性。具体来说，虽然α虽然可以看到大物体的地图，但物体边缘附近或小结构周围的变化更明显。在比较通道间的α贴图时，某些通道对小细节（较暗区域）采用较小的α值，对大对象（较亮区域）采用较大的值，而其他通道的行为方式则相反。这意味着不同的通道具有用于提取特征的各种功能。图6（c）显示了每个通道的平均α值。α值在预定义范围内具有广泛的分布，并在所有通道中显示多样性。在较高的水平，更多的平均值保持在其初始值附近。这是因为对应的输入特征图比较低层中的特征图稀疏，因此输出在P-池化单元中的侧分支也是稀疏的。然后，侧分支的最后一层中的偏置项支配预测α地图。网络VOC4.4. ‘Details’ Are NotP池的目的是为分割模型增加更高的细节敏感度.然而，相反，P-池能够保存许多因素的更多信息在一个池化区域内，诸如值从这个角度来看，P池在网络的每个阶段都是有效的.在表6中，进行了消融研究，其中仅使用一个P-池化层来逐个替换原始池1-池5最大池化。虽然所有的单阶段P-池模型的性能都不如5-p-池模型，但它们显示出明显的不一致性，与5-max-pooling网络相比，每个阶段的P-池化产生类似的改进。5. 结论本文提出了一种新的池化函数多项式池化（P-池化提出的P-池解决了分类模型和语义段的矛盾目的，这个函数在最大池和平均池之间找到了一个折衷。通过可调节机制来提供任意程度的细节敏感性和非线性的组合，P池化可以动态地适应各种数据类型，以便在网络内部提供高灵活性。P池是可区分的，以便允许端到端训练，并且它与任何预训练的分类模型普遍兼容。在VOC、Cityscapes和ADE 20 k数据集上进行的大量实验表明，P-池化优于使用其他池化方法直接微调确认本工作得到了国家自然科学基金（ 61502081 ，U1536203，61572493，61876177），四川省科技计划（No.2019YFG0003，2018GZDZX0032）的资助。conv1res2010 20 30 4050 60050 100 150 200 250通道ID通道ID通道平均α值0 10 20 30 40 50通道平均α值0 10 20 30 40 50通道平均α值0 10 20 30 40 50方法Miou替换为P-合并，pool154.9池254.7游泳池354.5池454.8pool554.3所有最大池化53.9全P-合并55.17123引用[1] G. 贝尔塔修斯湖Torresani，S.X. Yu和J.石用于语义图像分割的卷积随机游走网络。在CVPR，2017年。[2] Y. Boureau，J. Ponce，and Y.乐存。视觉识别中特征池的理论分析。ICML，2010年。[3] L. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。基于深度卷积网和全连接crfs的语义图像分割2015年，国际会议[4] L- C. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A.L.尤尔。Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。TPAMI，2018年。[5] L- C. Chen，G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积arXiv：1706.05587，2017。[6] L- C. Chen，Y. Yang，J. Wang，W. Xu和A. L.尤尔。注意比例：尺度感知语义图像分割。在CVPR，2016年。[7] F. 胆Xception：使用深度可分离卷积的深度学习在CVPR，2017年。[8] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集在CVPR，2016年。[9] J. Dai，H.Qi，Y.Xiong，Y.Li，G.Zhang，H.Hu和Y.伟.可变形卷积网络。InICCV，2017.[10]M.埃弗灵厄姆湖，澳-地V. Gool，C. K. I.威廉斯，J.Winn和A. 齐瑟曼。pascal视觉对象类（voc）的挑战。IJCV，2010年。[11] G. Ghiasi和C. C.福克斯用于语义分割的拉普拉斯金字塔在ECCV，2016年。[12] R.娘娘腔。快速R-CNN。在ICCV，2015年。[13] C.古尔塞尔角乔河Pascanu和Y.本吉奥。用于深度前馈和递归神经网络的学习范数池。InECML，2014.[14] B.哈里哈兰山口阿贝拉埃斯河Girshick和J.马利克同时检测和分割。2014年，在ECCV[15] K.他，X。Zhang，S. Ren和J. Sun.深入研究整流器：在imagenet分类上超越人类水平的性能在ICCV，2015年。[16] K. 他，X。Zhang，S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔InPAMI，2015.[17] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[18] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。[19] Y. Jia、E. Shelhamer，J.多纳休S. J. Long，R. Karayev B.Girshick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。在ACM MM，2014中。[20] C.- Y. Lee，P.W. Gallagher和Z.涂。卷积神经网络中的池化函数：混合门控树InAISTATS，2016.[21] G. Lin，L.米兰角沈和我里德Refinenet：用于高分辨率语义分割的多路径细化网络。在CVPR，2017年。[22] G. 林角，澳-地Shen，中国古猿A.范登亨格尔和我D. 里德用于语义分割的深度结构化模型的高效分段训练。在CVPR，2016年。[23] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。[24] H. Noh，S. Hong和B. Hann用于语义分割的学习反卷积网络。在ICCV，2015年。[25] C.彭、X。Zhang，G. Yu，G. Luo和J. Sun.大核问题-通过全局卷积网络改进语义分割。在CVPR，2017年。[26] F. Saeedan，N.韦伯，M。Goesele和S.罗斯深度网络中的细节保留池。arXiv：1804.04076，2018。[27] F. 申河甘，S.Yan和G.小曾。基于结构化补丁预测、上下文crf和引导crf的语义在CVPR，2017年。[28] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。ICLR，2015年。[29] J. T. Springenberg、A. Dosovitskiy，T. Brox和M.里德-米勒。追求简单：全卷积网。ICLR Workshop，2015年。[30] P. Wang，P. Chen，Y. Yuan，云南杜父花D. Liu，Z. Huang，X.侯，和G. W.科特雷尔理解语义分割的卷积。在WACV，2018。[31] N. 韦伯，M。Waechter，S.C. 修正，S。Guthe和M.Goe-sele。快速、细节保留的图像缩小。InTOG，2016.[32] Z. Wei，Y.孙，J.Wang，H.Lai和S.刘某学习深度图像解析网络的自适应感受野。在CVPR，2017年。[33] F. Yu和V.Koltun.通过扩张卷积的多尺度上下文聚合。arXiv：1511.07122，2015。[34]H. Zhan，K.J. Dana，J.施，Z.Zhang，X.Wang，中国山核桃A.Tyagi和A. 阿格拉瓦尔用于语义分割的上下文编码在CVPR，2018年。[35] R. Zhang，S.唐，Y。张，J.Li和S.燕. 用于场景解析的尺度自适应卷积。InICCV，2017.[36] H. Zhao，J. Shi，X. Qi，X. Wang和J.贾金字塔场景解析网络。在CVPR，2017年。[37] S. Zheng，S. Jayasumana湾Romera-Paredes，V.维尼特，Z. Su，D.杜角，澳-地Huang，和P. H. S.乇作为递归神经网络的条件随机场。在ICCV，2015年。[38] B. Zhou，H.Zhao，X.普伊格S。菲德勒，A.Barriuso和A.托拉尔巴。通过ade20k数据集进行场景解析在CVPR，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载