语义边界下的内容自适应下采样技术

87 浏览量更新于2023-10-12 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2131√高效分割：语义边界Dmitrii Marin<$Zijian He<$Peter Vajda<$PriyamChatterjee<$ Sam Tsai<$Fei Yang<$YuriBoykov加拿大滑铁卢大学加拿大传染病媒介研究†FacebookInc，美国教育部，中国{d2marin，yboykov}@ uwaterloo.ca{zijian，vajdap，priyamc，sstsai}@ fb.comyang. 100tal.com摘要许多自动化过程，如自动驾驶，依赖于良好的语义分割作为关键组件。为了提高性能，通常对输入帧进行下采样.然而，这是以错过小对象和降低语义边界的准确性为代价的。为了解决这个问题，我们提出了一种新的内容自适应下采样技术，学习有利于采样位置附近的目标类的语义边界。成本性能分析表明，我们的方法始终优于均匀采样，提高精度和计算效率之间的平衡。我们的自适应采样提供了更好的边界质量和更可靠的支持较小尺寸的对象分割。1. 介绍硬件技术的最新进展使在移动设备上运行高效的深度学习模型成为可能。这使得许多依赖于基于深度学习的计算机视觉系统的设备体验成为可能然而，在这方面，(a)原始2710×2710图像(c) 目标语义边界和自适应采样位置(b)地面实况标签(d) 稀疏分类插值（目标为白色）包括语义分割在内的许多任务仍然需要对输入图像进行下采样，以更精细细节的准确性换取更好的推理速度[25，56]。我们发现，均匀的下采样是次优的，并提出了一种替代的内容感知的自适应下采样技术驱动的语义边界。我们假设，为了更好的分割质量，更多的像素应该挑选语义边界附近。有了这种直觉，我们制定了一个神经网络模型，用于从地面真实语义边界学习内容自适应采样，见图。1.一、我们的非均匀下采样相对于均匀下采样的优点是双重的。首先，常见的均匀下采样使原始图像中边界的精确定位复杂化。实际上，假设直径为D的图像上的N个均匀采样点，图1：我们在高分辨率图像上的内容自适应下采样方法的说明给定地面实况（b），我们计算采样位置的非均匀网格（（c）中的红色），该网格被拉向目标类的语义边界（（c）中的白色）。我们使用这些点来训练我们的辅助网络，以自动产生这种稀疏采样的位置。它们的分类（（d）中的彩色点）可以由单独训练的高效低分辨率分割CNN产生。与均匀采样相比，稀疏分类在目标类边界附近的集中提高了插值的准确性（d），见图。六、给出了分割边界定位误差O（D）的界。相比之下，我们的N分析（见[37，附录A]）表明，误差界2132N2相对于采样点的数量O（κl2），下降得更快，假设它们均匀分布在最大曲率κ的段边界附近，长度l我们的非均匀边界感知采样方法选择语义边界周围更多的像素，减少边界上的量化误差。其次，我们的非均匀抽样隐含地说明了非均匀下采样（第3.1节）分割模型（第3.2节）采样张量非均匀上采样（第3.3节）用于通过减少下采样图像中由较大段占据的部分并增加较小段占据的部分来进行比例变化众所周知，在不同尺度下存在相同的对象类使自动图像理解复杂化[6因此，我们的自适应下采样的尺度均衡效果简化了学习。如图1（c，d），我们的方法对骑车人内部的许多像素进行采样，而均匀的下采样可能会一起错过那个人。使用所提出的内容自适应采样，语义分割系统由三个部分组成，参见图11。二、第一个是我们的非均匀下采样块，用于对目标类的语义边界附近的像素进行第二部分分割下采样的图像，并且可以基于实际上任何现有的分割模型。最后一部分对分割结果进行上采样，以原始（或任何给定）分辨率产生分割图由于我们需要反转非均匀采样，因此标准CNN插值技术不适用。我们在本文中的贡献如下：• 我们提出了自适应下采样，旨在准确表示目标语义边界。我们使用高效的CNN来重现这种下采样。• 大多数分割架构都可以通过结合我们的内容自适应采样和插值组件来受益于• 我们将我们的框架应用于语义分割，并在许多架构和数据集。我们的成本性能分析考虑了计算开销。我们还分析了改进，从我们的自适应下采样在se-mantic边界和不同大小的对象。秒2提供了先前工作的概述。秒3详细描述了我们的方法秒4比较了许多最先进的语义分割架构与多个数据集上的均匀和自适应下采样。2. 先前工作语义分割需要为图像中的每个像素这个问题对于许多自动化导航应用程序都很重要我们首先回顾了一些相关文献。然后，我们提供了一些相关的非均匀抽样方法的简要回顾。图2：提出的具有自适应下采样的高效分割架构第一块（图中详细说明）4）获取高分辨率图像并输出采样位置（采样张量）和下采样图像。解决以256×256为例，在实验中我们测试了32×32到512×512范围内的分辨率。下采样的图像然后通过一些标准模型进行分割。最后，结果被上采样到原始分辨率。许多分割网络是建立在基本的图像分类网络上的，例如。[6这些方法修改基本模型以产生密集的更高分辨率的特征图。例如，Longet al. [35]使用完全卷积网络[32]和可训练的解卷积层。他们还注意到，算法是一种提高特征图分辨率的方法。在[6]中研究了这个想法，其中扩张卷积允许从训练模型中移除最大池化层，从而产生具有更大视场的更高分辨率特征图，而无需重新训练模型。基于分类模型构建的分割模型继承了一个限制性属性，即基本分类模型[22，31，49]倾向于在更深层中具有许多特征这导致在增加后续特征图的分辨率时消耗大量资源（例如使用算法A`troous[2 4]）。因此，最终输出通常被选择为具有较低分辨率，其中采用插值来放大最终分数图。分割（更一般地说，像素级预测）的替代方向是基于从不同尺度聚合信息的需求和优势在计算机视觉文献中早已被认识到[6解决多尺度挑战的一种方法是首先检测对象的位置，然后使用裁剪的原始图像[19，54]或裁剪的特征图[18，21]分割图像。这两个阶段的方法将规模学习和分割的问题分开，使后者的任务更容易。因此，分割的准确性提高，实例级分割是直接的。然而，当存在许多对象时，这种方法会带来显著的计算成本，因为每个对象256x256x3下采样图像256x256x22256x256x22710x2710x32710x2710x222133IJIJIJijij′′HJIW1JI1ijij年龄I={Iij}，尺寸H×W，通道C。假设- ING相对坐标系，所有像素具有空间坐标，形成覆盖正方形[0，1]2的均匀网格。设I[u，v]是空间坐标最接近（u，v）的像素的值，其中u，v∈[0，1]。考虑张量φ∈[0，1]h× w ×2. 我们用φc表示φ为表1：具有利弊的细分方法（+/-）。c∈ {0，1}，i ∈ {1，2，. . . ，h}，j ∈ {1，2，. . . ，w}。我们-fer到这样的张量作为采样张量rs。设φij为点（φ0，φ1）。图1（c）示出了这样的点的示例。ij ij需要单独分段。我们的方法改进了单阶段的方法，计算成本很小，因此，定位在这两个方法之间。表1列出了我们的方法与两阶段和单阶段方法相比的优点和缺点。空间Transformer网络[27，42]学习CNN输入的空间变换（扭曲）。他们探讨了空间变换采样操作员RH × W × C×[0，1]h × w × 2→Rh×w ×C将一对图像I和采样张量φ映射到相应的采样图像J={Jij}，使得Jij：=I[φ0，φ1]。（一）所述均匀下采样可以由sam定义[27]第27话，你是我的，我是你的，我是你的。张量u∈[0，1]h×w ×2使得u0=（i−1）/（h−1）基于符号显着性的层[42]。他们的重点是撤销不同的数据失真或“放大”显着区域，而我们的方法则专注于有效的下采样，尽可能多地保留语义边界周围的他们不使用他们的方法在像素级预测的上下文中（例如，分割），并不考虑逆变换（节。3.3在我们的情况下）。可变形卷积[11，28]使用附加自适应偏移量来增强标准卷积中的空间采样位置。在他们的实验中，可变形卷积取代了网络最后几层的传统卷积，使他们的方法与我们的方法互补。目标是允许新的卷积从前一层的最佳位置选择特征。我们的方法侧重于选择原始图像中的最佳位置，从而可以获得更多的信息。其他补充方法包括跳过一些且u1=（j − 1）/（w − 1）。3.1. 采样模型我们的非均匀抽样模型应该在两个相互竞争的目标之间进行平衡。一方面，我们希望我们的模型在语义边界附近产生更精细的采样。另一方面，由于非均匀性引起的失真不应妨碍非均匀下采样图像的成功分割。假设图像I（图1）1（a））我们有地面真理语义标签（图。（b）款。我们计算一个边界图（图中的白色）。1（c）从语义标签。然后，对于每个像素，我们计算边界上最近的像素。设b（uij ）是seman上的pixel的空间坐标最接近坐标uij（距离）的tic边界变换）。我们将我们的内容自适应非均匀下采样定义为采样张量φ，在某些像素处的层[17]和网络的早期停止计算图像的一些空间区域[16，33]。E（φ）=ΣΣǁφ−b（u）<$2+λφij−φi′j′（二）同样，这些方法修改了更深网络的计算工作层，不涉及图像降采样。3. 边界驱动自适应下采样i、j受覆盖约束φ∈[0，1]h×w ×2|+|+|=1|=1图2显示了我们系统的三个主要阶段：内容-自适应下采样、分段和上采样。下采样器，描述在第。3.1、确定非0 =0 & φ01=0& φ1=1，1≤j≤w，=1， 1 ≤ i ≤h。（三）均匀采样位置并产生下采样图像。然后，分割模型处理该（非均匀）下采样图像。我们可以使用任何现有的分割模型来实现这一目的。结果被视为原始图像中的稀疏分类位置。第三部分，在SEC中描述。3.3，使用插值重新覆盖分割在原来的分辨率，见图. 第1段（d）分段。让我们介绍一下符号。考虑高分辨率IM-2φφ两级[18、19、21]我们秒3单级[6、35、44]精度+++-速度-+++多目标速度- -+++简单-+++多尺度+++-边界精度+++-2134（2）中的第一项确保采样位置接近语义边界，而第二项确保采样位置的空间结构不被过度扭曲。约束条件规定采样位置覆盖整个图像。这个最小二乘问题的凸约束，可以有效地解决全球通过一组稀疏的线性方程组。图中的红点。图1（c）和图3示出了不同λ值的解。2135图3：（2）中不同λ的边界驱动采样。极值λ样本为语义边界（左）或统一（右）。中间范围λ产生中间采样。我们训练了一个相对较小的辅助网络来预测没有边界的采样张量。辅助网络可以显著小于基本分段模型，因为它解决了更简单的问题。它学习表明语义边界存在的线索。例如，消失点附近更可能包含许多小对象（及其边界）。此外，采样位置中的小作为一个辅助网络，我们提出了两个U-Net [44]子网络堆叠在一起（图1）。（五）。堆叠子网络的动机是模拟边界计算和采样点选择的顺序过程。我们用平方L2损失训练这个网络-在网络预测和张量arg minφE（φ）最小化（2）服从（3）1.或者，可以直接使用目标（2）作为正则化损失函数[51，52]。我们的建议生成方法可以被视为ADM程序的一个步骤，用于这种损失[38]。一旦计算出采样张量，就通过采样算子（1）对原始的应用大小为（h，w，2）的采样张量φ产生大小为h×w的采样图像。如果这不是下采样图像的期望大小h′×w′，我们仍然可以采用φ进行采样。为此，我们通过使用双线性插值的方法来获得形状为（h′，w′，2）的新采样张量φ′，参见[37，Fig.5]。图图4显示了我们的下采样模块的架构3.2. 分割模型我们的自适应下采样可以与任何现成的分割模型一起使用，因为它不会对基础分割模型施加任何约束。我们使用基本多模型（U-Net [44]，PSP-Net [57]和Deeplabv 3 + [8]）的改进结果在Sec. 四是体现了这一点。3.3. 上采样为了与先前的工作保持一致，我们假设基础分割模型产生与其下采样输入相同大小的最终得分图。因此，我们需要对输出进行上采样，以匹配原始输入分辨率。在标准下采样的情况下，该步骤是简单的上缩放，通常通过双线性插值来执行。在我们1在测试期间，网络预测被投影到约束（3）图4：图4中的非均匀下采样块的架构。二、高分辨率图像（例如2710×2710）被均匀地下采样为小图像（例如，32×32），然后由辅助网络进行处理，存储在采样张量中的位置。该张量被双线性插值（参见[37，图5]）到用于非均匀下采样的期望分辨率（例如，256 ×256）。在这种情况下，我们需要“反转”非均匀变换。覆盖约束（3）保证了采样点的凸厅覆盖整个图像，因此我们可以使用插值来恢复原始分辨率下的分数图我们使用Scipy [2]插值非结构化多维数据，它采用Delaunay [12]三角形和三角形内重心插值[48]。我们的内容自适应下采样方法的一个重要方面，在第二节。3.1是它保留了网格拓扑。因此，有效的实现可以跳过三角测量步骤并使用原始网格结构。插值问题简化为绘制填充三角形的计算机图形问题，可以通过Bresenham算法有效解决4. 实验在本节中，我们描述了在许多高分辨率数据集和最先进的方法上使用自适应下采样进行语义分割图6显示了一些定性的例子。4.1. 实验装置数据集和评价。我们评估和比较所提出的方法在几个公共语义分割数据集。当代方法的计算要求和注释成本制约了流行语义分割数据集中图像的低分辨率或不精确（粗糙）注释，例如Caltech [15]，[3]，PascalVOC [13，14，20]，COCO [34]。随着自动驾驶的快速发展，许多新的语义分割数据集专注于道路场景[10，26]或合成数据集[43，45]。这些最新的数据集提供了高分辨率的数据和高质量的注释。在我们的实验中，我们主要关注具有高分辨率图像的数据集，即ApolloScapes [26]，CityScapes [10]，Synthia [45]和Supervisely（人物分割）[50]数据集。主要的评估指标是平均交集对并集（mIoU）。该指标始终在分段上进行评估-λ = 0λ = 0.5λ =1λ =+∞32x32x38x8x2256x256x2均匀下采样辅助网双线性插值非均匀采样2710x2710x3256x256x2采样256x256x3下采样张量图像2136conv 3x3，batch norm，ReLUconv 3x3，batch norm，ReLU，maxpool2x2conv 3x3，batch norm，ReLU，conv 1x1copy（skipconnection）conv 3x3，batch norm，ReLU，upgrade 2x图5：用于预测采样参数的双U网模型。第一子网络的深度可以变化（取决于输入分辨率）。第二子网络的结构保持固定。为了提高效率，我们在每个块中只使用一个卷积（而不是[44]中的两个除第一层和最后一层外，所有层中的特征数均为256我们还使用填充卷积来避免特征图的收缩，并且在每次卷积之后添加批量归一化在原始分辨率下的测量结果我们比较perfor-曼斯在各种下采样分辨率，以模拟不同的操作要求。有时我们会使用其他指标来展示我们方法的不同功能。(a) 拍摄我们的采样地点（c）预测(b) 均匀地面实况下采样（d）使用我们的自适应下采样进行实施详情：我们主要执行在咖啡馆2 [1]。对于非均匀采样器网络和分割网络，我们使用Adam [29]优化方法，（基本学习率，#epochs）分别为（10−5，33 ），（ 10−4 ， 1000 ），（ 10−4 ， 500 ）数据集ApolloScape，Super- visely和Synthia。我们采用指数学习率策略。批量如下：输入分辨率163264128256 512批量128128128322412.PSP-Net [57]和Deeplabv 3 + [8]的实验使用带有默认参数的公共实现。 Mo-bileNetV 2 [47] 结果报告于[36]。在所有的实验中，我们都考虑以均匀下采样图像作为基线的分割网络。我们用自适应下采样替换均匀下采样，如第2节所述。第3.1条预测的插值如下。3.3两种情况下辅助网络单独使用由（2）产生的地面真实值进行训练，其中我们设置λ=1。辅助网络预测大小为（8，8，2）的采样张量，然后将其大小调整为所需的下采样分辨率。在分割网络的训练过程中，我们不包括上采样阶段（对于基线和建议的模型），而是对标签图进行下采样我们使用软最大熵损失。在训练过程中，我们从图像中随机裁剪最大的正方形例如，如果原始图像是3384×2710，我们选择大小为2710×2710的补丁。在测试过程中，我们裁剪了中心最大的正方形。此外，在培训期间，我们通过随机左右翻转，调整对比度，亮度和添加盐和胡椒噪声来增加数据。图6：来自Cityscapes [10]val set的示例。（a）：原始图像和由我们训练的辅助网络产生的非均匀8×8采样张量。4（为了避免杂波，128×128张量插值，如[37，图5]中，未显示）。（c）：采用统一128×128下采样的PSP-Net [57（d）：基于（a）的自适应128×128（c，d）中的高分辨率分割结果被内插（Sec.3.3）类-用于均匀或自适应下采样像素的滤波32x32x332x32x12816x16x2568x8x2564x4x2562x2x2561x1x2562x2x5124x4x5128x8x3848x8x1288x8x1284x4x2562x2x2561x1x2562x2x5124x4x5128x8x2568x8x22137决议决议非目标类目标类，IoUMiou我们320.380.92 0.38 0.17 0.00 0.490.11 0.08 0.44 0.28 0.03 0.000.74 0.86 0.840.66 0.07 0.27 0.02 0.03 0.34 0.52 0.01 0.24 0.24基线320.310.92 0.29 0.13 0.00 0.430.14 0.11 0.530.18 0.00 0.00 0.74 0.87 0.890.59 0.04 0.26 0.01 0.02 0.20 0.44 0.19 0.19我们641.310.940.39 0.31 0.02 0.560.250.170.76 0.10 0.33 0.04 0.03 0.44 0.53 0.28 0.28基线641.240.94 0.40 0.300.01 0.52 0.30 0.22 0.640.29 0.04 0.00 0.79 0.90 0.910.70 0.06 0.31 0.02 0.03 0.32 0.52 0.25 0.25我们128 5.050.950.51 0.43 0.07 0.610.44 0.29 0.71 0.47 0.13 0.010.82 0.91 0.880.83 0.16 0.41 0.08 0.05 0.57 0.36 0.36基线128 4.980.960.39 0.43 0.05 0.590.45 0.36 0.730.37 0.11 0.00 0.83 0.92 0.930.80 0.10 0.38 0.06 0.03 0.44 0.700.06 0.32 0.32我们256 19.990.96 0.440.51 0.13 0.66 0.580.42 0.78 0.58 0.27 0.000.84 0.92 0.890.88 0.21 0.47 0.18 0.04 0.65 0.44 0.44基线256 19.920.97 0.480.49 0.13 0.64 0.580.46 0.790.86 0.17 0.42 0.150.040.60 0.40 0.40我们512 79.760.97 0.44 0.540.210.68 0.63 0.49 0.80 0.670.36 0.00 0.85 0.930.91 0.24 0.52 0.30 0.06 0.47 0.47基线512 79.680.97 0.47 0.550.20 0.68 0.67 0.54 0.830.59 0.36 0.00 0.87 0.94 0.940.90 0.21 0.49 0.260.03 0.44 0.44表2：ApolloScape验证集的每类结果我们的自适应采样提高了分割的整体质量目标类（第一行的粗体字）始终受益于所有分辨率。4.2. 性价比分析ApolloScape [26]是一个用于自动驾驶的开放数据集。该数据集由大约105K训练和8K大小为3384×2710的验证图像组成。注释包含22个用于评估的类注释某些类别（汽车、摩托车、自行车、人、骑手、卡车、公共汽车和三轮车）的质量都很高。这些占用了评估集中26%的像素。我们将这些称为目标类。其他类注释是嘈杂的。由于像素标签中的噪声极大地放大了片段边界的噪声，因此我们选择基于目标类边界来定义采样模型。这利用了我们的方法的一个重要方面，即。关注感兴趣的特定语义类的边界的能力。在[26]之后，我们为这些类提供单独的度量。我们基于语义边界的自适应下采样改进了分割，参见Tab。二、我们的方法为目标类实现了3-5%的mIoU增益，总体增益高达2%。这种改进的计算成本可以忽略不计。即使在固定的计算预算下，我们的方法也能始终如一地产生更好的结果，见图。7 .第一次会议。专注于某些目标类的边界质量可能会降低其他类的性能这给了一种灵活性，可以根据应用程序反映某些类相对于其他类的重要性。CityScapes [10]是另一个常用的开放道路场景数据集，提供大小为1024×2048的5K注释图像，其中有19个类别。遵循相同的测试协议，我们使用PSP-Net [4，57](with ResNet50 [22] 主干）和 Deeplabv3+ [8] （具有Xception65 [9]主干）作为基本分割模型。mIoU结果显示在Tab. 在图3和图8中，我们再次看到了高达4%的持续改善。Synthia[45]是一个由13K高清图像组成的合成数据集，这些图像是从随机穿过城市的摄像机阵列Tab中的结果4表明，我们的方法改进了基线模型。成本性能分析下采样分辨率辅助网flops，·109Miou下采样分辨率辅助网flops，·109Miou骨干PSP-网络[57][8]第八届全国政协委员我们64324.370.321603217.540.58基线-4.200.29-17.230.54我们1283211.250.431923225.120.62基线-11.080.40-24.810.61我们2563244.220.542243234.080.65基线-44.050.54-33.770.62表3：具有不同主链的CityScapes结果。下采样决议拖鞋，·109所有类目标类我们320.380.670.61基线0.310.650.58我们641.400.770.73基线1.230.760.71我们1285.490.860.83基线4.930.840.81我们25621.850.920.91基线19.740.910.89表4：Synthia结果（mIoU）。在相同的输入分辨率下，我们的方法提高了分割质量。下采样决议翻转9秒，·10Miou后-地面人我们160.150.730.840.62基线0.070.690.810.56我们320.350.760.860.67基线0.300.760.850.66我们641.390.830.900.76基线1.220.800.880.71我们1285.420.870.930.82基线4.900.850.910.79我们25620.110.900.940.86基线19.590.890.930.84表5：监督结果。在相同的输入分辨率下，我们的方法提高了分割质量。下采样分辨率flops，·109路人行道交通锥路桩围栏红绿灯极交通标志壁垃圾箱广告牌建筑植被化天空车摩托车自行车人骑手卡车总线三轮车所有类目标类21380.60.550.50.450.40.350.30.250.20.15我0 2040成本，·109次我60800.550.450.350.2501020304050成本，·109次失败0.650.600.55基线0.50152025成本，·10次30350.950.850.750.650.550510152025成本，·109次失败Proposed巴塞尔 neProposed（仅限目标y）巴塞尔 ne（仅目标 y）Propo基地sed线Propo基地目标（Target）线（目标打仅）（ly）图7：ApolloScape数据集的成本性能分析。所提出的方法比基线方法性能更好。同样的成本，我们可以达到更高的质量。P直立的B天冬氨酸提出图8：CityScapes上的成本性能分析，采用PSP-Net和Deeplabv 3+基线，针对不同的下采样大小，请参见表3 .第三章。我们的内容自适应下采样以相同的计算成本提供了更好的结果。图9表明，我们的方法以可忽略的成本将目标类的分割质量提高了1.5%至3%。图9：Synthia数据集的成本-性能分析。我们的方法在目标类上表现得更好（在所有类上都有联系）。图十：性价比分析在监督数据集。我们的方法提高了分割的质量。相对于图中所示的基线，10个。实验显示绝对mIoU增加到5。8%，这也证实了非均匀下采样对于人员分割任务的优势。4.3. 边界精度实验结果表明，该方法提高了边界精度.我们采用标准的三重图方法[30]，在该方法中，我们在片段边界周围的不同宽度的带（称为三重图）内计算分类精度。我们计算图中两个输入分辨率的三重图。12对于上述的人分割数据集。我们的方法主要在语义边界附近进行改进。有趣的是，对于输入分辨率为64×64，最大精度为100%，人分割的监督地人数据集[50]是5711张高分辨率图像的集合，其中包含6884个高质量注释的人物实例。该数据集包含在不同条件下拍摄的人物照片我们将数据集随机分为训练子集（5140）和测试子集（571）。数据集只有两个标签：个人和背景。此数据集的分割结果显示在选项卡中。5与成本性能分析，在4个像素的trimap宽度附近达到证明。这可以归因于以下事实，即在SEC中的下采样模型。3.1不依赖于下采样分辨率，并且基本上为所有尺寸的下采样图像定义相同的采样张量。而距离的远近，64×64采样位置的钻孔点大约是256×256采样位置的相应距离的4倍。这导致在窄三重图内的准确度增益降低。0.950.90.850.80.750.0.65提出基线0 510成本，·109次1520PSP网络主干Deeplabv3+主干U-Net主干网MiouMiouMiouU-Net主干网U-Net主干网MiouMiou213932.521.510.5车124514年mo torbi ke第21380B 冰周期第人27 645人骑手第Tru ckb u s第5462第5162三轮车二三sm allestobjec tsMédiumsmallobjectsMédiumlargeobjectslarg eobject s图11：在ApolloScapes的验证集上，按对象类和大小划分的对象的平均召回率。数值表示为相对于基线。一个类别的所有对象根据对象的面积被分成4个相等大小的箱较小的箱数对应于较小尺寸的对象。每个类中的对象总数用“#"标记。在Fig. 13.除了“骑手”和“三轮车”外，所有类别的客体大小与相对回忆率都呈负相关图12：我们的方法与Super-visely数据上语义边界附近的基线之间的绝对精度差异，采样分辨率为64×64和256×256。4.4. 对象大小由于我们的自适应下采样被训练为选择语义边界周围的更多点，因此它隐式地为小对象提供了更大的支持。这导致整个系统在这些对象上的更好的性能。实例级注释允许我们通过分析单个对象的质量统计数据来验证这一这与通常的以像素为中心的分割指标（mIoU或准确性）形成对比。例如，对象分割的召回率被定义为正确分类的像素（预测为属于真实对象类的像素）与对象2中的像素总数的比率。图11和13显示了不同大小和类别的对象的召回率相对于基线的改善随着对象大小的减小，我们的方法比均匀下采样结论在这项工作中，我们描述了一种新的方法来执行非均匀内容感知下采样，作为均匀下采样的替代方法，以减少计算量。[2]回忆通常与精确性相结合。由于分割没有实例标签，因此对象级精度未定义。图13：不同大小对象的平均召回率。ApolloScapes验证集中的所有对象都按其面积分为几个大小相等的箱。较小的箱数对应于较小的对象。下采样率-解为64×64。我们在更小的物体上改进基线。绿色曲线（右垂直轴）显示，相对召回率（基线平均召回率取1）与目标大小呈负相关。语义分割系统的成本。自适应下采样参数由辅助CNN计算，该辅助CNN从由语义边界驱动的非均匀样本几何模型学习虽然辅助网络需要额外的计算，但实验结果表明，该网络提高了分割性能，同时保持了较低的附加成本，提供了更好的性价比平衡。我们的方法显着提高了小对象的性能，并产生更精确的边界。此外，任何现成的分段系统都可以从我们的方法中受益，因为它是作为封闭系统的附加块来实现的。一个潜在的未来研究方向是采用更先进的插值方法，类似于[41]，这可以进一步提高最终结果的质量。最后，我们注意到，我们的自适应采样可能ben-efit与像素级预测的其他应用程序，其中边界精度是重要的，下采样用于降低计算成本。这是留给未来的工作。43.532.521.510.5064x64256x2561 24 8trimap width，p16 3210.90.80.0.60.50.40.31.31.21.110.91 2 3 4 5 6 78 9 10 11 12 13 14 15 16 1718ObjectsizebinnumberPr o pe d Ba se line Rel ivetobaseline× 0.01一个ccu的活泼R ecallRela tiverecalll2140引用[1] Caffe2：一个新的轻量级、模块化和可扩展的深度学习框架。https://caffe2.ai网站。5[2] SciPy是一款开源软件，用于数学、科学和工程.https://docs.scipy.org/doc/scipy/reference/generated/scipy.interpolate.griddata.html。4[3] Shivani Agarwal，Aatif Awan和Dan Roth。学习通过稀疏的、基于部分的表示来检测图像中的对象。IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI），26（11）：1475-1490，2004。4[4] Oles 安德里恩科Tensorflow 中的 ICNet 和PSPNet-50为实时语义片段第https://github.com/oandrienko/fast-semantic-segmentation，2018.6[5] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence（TPAMI），39（12）：24812017年12月。2[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），40（4）：834二、三[7] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 2[8] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Flo- rian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。第801-818页，2018年。二、四、五、六[9] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在IEEE计算机视觉和模式识别（CVPR）会议录中，第1251-1258页，2017年。6[10] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。 IEEE计算机视觉与模式识别会议（CVPR），2016年。四五六[11] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第764-773页，2017年。3[12] Boris Delaunay等人在球体上看。伊兹维阿卡德NaukSSSR，Otdelenie Matematicheskii i Estestvennyka Nauk，7（793-800）：1-2，1934. 4[13] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊4[14] Mark Everingham ， Andrew Zisserman ， Christopher KIWilliams，Luc Van Gool，Moray Allan，Christopher MBishop ， Olivier Chapelle ， Navneet Dalal ， ThomasDeselaers，GyuriDork o'，etal. 2005年帕斯卡视觉对象类挑战赛。机器学习挑战评估预测不确定性，视觉对象分类，并识别结构蕴涵，第117-176页。Springer，2006年。4[15] 李飞飞，罗伯·费格斯，皮埃特罗·裴罗纳。从几个训练示例中学习生成视觉模型：一个递增贝叶斯方法测试101对象类别。计算机视觉和图像理解，106（1）：59-70，2007。4[16] Michael Figurnov，Maxwell D Collins，Yukun Zhu，LiZhang ， Jonathan Huang ， Dmitry Vetrov ， and RuslanSalakhutdinov.残差网络的空间自适应计算时间。在IEEE计算机视觉和模式识别会议（CVPR）论文集，第1039-1048页，2017年。3[17] Mikhail Figurnov，Aizhan Ibraimova，Dmitry P Vetrov，and Pushmeet Kohli.穿孔：通过消除冗余卷积的加速神经信息处理系统进展，第947-955页，2016年。3[18] 罗斯·格希克。快速R-CNN。在IEEE计算机视觉国际会议（ICCV）上，2015年12月。二、三[19] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的功能层次结构，用于准确的对象检测和语义分割。在 I

下载后可阅读完整内容，剩余1页未读，立即下载