没有合适的资源?快使用搜索试试~ 我知道了~
实时语义分割的双边分割网络(BiSeNet):高效推理速度与准确性的平衡
BiSeNet:用于实时语义分割的双边分割网络于长谦1[0000−0002−4488−4157]、王静波2[0000−0001−9700−6262]、彭超3[0000−0003−4069−4775]、高长新1[0000−0003−2736−3920]、于刚3[0000−0001−5570−2710]、农桑1[0000−0002−9167−1496]1华中科技大学自动化学院多光谱信息处理科学与技术国家重点实验室{changqian yu,cgao,nsang}@ hust.edu.cn2北京大学机器感知重点实验室wangjingbo1219@pku.edu.cn3Megvii Inc.(Face++),中国{pengchao,yugang}@ megvii.com抽象。语义分割需要丰富的空间信息和相当大的感受野。然而,现代方法通常牺牲空间分辨率来实现实时推理速度,这导致性能较差。在本文中,我们解决了这种困境与一种新的双边分割网络(BiSeNet)。我们首先设计了一个小步幅的空间路径,以保留空间信息并生成高分辨率的功能。同时,采用具有快速下采样策略的上下文路径来获得足够的感受野。在这两条路径之上,我们引入了一个新的特征融合模块来有效地组合特征所提出的架构在Cityscapes,CamVid和COCO-Stuff数据集上的速度和分割性能之间取得了正确的平衡具体而言,对于2048×1024的输入,我们在Cityscapes测试数据集上实现了68.4%的平均IOU,在一张NVIDIA Titan XP卡上的速度为105 FPS,这比具有可比性能的现有方法快得多关键词:实时语义分割·双边分割网络1介绍语义分割的研究是计算机视觉中的一项基础性工作,它相当于为每个像素分配语义它可以广泛应用于增强现实设备、自动驾驶和视频监控领域。这些应用对于快速交互或响应的高效推理速度有很高的要求⋆ 平等贡献⋆⋆ 通讯作者2C. Yu等人(a) 输入和模型(b)U形(c)我们的Fig. 1.说明架构,以加快和我们提出的方法。(a)呈现了对输入图像和具有修剪通道或丢弃阶段的轻量模型的裁剪或调整大小操作。(b)表示U形结构。(c) 展示了我们提出的双边分割网络(BiSeNet)。黑色虚线表示破坏空间信息的操作,而红色虚线表示收缩感受野的操作绿色块是我们提出的空间路径(SP)。在网络部分中,每个块表示不同下采样大小的特征图而块的长度代表空间分辨率,而厚度则代表通道数。最近,实时语义分割的算法[1,17,25,39]已经表明,主要有三种方法来加速模型。1)[34,39]尝试通过裁剪或调整大小来限制输入大小以降低计算复杂度。虽然该方法简单有效,但空间细节的丢失破坏了预测,尤其是边界附近,导致度量和可视化的2)一些作品不是调整输入图像的大小,而是修剪网络的通道以提高推理速度[1,8,25],特别是在基础模型的早期阶段。但是,它削弱了空间容量。3)对于最后一种情况,ENet [25]建议放弃模型的最后一个阶段,以追求一个非常紧密的框架。然而,这种方法的缺点是显而易见的:由于ENet在最后阶段放弃了总的来说,所有上述方法都将精度与速度妥协,这在实践中是低劣的。图1(a)给出了说明。为了弥补上述空间细节的损失,研究人员广泛使用U形结构[1,25,35]。通过融合骨干网络的分层特征,U形结构逐渐增加空间分辨率并填充一些缺失的细节。然而,这种技术有两个缺点。1)完整的U形结构可以降低模型的速度,由于在高分辨率特征图上引入额外的计算。2)更重要的是,修剪或裁剪过程中丢失的大多数空间信息不能BiSeNet公司3如图1(b)所示,通过涉及浅层,可以很容易地恢复。换句话说,U形技术更好地被视为一种浮雕,而不是一种必要的解决方案。基 于 上 述 观 察 , 我 们 提 出 了 具 有 两 个 部 分 的 双 边 分 割 网 络(BiSeNet):空间路径(SP)和上下文路径(CP)。顾名思义,这两个组件分别用于应对空间信息的丢失和感受野的收缩。这两条路径的设计理念是明确的。对于空间路径,我们只堆叠三个卷积层以获得1/ 8特征图,其保留了丰富的空间细节。在上下文路径方面,我们在Xception [8]的尾部附加了一个全局平均池化层,其中感受野是骨干网络的最大值。图1(c)显示了这两个组件的结构。为了在不损失速度的前提下追求更高的精度,本文还研究了两条路径的融合和最终预测的细化,分别提出了特征正如我们下面的实验所示,这两个额外的组件可以进一步提高Cityscapes [9]、CamVid [2]和COCO-Stuff [3]基准测试的整体语义分割准确性我们的主要贡献总结如下:– 我们提出了一种新的方法来解耦的空间信息保存和感受野提供到两 个 路 径 的 功 能 具 体 来 说 , 我 们 提 出 了 一 个 双 边 分 割 网 络(BiSeNet)的空间路径(SP)和上下文路径(CP)。– 我们设计了两个具体的模块,特征融合模块(FFM)和注意力细化模块(ARM),以进一步提高精度与可接受的成本。– 我们在Cityscapes、CamVid和COCO-Stuff的基准测试中取得了令人印象深刻的成绩。更具体地说,我们在Cityscapes测试数据集上以105 FPS的速度获得了68.4%的结果。2相关工作最近,许多基于FCN [22]的方法已经在语义分割任务的不同基准上实现了最先进的这些方法中的大多数被设计为编码更多的空间信息或扩大感受野。空间信息:卷积神经网络(CNN)[16]使用连续的下采样操作对高级语义信息进行编码。然而,在语义分割任务中,图像的空间信息对于预测详细输出是至关重要的。现有的各种方法都致力于对丰富的空间信息进行编码。DUC [32],PSPNet [40],DeepLab v2 [5]和Deeplab v3[6]使用扩张卷积来保留特征图的空间大小。全局卷积网络[26]利用“较大的k e r n e l”来增大接收器p t i v e field。4C. Yu等人U形方法:U形结构[1,10,22,24,27]可以恢复一定程度的空间信息。原始FCN [22]网络通过跳跃连接的网络结构对不同级别的特征进行一些方法将其特定的细化结构应用到U形网络结构中。[1,24]利用反卷积层创建U形网络结构。U-net [27]为这项任务介绍了有用的跳过连接网络结构。全局卷积网络[26]将U形结构与“大核”相结合LRR[10]采用拉普拉斯金字塔重构网络。RefineNet [18]增加了多路径细化结构来细化预测。DFN [36]设计了一个通道注意块来实现特征选择。然而,在U形结构中,一些丢失的空间信息不能容易地恢复。上下文信息:语义分割需要上下文信息来生成高质量的结果。大多数常用的方法是扩大感受野或融合不同的上下文信息。 [5,6,32,37]在卷积层中采用不同的膨胀率来捕获不同的上下文信息。在图像金字塔的驱动下,多尺度特征集成通常被用于图像分割中。在[5]中,提出了“ASPP”模型来捕获不同感受野的上下文信息。 PSPNet [40]应用了一种“P SP”模型,其中,C 〇 n t i n s t i ss [6]设计一个“ASPP”模型,该模型使用全局对象平均值来捕获图像的全局上下文。 [38]通过尺度自适应卷积层改进神经网络以获得自适应场上下文信息。 DFN[36]在U形结构的顶部添加全局池以编码全局上下文。注意机制:注意力机制可以使用高级信息来引导前馈网络[23,31]。在[7]中,CNN的注意力取决于输入图像的尺度在[13]中,他们将通道注意应用于识别任务,并达到了最先进的水平。像DFN[36]一样,它们学习全局上下文作为注意力并修改特征。实时分割:实时语义分割算法需要一种快速的方法来生成高质量的预测。SegNet [1]利用小型网络结构和跳过连接方法来实现快速。E-Net [25]从头开始设计轻量级网络,并提供极高的ICNet [39]使用图像级联来加速语义分割方法。[17]采用级联网络结构来减少“容易区域”中[34]设计了一种新的两列网络和空间稀疏性,以减少计算成本。不同的是,我们提出的方法采用了一个轻量级的模型,以提供足够的感受野。此外,我们设置了一个浅但宽的网络来捕获足够的空间信息。3双边分割网络在本节中,我们首先详细说明我们提出的具有空间路径和上下文路径的双边分割网络(BiSeNet)。此外,委员会认为,我们相应地阐述这两种途径的有效性最后我们BiSeNet公司5(b)注意力调整单元(a) 网络架构(c)特征融合模块图二、双边分割网络概述(a)网络架构。块的长度表示空间大小,而厚度表示通道的数量。(b)注意力细化模块(ARM)的组成部分。(c)特征融合模块(FFM)的组成部分。读取行表示我们仅在测试时才进行此过程。演示了如何将这两条路径的特征与特征融合模块和我们的BiSeNet的整个架构相结合。3.1空间路径在语义分割的任务中,一些现有的方法[5,6,32,40]试图保留输入图像的分辨率以使用扩张卷积编码足够的空间信息,而一些方法[5,6,26,40]试图使用金字塔池化模块、无空间金字塔池化或“大核”捕获足够的感受野这些方法表明,空间信息和感受野是实现高精度的关键然而,很难同时满足这两个需求特别地,在实时语义分割的情况下,现有的现代方法[1,25,39]利用小输入图像或轻量级基础模型来加速。小尺寸的输入图像丢失了原始图像的大部分空间信息,而轻量级模型通过通道修剪破坏了空间信息。基于这一观察,我们提出了一个空间路径,以保持原始输入图像的空间大小和编码丰富的空间信息。温泉之路分为三层。 每个层包括一个步幅为2的卷积,然后是批量归一化[15]和ReLU [11]。因此,该路径提取的输出特征图是原始图像的1/8。它编码丰富的空间信息,由于大的空间尺寸的特征图。图2(a)示出了结构的细节。mul添加conv+bn+relu4x向下conv+bn+reluconv+bn+relu8x向下空间路径FFMARM 16x向下8倍上采样臂32x向下上下文路径mul全局池concatenate1x1转换conv+bn+relubatch norm全局池乙状1x1转换ReLU1x1转换乙状6C. Yu等人3.2上下文路径虽然空间路径编码丰富的空间信息,上下文路径被设计为提供足够的感受野。在语义切分任务中,感受野的大小对成绩有着重要的意义。为了扩大感受野,一些方法已经利用了金字塔池化模型[40]、金字塔池化模型[5,6]或“大规模”[2,6]。 然而,这些操作要求计算量和存储器消耗,这导致低速度。同时考虑到大的感受野和高效的计算,我们提出了上下文路径。上下文路径利用轻量级模型和全局平均池化[5,6,21]来提供大的接受域。在这项工作中,轻量级模型,如Xception [8],可以快速下采样特征图以获得大的感受野,其编码高级语义上下文信息。然后在轻量级模型的尾部增加一个全局平均池,它可以提供具有全局上下文信息的最大感受野。最后,我们结合全局池的上采样输出功能和轻量级模型的功能。在轻量级模型中,我们部署了U形结构[1,25,35]来融合后两个阶段的特征,这是一个不完整的U形风格。图2(c)显示了上下文路径的整体透视图。注意力细化模块:在上下文路径中,我们提出了一个特定的注意力细化模块(ARM)来细化每个阶段的特征如图2(b)所示,ARM采用全局平均池化来捕获全局上下文,并计算注意力向量来指导特征学习。该设计可以细化上下文路径中每个阶段的输出特征该算法不需要任何上采样操作,就能很容易地集成全局上下文信息。因此,它需要可忽略的计算成本。3.3网络架构利用空 间路径和 上下文路 径,我 们提出了用 于实时语 义分割的BiSeNet,如图2(a)所示。我们使用预先训练的Xception模型作为上下文路径的主干,并使用三个卷积层与步幅作为空间路径。然后将这两条路径的输出特征进行融合,做出最终的预测。它可以同时实现实时性和高精度首先,我们专注于实际计算方面。虽然空间路径具有很大的空间大小,但它只有三个卷积层。因此,它不是计算密集型的。对于上下文路径,我们使用一个轻量级模型快速下采样。此外,这两个路径并行计算,这大大提高了效率。其次,我们讨论了这个网络的准确性方面。在我们的论文中,空间路径编码丰富的空间信息,而上下文路径提供大的感受野。它们相互补充以获得更高的性能。BiSeNet公司7特征融合模块:这两条路径的特征在特征表示的层次上是不同的。因此,我们不能简单地概括这些特征。由空间路径捕获的空间信息编码了大多数丰富的细节信息。此外,上下文路径的输出特征主要编码上下文信息。换句话说,空间路径的输出特征是低级的,而上下文路径的输出特征是高级的。因此,我们提出了一个特定的特征融合模块来融合这些特征。考虑到特征的不同级别,我们首先将空间路径和上下文路径的输出特征连接起来。然后我们利用批量归一化[15]来平衡特征的尺度。接下来,我们将连接的特征汇集到特征向量并计算权重向量,如SENet [13]。该权重向量可以重新加权特征,这相当于特征选择和组合。图2(c)示出了该设计的细节。损失函数:在本文中,我们还利用辅助损失函数来监督我们所提出的方法的训练。我们使用主损失函数来监督整个BiSeNet的输出。此外,我们添加了两个特定的辅助损失函数来监督上下文路径的输出,如深度监督[35]。所有损失函数都是Softmax损失,如等式1所示。此外,我们使用参数α来平衡主损失和辅助损失的权重,如等式2所示。本文中的α等于1。联合损失使优化器更容易优化模型。1Σ1Σ.Σepi损失=NLi=N我−对数我Σjepj(一)其中P是网络的输出预测。L(X;W)=lp(X;W)+αΣKI=2Ii(Xi;W)(2)其中lp是级联输出的主要损耗Xi是Xception模型的阶段i的输出特征是级i的辅助损耗。在本文中K等于3L是关节损失函数。在这里,我们只在训练阶段使用4实验结果我们采用修改后的Xception模型[8] Xception39来执行实时语义分割任务。我们的实现代码将公开提供。我们在Cityscapes [9],CamVid [2]和COCO-Stuff [3]基准上评估了我们提出的BiSeNet我们首先介绍了数据集和实现协议。接下来,我们将详细描述我们的速度策略与其他方法进行比较然后,我们调查我们提出的方法的每个组成部分的影响我们在Cityscapes验证集上评估所有性能结果。最后,我们报告了Cityscapes、CamVid和8C. Yu等人.最大迭代器COCO-Stuff数据集与其他实时语义分割算法的比较。Cityscapes:Cityscapes [9]是一个从汽车角度来看的大型城市街道场景数据集。它包含2,975张用于训练的精细注释图像和另外500张用于验证的图像。在我们的实验中,我们只使用精细数据集。为了进行测试,它提供了1,525张没有地面实况的图像进行公平比较。这些图像都具有2,048 × 1,024的分辨率,其中每个像素都被注释为预定义的19个类别。CamVid:CamVid [2]是从驾驶汽车的角度来看的另一个街道场景数据集它总共包含701幅图像,其中367幅用于训练,101幅用于验证,233幅用于测试。图像分辨率为960×720,有11个语义类别。COCO-Stuff:COCO-Stuff [3]扩充了流行的COCO [20]数据集的所有164,000张图像,其中118,000张图像用于训练,5,000张图像用于验证,20,000张图像用于测试开发,20,000张图像用于测试挑战。它涵盖了91个简单的和完整的功能。4.1执行议定书在本节中,我们详细阐述了我们的实现协议。网络:我们应用三个卷积作为空间路径和上下文路径的Xception39模型。然后利用特征融合模块对两条路径的特征进行融合,预测最终的结果。空间路径的输出分辨率和最终预测是原始图像的1/8。训练细节:我们使用小批量随机梯度下降(SGD)[16],批量大小为16,动量为0。9和训练中的权重衰减1e−4。类似于[5,6,21],我们应用“多”线性代数,其中线性代数在每次迭代乘以(1 - 1)次幂,其中幂为0。9.初始学习率为2。5e−2数据增强:在训练过程中,我们对输入图像采用均值相减、随机水平翻转和随机缩放来增强数据集。刻度包含{0.75,1.0,1.5,1.75,2.0}。最后,我们随机裁剪图像到固定大小进行训练。4.2消融研究在本小节中,我们详细研究了我们提出的BiSeNet中每个组件的影响。在下面的实验中,我们使用Xcep-tion 39作为基础网络,并在Cityscapes验证数据集[9]上评估我们的方法BiSeNet公司9表 1. 我 们的 基线 模型 的准 确性 和 参数 分析 : Cityscapes验 证数 据集 上的Xception39和Res18。这里我们使用FCN-32作为基础结构。估计输入为3×640 ×360时的FLOPS。方法BaseModelFLOPS参数平均IOU(%)FCN-32s Xception39185.5M 1.2M 60.78FCN-32s Res18 8.3G 42.7M 61.58表2. 在一块NVIDIA Titan XP卡上对U形8和U形4进行速度分析。图像尺寸为W×H。方法NVIDIA Titan XP640×360 1280×7201920×1080平均IOU(%)基线:我们使用在ImageNet数据集[ 28 ]上预训练的Xception39网络作为Context Path的主干。然后我们直接对网络的输出进行上采样作为原始输入图像,如FCN [22]。我们评估基本模型的性能作为我们的基线,如表1所示。U形消融:我们提出了上下文路径来提供足够的接收域。在这里,我们使用轻量级模型Xception39作为Context Path的主干来快速下采样。同时,我们使用U形结构[1,25,35]来结合Xception 39网络中最后两个阶段的特征,称为U形-8s,而不是标准的U形结构,称为U形-4s。该数字表示输出特性的下采样因子,如图2所示。使用U形-8s结构的原因是双重的。首先,U形结构可以恢复一定程度的空间信息和空间大小。第二,U形8s结构比U形4s更快,如表2所示。因此,我们采用了U形-8s结构,使性能从60。79%至66。01%,如表2所示。空间路径消融:如第1节所述,现有的实时语义分割任务的现代方法面临着空间信息丢失的挑战。因此,我们提出了一个空间路径,以保持空间的大小和捕获丰富的空间信息。空间路径包含三个卷积,步幅= 2,然后是批量归一化[15]和ReLU [11]。 这改善了66的性能。01%至67。42%,如表3所示。空间路径编码空间信息的丰富细节。图3示出了BiSeNet可以获得更详细的空间信息,例如:一些交通标志。MSFPSMSFPSMSFPSU形-8s3413.76189.81286.766.01U形-4s4322.991141761.166.1310C. Yu等人(a) 图像(b)U形(c)BiSeNet(d)GT图三. 添加空间路径之前和之后的输出结果示例。输出BiSeNet具有比U形的输出更多的细节信息。表3. 我们提出的BiSeNet中每个组件的详细性能比较。CP:上下文路径;SP:空间路径; GP:全局平均池化; ARM:注意力细化模块;特征融合模块。方法平均IOU(%)CP66.01CP+SP(总和)66.82CP+SP(实况调查团)67.42CP+SP(FFM)+GP68.42CP+SP(FFM)+ARM68.72CP+SP(FFM)+GP+ARM71.40注意力改善模块的消融:为了进一步提高系统的性能,我们专门设计了一个注意力细化模块(ARM)。该模块包含一个全局平均池,用于将输出特征编码为向量。然后,我们利用卷积、批量归一化[15]和ReLU单元[11]来计算注意力向量。原始特征将由注意力向量重新加权。对于原始特征,不需要复杂的上采样操作,很容易捕获全局上下文信息。ARM的影响见表3。BiSeNet公司11表 4. 我 们的 基线 模型 的准 确性 和 参数 分析 : Cityscapes验 证数 据集 上的Xception39和Res18。这里我们使用FCN-32作为基础结构。估计输入为3×640 ×360时的FLOPS。方法基本模型GFLOPS参数SegNet [1]VGG16 [29]286.029.5MENet [25]从头3.80.4M我们Xception392.95.8M我们Res1810.849.0M表5. 我们的方法与其他最先进方法的速度比较。图像尺寸为W×H。Ours1和Ours2是基于Xception39和Res18模型的BiSeNet。NVIDIA Titan X NVIDIA Titan XP方法640×3601280×7201920×1080640×3601280×7201920×1080MSFPSMSFPSMSFPSMSFPSMSFPSMSFPSSegNet [1]6914.62893.56371.6------ENet [25]7135.42146.84621.6------我们的15203.51282.32441.44285.28124.1 1857.3我们的28129.42147.943235205.71378.82934.4消融特征融合模块:基于空间路径和上下文路径,我们需要融合这两条路径的输出特征。考虑到空间路径的低层特征和上下文路径的高层特征的不同层次,提出了特征融合模块来有效地融合这些特征。首先,我们评估了这些特征的直接求和和我们提出的特征融合模块的效果,如表3所示。比较绩效的差距依次解释了两条路径属于不同层次的特征。全局平均合并的消融:我们期望语境路径能够提供足够的接受域。虽然原始Xception39模型理论上可以覆盖输入图像的大部分区域,但我们仍然使用全局平均池化进一步扩大了感受野[21]。这可以确保有效的感受野足够大。在本文中,我们在Xception39模型的尾部添加了全局平均池。然后,我们对全局平均池化的输出进行上采样,并将此特征与Xception39模型中最后一个阶段的输出相加,如DFN [36]。 这提高了67的性能。42%到68。42%,这表明该设计的效果,如表3所示。12C. Yu等人表6. 我们的方法与其他国家的准确性和速度比较-Cityscapes测试数据集上的艺术方法。我们在2048 × 1024分辨率输入的NVIDIA Titan XP上进行训练和评估。“-”表示该方法没有给出准确度的相应速度结果。方法基本模型是说ValIOU(%)测试FPSSegNet [1]VGG16-56.1-ENet [25]从头-58.3-[30][14]第十四话-59.8-ICNet [39]PSPNet50 [40]67.769.530.3DLC [17]inception-ResNet-v2-71.1-双柱网[34]Res5074.672.914.7我们Xception3969.068.4105.8我们Res1874.874.765.54.3速度和精度分析在本节中,我们首先分析我们的算法的速度。然后我们报告我们在Cityscapes [9],CamVid [2]和COCO-Stuff [3]基准测试上的最终结果与其他算法进行了比较。速度分析:速度是算法的一个重要因素,特别是当我们在实践中应用它时。我们在不同的设置下进行实验,以进行彻底的比较。首先,我们在表4中显示了FLOPS和参数的状态。FLOPS和参数表示处理图像的操作数,这个决议的年龄。为了公平比较,我们选择640×360作为输入图像的分辨率。同时,表5给出了我们的方法与其他方法在不同分辨率的输入图像和不同硬件基准上的速度比较。最后,我们报告了我们在Cityscapes测试数据集上的速度和相应的准确性结果从表6中,我们可以发现我们的方法在速度和准确性方面都比其他方法取得了显着的进步在评估过程中,我们首先将输入的2048×1024分辨率的图像缩放到1536×768分辨率,以测试速度和精度。同时,我们使用在线引导-pingtr e gy计算损失函数,如在[3 3]中所描述的。在这种情况下,我们没有实施任何测试技术准确性分析:实际上,我们的BiSeNet也可以实现更高的准确性结果对其他非实时语义分割算法。在这里,我们将展示Cityscapes [9],CamVid [2]和COCO-Stuff [3]基准测试的准确性结果同时,为了确保我们方法的有效性,我们还将其应用于不同的基础模型,例如标准ResNet18和ResNet101 [12]。接下来,我们将详细介绍一些培训细节。BiSeNet公司13(a) 图片(b)Res18(c)Xception39(d)Res101(e)GT见图4。基于Cityscapes数据集上的Xception39、Res18和Res101模型的BiSeNet示例结果。表7. 我们的方法与其他国家的最先进的方法在中国的数据采集数据的准确性比较。“-“表示该方法没有给出相应的结果。方法基础模型平均IOU(%)Val测试DeepLab [4]VGG16 [29]-63.1[22]第二十二话VGG16-65.3阿德莱德[19]VGG16-66.4扩张10 [37]VGG1668.767.1LRR [10]VGG1670.069.7DeepLab-v2+CRF [5]Res10171.470.4RefineNet [18]Res101-73.6DUC [32]Res15276.776.1PSPNet [40]Res101-78.4我们Xception3972.071.4我们Res1878.677.7我们Res10180.378.9城市景观:如表7所示,我们的方法在不同的模型上也取得了令人印象深刻的结果。为了提高精度,我们随机抽取1024×1024个作物作为输入。图4展示了我们的结果的一些可视化示例。CamVid:表8显示了CamVid数据集的统计准确性结果。为了进行测试,我们使用训练数据集和验证数据集来训练我们的模型。在这里,我们使用960×720分辨率进行训练和评估。COCO-Stuff:我们还在表9中报告了COCO-Stuff验证数据集的准确性结果。在训练和验证过程中,我们裁剪输入14C. Yu等人GN代沃克表8. CamVid测试数据集的准确度结果我们的1和2表示基于Xception39和Res18网络的方法步TreSKCASiRoPEFePoSiBiMSegNet-Basic 75.084.691.282.736.993.355.047.544.874.116.0n/aSegNet88.887.392.482.120.597.257.149.327.584.430.755.6eNet74.777.895.182.451.095.167.251.735.486.734.151.3我们的182.274.491.980.842.893.353.849.725.477.350.065.6我们的283.075.892.083.746.594.658.853.631.981.454.0 68.7表9.COCO-Stuff验证数据集的准确度结果方法基本模型平均IOU(%)像素精度(%)deeplab-V2VGG-1624.058.2我们Xception3922.859.0我们Res1828.163.2我们Res10131.365.5在640×640分辨率下,对于某些比较,我们不采用模拟测试。5结论为了提 高实时语 义分割的 速度和准 确性,提 出了双边 分割网络(BiSeNet)。我们提出的BiSeNet包含两个路径:空间路径(SP)和上下文路径(CP)。空间路径被设计为保留来自原始图像的空间信息。上下文路径利用轻量级模型和全局平均池化[6,21,40]来快速获得相当大的感受野。凭借丰富的空间细节和大的感受野,我们在Cityscapes [9]测试数据集上以105 FPS获得了68.4%的平均IOU结果。确认本工作得到了国家自然科学基金项目61433007和61401170的资助。伊尔丁eyRad去应变NCE乐骑车人平均IOU(%)BiSeNet公司15引用1. Badrinarayanan,V. Kendall,A.,Cipolla,R.:SegNet:用于图像分割的深度 卷 积 编 码 器 - 解 码 器 架 构 。 IEEETransactionsonPat-ternAnalysandMachineIntellige39(12),2481- 2495(2017)2,4,5,6,9,11,122. 布罗斯托,G.J.Shotton,J.,Fauqueur,J.,Cipolla,R.:基于运动点云结构的分割与在:欧洲计算机会议Vision. pp. 443. 凯撒H Uijlings,J.,Ferrari,V.:Coco-stuff:上下文中的事物和东西类。在:IEEE计算机视觉和模式识别会议(2018)3,7,8,124. Chen,L.C.,帕潘德里欧,G.,科基诺斯岛墨菲K Yuille,A.L.:基于深度卷积网和全连接crfs的语义图像分割。ICLR(2015)135. Chen,L.C.,帕潘德里欧,G.,科基诺斯岛墨菲K Yuille,A.L.:Deeplab:使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。arXiv(2016)3,4,5,6,8,136. Chen,L.C.,帕潘德里欧,G.,Schroff,F.,Adam,H.:再思考无卷积在语义图像分割中的应用。arXiv(2017)3,4,5,6,8,147. Chen,L.C.,杨,Y.,王杰,徐伟,Yuille,A.L.:注意秤:尺度感知的语义图像分割。在:IEEE计算机视觉和模式识别会议(2016)48. Chollet,F.:Xception:使用深度可分离卷积的深度学习。IEEE计算机视觉和模式识别会议(2017)2,3,6,79. Cordts,M.,Omran,M.,Ramos,S.,Rehfeld,T.,Enzweiler,M.,Benenson河弗兰克,美国,Roth,S.,Schiele,B.:用于语义城市场景理解的cityscapes数据集在:IEEE计算机视觉和模式识别会议(2016)3,7,8,12,1410. Ghiasi,G.,Fowlkes,C.C.:用于语义分割的拉普拉斯金字塔重构与精化。在:欧洲计算机视觉会议(2016)4,1311. Glorot,X.,Bordes,A.,Bengio,Y.:深度稀疏整流神经网络。In:In-ternalConferenceonArticialntelligenceeandStatis ics. pp. 31512. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。在:IEEE计算机视觉和模式识别会议(2016)1213. 胡,J,Shen,L.,Sun,G.:压缩-激励网络。ArXiv(2017)4,714. Iandola,F.N.,Moskewicz,M.W.,Ashraf,K.,汉,S.,戴利,W.J.,Keutzer,K.:Squeezenet:Alexnet级精度,参数减少50倍,…1MB型号大小。arXiv abs/1602.07360(2016)1215. Ioffe,S.,Szegedy,C.:批次标准化:通过减少内部协变量偏移来加速深度 网 络 训 练 。 国 际 机 器 学 习 会 议 ( International Conference on MachineLearning)pp. 44816. Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:使用深度卷积神经网络的图像网分类。在:神经信息处理系统(2012)3,817. Li,X.,刘志,Luo,P.,Loy,C.C.,唐X:并非所有像素都是相等的:通过深层级联实现难度感知语义分割。IEEE计算机视觉与模式识别会议(2017)2,4,1216C. Yu等人18. 林,G.,Milan,A. Shen,C.,Reid,I.:Refinenet:具有身份映射的多路径 细化 网 络, 用 于 高分 辨 率语 义 分 割。 IEEE Confer-ence on ComputerVision and Pattern Recognition(2017)4,1319. 林,G.,Shen,C.,van den Hengel,A.,Reid,I.:深度学习的高效分段训练语义 分割 的结 构化 模型。 在: IEEE计算 机视 觉和 模式 识别会 议(2016)1320. 林,T. 是的, 我是M Belongie,S., 嗨,J., Perona,P., Ramanan,D. ,Dolla'r,P.,Zitnick,C.L.:Microsoft coco:上下文中的公共对象欧洲计算机视觉会议。03 The Dog(2014)21. 刘伟,Rabinovich,A.,Berg,A.C.:Parsenet:看得更宽,看得更好。ICLR(2016)6,8,11,1422. 朗J Shelhamer,E.,达雷尔,T.:用于语义分段的全卷积网络。在:IEEE计算机视觉和模式识别会议(2015)3,4,9,1323. Mnih,V.,Heess,N.格雷夫斯,A.,等:视觉注意的循环模型。于:神经信息处理系统(2014)424. 诺H Hong,S.,汉,B.:用于语义分割的学习反卷积网络。在:IEEE计算机视觉国际会议(2015)425. Paszke,A.,Chaurasia,A.,Kim,S.,Culurciello,E.:Enet:深度神经网络实时语义分割的体系结构arXiv(2016)2,4,5,6,9,11,1226. P e ng,C. Zhang,X., Yu,G., Luo,G., Sun,J. :Larg e k e r n e lmate r s-通过全局卷积网络的imp r o v e m a n - tic分割。IEEE Conference onComputer Vision and Pattern Recognition(2017)3,4,5,627. Ronneberger,O.,Fischer,P.,Brox,T.:U-net:生物医学cal图像分割在:医学图像计算和计算机辅助干预国际会议(2015)428. Russakovsky,O.,Deng,J.,Su,H.,Krause,J.,Satheesh,S.,妈妈,S.,黄志,Karpathy,A.,Khosla,A.Bernstein,M.Berg,A.C.,李菲菲:ImageNet大 规 模 视 觉 识 别 挑 战 。 International Journal of Computer Vision115(3),211 http://doi. org/10。1007/s11263-015-0816-y929. 西蒙尼扬,K.,齐瑟曼,A.:用于大规模计算的非常深的卷积网络图像识别ICLR(2015)11,1330. Treml,M.,Arjona-Medina,J.,Unterthiner,T.,杜尔杰什河Friedmann,F.,Schu-berth,P.,Mayr,A.,Heusel,M.,Hofmarcher,M.,Widrich,M.,等:加速自动驾驶的语义分割。在:神经信息处理系统研讨会(2016)1231. 王福,Jiang,M.,钱,C.,杨,S.,Li,C.,张洪,王,X.,唐X:用于图像分类的剩余注意力网络IEEE计算机视觉与模式识别会议(2017)432. 王,P.,陈佩,Yuan,Y.,Liu,D.,中国科学院,黄志,侯,X.,Cottrell,G.:在-用于语义分割的标准卷积。IEEE计算机视觉与模式识别会议(2017)3,4,5,1333. 吴志,Shen,C.,Hengel,A.v.d.:高性能语义分割
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功