基于融合编码和注意力机制的全景分割网络研究——认知机器人学期刊2022年第2期

20 浏览量更新于2023-12-09 收藏 13.18MB PDF 举报

注意力机制

多特征融合

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0认知机器人学 2 (2022) 186–1920ScienceDirect提供的内容列表0认知机器人学0期刊主页：http://www.k eaipublishing.com/en/journals/cogniti ve-robotics/0基于融合编码和注意力机制的全景分割网络0Jiarui Zhang � , Penghui Tian0西安工业大学计算机科学与工程学院，中国西安0文章信息0关键词：全景分割多特征融合空间金字塔池化0摘要0针对基于编码结构的全景分割网络无法准确提取全景图像详细信息的问题，考虑到语义分割和实例分割任务之间存在一些共性，本文提出了一种具有多特征融合结构的全景分割模型，为全景分割网络生成多尺度融合特征图，使用空洞空间金字塔池化来优先处理具有丰富上下文信息的高级特征，然后使用级联方法拼接低级特征以提高模型的全景分割性能。通过在相应分支的ASPP模块中添加坐标注意力，增强了模型对轮廓和实例中心的感知能力。0引言0近年来，像素级图像分析方法取得了一些突破，这是由于基于深度学习的语义分割[1]和实例分割[2]的发展。全景分割[3]的研究统一了前两个分割任务。在全景图像分割中，图像内容被划分为物体和材料。物体是可计数的实例类（例如人，自行车，汽车），每个实例都有一个唯一的ID来区分它与其他实例。材料是不可数的语义类（例如天空，道路，草地），没有实例ID。目前，大多数有效的全景分割方法依赖于MaskR-CNN[2]的框架。这些方法被称为自顶向下的方法，代表模型有PanopticFPN[4]，AUNet[5]，TASCNet[6]，UPSNet[7]等。这些方法通过采用预测置信度分数或优先考虑示例结果来处理重叠或预测掩模的冲突问题。由于MaskR-CNN的复杂序列结构，这些方法运行速度较慢，并且很难快速并行地训练和预测神经网络。还有一种基于编解码器结构的全景分割网络，称为自底向上的方法。该方法通过预测非重叠的掩模区域来解决掩模冲突问题。代表模型有DeeperLab[9]，Panoptic-DeepLab[10]等。尽管这些自底向上方法的速度优于自顶向下方法，但是这些结构的方法性能相对较差。因此，本文基于自底向上的结构，引入了图1所示的多特征融合结构来提高模型的全景分割性能。0� 通讯作者。0电子邮件地址：zhangjiarui@st.xatu.edu.cn (J. Zhang), tphxyz@163.com (P. Tian) .0https://doi.org/10.1016/j.cogr.2022.08.001 收稿日期：2022年7月15日；修订稿日期：2022年8月5日；接受日期：2022年8月5日线上发表日期：2022年8月7日2667-2413/© 2022 The Authors. Publishing Services by Elsevier B.V. on behalf of KeAi Communications Co. Ltd. 本是CCBY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/） (1) 187 0J. Zhang和P. Tian 认知机器人学 2 (2022) 186–1920图1. 多特征融合结构0多特征融合和注意力机制简介0多特征融合结构0传统的特征金字塔网络[11]使用浅层特征确定目标位置和深层特征丰富目标细节，这是大多数全景分割算法所采用的。单向信息流恢复了实例目标的位置信息，但忽略了全景分割任务中语义背景的位置以及高级特征图中图像填充区域的丢失上下文信息。所提出的多特征融合结构在高级特征传播到低级特征之前增加了从低级特征到高级特征的路径，提取并加强了全景图像中不同类别之间的全局位置和上下文信息，并通过扩张卷积解耦高维低分辨率特征图以丰富上下文信息，从而获得各类全景图像的详细特征。受PANet[12]的启发，本文改进了FPN模型并使用多特征融合结构，如图1所示。输入图像由残差网络[13]提取，预处理特征图集B2，B3，B4，B5。在B5阶段，使用了扩张卷积[14]，并且填充被扩展以保持特征图的分辨率与B4阶段相同。预处理特征图被调整为具有相同通道维度的一般特征图集L2，L3，L4，L5和R2，R3，R4，R5。通过从下层L2到上层L5的传播路径，逐层采样所有阶段的特征图，然后通过从上层R5到下层R2的传播路径，具体的计算方法如下：0� � 0�0Conv0( 5 ∑0� =2 � � + � �0, � = 50Conv ( � � +1 + � � � ) � , � = 2 , 3 , 40其中，Conv()表示在每个输出阶段，使用3×3卷积来编码融合特征图。PK，RK和Li对应于图1中每个阶段的特征图，并且通道维度被减小以形成与预处理特征图B2，B3，B4，B5中相同维度的多尺度融合特征图集P2，P3，P4，P5。0最后，低分辨率特征图P5通过扩张卷积池金字塔和坐标注意力机制[15]传递，P2，P3和P4以级联方式拼接到模型的解码器模块中。0注意力机制0注意力机制[16]通过专注于图像中的一些特定和有效信息并抑制不相关信息来提高模型的感知能力。本文在空间卷积池金字塔中添加了坐标注意力机制[15]，以提高模型的解耦能力，扩张卷积可以扩大感受野并专注于图像中目标的轮廓细节，以获得更丰富的上下文信息。188 0J. 张和P. 田认知机器人学 2 (2022) 186–1920图2. 坐标注意力0图3. 基于融合编码和注意力机制的全景分割网络0注意力机制结构如图2所示。输入特征图的位置信息被编码在通道注意力中，这与将输入特征张量通过二维全局池化操作映射为单个输出特征向量的通道注意力机制不同。坐标注意力机制将通道注意力分解为两个一维特征编码过程，同时在两个空间方向上聚集特征信息。具体公式如下：0� � � ( �0� � 00 ≤ �<� � � (2)0� � � ( � 0� � 00 ≤ �<� � � (3)0� = ReLU 6 ( � [ � � , � � ]) (4)0函数Zc是c通道的相关输出，W和H分别表示输入特征图的宽度和高度，xc是c通道的输入坐标，F[-,-]是沿空间维度的连续编码操作，� ∈ � C × ( H+W)是编码水平和垂直空间信息的中间特征。ReLU6()是具有最大值6的ReLU激活函数。通过这种方式，可以沿一个空间方向获得相关的上下文依赖性，同时捕获另一个空间方向保留的精确位置信息。最后，获得的特征图被分离，然后编码为具有方向感知能力和位置敏感性的一对注意力图，可以同时作用于输入特征图，以加强感兴趣对象的信息。0基于融合编码和注意力机制的全景分割网络0本文提出的全景分割网络模型如图3所示。其中rate是该单元卷积核的扩张率，CA是坐标注意力单元，NUM_CLASS是语义类别的数量，Fuse是189 0J. Zhang and P. Tian 认知机器人学 2 (2022) 186–1920图4. 模型中间特征图的可视化0合并分支结果以获得全景掩模结果的操作主要包括：（1）共享编码骨干和特征融合模块；（2）用于解耦的注意力-组合空间卷积池金字塔模块；（3）恢复特征图大小并合并分支结果的解码器模块。0特征提取和融合骨干0本文使用的主要特征提取方法是将ResNet-50的第一层7×7卷积替换为三个3×3卷积，并在第五阶段使用空卷积的ResNet-52。这个骨干模型在Detectron2优化的实验方法中效果很好，并且在只增加少量内存需求的前提下改善了理想效果。最终的多尺度融合特征图P2、P3、P4和P5的分辨率与骨干ResNet-52生成的特征图相同，分别是输入图像分辨率的1/4、1/8、1/16和1/16，通道数分别为256、512、1024和2048。多特征融合结构中特征图的传输模式遵循Panoptic-DeepLab [10]中的双分支策略，采用两个ASPP +CA和解码器模块，并将P2、P3和P4的融合特征图引入解码器的不同上采样阶段，将高层到低层的传播路径上的额外特征图融合到一起。图4显示了多特征图融合结构输出的特征图(b)，语义分支ASPP输出的特征图(c)和示例分支ASPP输出的特征图(d)。可以看出，不同分支关注的图像信息也是不同的。在本模型中，除了ResNet-52和所有的1×1Conv单元外，所有卷积单元都使用深度可分离卷积[17]，将卷积操作分为两步：逐通道卷积和逐点1×1卷积，以优化模型的计算速度。0注意力机制和ASPP模块0图1中的模块提取的融合特征图P5分别输入两个ASPP +CA模块，为语义分支和实例分支提供所需的编码信息。通过不同扩张率的空洞卷积可以获得不同尺度的图像感受野信息。ASPP模块通过将输入特征图与通过不同尺度的空洞卷积调整通道数的感受野信息进行融合，进一步改善图像分割效果。为了使ASPP模块对图像中不同对象的轮廓信息更加敏感，本文在ASPP中三个不同尺度的空洞卷积的卷积输出后添加了CA注意力单元，输出注意力块Y的计算公式为：0� � = � � × � [ F � ( � � )] × � [ F � ( � � )] (5)0其中xc是加权前的特征，yc是加权特征。�是Sigmoid激活函数，Fh(fh)是沿高度方向编码的信息的注意力图，Fw(fw)是沿宽度方向编码的信息的注意力图。0通过加权特征图，改善模型在方向和位置上的感知能力，增强感兴趣对象的表示。图4的第二行图片展示了语义分支的ASPP+CA模块特征图的一些通道的可视化结果，以及第三行行为示例分支的可视化结果。在该模型中，语义分支和示例分支使用相同的ASPP模块。图5展示了ASPP+CA模块的结构。P5是从多特征融合结构获得的特征图。图中的rate表示扩张卷积的扩张率。CA是坐标注意力。Concat表示获得的五个紫色方块沿着190 0J. Zhang and P. Tian Cognitive Robotics 2 (2022) 186–1920图5. ASPP+CA结构0通道维度。之后，通过一维卷积通道调整拼接的特征图，然后输入解码器进行后续计算。0解码器和输出预测模块0解码器通过双线性插值上采样逐渐将特征图恢复到与输入图像相同的分辨率，然后通过相应的预测分支为每个像素分配Stu�类别标签和ThingsID。ASPP输出的五个多尺度特征图与P2、P3和P4引入的特征进行融合，通过拼接输出特征。两种分支策略的权重在模型学习过程中不会相互干扰。本文对解码器模块进行了修改，并额外引入了一个高级特征图P4。在将其与ASPP+CA模块输出的多尺度特征图融合后，应用5×5Conv单元从特征图中提取信息。在解码器后预测模块中，Lsem是通过交叉熵损失作为语义分支获得的分割掩码预测损失。Lcenter和Lins分别表示通过示例中心回归在示例分支中预测的中心点和偏移损失，分别通过MSE和L1进行预测。总体损失函数如公式6所示：0�� = �1 � �� + �2 � �� + �3 � �� (6)0其中�是控制三个损失函数权重比的超参数。Lsem是交叉熵损失函数。Lcenter是均方误差损失函数。Lins是L1损失函数。0最终的融合方法类似于DeeperLab [9]中使用的“多数投票”方法，快速合并分支预测结果以生成最终的全景分割结果。0实验结果和分析0训练环境和参数设置0实验环境基于Linux Ubuntu 20.04操作系统，网络模型由PyTorch 1.9.0框架实现，并使用四个NVIDIA TITANV显卡进行训练。使用首先增加然后减小的预热学习率策略，首次2000次迭代后将初始学习率增加到0.001，然后逐渐减小学习率，衰减因子设置为0.9。使用Adam优化器优化网络，设置�1=0.9，�2=0.999，权重衰减为0。根据DeeperLab [9]中的经验设置�1=3，�2=200，�3=0.01。0与经典全景分割模型的比较实验0为验证本模型的有效性，本节与经典的全景分割模型进行了比较，包括DeeperLab [9]，Panoptic FPN [4]，AUNet [5]，TASCNet [6]，UPSNet[7]，Panoptic-DeepLab [10]，AdaptIS [18]，PCV [19]和PanopticFCN[20]。从表1可以看出，本文方法实现了60.6％的PQ全景质量，达到了最高值，比使用相同骨干网络的Panoptic-DeepLab领先0.6％。此外，Stu�语义类别分割质量、SQ分割质量、RQ识别质量和mIoU平均交集比率的结果都是最高的，证明了本模型在全景分割任务中的有效性。J. Zhang and P. Tian Cognitive Robotics 2 (2022) 186–192 TASCNet ResNet-50 1024 × 2048 59.2 56.0 61.5 _ _ 77.8 UPSNet ResNet-50 1024 × 2048 59.3 54.6 62.7 79.7 73.0 75.2 AdaptIS ResNet-50 1024 × 2048 59.0 55.8 61.3 _ _ 75.3 Panoptic-DeepLab ∗ ResNet-52 512 × 1024 60.0 50.2 67.1 80.9 73.0 78.3 .1 .7 191 0表1 Cityscapes Val上的比较结果0方法骨干输入尺寸 PQ PQ Th PQ St SQ RQ mIoU0全景FPN ResNet-101 1024 × 2048 58.1 52.0 62.5 _ _ 75.70全景FCN ResNet-50 1024 × 2048 59.6 52.1 65.1 _ _ _0图6. 本模型与Panoptic-DeepLab的比较结果0消融实验0为了测试本文中使用的方法的效果，在相同的实验环境和参数设置下，基于ResNet-52骨干网络在Cityscapes数据集上进行了消融实验，以验证多特征融合结构和扩张卷积池金字塔结合注意机制的有效性。表2显示了消融实验结果。多特征融合，在将提取的特征图传递给ASPP模块进行解耦之前，融合以获得具有更丰富的上下文信息和语义背景信息的高维特征图，从而将模型的全景分割质量PQ、案例类别分割质量PQ Th和语义类别分割质量PQSt分别提高了0.4％、0.5％和0.3％，如表2的第二行结果所示。相比之下，仅添加坐标注意机制后的ASPP的实验结果不如前者。如表2的第三行所示，J. Zhang and P. Tian Cognitive Robotics 2 (2022) 186–192 Ours ××60.0 50.2 67.1 78.3 √×60.4 50.7 67.4 77.7 ×√60.1 50.3 67.2 78.5 √√60.6 51.0 67.5 78.7 192 0表2 Cityscapes消融实验0方法 M-FPN CA PQ PQ Th PQ St mIoU0全景分割质量PQ，实例类别分割质量PQ Th和语义类别分割质量PQSt分别提高了0.1％，0.1％和0.1％，但mIoU指数比前者高出0.3％。由于特征图包含更多信息，不相关信息也混入特征图，使得ASPP模块更难解耦，mIoU指数反而下降而不是增加。因此，表2的第四行结果表明，在增加坐标注意机制以增强模型对不相关信息的屏蔽能力后，与前三行结果相比，所有指标均有所改善，与原始模型的结果相比，mIoU指数提高了0.4％。0结果0图6显示了该模型的全景分割结果与Panoptic-DeepLab [10]的比较，并且图中的一些细节已经放大以便识别。0利益声明0作者声明他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。0参考文献0[1] J Long, E Shelhamer, T. Darrell，用于语义分割的全卷积网络，在：IEEE计算机视觉和模式识别会议论文集，2015年，第3431-3440页。0[2] K He, G Gkioxari, P Dollár等，Mask r-cnn，在：IEEE国际计算机视觉大会(ICCV)论文集，2017年，第2961-2969页。[3] A Kirillov, K He, RGirshick等，全景分割，在：IEEE/CVF计算机视觉和模式识别会议论文集(CVPR)，2019年，第9404-9413页。0[4] A Kirillov, R Girshick, K He等，全景特征金字塔网络，在：IEEE/CVF计算机视觉和模式识别会议论文集(CVPR)，2019年，第6399-6408页。0[5] H Sun, C Li, B Liu等，AUNet: 用于全乳房X线照片中乳房肿块分割的注意力引导密集上采样网络，J. Phys. Med. 65 (5) (2020) 055005。0[6] J Li, A Raventos, A Bhargava等，学习融合物体和物体，%J arXiv预印本arXiv (2018) .01192。[7] Y Xiong, R Liao, H Zhao等，Upsnet:一种统一的全景分割网络，在：IEEE/CVF计算机视觉和模式识别会议论文集(CVPR)，2019年，第8818-8826页。0[8] L-C Chen, Y Zhu, G Papandreou等，带有空洞可分离卷积的编码器-解码器用于语义图像分割，在：欧洲计算机视觉大会(ECCV)论文集，2018年，第801-818页。0[9] T-J Yang, M D Collins, Y Zhu等，Deeperlab: 单次图像解析器，arXiv预印本arXiv:1902.05093 (2019)。0[10] B Cheng, M D Collins, Y Zhu等，Panoptic-deeplab:一种简单、强大且快速的自下而上全景分割基线，在：IEEE/CVF计算机视觉和模式识别会议论文集(CVPR)，2020年，第12475-12485页。0[11] T-Y Lin, P Dollár, R Girshick等，特征金字塔网络用于目标检测，在：IEEE计算机视觉和模式识别会议论文集(CVPR)，2017年，第2117-2125页。0[12] S Liu, L Qi, H Qin等，路径聚合网络用于实例分割，在：IEEE计算机视觉和模式识别会议论文集，2018年，第8759-8768页。0[13] K He, X Zhang, S Ren等，深度残差学习用于图像识别，在：IEEE计算机视觉和模式识别会议论文集(CVPR)，2016年，第770-778页。0[14] Chen L-C, Papandreou G, Schroff F等。重新思考ATROUS卷积用于语义图像分割，2017年。[15] Q Hou, D Zhou, J.Feng等，用于高效移动网络设计的坐标注意力，在：IEEE/CVF计算机视觉和模式识别会议论文集(CVPR)，2021年，第13713-13722页。0[16] Vaswani A, Shazeer N, Parmar N等。注意力就是一切，2017年，30页。[17] F. Chollet, Xception:深度学习与深度可分离卷积，在：IEEE计算机视觉和模式识别会议论文集(CVPR)，2017年，第1251-1258页。0[18] K So�iuk, O Barinova, A. Konushin，Adaptis: 自适应实例选择网络，在：IEEE/CVF国际计算机视觉大会，2019年，第7355-7363页。0[19] H Wang, R Luo, M Maire等，像素一致性投票用于全景分割，在：IEEE/CVF计算机视觉和模式识别会议论文集，2020年，第9464-9473页。0[20] Y Li, H Zhao, X Qi等，全卷积网络用于全景分割，在：IEEE/CVF计算机视觉与模式识别(CVPR)会议论文集，2021年，第214–223页。

下载后可阅读完整内容，剩余1页未读，立即下载