双向图推理网络：全景图像分割

172 浏览量更新于2023-10-24 收藏 1.81MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9080基于双向图推理网络的全景图像分割Yangxin Wu1 < $，Gengwei Zhang1 <$，Yiming Gao1，Xiajun Deng1，Ke Gong2，XiaodanLiang1，2 Yuan，Liang Lin1，21中山大学、2DarkMatter AI研究{wuyx29，zhanggw8，gaoym9，dengxj9}@ mail2.sysu.edu.cn，kegong936@gmail.com，xdliang328@gmail.com，linliang@ieee.org摘要最近的研究全景分割诉诸一个单一的端到端的网络，结合实例分割和语义分割的任务。然而，以前的模型只统一了两个相关的任务，在建筑层次上通过多分支计划或揭示了它们之间的潜在的相关性，通过单向的特征融合，这忽视了明确的语义和共生关系的对象和背景。背景信息对目标的识别和定位至关重要，而包含目标的细节对背景场景的分析至关重要，因此本文研究了在全景分割任务中，本文提出了一种双向图推理网络（BGRNet），它将图结构引入到传统的全景分割网络中，以挖掘前景事物和背景事物类内部和之间的模块内和模块间关系。特别是，BGRNet首先在实例和语义分割分支中构建特定于图像的图，分别在建议级别和类级别实现灵活的推理。为了建立独立分支之间的相关性，并充分利用事物和事物之间的互补关系，我们提出了一个双向图连接模块，以可学习的方式在分支之间传播信息。实验结果证明了我们的BGRNet的优越性，它在具有挑战性的COCO和ADE20K全景分割基准上实现了新的最先进性能。1. 介绍由于基于人类COM的视觉推理†同等贡献。通讯作者。在常识上，人类能够一眼就完成对图像的对象和背景的识别和分割。最近的研究已经被用于开发许多特定的模型，例如实例分割[5，22]和语义分割[26]。一般来说，实例分割检测和分割每个前景对象（命名的东西），而语义分割解析无定形区域和背景（命名的东西）。这些方法在不同的模型中处理这两个相关的任务，牺牲了对图像的整体理解。最近，新提出的全景分割任务吸引了研究[18，19，21，25]来开发端到端网络以同时分割所有前景对象和背景内容。如图1（a，b）所示，以前的一些工作[18，19]通过多分支方案在架构级别统一了实例分割和语义分割。其他人则通过单向特征融合来揭示两个相关任务之间的潜在联系[21]。这些方法虽然在一个网络中成功地处理了两个任务，但忽略了复杂环境中对象和背景之间的显式语义和共现关系，导致性能增益有限。为了解决这些现实挑战，我们重新考虑对象分割以及场景解析的特性，并研究对它们之间的各种关系进行鲁棒建模，以更好地解决全景分割任务。直观地说，当预测细粒度对象类别和轮廓时，视觉上下文对于实例分割是必不可少的[8]，而前景对象细节可以有利于全局场景和内容的分割[21]。显而易见的是，在一个统一的网络中，事物和材料可以通过信息传播彼此受益，从而提高全景分割的整体性能。受此启发，我们引入了一个新的双向图推理网络（BGRNet），它包含了9081树草地运动场材料科网络事情分支材料科特征网络事情分支棒球手套运动球人事情分支网络双向图推理东西分支(a)（b）（c）图1.用于全景分割的不同架构。(a)简单的多分支结构[18，25]，其中两个分支没有连接。(b)单向特征连接结构[21]，将信息从事物分支传播到填充分支。(c)我们的双向图推理网络，基于图卷积实现事物和东西将图结构分级到传统的全景分割网络中，以编码事物和材料之间的语义和共现关系以及扩散信息，如图1（c）所示。具体来说，利用图卷积网络[17]，我们的BGRNet从全景分割管道中提取图像特定的图，并利用多头注意力机制学习事物和材料的各种关系。我们提出了一个双向图连接模块来连接不同分支中的事物图和填充图，从而实现图的双向推理和信息传播。然后，我们通过投影扩散的图节点特征来细化两个分支中的特征表示。这样，BGR-Net就能感知事物和材料之间的相互关系，并在全景分割中表现出优越的性能此外，我们的BGRNet可以很容易地实例化到各种网络骨干，并以端到端的方式进行优化。我们对两个具有挑战性的全景分割基准进行了广泛的实验，即，COCO [24]和ADE20K [37]。我们的方法在建模和利用事物和材料之间的关系方面表现出了卓越的灵活性和有效性，在两个基准点的PQ方面实现了最先进的性能。2. 相关工作实例分段。实例分割主要是对前景目标进行定位和分割。早期的方法[6，11]遵循基于分段建议的自下而上方案[1]或自上而下方案[12]，直到Mask R-CNN [13]扩展Fast R-CNN以通过并行预测实例掩码和类标签来处理实例分割，这成为实例分割的常见骨干Mask ScoringR-CNN [15]通过将掩码质量与掩码分数对齐来校正Mask R-CNN。语义分割。语义分割将场景图像解析为每个像素的语义类。始于FCN [26]和DeepLab家族[2]，全卷积网络和atrous卷积等方法通过提高整体分割质量使语义分割蓬勃发展此外，文献[35，36]还研究了基于全局上下文信息的场景分析方法全景分割。全景分割是由[19]引入的一项新任务，最近受到研究人员的广泛关注。该任务将实例分割和语义分割统一起来，需要一个能够同时分割前景实例和背景语义类的算法。在[19]中，Kirillovet al.简单地将来自PSPNet和Mask R-CNN的结果以图解方式组合以产生全景分割输出。不久之后，[18]提出了一个用于全景任务的端到端网络，该网络具有共享的主干和两个分支：分别用于实例分割的事物分支和用于语义分割的材料分支。[21]不是分别学习两个任务，而是试图利用实例分割分支的特征，通过注意力机制来提高[25]提出了一个空间排名模块，以解决阻碍全景分割性能的遮挡问题。此外，UP-SNet [32]利用可变形卷积以及无参数全景头来追求更高的单位增益。在[28]中，还使用了一个迷你deeplab模块来捕获更多的上下文信息。图推理。人们对基于图的方法[17，29，33，34，4]的兴趣激增，并且通过在单个图中对领域知识进行建模[4，16，31，10]或直接融合图推理结果[9]，图推理已被证明对许多任务具有实质性的实用价值。然而，主流的全景分割方法缺乏从不同领域（如图像分割）挖掘相互关系的研究。网络中的位置和通道推理，事物和材料子集），因为不同的图子集需要更显式的连接以进行相互作用和促进。在本文中，我们提出了双向图推理，传播信息，9082物科骨干区域特征类中心增强功能箱头面罩头分类器分类框图连接图边全景输出材料科增强功能图2.概述我们的BGRNet，可以堆叠在任何现有的两个分支panoptic分割网络。深度卷积网络提取的图像特征被送入事物分支和填充分支。我们构造基于以下的事物图：该区域在汇集后的特征。通过从局部特征中提取类中心，得到Stuff-Graph节点表示。然后使用双向图连接模块在分支内部和分支之间传播高级语义图表示。最后，我们重新投影图特征，以增强视觉特征的可区分性，并提高事物和材料分支的性能。信息，以支持在一般情况下更灵活和复杂的推理任务。此外，不同于[4，16，31]使用单个图进行推理，我们的方法旨在构建一个图连接模块，其节点具有强语义（而不是[4]中的模糊节点），因此更易于解释并能够编码各种关系。3. 双向图推理网络3.1. 概述全景分割任务是为图像中的每个像素分配语义标签和实例ID。目前的方法通常通过统一模型来解决这个问题，该模型分别使用前景事物和背景事物的两个分支[7，18，20，21]。具体而言，对于输入图像，通过使用融合策略将来自两个分支的结果组合生成最终的全景分割结果[19]。扩展[18]中简单但有效的基线，我们旨在进一步挖掘前景事物或背景事物内部和之间的分支内和分支间关系。首先，如图3所示，我们在网络中的两个独立分支中构建特定于图像的图，以实现建议级别和类级别的灵活推理。在实例分割分支中，建立区域图以捕获提议之间的成对关系。在语义分割分支中，我们基于提取的类中心构建了一个图，该图允许在由粗到细的范例中进行有效的全局推理其次，提出了一种双向图连接模型.习惯于以可学习的方式推断事物和材料之间的隐含语义关系在将信息扩散到各个节点之后，执行模块内推理以细化两个分支的视觉特征。通过这种方式，我们明确地对事物和材料类之间的相关性进行建模，并在全局视图中利用它们的互补关系，这有助于全景分割，并在我们的实验中具有实质性的实用价值。我们的双向图推理网络的概述如图2所示。3.2. 图表示形式上，我们将图定义为G=（V，A，X），其中V是节点集，A表示邻接矩阵，X是特征矩阵，其中每行对应于V中的一个节点。构建物图。在经典的目标检测范例中，提取的区域被单独分析，而不考虑对象之间的潜在依赖关系，这导致不一致的检测结果和限制。在全景分割等更具挑战性的任务中表现不佳。为了解决这个问题，我们引入了一个Thing-Graph直接超越局部区域进行推理，它可以细化某些区域的视觉特征，这些区域会受到遮挡，类别模糊和微小尺寸对象的影响。具体地说，我们建立一个物图Gth=（Vth，Ath，Xth），每个输入图像，其中|V th|等于图像中检测区域的数量，Xth∈R|Vth| ×N是从所有区域的骨干中提取的特征，N是维度。区域特征。考虑到各种关系9083区域特征物图ROI Align增强区域功能项目介绍box类图形连接模块地方特色（SC#$R E整形（NxHW）整形（硬件x|）*+|）⨂StuffClassCenterNx|）*+|填充图⨁增强地方特色语义段图3.我们的内部模块图的图，即，Thing-Graph和Stuff-Graph，以及我们的模块间图连接模块。对于Thing-Graph，我们利用池化的区域特征作为区域图节点。对于Stuff-Graph，我们通过粗评分图从局部特征中提取类中心。然后，图连接模块将信息扩散到各个图节点，并执行模块内图推理，以分别在建议和像素级别将图节点特征投影到视觉特征，以便细化实例分割和语义分割的结果，然后在类似NMS的过程中将其解析地组合[19]。在区域之间，我们使Gth中的边可学习，以允许在多个建议之间进行灵活的推理。我们还通过比较4.3节中使用不同类型知识图的结果来证明这种可学习方案的有效性。构建Stuff-Graph。在语义分割方面，一种简单的构建填充图的方法是将每个像素看作一个类似于非局部网络的[30 ]第30段。然而，这种方法在语义分割的密集预测中表现出明显的局限性，因为它需要大量的计算和巨大的GPU内存占用。因此，为了减少计算开销以及捕获长范围依赖性，我们将整个特征映射投影到Stuff-Graph的顶点，使得每个顶点表示特定的stuff类。关于Stuff-图Gst=（Vst，Ast，Xst），给定粗略得分图S粗∈ R|V·ST|首先将S粗整形为R HW ×H× W，然后将S粗整形为RHW×H×W，最后将S 粗整形为RHW×H×W|V·ST|和F到RN×HW。沿硬件执行softmax后在分数图上的通道，我们可以获得类节点的特征X st∈ R|V·ST|通过矩阵乘法和转置：Xst=（F<$S<$coarse）T，（1）其中F<$andS<$coarse表示重新整形后的F和Scoarse公式1背后的直觉是，局部特征，即，对像素的特征进行集合，通过软映射得到基于像素相似度的类节点特征通过将全局类节点特征分配给Xst，我们显著地重新定义了减少了硬件开销，|V·ST|.此外，提取的填充节点更具代表性，并可以提供全局线索，以进一步有利于最终的分类过程后，重新映射到本地功能。我们进一步证明，在第4.3节中的Stuff-Graph中提取的类中心的特征。构建事物图和填充图的过程如图3所示。3.3. 双向图形连接模块给定事物图和素材图，我们的目标是对事物和素材之间的相互关系进行建模，并将特征传播到Gth和Gst中的所有节点。跨分支的图节点特征融合模块的设计背后的基本原理是相当简单和可理解的，因为在现实世界场景中存在前景事物和背景事物的共同出现的一致模式例如，当图像中存在像人、运动球、棒球棒和棒球手套这样的物体时，预测沙子和运动场的材料更合理，反之亦然。因此，我们将这种洞察提炼到图形连接模块中，以跨越分支（在前景事物和背景事物之间）桥接所有语义信息。通过这种方式，可以利用来自不同分支的不同类别的信息、关系或视觉相关性。从物图到物图的图连接可以公式化为：Xt−s=At −sXthWst，（2）骨干RPNSC#$R E项目9084日日StSt其中A t−s∈R|V·ST| ×|Vth|Wst ∈RN×D0是一个可训练的投影矩阵。 Xt−s是从物图到物图的映射节点特征，Graph. 类似地，从填充图到事物图的图连接可以利用Xst和转移矩阵As-t以及可训练矩阵Wth来获得。所以我们寻求适当的传递矩阵At-s={at-s}，3.4. 将节点要素投影到可视要素为了细化实例和语义分割的结果，我们分别在建议和像素级别将图节点特征投影到视觉特征。我们在图3中说明了这个过程。模块内推理检测。在增强things分支的特性时，我们只关心s−tIJs−t提案中的特征。因此，我们将更新的A s−t={aij }∈R|Vth| ×|V·ST|，其中ij表示从填充图的第j个节点到在调整维度后，为每个提案添加事物图特征：第i个节点。fth =Ath Xth W内，（7）基于图的表示和图的连通性，因此，我们的图结构可以自然地分解为其中W内∈R（N+D0）×D1 是权重矩阵，块，由ΣA=AthAs−tΣ，X=Σ第XΣ、（3）内部模块推理的东西分支。那我们就...将增强的特征F_th连接到PROTECT的视觉特征，并将它们馈送到最终的全连接层中以获得检测结果。At−sAstXSt用于分割的模块内推理。以促进其中，A th、A st、A t−s、A s−t分别是事物对、填充物对、事物对和填充物对的归一化邻接矩阵。为了对不同节点特征的分布进行建模并自适应地处理它们的成对关系，我们采用了注意力机制，在stuff分支中的稠密预测，我们需要增强在经验类中心的指导下，提取每个像素的局部特征。这可以被认为是等式1的逆运算。我们将S粗整形为RHW×|V·ST|，填充分支的增强特征可以计算为：anism [29]在我们的模型中获得足够的表达能力。对于任意y，对于X∈ N中的两个节点xi，xj，FSt=S粗Xst W内，（8）权重αij由下式计算：其中W内∈R（N+D0）×D2 是权重矩阵，αij=Σexp（δ（W[xi<$xj]）），（4）stuff分支中的模块内推理。然后f st是con-与局部特征F链接，然后将其馈送到k∈Niexp（δ（W[xi<$xk]））哪里||是级联运算，Ni是节点i的邻域，δ是LeakyReLU非线性激活函数，W是权重矩阵。为了简单起见，我们构建一个X的全连通图，即，Ni包含所有节点，X.正在更新节点功能。形式上，利用归一化图邻接矩阵A和节点特征X，推理层由下式给出：最终卷积层以获得语义分割结果。4. 实验4.1. 实验设置实施详情。BGRNet的架构构建在Mask R-CNN [13]上，具有类似于[32]的简单语义分割分支。确切地说，ResNet 50-FPN [14，23]的多级特征首先经历哪里ΣX=XthXstΣ=X<$$>σ（A<$X<$$>W<$），（5）每个级别具有3个卷积层的可变形图像，然后被双线性上采样到输入图像的原始尺度的1/4。最后，将不同层次的特征加在一起，并使用soft-max的1×1卷积来预测所有的填充类。我们遵循所有ΣW=WthWstΣ，XWΣ=XthWthXstWstΣ、（6）Panoptic-FPN中的超参数设置和数据增强策略[18]。我们使用Py- torch [27]实现我们的模型，并用8个GPU训练所有模型，批量大小为16。初始学习率为0.02，除以Wth，Wst∈RD0×D0是可训练的权矩阵，X<$th，X_t是新事物图和Stuf f-图的节点特征分别地，σ表示级联，并且σ是ReLU非线性函数。该模型采用T图推理层，将在类之间传播和更新信息，以构建更有区别的表示。908510两次微调。对于COCO，我们训练了12个epoch，即，1x时间表，遵循[18]。对于ADE20K，我们训练了24个epoch，并保持与COCO成比例的学习率时间表。我们采用SGD优化器，动量为0.9，权重衰减为5e-4。我们发现将注意机制扩展到多头9086表1.与COCO阀组最新技术的性能比较 †表示我们的实施。Panoptic-FPN-D是Panoptic-FPN的可变形对应物[18]。所有方法使用ResNet 50-FPN作为骨干网络。方法DF转换器PQPQThPQSt[18]第十八话39.045.928.7Panoptic-FPN-D†C39.946.929.3AUNet [21]39.649.125.2OANet [25]39.048.326.6UPSNet-C [32]C41.547.532.6[32]第三十二话C41.547.332.8UPSNet [32]C42.548.533.4SpatialFlow [3]40.946.831.9我们的BGRNetC43.249.833.4注意力[29]，我们应用了3个独立的输出注意力头。我们使用两个图推理层（即。 T= 2 ）和尺寸N=D0=D1=D2= 128。数据集和评估指标。我们在COCO [24]和ADE20K [37]上评估了我们的方法。COCO是用于全景分割的最具挑战性的数据集之一，包括用于训练的115k图像，用于验证的5k图像和用于测试开发的20k图像，具有80个事物和53个素材类。ADE20K是一个用于全景分割的密集注释数据集，包含20k张用于训练的图像、2k张用于验证的图像和3k张用于测试的图像，具有100个事物和 50 个素材类。根据 [19] ，我们采用全景质量（PQ），语义质量（SQ）和识别质量（RQ）进行评估。表2.ADE20K valset上的性能比较Panoptic- FPN-D是Panoptic-FPN的可变形对应物[18]。†in-指示我们的执行。方法PQ[18]第十八话[18]第十八话我们的BGRNet31.8PQTh32.533.134.1PQSt22.924.027.34.2. 与最新技术水平的比较与COCO和ADE 20K数据集上最新技术方法的比较列于表1和表2。一些以前的方法实现了超过42.5% PQ的高性能，这要归功于专门设计的全景头[25]，多尺度信息[18，25]和两个源注意事项[21]与以前的方法[32，25，21]不同，我们的BGRNet不依赖于复杂的特征融合过程，即，RoI上采样[21]，空间排名模块[25]，掩码修剪过程[32]。相反，我们利用强大的图模型来捕获不同分支之间的模块内和模块间依赖关系。因此，我们实现了一致的精度增益超过现有的方法，并设置PQ、PQTh、PQSt方面的最新结果。先进的结果表明，我们的BGRNet的优越性，结合互惠信息和推导的潜在关系的事物和东西出现在图像中。ADE20K数据集的定性结果如图5所示。可以看出，尽管存在复杂的对象外观和具有挑战性的背景内容，但我们的方法比基线方法输出更有语义意义和更精确的预测例如，基线错误字段为草，而我们的BGR- Net预测正确，这要归功于图像中事物的传播信息有关COCO和ADE20K的更多可视化结果，请参见补充材料。表3. ADE 20K阀组的消融研究w事物图w填充图w事物图/填充图30.630.731.133.733.033.524.926.226.5我们的BGRNet31.834.127.34.3. 消融研究模块内组合和模块间图表表3显示了我们的BGRNet在ADE20K val set上的不同组件的性能。“wThing(Stuff)-Graph”我们首先分析单个图在事物分支或事物分支中的效果。对于单个事物图，由于考虑了提议之间的相关性的区域推理，PQTh和PQSt对于单个Stuff-Graph，PQSt得到了2.5%的相对改进，这显示了在由粗到细的范例中提取类中心以细化局部特征的巨大效果。将这两个图合并，分支之间没有连接，整体PQ已经比基线高出1%，这是对具有此外，我们引入了图连接模块，这大大提高了分割质量的东西，由于挖掘前景和背景之间的潜在关系的能力。从表3中的最后一行可以看出，我们的BGRNet将PQTh和PQSt分别提高了0.8%和3.6%，导致整体 PQ 提高了 31.8% ，大大优于 Panoptic- FPN[18]。Thing/Stuff-Graph构造。为了验证所提出的事物图和填充图的有效性，我们方法基线PQPQTh30.1 33.3PQSt23.79087表4.ADE20K valset上不同图形和架构设计的比较#基本网络[13]物图建构填充图构造图谱连接推理方向PQ PQT hStPQ[16]第十六话关注非本地人[31]班级中心语义相似度关注物-物东西1J30.133.323.72JJ30.433.524.23JJ30.633.724.94JJ30.632.826.35JJ30.733.026.26JJJJJJ31.533.727.17JJJJJ31.433.627.08JJJJJ31.634.326.29JJJJJJ31.834.127.3图像前景墙天花板领域印象草天花板树建筑图像地球水之家工厂形象前景建筑天空之路图4.提取的类中心和我们的方法产生的像素之间的相似性的可视化。班级中心列在图片下方。颜色越深，类中心与像素之间的相似性越强。得益于类中心图的构造方案，BGRNet可以在类中心的指导下从全局的角度对局部特征进行细化。最好用彩色观看。考虑不同的施工方法，并在表4（#2，#3）中比较它们的性能。关于事物图，我们考虑通过固定的知识图建立区域关系。至于前景对象的知识图，我们遵循[16]来构建一个固定的关系知识Thing-Graph，并根据它们的类预测提取区域的邻接矩阵。该方案实现了30.4%的PQ，这是不如在BGRNet中采用的多头注意力机制其弱点可能在于错误的区域图，由于错误的分类的一些建议，这表明一些建议之间的边的权重是不合理的。至于背景的非局部图，尽管实现了略高的PQSt（26.3%vs 26.2%），但它在-由于每个像素都被视为图形节点，因此计算量要大得多。此外，对于非局部图，当考虑基于区域的Thing-Graph时，随后的图连接将是极其昂贵的。可以看出，基于注意力的事物图和类中心填充图的构造导致更高的性能和适度的计算。不同的图形连接矩阵。我们还使用不同的图连接方法研究了模型的性能，即，语义相似性确切地公式3中的A是基于语义相似性的，在这种情况下，多头机制。这个词利用区域的预测类和类中心的填充名的嵌入来计算余弦相似度9088图5. ADE20K数据集上全景分割输出的可视化比较。原始图像、地面实况分割、全景FPN输出和BGRNet输出从上到下呈现。以形成邻接矩阵。从表4中可以看出，基于语义相似性的连接也有助于弥合事物和材料之间的鸿沟，并达到31.5%PQ ，这仍然低于基于注意力的机制（31.8%PQ）。这表明我们的图连接模块比仅仅依赖于一个固定的语言图具有更充分的表达能力，能够发现复杂场景中事物节点和材料节点之间的多样关系。单向增强。我们通过探索表4中的单向增强来研究图连接的方向。先前的方法[21]使用两个注意力来源来执行从前景分支到背景分支的单向增强。为了充分利用前景和背景之间的相互关系，我们研究并比较了不同增强方向的性能。‘Thing-Stuff’ stands for only ‘Stuff-Thing’ represents only en- hancing可以发现，虽然单向增强可以带来相当大的性能增益，但仅在一个方向上执行 Graph Connection 并不能完全增强特征，双向Graph Connection将整体PQ进一步提升至31.8%。把相关性形象化。为了证明第3.2节中描述的提取的类中心的代表性特征，我们在图4中可视化了特定填充类中心和像素的局部特征之间的相似性。可以看出，所提取的素材类中心cor.尽管存在多类填充、类间模糊和边缘模糊等现象，但其与相应区域的相关性较好，其他区域的响应受到抑制。例如，在第三行中，前类中心与令人困惑的物质类（包括植物、水和土）相关性很好。在类中心特征的指导下，可以从全局的角度对局部特征进行细化.这大大提高了我们的模型在PQSt方面的性能。5. 结论本文介绍了一种用于全景分割的双向图推理网络（BGRNet），它在实例级上同时分割前景对象我们提出了一个双向图连接模块，以图像中对象的外观和提取的类中心为指导，从事物和事物之间的语义和共现关系中大量的实验证明了我们的BGRNet的优越性，它实现了新的国家的最先进的性能在两个大规模的基准。6. 确认本研究得到国家重点研发计划项目（批准号：2018AAA0100300，国家自然科学基金项目（批准号：U19A2073）和深圳市自然科学基金项目（批准号：61976233）。2019191361.9089引用[1] 巴勃罗·阿贝·拉伊兹、乔迪·蓬-图塞特、乔纳森·T·巴伦、费兰·马克斯和吉滕德拉·马利克.多尺度组合分组在CVPR，第328-335页，2014年。2[2] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。参见ECCV，第801-818页，2018年。2[3] Qiang Chen ， Anda Cheng ， Xiangyu He ， PeisongWang，and Jian Cheng.Spatialflow：桥接全景分割的所有任务arXiv预印本arXiv：1910.08787，2019。6[4] Yunpeng Chen，Marcus Rohrbach，Zhicheng Yan，YanShuicheng，Jiashi Feng，and Yannis Kalantidis.基于图的全局推理网络。在CVPR中，第433-442页，2019年。二、三[5] Jifeng Dai ，Kaiming He ，Yi Li ，Shaoqing Ren ，andJian Sun.实例敏感的全卷积网络。见ECCV，第534-549页。施普林格，2016年。1[6] 戴季峰、何开明、孙建。用于联合对象和填充物分割的卷积在CVPR，第3992-4000页，2015年。2[7] Daan de Geus，Panagiotis Meletis，and Gijs Dubbelman.使用联合语义和实例分割网络的全景分割。arXiv预印本arXiv：1809.02110，2018。3[8] 尼基塔·德沃尔尼克朱利安·麦拉尔和科迪莉亚·施密德建模视觉上下文是增强对象检测数据集的关键。在ECCV中，第364-380页，2018年。1[9] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在CVPR中，第3146-3154页，2019年。2[10] Ke Gong，Yiming Gao，Xiaodan Liang，Xiaohui Shen，Meng Wang ， and Liang Lin.Graphonomy ： Universalhuman pars- ing via graph transfer learning （英语：Graphonomy ： Universal human pars- ing via graphtransfer learning）在IEEE计算机视觉和模式识别会议论文集，第7450-7459页，2019年。2[11] Bhara thHariharan，PabloArbela' ez，RossGirshick，andJi-tendra Malik.同时检测和分割。见ECCV，第297-312页。Springer，2014. 2[12] Bhara thHariharan，PabloArbela' ez，RossGirshick，andJi-tendra Malik.用于对象分割和细粒度定位的超列。在CVPR，第447-456页，2015年。2[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在ICCV，第2961-2969页，2017年。二、五、七[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。5[15] Zhaojin Huang，Lichao Huang，Yongchao Gong，ChangHuang，and Xinggang Wang.面具得分r-cnn。在CVPR中，第6409-6418页2[16] Chenhan Jiang，Hang Xu，Xiaodan Liang，Liang Lin.用于大规模目标检测的混合知识路由模块。在NeurIPS，第1552-1563页，2018年。二、三、七[17] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。29090[18] Alexander Kirillov，Ross Girshick，Kaiming He，andPiotr Dol la'r.光学特性金字塔网络工作。arXivpreprintarXiv：1901.02446，2019.一二三五六[19] Alexander Kirillov 、 Kaiming He 、 Ross Girshick 、Carsten Rothe r和PiotrDol la'r。全视节段arXiv预印本arXiv：1801.00868，2018。一二三四六[20] Jie Li ， Allan Raventos ， Arjun Bhargava ， TakaakiTagawa，and Adrien Gaidon.学会融合各种东西。arXiv预印本arXiv：1812.01192，2018。3[21] Yanwei Li ， Xinze Chen ， Zheng Zhu ， Lingxi Xie ，Guan Huang，Dalong Du，and Xingang Wang.用于全景分割的注意力引导统一网络。在CVPR，2019年6月。一二三六八[22] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义分割。在CVPR中，第2359-2367页，2017年。1[23] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR中，第2117-2125页，2017年。5[24] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。参见ECCV，第740-755页。Springer，2014.二、六[25] Huanyu Liu ， Chao Peng ， Changqian Yu ， JingboWang，Xu Liu，Gang Yu，and Wei Jiang.用于全景分割的端到端网络。在CVPR，2019年6月。一、二、六[26] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在CVPR，第3431-3440页，2015年。一、二[27] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan 、 Edward Yang 、 Zachary DeVito 、 ZemingLin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017. 5[28] LorenzoPorzi ， SamuelRotaBulo ， AleksanderColovic，and Peter Kontakeder.无缝场景分割。在IEEE计算机视觉和模式识别会议上，第8277-8286页，2019年。2[29] Peta rVelicˇko vic´ ， GuillemCucurull ， ArantxaCasanova，Adriana Romero，Pietro Lio，and Yoshua Bengio.图at-tension 网络。 arXiv 预印本 arXiv ： 1710.10903 ，2017。二、五、六[30] 王晓龙，Ross Girshick，Abhinav Gupta，和KaimingHe.非局部神经网络。4[31] 王晓龙，Ross Girshick，Abhinav Gupta，和KaimingHe.非局部神经网络。在CVPR中，第7794- 7803页，2018年。二、三、七[32] Yuwen Xiong ， Renjie Liao ， Hengshuang Zhao ， RuiHu ， Min Bai ， Ersin Yumer ， and Raquel Urtasun.Upsnet：统一的全景分割网络。arXiv预印本arXiv：1901.03784，2019。二、五、六[33] Keyulu Xu，Weihua Hu，Jure Leskovec，and StefanieJegelka.图神经网络有多强大？arXiv预印本arXiv：1810.00826，2018。2[34] Zhanfu Yang，Fei Wang，Ziliang Chen，Guannan Wei，and Tiark Rompf. 2量化布尔公式求解器的图神经推理。arXiv预印本arXiv：1904.12084，2019。29091[35] Yuhui Yuan和Jingdong Wang。OCNET：用于场景解析的对象上下文arXiv预印本arXiv：1809.00916，2018。2[36] Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。在CVPR中，第2881-2890页，2017年。2[37] Bolei Zhou，Hang Zhao，Xavier Puig，Sanja Fidler，Adela Barriuso，and Antonio Torralba.通过ade20k数据集进行场景解析。在CVPR，2017年。二、六

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

双向图推理网络：全景图像分割

图像分割

Transformer在医学图像分割的局限性

vgg16图像分割步骤

ncnn部署图像分割

python图像分割算法

图像分割推理代码解析

circleloss如何用于图像分割

unet医学图像分割

pytorch深度学习图像分割rgb可视化

基于UNET的图像分割

图像识别与理解包含哪些知识模块

transformer做图像分割任务有什么优势

怎么用java写语义分割

目前深度学习图像分割为主流，其他传统方法还有学习的必要吗，深度学习图像分割有什么缺点

yolov8怎么实现图像分割

yolov8 python图像分割训练模型

tensorflow图像分割unet

c++ mask_rcnn分割推理检测

matlab图像语义分割

最新资源