ISDNet：集成浅层和深层网络以实现高效的超高分辨率分割

27 浏览量更新于2023-10-25 收藏 1.8MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4361×ISDNet：集成浅层和深层网络以实现高效的超高分辨率分割郭少华1人，刘亮2*，甘振业2人，王亚彪2人，张武浩2人，王成杰2人，蒋冠南5人，张伟5人，冉毅1 <$，马立庄1人，3 <$，徐科41上海交通大学2腾讯优图实验室3华东师范大学4香港城市大学5{郭晓华，冉毅}@ sjtu.edu.cn;{江根，张伟}@ catl.com; ma-lz@cs.sjtu.edu.cn;{leoneliu，winggzygan，caseywang，wuhaochang，jasoncjwang}@ tencent.com; kkangwing@gmail.com;摘要超高分辨率图像分割的两大障碍是计算量和存储量。为了解决这些问题，大多数以前的工作遵循全局-局部细化流水线，这更注重内存消耗，但忽略了推理速度。与将大图像分割成小的局部区域的流水线相比，我们专注于直接推断整个图像。在本文中，我们提出了ISDNet，这是一种新型的超高分辨率分割框架，它以一种新的方式集成了浅层和深层网络，在实现准确分割的同时显著加快了推理速度。为了进一步利用浅层和深层特征之间的关系，我们提出了一种新的语义感知特征融合模块，它确保了我们的框架的高性能和鲁棒性。在 Deep-globe 、 Inria Aerial 和Cityscapes数据集上进行的大量实验表明，我们的性能始终优于最先进的技术。具体来说，它实现了73.30mIoU， 27.70 FPS的Deepglobe，这是更准确，172比最近的竞争对手更快。代码可在https://github.com/cedricgsh/ISDNet网站。1. 介绍语义切分是一项研究了几十年的基本任务与其他视觉任务（如图像分类）不同，分割需要处理严重依赖大规模输入图像的小对象和精细边界[1，9，16，17，24，30，40]。特别是，具有数百万甚至数十亿像素的超高分辨率图像在遥感领域起着至关重要的作用[34，41，42]，*这项工作是在S.郭先生曾在腾讯优图实验室实习S. Guo和L.刘有同等的贡献。†通讯作者。(a)图像（b）地面实况（c）我们的(d)深度网络[1]（e）浅网络[11]（f）FCtL [22]图1.超高分辨率图像上不同模型预测的比较。(a)输入图像。(b)相应的地面实况。(c)预测我们的高效分割方法。(d) 使用下采样图像预测深度网络输入。(e)用满量程输入预测浅网络输入。（f）最新超高分辨率分割方法的预测。我们的方法在速度和精度上都优于它们。自动驾驶[13，25，27]，医学影像应用，[15，19，28]。然而，由于内存和计算的限制，一般的分割方法不能很好地处理超高分辨率图像输入.现有的分割方法主要集中于设计一种适用于常规分辨率图像的神经网络结构，而忽略了大规模输入的可行性。如图1（d）所示，深度复杂的模型[1]需要对输入图像进行下采样，以满足内存和速度要求，但在下采样时会丢弃一些细节信息，导致性能不佳。虽然一个浅而轻的模型[11]可以适应处理4362全局分支本地分行优化模块浅支融合模块× ∼×∼图像Image种植斑块图像下采样Deep BrancH预测预测预测(a) 实时模型设计（b）全局局部细化（c）浅、深集成图2.超高分辨率图像分割方案的比较（a）设计轻量级模型架构以适应大规模图像。(b)多个局部补丁细化的全局推理。(c)我们的方法通过整合浅层和深层网络来输入整个图像和下采样图像。如图1（e）所示，在更大规模的输入下，性能很差，因为很难使用简单的架构来捕获长距离和高级语义线索。最近，已经提出了一些专门为超高分辨率分割任务设计的方法[3，4，18，22，33]。这些方法主要遵循全局加细和局部加细的原则。首先将整幅图像输入到全局网络中，然后通过局部网络对不确定区域进行多次细化。虽然这些方法一般要求较低的内存例如，图1（f）显示了一个最近的方法FCtL [22]，它需要8s来推断一个图像，2448 2448决议和 5000块26块5000分辨率，这在大多数应用中是无法忍受的。为了解决上述限制，我们的目标是在超高分辨率分割的准确性，内存和推理速度之间实现更好的平衡。代替全局和局部细化的方案，我们提出了ISDNet，一个新的框架，推断端到端的超高分辨率输入的分割。受轻量级分割模型设计中广泛使用的双边架构[36，37与典型的双边模型不同，该模型针对相同的输入将浅分支和深分支组合起来分别对空间和上下文特征进行建模，我们提出针对浅分支和深分支输入不同尺度的输入此外，我们经验性地发现，为浅分支和深分支输入异构信息并为另一个领域（例如，超分辨率）可以进一步帮助我们的方法的训练。为了直观比较，图2中示出了用于超高分辨率分割的三种方案的原型。总之，本文的贡献包括：• 我们提出了一个新的框架，和深度网络，用于高效的超高分辨率图像分割。此外，我们经验观察到，异质输入可以提高准确性。• 我们提出了一个基于特征感知的特征融合（RAF）模块，该模块基于浅分支和深分支的关系以及辅助的超分辨率和结构蒸馏损失来融合来自浅分支和深分支的特征，以增强从深分支学习的特征。• 大量的实验表明，我们的方法在Deepglobe [7]，Inria Aerial [26]和Cityscapes [6]数据集上取得了显著的效果，同时在推理中获得了快速和低内存消耗。值得注意的是，我们的浅层和深层集成是一个通用框架，特别关注有效的大规模分割，可以利用它来组合许多通用语义分割网络，包括最近的基于Transformer的方法，例如。SegFormer [35].2. 相关作品2.1. 超高分辨率分割GLNet [3]提出了一种协作的全局-局部框架，该框架结合了全局分支的上下文和局部分支的细节，以改善分割结果。基于GLNet，PPN [33]提出了一个分类分支，以选择重要的局部补丁与全局图像融合。此外，CascadePSP [4]采用通用级联结构来全局和局部细化粗分割图。类似地，MagNet [18]引入了一种新颖的多尺度架构。输出的粗略结果将从最粗略的尺度到最精细的尺度逐步细化。最近，FCtL [22]利用了局部感知上下文相关性和自适应特征融合方案，该方案关联并组合局部上下文信息，轻量化模型4363我我2我2我图3.用于高分辨率图像分割的建议ISDNet的流水线给定图像I0 ∈ RH×W×3，我们首先分解HW将其转换成拉普拉斯金字塔（例如，n= 2）。让我，HE ∈R××3（i= 0，1，.，n）表示RGB图像和高频残差，分别对于高频残差Hi，我们通过红色箭头标记的浅分支对其进行处理。蓝色箭头表示深分支采用缩小的RGB图像I2。然后RAF模块融合来自不同分支的特征绿色箭头代表每个模块的优化损失函数。虚线和边界框表示仅在训练中使用的模块加强局部分割。然而，上述超高分辨率分割方法将输入图像裁剪成面向低GPU存储器的小块，这导致冗余计算和非常慢的推理速度。相比之下，在没有裁剪补丁的情况下，我们的方法通过集成浅网络和深网络直接处理满量程和下采样输入，显著加快了推理速度。2.2. 通用语义分割随着卷积神经网络的发展，基于FCN [25]的方法[8，10，12，16，24]在各种基准测试中实现了令人Deeplabv3 [1]采用一个atrous空间金字塔池化模块来捕获多尺度上下文。PSPNet [40]设计了一个金字塔池，以捕获膨胀主干中的局部和全局上下文然而，大多数方法需要大量的计算成本，由于高分辨率的特点和复杂的网络连接。为了解决这些限制，ICNet [39]采用多尺度图像级联结构来实现良好的速度-精度权衡。此外，BiSeNetV1 [37]提出了一种用于低级细节和高级上下文信息的双流路径。在BiSeNetV1 [37]的基础上，STDC [11]提出了一种低延迟骨干，以实现快速和高准确性。此外，它还引入了一个边界图作为监督，使骨干的浅层可以获得边缘感知的特征表示。然而，上述方法不能处理超高分辨率分割好.随后，我们设计了一种新的超高分辨率分割框架，该框架具有浅层和深层网络以及新颖的RAF模块，实现了最先进的分割精度。3. 方法3.1. 概述在这种方法中，我们提出了一个新的框架，以解决超高分辨率分割方法的效率问题如图3所示，深度网络采用下采样图像来提取高级语义信息，而浅层网络直接处理具有增强空间细节的全尺度输入（第3.2节）。此外，一个新的特征融合模块（3.3节）被引入到融合这些分支的基础上，他们的关系。此外，我们采用辅助分割和超分辨率任务来学习深分支的更好特征（第3.4节）。3.2. 架构通常，更高的分辨率或更深的网络[1]会带来更好的性能。然而，它们在推理中也是缓慢和内存密集的。以前的方法通过组合裁剪和下采样输入来减少推理记忆，但由于裁剪补丁的融合，这种解决方案仍然很慢[3，22]。为了进一步加快推理速度，我们设计了一个双边架构，集成了一对分别用D和S表示的深网络和浅网络。由于浅分支S具有较少的层，RAF1/8浅支RAF1/161/32深支拉普拉斯金字塔级联上采样4364Si=0时SD∈∈32∈LL2DLD816不更快的推理速度，它的输入不需要任何下采样或裁剪。我们输入全分辨率图像来提取详细的空间信息。为了进一步迫使浅分支学习互补的空间细节，我们用高频残差替换RGB图像，输入。高频残差{H}n（例如，n=1）由Laplacian金字塔计算：Hi=gi（I）−Upsample（gi+1（I），（1）其中I表示全尺度图像，g（. ）表示高斯模糊，并且i是金字塔中的级别数shallow branch（）的输出是原始图像的分辨率为1和1的对于深分支，由于高分辨率图像的推理速度较慢，因此我们输入下采样的RGB图像，类似于传统方法[3，4]，并输出1个提取高级语义信息的特征图。与[3，4]不同的是，为了更好地将该分支的特征与详细的浅分支融合从这两个分支中提取的三个特征图然后通过特征融合模块的级联进行融合（第3.3节）。最后，标准分割头从融合的特征图产生最终预测。3.3. 关系感知特征融合常见的方法采用加法或串联[3]融合来自不同分支的特征。一些方法[11，37]应用注意力机制来分别为每个特征图重新加权不同的通道。然而，假设来自深分支和浅分支的特征对特征融合的贡献相等是不合理的。因此，我们引入了空间感知特征融合（RAF），以利用浅特征（详细空间信息）和深特征（高级语义信息）之间的关系（图4）。设FsRC×Hs×Ws，FdRC×Hd×Wd分别表示来自浅网络和深网络的特征映射。首先，按如下方式计算信道感知注意力attatt= fc（GAP（F））。（二）因此，生成注意向量atts、attdRC，Fs，Fd。然后，将atts、attd按顺序划分为长为r的群[23]记为Gs，Gd∈Rk×r.不图4.关系感知特征融合模块的图示。蓝色和红色分别表示由深分支和浅分支产生的特征图其中σ是sigmoid函数，α是可学习参数。之后，融合特征F融合计算如下：低点：F融合=M s·F s+上采样（M d·F d）。其中·表示逐元素乘法。3.4. 损失函数分割损失。标准交叉熵损失用于最终分割结果（SEG）和深分支后的辅助分割头（AUX）。超分辨率损失。深分支使用低分辨率图像作为输入，从而产生噪声特征，特别是在边界周围。为了学习更准确的表示，我们添加了一个超分辨率头来重建原始图像I0。共同均方误差lossL_SR用于监督重建图像I_rec：LSR=I0−I rec2。（六）结构蒸馏损失。在没有交互的情况下直接添加上述超分辨率任务带来的改进有限。为了加强超分辨率和语义分割任务之间的交互，受[31]的启发，我们提出从超分辨率头部的最后一层提取结构信息，以加强深分支特征。具体地，我们用Fd表示深分支特征，用Fsr表示超分辨率头部特征下采样至与Fd相同的分辨率时，结构蒸馏损失LSD定义如下：K 然后，我们定义关系矩阵R∈Rk×k为-LSD =？FTFd-FsrFsr¨。（七）对每个组对，通过内积将Gs和GdR= G s G T。（三）将调制因子M∈RC定义为：M=σ（att+αfc（flatten（R），（4）整体损失。整体亏损是加权组合在所有上述损失中：L= LSEG+ λ1LAUX+ λ2LSR+ λ3LSD。（八）注意，用于深分支的超分辨率头部和分段头部两者仅在训练中使用。一GF一G一G组F展平A加上采样Schur积矩阵乘积MLPMLPMLP间隙MLP间隙4365×××4. 实验结果我们首先介绍了数据集和实现细节。然后，我们与其他方法进行了对比分析。我们采用类的平均交集超过联合（mIoU），内存消耗和每秒帧数（FPS）作为主要指标。最后，我们讨论了我们提出的方法中每个组件的影响。4.1. 数据集为了评估所提出的方法，我们对两个广泛使用的超高分辨率图像分割数据集进行了综合实验：DeepGlobe[7]和Inria Aerial [26]。此外，我们使用流行的通用数据集Cityscapes [6]来验证我们方法的通用性。DeepGlobe DeepGlobe数据集包含803幅图像，分辨率为2448 × 2448。它包含7类景观区域，其中命名为“未知”的类不考虑在评价中。我们遵循[3]的协议，将所有图像分为训练集、验证集和测试集，分别包含455、207和142张图像。因里亚航空公司。Inria Aerial数据集提供了180个图像，具有5000 - 5000分辨率和密集注释，具有用于建筑物和非建筑物区域的二进制掩码。在[3]之后，我们将图像分为训练集，验证集和测试集，分别有126，27和27张图像。城市景观。Cityscapes数据集是一个流行的通用数据集，用于语义分割，它有5,000个精细注释的图像，分辨率为1024 2048我们的实验遵循官方数据分割，其中包含2，975张用于训练的图像，500张用于验证的图像，其余1525张用于测试的图像。4.2. 实现细节我们的方法集成了深层和浅层模型，可以利用这些模型来组合许多通用的语义分割网络。在没有特定状态的情况下，我们使用DeepLabv3 [1]和ResNet18 [14]作为深分支，其中分割头将在推理过程中被丢弃。此外，我们利用最近的轻量级模型STDC [11]作为浅分支，其中仅使用前四个阶段。我们通过ImageNet上相应的预训练模型初始化这两个分支。值得注意的是，我们将预训练模型中第一层的权重复制2次，以匹配浅分支的6通道异构输入。我们使用λ1=1，λ2=0。对于所有实验，λ3=1我们采用mmsegmenation [5]工具箱作为我们的代码基础，并遵循默认的增强功能，没有花哨的东西。所有参数均采用SGD法进行优化，动量为0。9 .第九条。初始学习率配置为10−3，多项式衰减参数为0.9，Inria Aerial、DeepGlobe和Cityscapes的最大迭代次数分别设置为40k、80k和160k所有实验都使用8个批次大小在具有Tesla V100 GPU的DGX-1工作站上进行训练。我们使用命令行工具“gpustat”来测量GPU内存。内存和每秒帧数（FPS）是在RTX 2080Ti GPU上测量的，批量大小为1。14.3. DeepGlobe数据集我们首先将我们的框架应用于DeepGlobe [7]，这是一个具有超高分辨率图像的航空数据集。由于土地覆盖类型的多样性和注释的高密度，该数据集非常具有挑战性。首先，我们比较我们的方法与几个通用的和专门设计的分割方法。表1示出了比较结果。一方面，由于通用方法不适合输入大规模图像，因此有两种常见的方法可以为通用模型分割大规模图像：（1）全局推理，它在下采样规模上训练和测试模型。(2)局部推理在裁剪图像上训练和测试模型，需要多次推理，然后合并局部结果。另一方面，我们还比较了专门用于超高图像的方法，称为UHR方法，包括GLNet [3]，MagNet[18]和FCtL [22]等。与表1中的方法相比，我们的方法不仅实现了最高的mIoU，而且在精度、速度和内存之间达到了更好的平衡具体地说，有两个关键的观察：1）处理补丁将增加推理时间。目前的UHR方法需要对不确定区域进行大量的细化，这限制了推理速度。此外，对于一般方法，局部推理需要处理比全局推理更多的像素，导致推理速度慢。2)使用下采样输入会导致小对象的丢失和语义边界的准确性降低如表1所示，对于通用模型，局部推断优于mIoU上的全局推断，因为全局推断丢失了许多详细信息。定性结果如图5所示。第一行显示我们的方法在“ubran”类上实现了更详细的分割结果在第二行中，与FCtL [22]和STDC [11]相比，我们的方法在“农业”和“森林”类之间的边界上获得了清晰的分割结果绿色，分别。总之，我们的方法利用深分支从下采样图像和em中提取语义上下文。1不建议比较不同论文的FPS：速度与环境有关，所以我们在我们的环境下测量了大多数竞争对手。我们在补充资料中提供了这一脚本。2FCtL的结果与使用测试时间增加（TTA）的原始论文略有不同。为了与其他方法进行公平的比较，我们使用没有TTA的官方存储库提供的检查点进行评估。4366×输入图像GT Ours FCtL STDC图5.我们举例说明了DeepGlobe数据集的几个例子，与SOTA进行比较。在该图中，具有不同颜色的掩码表示不同的语义区域。具体来说，青色代表另外，每幅图像中的前景区域更精细，这使得分割方法更具挑战性。同样，我们比较我们的方法与通用和UHR方法。如表2所示，我们的方法在mIoU和FPS上都实现了最佳性能。一般来说，UHR方法比一般方法更准确，内存消耗更低。然而，大多数UHR方法的缺点是局部细化速度太慢，无法实际应用。与占用最少内存的FCN-8s[25]相比，我们的方法在mIoU和FPS上都有与最近的UHR方法FCtL[22]相比，我们的方法的推理速度（6.90FPS）比FCtL（0.04 FPS）接近172更重要的是，我们的方法只增加了一些概率。此外，图6显示了定性结果。从用橙色边框标记的裁剪块中，我们可以看到，与其他方法相比，我们的分割结果更精确。简而言之，我们的方法在Inria Aerial数据集上也实现了准确性，速度和可靠性之间的更好平衡表1.DeepGlobe数据集上的分割结果我们在我们的环境下评估了速度和内存，竞争对手的准确性来自[18]。利用浅分支推理整体图像。因此，在不输入裁剪面片的情况下，我们的方法可以实现2。比PPN快5倍[33]，精度更高。4.4. 在Inria航空数据集为了进一步说明我们方法的有效性，我们将我们的方法应用于Inria Aerial [26]。在这个数据集中，每个图像的像素数量达到了2500万，大约是DeepGlobe的四倍。是-4.5. Cityscapes数据集Cityscapes [6]是用于自动驾驶的高分辨率数据集，在语义分割社区中很受欢迎。因此，我们也将我们的框架应用于这些数据集，以评估模型的通用性。我们在Cityscapes数据集上进行了两个实验。表3显示了我们的方法与通用和UHR分割方法的比较。我们的方法显着提高UHR方法之间的准确性，并实现了可比的性能与通用方法相比。与Deeplabv3 [1]等深度模型相比，方法本地推断UNet [29]mIoU↑46.53FPS↑1.26内存（MB）↓1741[25]第二十五话62.434.55970DeepLabv3+[2]69.691.601541全局推理UNet [29]50.113.547627[25]第二十五话52.867.911984DeepLabv3+[2]63.504.443226[37]第三十七话53.0014.201801STDC [11]70.3014.002580UHR方法GLNet [3]71.600.171865CascadePSP [4]68.500.113236PPN [33]71.9012.901193[20]第二十话71.786.251593MagNet [18]72.960.801559[18]第十八话71.853.401559[22]第二十二话72.760.134332我们的（ISDNet）73.3027.7019484367方法mIoU↑ FPS↑内存（MB）↓×输入图像GT Ours FCtL STDC图6.我们举例说明了几个例子的Inria Aeril数据集，比较SOTA。图中，白色和黑色分别代表建筑物和非建筑物。此外，在分割结果中，我们使用红色和蓝色来标记误分类区域具体地，红色表示前景被分类为背景，反之亦然。泛型方法DeepLabv3+[2]55.901.675122[25]第二十五话69.101.902447STDC [11]72.444.977410UHR方法CascadePSP [4]69.400.033236该方法在保证精度和存储量的前提下，速度明显提高。另一方面，与轻量级方法相比，我们的方法在准确性和内存消耗方面仍然保持表4显示了我们方法的一般性。我们将PSPNet [40]（基于CNN）和Segformer [35]（基于Transformer）集成为我们框架中的深层分支。对于全尺度输入，我们使用mmsegmentation工具箱的设置来训练模型。为了公平比较，我们使用随机标度[0. 5，1]和[0. 125，0。5]分别训练具有降尺度2和4输入的模型。结果表明，我们的mIoU比PSPNet更高，具有降尺度2和降尺度4输入。与使用全尺寸输入的PSPNet相比，我们的方法是3。8比PSPNet快，尽管我们失去了一些准确性。此外，我们还利用Segformer [35]，一种基于变换的方法，来验证通用性。从表4中，我们可以用基于CNN的方法得到类似的结论。总之，我们的方法在Cityscapes数据集上以更少的推理时间实现了高精度，具有良好的通用性，以扩展现有的分割模型。泛型方法[37]第三十七话74.4442.432147[36]第三十六话75.8043.071602PSPNet [40]74.8715.151584ICNet [39]74.4368.551390STDC [11]74.562.151536DeepLabv3 [1]76.7013.321468我们的（ISDNet）76.02 50.79 1510表3.CityScapes数据集上的分割结果我们在我们的环境下评估了速度和内存，UHR竞争对手的准确性来自[18]。方法MiouFPS内存（MB）PSPNet [40]74.8715.151584PSPNet [40]（½ scale）72.8754.991160PSPNet [40]（¼ scale）65.20169.911076PSPNet [40] + ISD74.3058.291540Segformer-b0 [35]73.4513.703114[35]第三十五话：71.2065.491174Segformer-b 0 [35]（1/4比例）51.1976.221032[35]第三十五话72.9941.821500表4.与我们的框架集成的现有模型的比较。我们用不同的尺度对相应的方法进行评估，以比较其准确性和推理成本。4.6. 消融研究我们架构的有效性我们对每个分支进行消融实验，以评估方法mIoU↑ FPS↑内存（MB）↓GLNet [3]71.200.052663[22]第二十二话72.870.044332UHR方法我们的（ISDNet）74.236.904680[21]第二十一话62.950.041575DGF [32]63.333.131727表2.Inria Aerial数据集上的分割结果我们评估-SegFix [38]65.832.632033在我们的环境下评估速度和内存，以及准确性。[20]第二十话64.397.142052竞争对手的竞争力来自[22]。MagNet [18]67.570.342007[18]第十八话66.913.1320074368DS4×4LLLLLLDS满量程¼刻度MiouFPS✓✓✓61.4064.64✓73.235.40✓✓✓56.39200.64✓70.3013.79✓✓✓✓71.6931.69添加猫CWMsMdMiouFPS内存（MB）✓--72.2031.69-✓✓--72.4229.731891✓--71.8823.98-✓✓--72.5725.762204✓✓✓72.6328.93-✓✓✓✓73.3027.701948表5. 我们架构的有效性。和分别表示深分支和浅分支。比例是指与原始图像相比的输入大小。准确性和速度之间的权衡。表5示出了比较结果。我们只使用基线网络进行公平比较。具体而言，基线模型包含表6.特征融合方法比较。ADD和CAT代表两种简单的融合策略：加法和拼接。CW是Channel Wise Attention Mechanism的缩写。Ms和Md表示深分支和浅分支的关系感知注意力。深分支和浅分支，由L优化SEG 和LAUX.此外，我们用简单加法代替RAF来融合Fs和Fd.如表5所示，无论是深层网络还是浅层网络，都很难在速度和准确性之间达到理想的平衡对于深分支，满量程输入具有令人满意的精度，但速度较慢。但1级输入不能保持高速度的准确性和浅枝也有类似的结论。然而，基线在速度和准确性之间实现了适当的平衡表7.损失构成和异质输入的比较H表示浅分支的高频剩余输入5. 结论和限制活泼基线将具有满量程输入的深分支的速度提高了近6。此外，我们显着提高准确性相比，浅分支，1个刻度输入。因此，我们的架构可以达到一个满意的准确性和速度之间的权衡。特征融合方法比较。我们进行了一个消融实验来评估关系感知特征融合模块的有效性。表6显示了结果。本实验采用高频残差输入H的基线，并通过第3.4节中的整体损失函数进行优化。此外，在[37]中，具有通道注意力的加法和级联分别是ARM和FFM。如表6所示，我们的关系感知注意力策略在准确性、速度和内存之间实现了令人满意的权衡。与单纯加法和ARM算法相比，该算法具有更好的精度。此外，RAF需要更少的内存和推理速度比串联和FFM。因此，本文提出的模型适用于深、浅分支的Fs和Fd的融合。损失和投入类型的有效性。我们开展烧蚀实验，以验证SR和SD在我们的方法中的有用性。我们还评估了高频残留输入。在这个实验中，我们用 SEG 训练ISDNet，AUX作为基线。如表7所示，SR和SD增加了+0的准确性。39岁此外，对于浅输入的输入，用高频残差代替RGB图像可以获得+0的改善。六、总之，辅助超分辨率任务和高频输入都可以提高性能。本文探讨了如何将深浅网络相结合，实现高效的超高分辨率图像分割。为了利用分支间的关系信息，本文提出了一种新的特征融合模型：感知特征融合（RAF）。为了进一步增强浅分支，我们提出使用高频残差作为输入来增强空间细节。此外，还引入了超分辨率损失和结构蒸馏损失来增强深分支的特征。我们的方法大大加快了超高图像分割，并在三个流行的数据集上实现了最先进的性能。然而，这项工作有一些局限性。例如，均匀下采样用于深分支。用其它自适应下采样方法（例如，可变形下采样）可以提高性能。此外，我们只提供了一种类型的浅水网络.对更多架构的系统探索值得未来更多资源的研究。6. 鸣谢。本工作得到国家重点研发计划（ 2019YFC1521104 ）、国家自然科学基金（ 72192821 ，61972157）、上海市科技重大专项（2021SHZDZX0102 ）、上海市科委（ 21511101200 ， 22YF1420300）、国家社科基金艺术类重大项目（I8ZD22）的资助。我们感谢冯正阳的精辟论述。基线LSRLSDHMiou✓72.31✓✓72.55✓✓✓72.70✓✓✓✓73.304369引用[1] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 一、三、五、六、七[2] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页，2018年。六、七[3] Wuyang Chen ， Ziyu Jiang ， Zhangyang Wang ， KexinCui，and Xinning Qian.协作式全球-本地网络，用于超高分辨率图像的内存高效分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第8924-8933页，2019年。二三四五六七[4] 何基成、钟智勋、戴宇荣及邓志强。Cascadepsp：通过全局和局部细化实现类不可知和非常高分辨率的分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第8890-8899页，2020年。二四六七[5] MM分割贡献者。MMSegmentation ： Openmmlab 语义分割工具箱和基准。https：//GitHub.com/open-mmlab/mmsegmentation，2020. 5[6] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213二、五、六[7] Ilke Demir、Krzysztof Koperski、David Lindenbaum、Guan Pang、Jing Huang、Saikat Basu、Forest Hughes、Devis Tuia和Ramesh Raskar。Deepglobe 2018：通过卫星图像解析地球的挑战。在IEEE计算机视觉和模式识别研讨会会议论文集，第172-181页，2018年。二、五[8] 丁小涵、郭雨辰、丁贵光、韩军公。Acnet：通过非对称卷积块增强强大cnn的内核骨架在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。3[9] 丁小涵，张翔宇，韩军公，丁贵光。多样分支块：将卷积构建为类似起始的单元。在IEEE/CVF计算机视觉和模式识别会议论文集，第10886-10895页1[10] 丁晓涵、张翔宇、马宁宁、韩军公Repvgg：让vgg风格的convnets再次变得伟大。在IEEE/CVF计算机视觉和模式识别会议集，第13733-13742页3[11] Mingyuan Fan， Shenqi Lai， Junshi Huang，XiaomingWei，Zhenhua Chai，Junfeng Luo，and Xiaolin Wei.重新思考实时语义分割的bisenet。法律程序IEEE/CVF计算机视觉和模式识别会议，第9716-9725页，2021年。一、三、四、五、六、七[12] Guang Feng，Zhiwei Hu，Lihe Zhang，and Huchuan Lu.基于共注意嵌入的编码器融合网络用于参考图像分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第15506-15515页，2021年。3[13] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第3146- 3154页，2019年。1[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[15] Yufan He，Dong Yang，Holger Roth，Can Zhao，andDaguang Xu.Dints：用于3D医学图像分割的可微分神经网络拓扑搜索。在IEEE/CVF计算机视觉和模式识别会议论文集，第5841-5850页，2021年。1[16] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别集，第7132第1、3条[17] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第4700-4708页，2017年。1[18] Chuong Huynh，Anh Tuan Tran，Khoa Luu，and MinhHoai.渐进语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第16755-16764页，2021年。二五六七[19] Wei Ji，Shuang Yu，Junde Wu，Kai Ma，Cheng Bian，Qi Bi，Jingjing Li，Hanruo Liu，Li Cheng，and YefengZheng.通过多评价者一致性建模学习校准的医学图像分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第12341-12351页，2021年。1[20] 亚历山大·基里洛夫，吴宇新，何开明，罗斯·吉尔希克.点趋势：图像分割作为渲染。在IEEE/CVF计算机视觉和模式识别会议上，第9799-9808页，2020年。六、七[21] Phi l ippKr aühenbuühl和VladlenKoltun。具有高斯边势的全连通crfs的有效推理神经信息处理系统的进展，24：109- 117，2011。7[22] 李奇，杨伟祥，刘文喜，于元龙，何胜峰。从上下文到局部：通过局部感知上下文相关的超高分辨率图像分割在IEEE/CVF计算机视觉国际会议论文集，第7252-7261页一、二、三、五、六、七[23] 李祥泰，李霞，尤安生，张立，程广良，杨奎元，Y。Tong，Zhouchen Lin.通过挤压推理实现高效的场景理解。ArXiv，abs/2011.03308，2020. 44370[24] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页，2017年。第1、3条[25] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页，2015年。一、三、六、七[26] Emmanuel Maggiori 、 Yuliya Tarabalka 、 GuillaumeCharpiat和Pierre Alliez。语义标注方法能推广到任何城市吗？INRIA航空图像标记基准。2017年IEEE国际地球科学与遥感研讨会（IGARSS），第3226-3229页IEEE，2017年。二、五、六[27] Xingang Pan ， Jianping Shi ， Ping Luo ， XiaogangWang，and Xiaoou Tang. Spatial as deep：Spatial cnn fortraffic scene understanding. 2018年第32届AAAI人工智能。1[28] SimonReigeur ， Constantin

下载后可阅读完整内容，剩余1页未读，立即下载