超高分辨率图像的连续细化模型(CRM)

166 浏览量更新于2023-10-25 收藏 2.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1310∼超高分辨率图像的高质量分割沈天成1张悦晨1陆琦1权健2谢星宇3吴建龙4林哲2 贾佳雅1，51香港中文大学2Adobe Research3北京大学4山东大学5SmartMore摘要分割4K或6K超高分辨率图像需要在图像分割中考虑额外的计算。常用的下采样、斑块裁剪、级联模型等策略不能很好地解决精度和计算代价之间的平衡问题。受人类从粗到精连续区分对象的事实的启发，我们提出了用于超高分辨率分割细化任务的连续细化模型（CRM）CRM不断将特征图与细化目标对齐，并聚合特征以重建这些图像细节。此外，我们的CRM显示其显着的泛化能力，以填补低分辨率的训练图像和超高分辨率的测试之间的我们提出了定量的性能评估和可视化，以表明我们提出的方法是快速和有效的图像分割细化。代码可在 https://github.com/dvlab-research/Entity/tree/main/CRM上找到。1. 介绍随着摄像机和显示设备的快速发展，图像的分辨率越来越高，其中4K和6K分辨率变得普遍。它在人像照片后处理、工业缺陷检测、医疗诊断等方面提供了不同的机会。然而，超高分辨率图像也给经典的图像分割方法带来了挑战首先，大量的输入像素在计算上是昂贵的，并且GPU内存很大。其次，大多数现有方法通过插值对最终预测进行4到8次上采样[5，49，52，55，56]，而没有在输出掩码上构建细粒度的先前的分割细化方法包括[18，22，27，53]的方法。他们仍然以1K 2K分辨率的图像为目标。[9，47]的工作基于从经典分割算法生成的低分辨率掩模处理超高分辨率细化。他们利用级联-(a) PSPNet（b）CascadePSP（c）CRM图1.粗略的遮罩细化结果。(a)来自PSP [55]的粗掩模，（b）最新技术[9]的精细掩模，以及（c）我们提出的CRM的图像来自BIG（2K至6K res）。解码器中的对中间细化结果进行上采样的他们仍然是耗时的，由于工作，ING在离散风格上预定义的分辨率阶段的解码器。相反，我们考虑连续性，使解码更有效，更友好的学习上采样分辨率。我们提出了持续改进模型（CRM）来利用连续性。粗掩模来自低分辨率分割。为了进一步扩展它，该问题类似于经典的超分辨率（SR）任务。不同于经典的SR方法，构造连续局部表示被提出[7]。我们注意到，利用隐式函数[31]来处理高分辨率分割细化并不简单。首先，我们任务中训练图像的分辨率约为500，而SR的训练图像分辨率为2K。对SR的输入进行下采样的训练策略会使我们的输入掩码变小并且毫无意义。其次，需要更多的多层次语义特征与超分辨率配置相结合。第三，在低分辨率的训练和超高分辨率的测试之间存在分辨率差距因此，这项工作需要具体的设计。为了实现超高分辨率分割的连续性1311××∼∼我同意#$s&x8x4X1(a) 级联模型(b) CRM计算成本，但重建更多的细节。• 多分辨率推理的CRM适用于使用低分辨率训练图像和超高分辨率测试图像。由于设计简单，即使从低分辨率到高分辨率进行优化，总推理时间也不到CascadePSP的一半[9]。• 在实验中，CRM在超高分辨率图像上产生最佳分割结果。它还有助于提高最先进的全景分割模型的性能，而无需微调。2. 相关工作图2.（a）模型[9]中基于级联的解码器与（b）我们的CRM之间的结构差异我们可以看到CRM是简单得多，这是我们的速度优势的基础。站细化，我们首先提出了连续对齐模块（CAM）的功能和细化目标连续对齐（不同于利用级联方案在解码器）。在CAM中，特征和精化目标的坐标被转换到一个连续的空间中.然后，我们隐式函数结合位置信息和对齐的潜像特征来预测图像上查询像素的分割标签。这里，逐像素隐函数建模连续位置和预测之间的关系，并通过潜在特征实现图像感知的总的来说，这种设计比基于级联的解码器更简单和更轻，但生成更精确的细化掩码，如图1B所示。1.一、此外，低分辨率训练图像和超高分辨率测试图像之间存在分辨率差距。在基于级联解码器的方法[9，47]中，卷积总是在训练分辨率下覆盖固定大小的相邻块，这降低了其对其他测试分辨率的推广相比之下，CRM中的隐式函数是在没有这种偏差的情况下逐像素提取的特征。此外，在我们的多分辨率推理策略，低分辨率的输入，把推断第一。然后，我们增加输入分辨率，以在细化的遮罩中生成更多细节。CRM采用多分辨率推理策略，实现了比以前方法更强的泛化能力[9]，推理速度更快。我们的主要贡献如下。• 我们提出了一个通用的持续改进模型（CRM）。该算法引入了一个隐函数，利用连续的位置信息，在超高分辨率分割细化中连续对齐潜像特征。如果没有基于级联的解码器，我们可以有效地减少2.1. 语义分割语义分割是指为图像的每个像素分配一个类别标签。FCN [30]将深度卷积网络引入语义分割并取得了显著进展，深度卷积网络是该领域的主导解决方案。后来的工作包括PSP- Net [55]，DeepLab系列方法[2-5]在这些方法中，输出步幅（或下采样率）是一个不能忽视的问题。在大多数语义分割方法中，它被设置为4 [49，52]或8 [5，55，56]，这降低了精度。直接将预测logits插值到目标大小会导致锯齿状边缘和较少的细节。相比之下，我们提出的CRM不断调整功能，以任意目标细化分辨率，这是更自然的视觉本能和友好的细节重建。2.2. 分段细化为了提高图像分割的质量，提出了图像分割细化技术。在这条赛道上，最近的作品可以根据高分辨率（1K 2K）或超高分辨率（4K 6K）的图像大小分为两类。对于1K分辨率左右的图像的细化技术，它们大大提高了分割质量。其余的缺点包括图形模型粘附到低级颜色边界[2，57]，基于传播的方法面临计算和内存约束[29]，以及大型模型易于过拟合，而浅细化网络具有有限的细化能力[18，22，27]。本文重点关注超高分辨率图像分割细化，例如，4K图像。由于这种分辨率设置，上述方法将面临资源和有效性方面的困难。级联解码器方法[6，9]由于其级联，在超高分辨率图像中间结果x1 x2x4x8我同意#$s&级联细化级联细化不断细化级联细化M$f（）*M$f（）*………1312∈∈∈∈CFPrCtC$我$Cry1z1y3y2艾薇！z2D&z3z4Ioa（）Flat$ntFont.M（$*+n$d连续对准模块（CAM）培训推理CRMCRMI+-1&oa（）$I+&oa（）$I+/1&oa（）$xy4WZ1图3. CRM的总体框架。上半部分是模型的结构。下半部分是CRM的培训和测试过程。从下半部分，我们还可以看到低分辨率训练和高分辨率测试之间的分辨率差距网络结构[16，37，40，43，54]和基于全局-局部补丁的精炼管道。然而，解码器中的重级联结构在推断期间需要下采样和裁剪补丁，这增加了成本，丢失了细节，并且破坏了全局上下文。为了解决超高分辨率图像分割中的这些问题，我们提出了CRM.通过CRM中的CAM，我们不断地将特征图与细化目标简单而优雅地对齐。级联模型[9]和我们的CRM之间的结构差异如图所示。二、2.3. 隐函数表示首先，隐函数被设计成在神经网络中表示对象或场景（通常是多层感知器），它将连续坐标及其周围的特征映射到坐标处的标签上。例如，NeRF [31]将3D坐标和2D视角映射PixelNerf [50]引入了一种架构，该架构以完全卷积的方式对图像输入进行NeRF [31]调节，从而实现场景感知建模。此外，它的作为另一种扩展，Semantic-NeRF [58]扩展了神经辐射场，以使用外观编码语义和几何学的结合。固有的多视图一致性和隐函数的平滑性通过使稀疏和噪声标签上的有效传播而有益于分割。存在利用2D图像中的隐函数的作品[7，8，11，39，42]。我们使用隐式函数对特征图进行连续的上采样，得到最终的掩模。3. 该方法本节首先描述持续优化模型（CRM）的一般框架最后，我们介绍了相应的推理策略，利用超高分辨率的连续性。对于SEC的细节。第3.1节和第3.2，请参考补充材料。3.1. 总框架如示于图3.在Cas cadePSP [9]的设置下，我们提出的CRM将图像IR3×H×W和粗分割掩模McoarseR1×H×W作为输入。首先，I和Mcoarse被级联为IcoarseR4×H×W，并由编码器Eθ表示为潜在嵌入FlatentRC×h×w，如下式：其中θ表示参数。F潜伏= Eθ（I粗略）。（一）1313∈∈−±±联系我们联系我们第二，F潜在信息和位置信息P被连续地对准以成为目标尺寸特征F。通过CAM实现R（C+6）×H×W，无需显式上采样如等式（2），其中[·，·]表示级联。F.= CAM （ [P ， Flatent] ）。（二）最后，F。通过基于隐式函数的解码器[7]D重构和特征聚合步骤，使得细化掩码M细化生成如下：P={Cr，r，Ct}。（四）连续的位置信息是客户关系管理中连续性的基础连续特征对齐与SR [7]中的连续分辨率转换相比，在Eq.（1）需要通过融合全局-局部信息来增强为了简单起见，F_latent包括增强。细化目标位置M精致（x）=wzkwzD续（zk）），（3）Ct也可以看作是一个全局特征。那么，对于位置信息，我们将每个像素其中x是对齐的点，N（x）表示x的支持点z k的集合，k 1，2，3，4，w z k是聚合权重（以x为中心对称地交换x和z k N（x）之间的框的面积值），并且F是。（z k）是z k在F上的特征向量。.3.2. 连续对齐模块动机通过图像编码器后，编码特征的大小小于细化目标。中间特征或细化的结果需要逐渐上采样到后期阶段。在以前的超高分辨率图像分割工作[9，47]中，级联方案似乎是解码器不可或缺的一部分虽然新颖的设计减轻了特定分辨率上采样后的信息损坏，但整个过程很难恢复更多细节。我们注意到，具有预定义上采样比的基于级联的解码器中的离散方式可以被视为对上采样的约束，限制了进一步的改进并降低了通用性。此外，它增加了整个框架的复杂性，如图所示。二、我们提出的连续对准模块（CAM）利用位置信息和特征对准来建模连续的深特征F_∞。.位置信息P参考NeRF系列[31，50，58]，位置信息是隐函数的基本输入细化目标Ct的坐标被投影到特征图坐标Cf。此操作cree- ates连续坐标的像素上不同的分辨率特征地图和各种所需的推理决议，在第二节。三点四分。绝对坐标可以随图像和特征尺寸而变化。为了使我们的CRM通用于任意大小的图像，Ct和Cf被归一化到一定的范围[1，1]。在投影之后，Ct上的点与它们在Cf上的对应最近点之间的偏移被表示为C。在图3中，Ci，j表示上细化目标为F潜伏。连续特征F。通过如等式（1）中所示连接位置信息P和对准的F_latent来建立。（二）、因此，与离散分辨率转换相比，CAM以连续的方式对特征进行上采样离散预定义的上采样率降低了学习难度，但限制了上采样过程。我们的CAM在这方面有更大的自由度，这意味着更大的优化空间和更高的性能潜力。多分辨率推理在SEC。3.4充分发挥了CAM连续性的优势。3.3. CRM中的隐性功能在CAM之后，隐函数D取F。作为输入。使用隐函数的原因是其处理连续坐标和重建细节的能力令人印象深刻[7，31，50，58]。一个查询点（图中的蓝色点 3）目标细化掩模可以表示为x（i，j），其中（i，j）是其未归一化位置。首先，我们找到它的邻居点y k，k 1，2，3，4（图中的绿点）。 3）在目标细化模板上，其位置为（i 1，j 1）。接下来，yk的最近点，表示为zk（图中的红点） 3），在对齐的特征图上被选择。和z k作为x的支撑点，表示为N（x），然后输入z k的特征向量F_∞。（z k）到隐式函数D k（将6+256通道协调和特征映射到 1 个通道掩码中的 5 层MLP）。最后，我们聚合隐式函数聚合权重，即，面积值wzk是从方程中的相对坐标偏移Cr计算的（三）、聚合输出是（i，j）上的最终预测结果。分析众所周知，CNN的前向过程（例如，CascadePSP[9]）和MLP（例如，CRM）可以被视为建立在矩阵向量乘法和非线性激活上的一系列操作。在初始化时，所有权重都是从尺度良好的高斯模型中采样的R r位置（i，j）。相对目标坐标偏移Cr、特征与目标之间的比率r[7]以及细化目标位置Ct形成位置信息P，如下所示：sian因此，每个层的特征以高概率共享几乎相同的欧几里得范数（参见Cor. [1]中的A.10）。也就是说，对于某个常数c，zk∈N（x）K1314.ΣM∈ ∥· ∥→N∈SSBS×B∈∼∼粗粗Σ成品1−2 exp −cε2m，我们有：（AF））<$2∈（1 ± ε）（<$F<$. （2）、（5）其中矩阵ARd×m的每一项从（0，1），F中采样。是固定特征（与F相同）。由方程式（2）），ε[0，1]，2是ε2-范数，并且ε：R R是ReLU激活。经过一层后，规范几乎保持不变。然而，如果我们进一步附加一个加权平均运算在上（AF）。），事情变得有趣起来。附加加权平均总是有助于提高模型的表示能力，即，图4.在我们的推理策略中细化步骤的可视化。从左到右，从上到下：M粗、精面膜wzkzK我成品，i∈ {1，2，3，4}（重缩放比为0.125，0.25，0.5，dim（zk∈N（x）wz（AF. （k）≥ dim（λ（AFλ）. ））的情况下，（六）这里是1.0），覆盖M4在原始图像上。其中dim是空间的维数。一个例子是，当F。是m维球面（m），A.F. ）将集中在球体周围（d）保范性质。但经过结合加权平均算子，我们可以得到d维球（d）中的任意点。通常，dim（（d））>dim（（d））。回到部分，CRM之间的主要区别[9]这是一个经典的故事。以四个相邻的无聊点为例。CRM利用MLP和基于面积的平均值，而不是2 - 2卷积.因此，CRM的特征空间的维数更大。如果这四个点都属于同一类，则影响不是很大。尽管如此，对于边界区域，其中4个点属于不同的类，较大的特征空间总是提供其中，Li，i[1，2，3，4]分别表示交叉熵损失、L1损失、L2损失和梯度损失Wi是它们的相应权重。（θ，θ）是编码器Eθ和解码器Dθ的参数。Mgt表示地面实况掩码。虽然我们在低分辨率上训练，但多分辨率推理策略利用了连续性潜力，缩小了训练和测试分辨率的差距。推理策略针对训练中的低分辨率（300 1K）和测试中的超高分辨率（2K 6K）之间的分辨率差距，我们提出了多分辨率推理，以利用CRM的连续P和对齐F。完全图的下部3显示分辨率对比度。由于CAM的连续性，对于一幅图像，我们可以生成相同目标的超高分辨率输出更容易区分的特征来分类。从这个观点来看，我们可以给一些提示，CRM具有更强的约束力-我成品从多分辨率输入R i（I i）。元区域表示和预测更好的细节。3.4. 训练与推理策略无级联LIIF的训练[7]提出了一种使用隐式函数的SR2K图像开始时，推理是围绕训练图像的分辨率进行的，并沿着连续的比率轴Rs（具有无限不同的重新缩放比率）逐渐增加输入3 .第三章。特别是，我们将原始超高分辨率图像I和粗掩模M粗（初始阶段）或精掩模Mi-1并生成任何低分辨率图像，输入. 然而，超高分辨率的图像，在前一阶段。我们根据Ri的缩放比重新缩放它成品∈Rs我是我.细化后，生成并使用Mi分割注释太少而无法训练。另外，高分辨率训练直接受到约束+1coarse成品用于下一个重新缩放比率阶段。逐步GPU内存和批量大小。处理被示出为Eqs。（8）至（10）：有了这些挑战，我们遵循CascadePSP [9]的训练设置，在初始阶段使用低分辨率图像。0粗0粗]、（8）分辨率M粗是由形态学的扰动产生的，我成品=D. 凸轮E θ。R i我我我=[I，M中国，（9）在所提供的地面实况掩模Mgt上的发射。我们-在最终预测中以简单的方式标记训练损失一期+1粗我成品 ]、（10）M在不同分辨率上没有不同的损失函数，阶段[9]。我们的损失项L（θ，θ）在细化目标上计算为MMM我=[I，MM作为1315Σ4L（θ，θ）= wi·Li（Mrefined，Mgt），（7）i=1其中，Ri是Rs的一个重新缩放函数，i表示细化。图中右上角的标记为分段阶段。为了简单起见，等式（9）不包括聚合。在实践中，我们根据性能或支持资源的需要选择足够的Ris性能与R i数之间的关系如图所示。7.第一次会议。并且图4是示例。1316××IoU/mBA粗糙面具[53]第五十三话[第51话]CascadePSP [9]CRM（我们的）FCN-8s [30]72.39/53.6372.69/55.2172.31/57.3277.87/67.0479.62/69.47DeepLabV3+[5]89.42/60.2589.95/64.3490.49/67.4892.23/74.5991.84/74.96[27]第二十七话90.20/62.0390.73/65.9590.98/68.4092.79/74.7792.89/75.50PSPNet [55]90.49/59.6391.01/63.2591.62/66.7393.93/75.3294.18/76.09平均改善。0.00/0.000.47/3.300.73/6.103.58/14.054月1日/15月12日表1.与其他掩模细化方法相比，BIG数据集上的IoU和mBA结果粗掩码来自FCN、DeepLabV3+、RefineNet和PSPNet。最好的结果用粗体表示。平均改善。表示基于粗略掩码的平均改进。该策略也可以被视为粗到细操作的变体，其中方法[9，47]通过解码器中的级联来实现，并且[18]的方法通过在范围（256，512，1024和2048）中移动窗口大小来实现。他们也可以使用这种策略来缩小差距。然而，相对较重的级联网络和推理设计中的许多向前时间阻碍了它们的使用。以 CascadePSP [9] 为例，CascadePSP [9]使用整个ResNet-50 [17]作为主干，但CRM使用它而不使用conv 5 x。然后，CascadePSP [9]中基于级联的解码器（三个分辨率上采样和相应的计算）比CRM的CAM和D采样成本更高因此，即使使用多分辨率推理，CRM的整个细化过程也可以比Tab中的CSP-PSP [9]快两倍以上。二、4. 实验在本节中，我们评估了我们的CRM，并将其与BIG[9]，COCO [28]和重新标记的PASCAL VOC 2012 [12]上的其他相应的最先进方法进行了比较。我们评估了联合交叉（IoU）、平均边界精度（mBA）[9]、全景质量（PQ）[21]和平均精度（AP）以衡量能力。然后，我们提出了可视化与消融研究，以了解我们的CRM的有效性。4.1. 数据集和比较对于训练数据集，我们遵循Cas- cadePSP的设置[9]。 MSRA-10K [10]、DUT-OMRON [48]、EC-SSD [41]和FSS-1,000 [23]被合并到训练数据集中，由36，572张具有不同语义类（>1，000类）的图像组成。对于测试数据集，CascadePSP [9]提出了一种名为BIG的高分辨率图像分割数据集，用于超高分辨率评估。BIG中的图像分辨率范围从2K到6K。为了证明我们提出的模型是通用的，我们将CRM评估为PanopticSegmentation [25]和Entity Segmentation [36]的扩展。我们还在重新标记的 PASCAL VOC 2012 上评估了CRM，这在[9]中介绍我们选择CascadePSP [9]作为超高分辨率的主要比较方法。MGMatting [51]被选为掩模引导的抠图方法，Segfix [53]被选为方法（IoU/mBA）时间（s）FLOP（G）参数（M）CasPSP（93.9/75.3）[9]6202651867.62客户关系管理（94.2/76.1）42525369.27客户关系管理 *（93.9/76.3）25913319.27表2.比较总推理时间、FLOP和BIG数据集上的参数数量。CasPSP表示Cas-cadePSP，并选择要计算的补丁。CRM计算所有像素。CRM* 是一个计算友好型版本，只需计算感兴趣区域。时间记录在整个BIG数据集上。在同一图像上测试FLOP（2560*1706）。高分辨率分割细化方法。Panop- ticFCN [25]和EntitySegmentor [36]是全景和实体分割的基准。我们提出的方法在几乎所有的实验中，特别是在高分辨率图像上，在精度和速度方面都有更好的4.2. 实现细节我们使用PyTorch [32]实现我们的模型，并使用不带conv 5 x的ResNet-50 [17]作为我们的Eθ。对于训练，我们使用Adam [20]和2。2510−4的学习率。在总共45，000步中，学习率在22，500步和37，500步处降低到十分之一。训练输入连接从原始图像和它们对应的扰动掩模裁剪的224 224块。扰动的掩码在地面真实值上随机扰动，随机IoU阈值在0.8和1.0之间。为了评估，我们从一个连续的范围内选择了4个重新缩放比例CRM的总推理时间仍然不到CascadePSP的一半[9]。4.3. 定量结果在选项卡中。 1 和 Tab 。 2 ，我们展示了我们的CRM，CascadePSP [9]，Segfix [53]和MGMatting [51]之间的比较。（SegFix和MGMatting在下采样率为0.5的重新缩放图像上表现更好。他们证明CRM的性能更好，并且在高分辨率下运行得更快。所有分割细化模型都在低分辨率图像上训练，并在高分辨率图像上测试。Segfix和MGMatting1317FCNDeepLabV3+RefineNetPSPNet输入与粗掩模GT SegFixCascadePSPCRM（我们的）图5. Segfix、CascadePSP和CRM对FCN、DeepLabV3+、RefineNet和PSPNet粗掩模的定性比较。图像来自BIG（2K至 6K）。第一列左下角的黑白蒙版是粗蒙版。方法PQ方法AP[36]第二十六话：我的世界PanopticFCN+CRM 41.8 PanoptySeg +CRM 38.9表3.使用我们的CRM扩展PanopticSeg和Enti- tySeg后的性能，无需微调。高分辨率图像在大[9]。CascadePSP [9]在细化后获得更多的IoU。此外，我们的CRM产生最高质量的细化。此外，推理时间对于超高分辨率任务是必不可少的选项卡. 2表明CRM在整个BIG数据集上的推理时间不到CascadePSP [9]的一半浮点数和参数也更少。这一优势是由于CRM的简单性。全景分割和实体分割的实验在表3中示出3 .第三章。添加CRM后，[25]和[36]，其分割性能得到增强。我们还报告了我们的性能重新标记的Pascal VOC 2012在Tab。4.第一章与CascadePSP [9]和Seg-fix [53]相比，CRM的运行优于Segfix [53]，在IoU上与CascadePSP相当，但倾向于更强调关于细节。这些定量的结果表明CRM4.4. 定性结果我们在图中显示了CascadePSP [9]，Seg- fix [53]和我们提出的CRM之间的比较。五、有更多1318粗DeepLab87.1388.0389.0188.33V3+[5]61.6866.3572.1072.25[27] 2016年12月28日62.61 66.15 71.34PSPNet [55]90.9291.9892.8692.5260.5166.0372.2472.48表4.重新标记的PASCAL VOC 2012的定量比较。由于宽度有限，CM表示粗掩模，SF0.5 93.85/73.431.0 93.94/75.42表5. CRM和推理分辨率的效果与PSP-Net [55]的输出作为粗掩码。实施表示隐函数。CAM实施IoU MBA× × 93.94 75.42电话：+86-21 - 5599999表示SegFix，并且CasPSP表示CascadePSP。√×√93.96 75.5576.09表6.以PSPNet [55]的输出作为粗掩模，对CAM和隐式函数进行消融研究MBA IoU0.76 0.940.73 0.930.7 0.921 2 3 4 5 6 7MBAIOU图7.推理的连续性效应。水平轴表示在0和0之间的均匀采样点的数量。1. 采样点是输入的重新缩放比率。(a)(b)（c）第（1）款图6.CRM应用于全景分割。（a）输入图像，(b) 粗略的全景分割掩模，（c）由我们的CRM细化掩模。图片来自COCO。我们的改进结果中的细节。它在训练中只使用语义分割注释此外，通过CRM可以更好地重建粗掩模中的缺失部分。此外，我们在图中展示了将CRM应用于全景分割的一些可视化。六、我们可以看到掩模细节和整体分割得到了相当大的改进。补充资料中的更多结果进一步体现了CRM和连续建模的有效性4.5. 消融研究CRM和推理解决方案CAM和隐函数是我们工作的关键贡献。Tab中的行图5显示了CRM和隐函数的存在可以增强每个分辨率上的性能（第一列表示Ii上的重新缩放比率）。对于推理策略，我们分析了Tab的列。五、CRM在低分辨率下细化了一个很好的通用掩码随着分辨率的提高，会产生更多的细节，mBA也会增加。CAM和隐式函数Tab. 6显示CAM和隐式函数都是CRM不可缺少的部分。它们一起实现协同效应。推理连续性的影响更多的数字意味着推理解决方案的连续性更强，这有助于提高性能，直到收敛。与图中所选的重新缩放比率不同。4和Tab。5，最终性能与图5基本相同。4和Tab。五、5. 结论我们提出了CRM来细化超高分辨率图像的分割。CRM不断地将特征图与细化目标对齐，这有助于聚合特征以重建高分辨率掩模上的细节。此外，我们的CRM在低分辨率训练和超高分辨率测试方面显示出显着的通用化潜力实验表明，连续建模在性能和速度方面是有前途的。局限性我们目前采用的是“低分辨率训练和超高分辨率测试”的配置。使用超高分辨率图像进行训练和测试仍然是一种资源消耗。解决这个具有挑战性的问题将是我们未来的工作，如分割的使用预训练[35]或低分辨率训练和测试[34]。√IoU/mBACMSF [53]CasPSP [9]CRMIoU/mBA无CAM实施带CAM实施FCN-8s [30]68.8570.0272.7073.740.12592.68/63.7093.07/65.6154.0557.6365.3667.170.2593.49/69.2393.88/71.411319引用[1] Zeyuan Allen-Zhu，Yuanzhi Li，and Zhao Song.关于训练递归神经网络的收敛速度。arXiv预印本arXiv：1810.12065，2018。4[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割arXiv预印本arXiv：1412.7062，2014。2[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，40（4）：8342[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 2[5] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。参见ECCV，第801-818页，2018年。一、二、六、八[6] Wuyang Chen ， Ziyu Jiang ， Zhangyang Wang ， KexinCui，and Xinning Qian.协作式全球-本地网络，用于超高分辨率图像的内存高效分割。在CVPR中，第8924-8933页，2019年。2[7] Yinbo Chen，Sifei Liu，and Xiaolong Wang.用局部隐式图像函数学习连续图像表示在CVPR中，第8628-8638页，2021年。一二三四五[8] 陈志勤和张浩。学习生成式形状建模的隐式字段。在CVPR中，第5939-5948页，2019年。3[9] 何基成、钟智勋、戴宇荣及邓志强。Cascadepsp：通过全局和局部细化实现类不可知和非常高分辨率的分割。在CVPR中，第8890-8899页，2020年。一二三四五六七八[10] Ming-Ming Cheng ， Niloy J Mitra ， Xiaolei Huang ，Philip HS Torr，and Shi-Min Hu.基于全局对比度的显著区域检测。TPAMI，37（3）：569-582，2014. 6[11] Emil ienDupont ， AdamGolin' ski ， MiladAlizadeh ，YeeWh yeTeh和Arnaud Doucet。Coin：使用隐式神经表示进行压缩。arXiv预印本arXiv：2103.03123，2021。3[12] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective.IJCV，111（1）：98-136，2015. 6[13] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在CVPR中，第3146-3154页，2019年。2[14] 斯派罗·吉达里斯和尼科斯·科莫达基斯检测、替换、重新定位：用于逐像素标记的深度结构化预测。在CVPR中，第5248-5257页，2017年。2[15] Junjun He，Zhongying Deng，Lei Zhou，Yali Wang，and Yu Qiao.用于语义分割的自适应金字塔上下文网络。在CVPR中，第7519-7528页，2019年。2[16] Jianzhong He ， Shiliang Zhang ， Ming Yang ， YanhuShan，and Tiejun Huang.用于感知边缘检测的双向级联网络在CVPR中，第3828-3837页，2019年。3[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。6[18] Chuong Huynh，Anh Tuan Tran，Khoa Luu，and MinhHoai.渐进语义分割。在CVPR中，第16755一、二、六[19] Md Amirul Islam，Shujon Naha，Mrigank Rochan，NeilBruce，和杨望。标签精化网络用于从粗到细的语义分割。arXiv预印本arXiv：1703.00551，2017。2[20] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[21] 亚历山大·基里洛夫、何凯明、罗斯·格希克、卡斯滕·罗特和彼得·多尔。全视节段在CVPR中，第9404-9413页6[22] 亚历山大·基里洛夫，吴宇新，何开明，罗斯·吉尔希克.点趋势：图像分割作为渲染。在CVPR中，第9799-9808页，2020年。一、二[23] Xiang Li，Tianhan Wei，Yau Pun Chen，Yu-Wing Tai，and Chi-Keung Tang. Fss-1000：一个1000类的数据集，用于少数镜头分割。在CVPR中，第2869-2878页，2020年。6[24] Xia Li ， Yibo Yang ， Qijie Zhao ， Tiancheng Shen ，Zhouchen Lin，and Hong Liu.基于空间金字塔的语义分割图推理。在CVPR中，第8950-8959页，2020年。2[25] Yanwei Li ， Hengshuang Zhao ， Xiaojuan Qi ， LiweiWang，Zeming Li，Jian Sun，and Jiaya Jia.用于全景分割的全卷积网络。在CVPR，第214-223页，2021年。六、七[26] Di Lin，Dingguo Shen，Siting Shen，Yuanfeng Ji，DaniLischinski ， DanielCohen-Or ， andHuiHuang.Zigzagnet：融合自上而下和自下而上的上下文进行对象分割。在CVPR中，第7490-7499页，2019年。2[27] Guosheng Lin ，Anton Milan，Chunhua Shen，and IanReid. Refinenet：用于高分辨率语义分割的多路径细化网络。在CVPR中，第1925- 1934页，2017年。一、二、六、八[28] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。在ECCV，第740-755页，2014中。6[29] Sifei Liu ， Shalini De Mello ， Jinwei Gu ， GuangyuZhong，Ming-Hsuan Yang，and Jan Kautz.通过空间传播网络学习亲和力 arXiv 预印本 arXiv ： 1710.01020 ，2017。2[30] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在CVPR，第3431-3440页，2015年。二、六、八[31] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。在ECCV，第405-421页，2020年。一、三、四1320[32] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zem- ing Lin ， Natalia Gimelshein ， LucaAntiga，et al. Pytorch：命令式的高性能深度学习库。NeurIPS，32：8026-8037，2019。6[33] 陆琦、李江、舒柳、沈小勇、贾雅佳。利用kins数据集进行非模态实例分割。在CVPR，2019年。2[34] Lu Qi，Jason Kuen，Jiuxiang Gu，Zhe Lin，Yi Wang，Yukang Chen，Yanwei Li，and Jiaya Jia.用于低分辨率检测的多尺度对齐投影。在CVPR，2021年。8[35] 陆奇、权健、林哲、古九香、饶风云、李典、郭卫东、文振、贾佳雅。Casp：用于检测和

下载后可阅读完整内容，剩余1页未读，立即下载