超高分辨率图像的内存有效分割方法——协作全局-局部网络

136 浏览量更新于2023-10-18 收藏 1.45MB PDF 举报

超高分辨率图像

性能优化

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8924协作全局-局部网络用于超高分辨率图像的内存有效分割Wuyang ChenXiang 1，Ziyu JiangXiang 1，Zhangyang Wang1，Kexin Cui1，Xinning Qian2{wuyang.chen，jiangziyu，atlaswang，ckx9411sx，xqian}@ tamu.edu1得克萨斯农工大学计算机科学与工程系德州农工大学电气与计算机工程系https://github.com/chenwydj/ultra_high_resolution_segmentation移动存储器容量(a) 最佳性能移动存储器容量(b) 基于全局映像训练的性能移动存储器容量(c) 在本地补丁上训练性能图1：DeepGlobe数据集上的推理记忆和平均交集（mIoU）精度[1]。(a)：最佳可实现的mIoU与不同的分割方法。(b)：mIoU/内存，具有不同的全局图像大小（比例标注中示出的下采样率）。(c)：mIoU/内存，具有不同的局部补丁大小（比例注释中显示的归一化补丁大小）。GLNet（红点）以紧凑的方式集成了全局和局部信息，有助于在准确性和内存使用之间实现良好的平衡实验详情见第4节。研究方法：ICNet [2]，DeepLabv 3 + [3]，FPN [4]，FCN-8 s [5]，UNet [6]，PSPNet [7]，SegNet [8]和拟议的GLNet。摘要对超高分辨率图像的分割的需求日益增加，但对算法效率提出了重大挑战，特别是考虑到（GPU）的性能限制。目前的方法要么对超高分辨率图像进行下采样无论哪种方式，局部精细细节或全局上下文信息的丢失都会导致有限的分割准确度。我们提出了协作的全球-本地网络（GLNet），以有效地保存全球和本地的信息，在一个高度内存效率的方式。GLNet由全局分支和局部分支组成，将下采样的整个图像及其裁剪的局部补丁作为各自的输入。对于分割，GLNet深度融合了来自两个分支的特征图，从放大的局部补丁中捕获高分辨率精细结构，并从下采样输入中捕获上下文依赖性。为了进一步解决背景和前景区域之间潜在的类别不平衡问题，我们提出了一种从粗到精的GLNet变体，*前两位作者的贡献相等。内存效率。对三个真实世界的超高航空和医学图像数据集（分辨率高达3000万像素）进行了广泛的实验和分析只有一个单一的1080Ti GPU和不到2GB的内存使用，我们的GLNet产生高质量的分割结果，并实现更有竞争力的准确性，内存使用权衡相比，国家的艺术。1. 介绍随着摄影和传感器技术的进步，超高分辨率图像的可访问性为计算机视觉界开辟了新的视野，并增加了对有效分析的需求 Cur-目前，具有至少2048×1080（约2.2M）像素的图像被视为 2K 高分辨率媒体 [16] 。至少 3840×1080（104.1M）像素的图像达到4K分辨率的最低标准[17]，4K超高分辨率清晰度媒体通常指的是最小分辨率为 3840×2160（18.3M）[18]。这样的图像来自广泛的科学成像应用，例如地质空间和组织病理学图像。语义分割允许更好地理解和自动注释8925未知草地表1：现有图像分割数据集的比较：前三个属于超高分辨率类别。数据集最大大小平均尺寸4K UHR图像图像数量美国[1]600万像素（2448×2448）（统一尺寸）百分百803ISIC [9，10]3000万像素（6748×4499）900万像素64.1%2594[11]第十一话2500万像素（5000×5000）（统一尺寸）百分百180城市景观[12]200万像素（2048×1024）（统一尺寸）025000[13]第十三话0.7M像素（960×720）（统一尺寸）0101[14]第十四话0.4M像素（640×640）0.3M像素0123287VOC2012 [15]0.25M像素（500×500）0.2M像素02913这些图像。在分割过程中，图像被逐像素地解析为不同的语义类别，例如卫星图像中的城市/森林/水域，或皮肤镜图像中的病变超高分辨率图像的分割在广泛的领域中发挥着重要作用，例如城市规划和传感[19，20]以及疾病监测[9，10]。深度卷积神经网络（CNN）的最新发展在语义分割方面取得了显着进展。然而，大多数模型都工作在全分辨率图像上并执行密集预测，与图像分类相比，2448像素6748像素5000像素目标检测当图像分辨率增长到超高时，这个障碍变得显著，导致存储器效率（甚至可行性）和分割质量之间的表1列出了一些现有的超高分辨率分割数据集：DeepGlobe [1]、ISIC [9，10]和Inria Aerial [11]，并与一些经典的正常分辨率分割数据集进行了比较，以说明其导致新挑战的巨大差异。关于三个超高分辨率数据集的更详细讨论见第2.3节。在语义分割的广泛研究工作中，只有有限的关注致力于超高分辨率图像。典型的ad-hoc策略（如下采样或斑块裁剪）将导致高分辨率细节或空间上下文信息的丢失（有关视觉示例，请参见第3.1节）。我们的深入研究表明，像FCN-8 s [5]和SegNet [8]这样的高精度方法需要5GB到10 GB的GPU内存才能在推理过程中分割一个600万像素的超高分辨率图像。这些方法落入图中1（a）具有高精度和高GPU存储器使用。首先，最近的快速分割方法，如IC-Net [2]，其内存使用量大大减轻，其准确性下降。这些方法位于图的左下角。第1（a）段。使用不同大小的全局图像和局部补丁进行进一步研究（图1）。图1（b）和（c））证明了典型模型未能实现准确性与GPU存储器使用之间的良好折衷。1.1. 我们的贡献本文解决了超高分辨率图像的内存有效分割，提出了第一个dedi，(a) DeepGlobe（b）ISIC（c）InriaAerial图2：三个属于超高分辨率类别的公共数据集。DeepGlobe[11]提供了2448×2448像素的卫星图像，并将其标记为七类陆地区域。ISIC [9，10]收集尺寸高达6748×4499像素的皮肤镜图像，并使用二进制标签分割前景病变。Inria Aerial [11]为航空图像中的建筑物/非建筑物区域提供了均匀的5000×5000像素的二进制掩模。根据我们的最佳知识对这个新课题进行了分析。性能目标将不仅是分割精度，而且减少内存使用，并最终在两者之间进行权衡。我们提出的模型，名为协作全球 - 本地网络（GLNet），集成了全球图像和本地补丁，用于训练和推理。GLNet有一个全局分支和一个局部分支，分别处理下采样的全局图像和裁剪的局部补丁。它们通过跨层的深度共享和/或相互正则化的特征图进一步相互作用和“调节”。这种特殊的设计使我们的GLNet能够很好地平衡其准确性和GPU的分类使用（图中的红点）。①的人。为了进一步解决经常出现的班级不平衡问题，例如，当人们主要对分割小的前景区域感兴趣时，我们提供了GLNet的从粗到细的变体，其中全局分支提供了附加的边界框局部化。GLNet设计实现了全局上下文信息和必要的局部精细细节之间的无缝集成，通过学习进行平衡，以确保准确的分割。同时，它大大减少了GPU内存的使用，因为我们只对下采样的全局5000像素2448像素4499像素城市Agric 文化森林水巴尔en8926图像加上裁剪的局部补丁;原始超高分辨率图像从未被加载到GPU存储器中。我们将主要贡献总结如下：• 我们开发了一个内存高效的GLNet为新兴的超高分辨率图像分割的新问题。训练只需要一个1080Ti GPU和推理需要不到2GB的GPU内存，高达30M像素的超高分辨率图像。• GLNet可以有效和高效地集成全局上下文和局部高分辨率精细结构，产生高质量的分割。本地或全球事实证明，信息是必不可少的。• 我们进一步提出了一种由粗到细的GLNet变体，以解决超高分辨率图像分割中的类别不平衡问题，提高性能。在保持低计算成本的同时进一步提高效率2. 相关工作2.1. 语义分割：质量&效率完全卷积网络（FCN）[5]是第一个用于高质量分割的CNN架构。U-Net [6，21，22]使用跳过连接将低级特征连接到高级特征，并使用编码器-解码器架构。Decon-vNet [23]和SegNet [8]也采用了类似的结构。DeepLab [24，25，26，3]使用扩张卷积来扩大滤波器的视场并利用连续随机场（CRF）模拟空间关系.不幸的是，这些模型在应用于超高分辨率图像时会①的人。随着语义分割在许多实时/低延迟应用（例如，自动驾驶）中变得重要ENet [27]使用具有早期下采样的非对称编码器-解码器结构，以减少浮点运算。ICNet [2]在适当的标签指导下，从多分辨率分支级联特征映射，以及模型压缩。然而，这些模型没有定制，也没有评估超高分辨率的图像，我们的实验表明，他们没有达到足够令人满意的权衡在这种情况下。2.2. 多尺度和上下文聚合多尺度[24，28，29，30]已被证明是强大的分割，通过集成高级别和低级别的功能，以捕捉不同粒度的模式。在RefineNet [31]中，多路径细化块被用于通过上采样较低分辨率特征来组合多尺度特征 [32]采用拉普拉斯金字塔来利用更高级别的特征来细化从低分辨率地图重建的边界。特征金字塔网络（FPN）[4]逐步上采样的特征图，不同的尺度，并以自上而下的方式聚合它们。使用分层自动缩放网络（HAZN）[29] 两步自动放大策略，以将粗略阶段的边界框和预测分数传递到精细阶段。上下文聚合在编码局部空间邻域甚至非局部信息中也起着关键作用。ParseNet [33]中采用了全局池化来聚合场景解析的不同层次的上下文。DeepLab [25]中的扩张卷积和ASPP（atrous spatial pyramid pooling）模块有助于扩大感受野，而不会太快失去特征图分辨率，从而将全局上下文聚合到局部信息中。PSPNet [7]中的金字塔池实现了类似的目标。在ContextNet [34]，BiSeNet[35]和GUN [36]中，深/浅分支被组合以聚集全局上下文和高分辨率细节。[37]认为上下文信息是由RNN建模的长距离依赖性。值得注意的是，在我们的GLNet中，在两个输入中都采用了上下文聚合级别（全局/局部分支）和功能级别。2.3. 超高分辨率分割数据集我们总结了三个具有超高图像的公共数据集（在第4节中研究）。基本信息和直观示例分别见表1和图2。DeepGlobe土地覆盖分类数据集（DeepGlobe）[1]是第一个提供以农村地区为重点的高分辨率亚米级卫星图像的公共基准。DeepGlobe提供了七个类别的地面实况像素级遮罩：城市，农业，牧场，水，水，水。它包含了1146张带注释的卫星图像，所有图像的大小都是2448×2448像素。DeepGlobe比以前的土地覆盖分类数据集具有更高的分辨率和更具挑战性。国际皮肤成像协作组（ISIC）[9，10]数据集收集了大量皮肤镜图像。它的子集，ISIC病变边界分割数据集，由2594个图像从患者样本提交皮肤癌筛查。所有图像都用地面实况二进制掩码进行注释，指示原发性皮肤损伤。超过64%的图像具有超高分辨率：最大的图像具有6682×4401像素。Inria航空数据集[11]涵盖了不同的城市从密集的大都市区到阿尔卑斯山度假胜地。它提供了180张5000×5000像素的图像（来自五个城市），每张图像都用建筑物/非建筑物区域的二进制掩码进行了注释。与DeepGlobe不同的是，它按城市而不是随机瓷砖划分训练/测试集。3. 全球-地方合作网络3.1. 动机：为什么不是全球性的或本地的为了在GPU内存有限的情况下对超高分辨率图像进行训练和推理，可以使用两种特别的想法，8927（一）下采样（b）第（1）款（1）源图像500像素（一）Li=1首先：对全局图像进行下采样，或裁剪-Ihr，Shr∈Rh2× w2，其中h1，h2<$H，w1，w2<$W.我我把它打成补丁然而，这两种情况往往导致不...期望的伪影和差的性能。图 3 （ 1 ）显示了一幅2448×2448像素的图像，图3（1）中显示了其地面实况分割3（2）：黄色代表然后我们训练了两个FPN模型：一个所有图像降采样到500×500pix-els，另一个带有大小为500×500pix的裁剪补丁从原始图像。他们的预测显示分别在图3（3）和（4）中。人们可以观察到，由于下采样丢失了细节，前者会出现相比之下，后者有大面积的错误分类。请注意，“农业”和“贫瘠”地区往往在视觉上看起来相似（放大面板（a）和（b）在图。3（1））。因此，基于斑块的训练缺乏空间背景和邻域依赖性信息，使得仅使用局部斑块难以区分最后，我们在图中提供了GLNet的预测。3（5）供参考：它清楚地显示了来自全局和局部处理的杠杆优点的优点。2448像素农业贫瘠水(2) 地面实况（一）（b）第（1）款（一）（b）第（1）款(3) 仅限全球分支机构（4）仅限本地分支机构（5）协作GLNet图3：DeepGlobe数据集中的分割结果示例（在高分辨率显示器中查看效果最佳）：（ 1 ）源图像。 (2)Ground-truthsegmentation mask。我们通过（3）仅用下采样的全局图像训练的模型，（4）仅用裁剪的局部补丁训练的模型，（5）我们提出的协作GLNet来显示预测。放大面板（a）和（b）示出了局部精细结构的细节，示出了单独来自全局或局部结果的不期望的网格状伪影和不准确的边界。3.2. GLNet架构我们对G和L采用相同的主干，两者都可以是被视为来自层1的卷积块的级联L（图）（五）。在分割过程中，来自任一分支的所有层的特征图与其他分支深度共享（第3.2.2节）。然后通过分支聚合层fagg聚合两组高级特征图以生成最终的分割掩码（第3.2.3节）。为了约束两个分支并稳定训练，弱耦合正则化也被应用于局部分支训练。3.2.2深度特征图共享为了与本地分支协作，首先在当前本地补丁的相同空间位置处裁剪来自全局分支的特征图接下来，它们作为额外通道连接到同一层中的局部分支特征映射。以对称的方式，还收集来自本地分支的特征图。首先对局部特征图进行下采样，以匹配与从大源图像中裁剪的补丁相同的然后，它们被合并在一起（按照与局部补丁被裁剪的顺序相同的顺序），成为与全局分支特征图相同大小的完整特征图。这些局部特征图也作为通道连接到全局分支特征图，然后送入下一层。图5示出了深度特征图共享的过程，除了分支的最后一层之外，该过程逐层应用。共享方向可以是单向的（例如，将全局分支的特征映射共享G → L）或双向（G → L）。在每一层，当前全局上下文特征和局部精细结构特征并相互融合。3.2.3正则化的分支聚合这两个分支将通过聚合层fagg聚合，实现为3×3滤波器的卷积层。它从本地分支的第L层X_xLoc获取高级特征图，并从全局分支获取相同的特征图。分支X→ Gl b，并沿着通道连接它们。的3.2.1全球和本地分支机构L阿莱格fagg的输出将是最终的分割输出S。在我们在图中描述了我们的GLNet架构。4.第一章从N个超高分辨率图像和片段的数据集开始，站D={（Ii，Si）}N，其中Ii，Si∈RH×W，除了对S_xAg_g强制执行的主分段损失之外，我们还应用了两个辅助损失，以强制执行来自局部分支S_xLoc和来自全局分支S_xLoc的分段输出。全局分支G采用下采样的低分辨率IM，分支S_G_b将接近于它们对应的分段a。年龄Dlr ={（Ilr，Slr）}N，当地分支机构L重新-图（局部补丁/全局下采样），分别，i i i=1从D中以相同的分辨率接收裁剪的补丁，我们发现这有助于稳定训练。Dhr={{（Ihr，Shr）}ni}N，其中每个Ii和Si在我们在实践中发现，地方分行容易过度--ijijj =1 i =1D包括ni个片。请注意，Ii和Si被完全裁剪成补丁（而不是随机裁剪），以便于拟合一些强局部细节，并因此，我们尽量避免当地同时进行训练和推理。Ilr，Slr∈Rh1×w1，分支从学习我我（一）（b）第（1）款2448像素500像素8928...L吉禄·吉卜L高级特征图下采样全局分支全球预测深度特征图共享正则化聚集输入图像本地分行当地作物图4：我们提出的GLNet概述。全局和局部分支分别获取下采样和裁剪的图像。深度特征图共享和特征图正则化加强了我们的全局-局部协作。最终的分割是通过聚合来自两个分支的高级特征图来生成的全局分支本地分行层1层2层L-1层L正则化聚集层1层2层L-1层L辅助损失处理渗漏都辅助损失全局分支12分割全球... N功能图分享G L1. 作物2. 上采样3. concatenate图6：两阶段分割。我们的全局分支进行粗分割，对于局部分支的细分割，我们本地补丁1本地补丁2本地补丁N仅处理边界框前景中心区域。1 2N本地分行功能图分享L G1. 下采样2. 合并3. concatenate一个两阶段的细化解决方案为了减轻类的不平衡，我们提出了一个新的两阶段的粗到精图5：全局和局部分公司在每一层，具有全局上下文的特征图和具有局部精细结构的特征图被双向地汇集在一起，从而有助于完整的基于块的深度全局-局部协作。从聚合结果的主损耗和两个分支的两个辅助损耗形成我们的优化目标。通过在来自两个分支的最后层的特征图之间添加弱耦合正则化。具体来说，我们增加了欧几里德范数惩罚λ<$X<$ Loc−X<$ Gl b<$2，以消除X L和X L之间较大的相对变化与在我们的工作中，λ经验地固定为0.15。这种规律-Tion的主要目的是使局部分支训练3.3. 从粗到精GLNet对于分割以分离前景和背景（即，二进制掩模），前景在超高分辨率图像中通常占用很少的空间。这种类别不平衡可能严重损害分割性能。以例如，在ISIC数据集中，大约99%的图像的背景像素比前景像素多，超过60%的图像的背景像素比前景像素多。年龄小于20%的前景像素（见图中的蓝色条）。8（1））。许多局部补丁将只包含背景像素，这导致病态梯度。GLNet的变体（图（六）。该算法首先单独应用全局分支对下采样图像进行粗分割。然后为分割的前景区域1创建边界框。然后将原始全分辨率图像中的有界前景作为局部分支的输入进行精细分割。与GLNet允许并行局部-全局分支不同，该Coarse-to-Fine GLNet允许两个分支的顺序组合，其中仅在边界框内的特征图首先在边界框细化期间从全局分支到局部分支深度共享，然后共享回来。所有超出边界框的区域都将被预测为背景。粗到精GLNet还通过选择性的精细尺度处理降低了计算成本。4. 实验在本节中，我们评估了GLNet在DeepGlobe和InriaAerial数据集上的性能，并评估了从粗到细的GLNet在ISIC数据集上的我们将我们的模型与其他方法进行了彻底的比较，1在实践中，我们动态地放松边界框的大小，使有界区域的前景-背景类比约为1，以在第二步中实现类平衡。输入图像全局分支分割裁剪包围盒本地分行8929（）（）（）分割质量和存储效率2.对烧蚀研究也作了详细介绍。4.1. 实现细节在我们的工作中，我们采用FPN（特征金字塔网络）[4]，ResNet50 [38]作为我们的骨干。深度特征图共享策略在自底向上阶段应用于ResNet50的conv2到conv5块的特征图，并且还应用于FPN中自顶向下和平滑阶段的特征图。对于FPN中的最后横向连接阶段，我们采用了特征图正则化，并将这一阶段聚合为最终分割。为了简单起见，下采样的全局图像和裁剪的局部补丁共享相同的大小，500×500像素。相邻块具有50像素重叠以避免所有卷积层的边界元消失公司现采用国际聚焦损失[39]，γ= 6作为主要和两个辅助损失的优化目标。主损失和辅助损失的权重相等特征图正则化系数λ被设置为0.15。为了测量模型的GPU内存使用情况，我们使用命令行工具“gpustat”，minibatch大小为1，并避免计算任何梯度。请注意，只有一个GPU卡用于我们的训练和推理。我们使用PyTorch框架进行实验从全局分支到局部分支（最后，在两个分支之间共享的双向深度特征图使模型能够产生71.6%的高mIoU。该消融研究证明，通过深度和多样的特征图共享/正则化/聚合策略，全局和局部分支可以有效地协作。值得注意的是，即使使用双向深度特征图共享方法（表2中的最后一行），推断期间的内存使用量也仅从1189MB略微增加到1865 MB。图7用两个放大的面板（a）和（b）显示了所实现的改进。有不希望的网格状文物和不准确的边界在全球（图。7（3））或当地的结果（图。7（4）单独。从聚合、浅特征图共享，最后到双向深特征图共享，可以观察到渐进的改进，同时显著减少了误分类和不准确的边界。2448像素[40]。我们使用Adam优化器[41]（β1= 0. 9，β2=（1）源图像(a)（3）仅限全球分支机构（4）仅限本地分支机构（b）第（1）款0的情况。999），训练全局分支的学习率为1×10−4，局部分支的学习率为2×10−5对于所有训练，我们使用6个小批量所有实验均为-在带有NVIDIA 1080Ti GPU卡的工作站上形成。(2) 地面实况（b）（b）（b(5) Agg+Fmreg(6) Agg+Fmreg+G→L浅共享（7）4.2. DeepGlobe我们首先将我们的框架应用于DeepGlobe数据集。该数据集包含803张超高分辨率图像（2448×2448像素）。我们将图像随机分为训练集、验证集和测试集，分别为455、142和206张图像。密集注释包含7个类景观区域，其中七个类别中的一个称为4.2.1从浅层到深层的特征地图共享为了评估我们的全局-本地协作策略的性能，我们逐步将我们的模型从浅层特征图共享升级到深层特征图共享（表2）。单独使用下采样的全局图像或图像块，每个分支只能分别实现 57.3%和66.4% 的平均交并比（mIoU）通过两个分支的高级特征图的聚合和它们之间的当我们只共享一层特征地图图7：DeepGlobe数据集中的分割结果示例（在高分辨率显示器中查看效果最佳）。(1)源图像。(2)地面真相我们通过使用以下训练的模型显示预测：（3）仅下采样的全局图像，（4）仅裁剪的局部块，(5) 聚合(6) 浅特征图共享，以及（7）双向深特征图共享。放大面板(a) 和（b）说明局部精细结构的细节。4.2.2精度和内存使用情况比较3使用全局图像或局部补丁训练和推理的模型可能会产生不同的结果。这是因为模型具有不同的感受野，卷积核大小和填充策略，这导致不同的合适的训练/推理选择。因此，我们在本消融研究中仔细比较了使用这两种方法训练的模型。我们训练和测试模型两次（每次使用全局图像或局部补丁），然后选择最佳结果。2我们选择了几个国家的最先进的模型与公共实施，用于比较的表格（详见补充资料）3我们使用公共可用的细分模型[42，43]（一）（b）第（1）款（一）农业贫瘠水（（2448像素8930表2：在本地DeepGlobe测试集上评估的不同特征图共享策略的有效性。“Agg”表示聚合层，“Fmreg”表示特征图欧几里德范数正则化。‘‘Shallow’ and ‘deep’ denote whether sharing feature在模型的单个层或所有层中。模型AggFMREGG →浅L深GL深mIoU（%）内存（MB）仅本地57.31189全球唯一66.41189C69.31189CC70.31209GLNetCCC70.51251CCC70.91395CCCC71.61865粗比较与固定图像/补丁size4表3显示所有模型在全局推理下都实现了更高的mIoU，但消耗了非常高的GPU内存。在基于补丁的推理中，他们的记忆使用量下降，但准确性也下降。只有我们的GLNet实现了mIoU和GPU内存使用之间的最佳平衡。我们在图中绘制了每种方法的最佳可实现mIoU。第1（a）段。表3：在本地DeepGlobe测试集上预测的mIoU和推断内存使用。‘分别在两个分支请注意，我们的GLNet不使用全局图像进行推理。可视化见图1（a）模型面片推理全局推理mIoU（%）内存（MB）mIoU（%）内存（MB）UNet[6]37.394938.45507ICNet[2]35.5119540.22557PSPNet[7]53.3151356.66289SegNet[8]60.8113961.210339DeepLabv3+[3]63.1127963.53199FCN-8s[5]64.3196370.15227mIoU（%）内存（MB）GLNet：G →L70.91395GLNet：GTL71.61865深入比较不同的图像/补丁尺寸我们选择FCN-8和ICNet对不同图像/补丁尺寸进行深入评估，因为它们分别实现了高mIoU和高效内存使用。我们将消融研究的详细情况绘制在图中。1（b）和（c）。对于FCN-8和ICNet来说，更高的精度意味着牺牲GPU的性能，反之亦然。这证明了典型模型无法平衡其分割质量和效率5。4由于一些模型（例如SegNet，PSPNet）由于大量内存使用而无法在全局推理期间不进行下采样的情况下处理图像，因此必须使用下采样的全局图像进行训练。我们避免过度下采样以减少分辨率的损失对于基于块的训练和推理，我们对所有模型采用500×500像素。5在训练大型全局图像时，minibatch大小受到大量内存使用的限制。我们采用了4.3. ISIC6ISIC病变边界分割挑战数据集包含2596张超高分辨率图像。我们将图像随机分为训练集、验证集和测试集，分别为2077、260和259张图像。4.3.1由粗到细分割在严重不平衡的ISIC数据集上，全局分支和局部分支分别只能实现72.7%和48.5%的mIoU。当我们应用我们的粗到细策略时，我们可以清楚地看到一个更加平衡的前景-背景类比率（图中的红色条）。8（1））。通过裁剪前景的宽松边界框（第4.2节），局部分支仅在较小和类平衡的图像上训练对于类平衡的图像，全局到本地共享策略产生73.9%的mIoU，进一步的双向共享将性能提高到75.2%。在这种情况下，全局分支使用更准确的全局上下文，因为在对裁剪的较小图像进行下采样期间存在较少的信息丢失这一成功证明了由粗到细的分割可以更好地捕获上下文信息并解决类别不平衡问题。我们在表4中列出了该消融研究的结果，在图4中列出了一些视觉结果。8（2）.4.3.2精度和内存使用情况比较7最后，我们在表5中列出了GLNet在ISIC数据集的本地测试集上的mIoU和推理内存使用情况。GLNet例如，小批量大小为2，权重每三个小批量更新一次。6ISIC病变边界分割挑战使用以下指标（每个图像）：如果IoU0.65，则score = 0<;否则，score = IoU。7由于ISIC中的图像是类不平衡的，因此使用下采样的全局图像进行训练是大多数方法的最佳策略因此，对于每种方法，我们选择适当的图像大小来平衡下采样期间的信息丢失和GPU内存使用。8931C（一）3008像素将图像随机分成分别具有126、27和27个图像的训练、验证和测试集。表6展示了我们的深度特征图共享策略的功效和效率测试结果列于表7中，其中我们提出的GLNet产生mIoU 71.2%。同样，GLNet在准确性和内存使用方面都优于其他方法。值得注意的是，我们的GLNet即使对于5000×5000像素的“超级”超高分辨率图像也能保持低内存使用率（二）图8：（1）ISIC 2018数据集中前景与背景像素（每幅图像）蓝色条表示全局分支的边界框细化之前的比率(2)从粗到细分割的视觉结果在细化（从（b）到（e））之后，GLNet能够捕获更准确的边界。表4：在本地ISIC测试集上评估的粗到细分割和深特征图共享的有效性。 ‘ 和全局到局部分支和两个分支之间的双向。模型G→LGLBboxmIoU（%）全球唯一70.1仅本地48.5J72.7GLNetJJ73.9JJ75.2产生mIoU 75.2%，并且在准确性和内存使用方面定量优于其他方法。表5：在本地ISIC测试集上预测的mIoU和推断内存使用型号mIoU（%）内存（MB）ICNet[2] 33.8 1593表6：GLNet在当地Inria Aerial测试集上评估的有效性。分支分别。模型G → L GLmIoU（%）全球仅42.5仅本地63.1GLNetC66.071.2表7：在本地Inria Aerial测试集上预测的mIoU和推断内存使用。模型mIoU（%）内存（MB）ICNet[2]31.12379DeepLabv3+[3]55.94323FCN-8s[5]61.68253GLNet71.226635. 结论我们提出了一个内存有效的分割模型GLNet专门为超高分辨率图像。它有效地利用全局上下文和局部精细结构来增强超高分辨率场景中的分割，而不牺牲GPU内存使用。我们还证明了类不平衡的问题可以解决我们的粗到细的分割方法。我们认为，追求GPU内存和精度的最佳平衡对于超高分辨率图像的研究至关重要，这使得我们的模型非常重要。我们的工作开创了记忆这一新的研究课题粤ICP备15048888号-1GLNet 75.2 19214.4. 因里亚航空Inria空中挑战数据集包含180个超高分辨率图像，每个图像都有5000×5000像素。我们确认Z的工作Wang的部分研究得到了国家科学基金会奖RI-1755701的支持。X.Qian的工作我们也感谢教授。Andrew Jiang和Junru Wu帮助实验。全局分支（a）源图像（b）全球部门的预测（c）地面实况作作GLNet981像素 (d)裁剪前景区域(e)GLNet预测(e)裁剪地面实况2000 px1017像素SegNet[8]37.14213超高分辨率图像的有效分割DeepLabv3+[3]70.520338932引用[1] Ilke Demir、Krzysztof Koperski、David Lindenbaum、Guan Pang、Jing Huang、Saikat Basu、Forest Hughes、Devis Tuia和Ramesh Raska。Deepglobe 2018：通过卫星图像解析地球的挑战。在2018年IEEE/CVF计算机视觉和模式识别研讨会（CVPRW）上，第172-17209页。IEEE，2018年。[2] Hengshuang Zhao ， Xiaojuan Qi ， Xiaoyong Shen ，Jianping Shi，and Jiaaya Jia.用于高分辨率图像实时语义分割的Icnet。在欧洲计算机视觉会议（ECCV）的会议记录中，第405- 420页[3] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页[4] 林宗义、多拉尔、葛希克、何凯明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。在CVPR，第1卷，第4页，2017年。[5] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页[6] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234-241页。施普林格，2015年。[7] Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。在IEEE计算机视觉和模式识别（CVPR）会议上，第2881-2890页[8] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on pattern analysis and machineintelligence，39（12）：2481[9] Philipp Tschandl ， Cliff Rosendahl ， and Harald Kittler.ham10000数据集，常见色素性皮肤病变的多源皮肤镜图像的大型集合。科学数据，5：180161，2018。[10] Noel CF Codella ， David Gutman ， M Emre Celebi ，Brian Helba，Michael A Marchetti，Stephen W Dusza，Aadi Kalloo ， Konstantinos Liopyris ， Nabin Mishra ，Harald Kit- tler，et al.针对黑色素瘤检测的皮肤病变分析：2017年国际生物医学成像研讨会（ISBI）上的一个挑战，由国际皮肤成像合作组织（ISIC）主办。在生物医学成像（ISBI 2018），2018年IEEE第15届国际研讨会上，第168172. IEEE，2018年。[11] Emmanuel Maggiori 、 Yuliya Tarabalka 、 GuillaumeCharpiat和Pierre Alliez。语义标注方法可以推广到任何城市吗？INRIA航空图像标记基准。在IEEE国际地球科学与遥感专题讨论会（IGARSS）。IEEE，2017年。[12] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213[13] Gabriel J Brostow，Julien Fauqueur，and Roberto Cipolla.视频中的语义对象类：一个高清晰度地面实况数据库。Pattern Recognition Letters，30（2）：88-97，2009.[14] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可可 - 东西：上下文中的事物和东西类。在IEEE计算机视觉和模式识别会议论文集，第1209-1218页[15] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[16] 史蒂文·阿舍尔和爱德华·平卡斯。导演手册：数字时代的综合指南。企鹅出版社，2007年。[17] 保罗·莉莉三星推出疯狂宽32：9宽高比显示器与hdr和 freesync2.https ： //www.pcgamer.com/samsung-launches-a-massive-49-inch-ultrawide-hdr-monitor-with-freesync-2/，2017.[18] 数字电影院举措数字电影系统规范，版本1.3。http://dcimovies.com/specification/DCIDCSS Ver1-3 2018-0627.pdf，2018.[19] Michele Volpi和Dev

下载后可阅读完整内容，剩余1页未读，立即下载