深度学习解决图像拼接不规则边界问题的方法

53 浏览量更新于2023-10-25 收藏 3.01MB PDF 举报

图像拼接

网格变形

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5740用于图像拼接的深度矩形：学习基线北京交通大学信息科学研究所北京，中国2先进信息科学与网络北京市重点实验室3电子科技大学成都https://github.com/nie-lang/DeepRectangling摘要拼接图像提供宽视场（FoV），但遭受令人不快的不规则边界。为了解决这个问题，现有的图像矩形化方法致力于搜索一个初始网格和优化一个目标网格，形成网格变形在两个阶段。然后通过变形拼接图像生成矩形图像。然而，这些解决方案仅适用于具有丰富线性结构的图像，导致具有非线性对象的地形和景观的明显失真。在本文中，我们通过提出第一个针对图像矩形化的深度学习解决方案来解决这些问题。具体地说，我们构造了一个刚性目标网格，并只估计一个初始网格来形成网格变形，从而得到了一个紧凑的一阶段解。使用具有残差渐进回归策略的全卷积网络预测初始网格。为了获得具有高内容保真度的结果，提出了一种综合目标函数，以同时鼓励边界直角、网格形状保持和内容感知自然。此外，我们建立了第一个图像拼接矩形化数据集，具有很大的多样性，在不规则的边界和场景。实验表明，我们的优势，传统的方法定量和定性。1. 介绍图像拼接算法[3，12，20，29]可以生成宽FoV图像（图1b）从正常的FoV图像（图1a）。这些方法优化全局或局部扭曲以对齐不同图像的重叠区域尽管如此，非重叠区域总是受到不规则边界的影响[2]。使用图像拼接技术的人必须容忍不愉快的边界。为了处理不规则的边界，解决方案之一是用矩形裁剪拼接图像。然而，在这方面，*通讯作者裁剪不可避免地减小了拼接图像的FoV，这与图像拼接的初衷相矛盾。图图1C展示了一个示例，其中暗区域指示通过裁剪丢弃的区域。另一方面，图像完成可以合成缺失区域以形成矩形图像。然而，目前还没有工作来设计图像拼接中不规则边界的掩模，甚至SOTA完成工作[25，27]也显示出不令人满意的性能（图10）。1d）处理拼接图像时。此外，完成方法可能会添加一些看似和谐但与现实不同的内容，使其在自动驾驶等高安全性应用中不可靠[11]。为了获得具有高内容保真度的矩形图像，提出了图像矩形化方法[6，7，13]，以通过网格变形将拼接图像变形为矩形。然而，这些解决方案只能保留具有直线/测地线的结构，例如建筑物，盒子，柱子等。对于非线性结构，例如肖像[26]，通常会产生扭曲。实际上，保留线性结构的能力受到线检测的限制，因此有时在线性结构中也会发生失真（图11）。第1e段）。此外，这些传统的方法是两阶段的解决方案，搜索一个初始网格和优化一个目标网格的成功，这使得它具有挑战性的加速。为了解决上述问题，我们提出了第一个一阶段的学习基线，其中我们对刚性目标网格进行建模具体来说，我们设计了一个简单但有效的全卷积网络，以估计一个内容感知的初始网格从缝合图像与残差渐进回归策略。此外，提出了一个综合的目标函数，包括一个边界项，一个网格项，和一个内容项，同时鼓励边界矩形，网格形状保持，和内容感知自然。与现有的方法相比，我们的内容保持能力更一般（不限于线性结构）和更鲁棒（图1）。1f）由于我们的内容约束中的有效语义保留。5741图1.图像拼接中不规则边界的不同解法。(a)一个经典的图像拼接数据集，不包括在拟议的数据集中（APAP-conssite [29]）。(b)使用UDIS [23]拼接图像，边界不可避免地不规则。(c)裁剪边界以获得矩形图像。（d）使用LaMa完成缺失区域[25]。（e）He等人’s (f)我们的矩形与高内容保真度。由于没有合适的数据集可用，我们构建了一个深度图像矩形化数据集（DIR-D）来监督我们的训练。首先，我们应用He et al. ’s rectangling [然后，我们利用矩形化变换的逆变形真实的矩形图像合成拼接图像。最后，我们严格地从数万张合成图像中手动过滤出没有失真的图像，产生了一个具有6，358个样本的数据集。实验结果表明，该方法能够高效地生成内容保持的矩形图像，在数量和质量上都优于现有的解决方案综上所述，我们的贡献如下：我们提出了第一个深度矩形化的图像拼接解决方案，它可以有效地生成矩形图像在残差渐进的方式。现有的方法是两阶段的解决方案，而我们的是一个阶段的解决方案，使高效的并行计算与预定义的刚性目标网格。此外，我们可以保持线性和非线性结构。由于没有合适的拼接图像和矩形图像对的数据集，我们构建了一个具有广泛的不规则边界和场景的深度图像矩形化数据集2. 相关工作本文提供了一种基于深度学习的矩形化图像拼接解决方案。因此，本节回顾了与图像拼接和图像矩形化相关的大量工作2.1. 图像拼接对齐重叠区域[14]是图像拼接的核心目标但是为了产生自然的拼接图像，还需要最小化非重叠区域的投影失真。在[2，18]中，重叠区域的投影变换被平滑地外推到非重叠区域，并且所得到的扭曲逐渐从投影变化到图像上的相似性。Li等人。 [16]提出了一种准单应性扭曲，它依赖于全局单应性，同时挤压非重叠区域。Liao和Li [17]提出了两种单透视变形，以保持透视一致性并减少投影失真。最近，Jia等人。 [9]考虑了长线的场景，并在拼接过程中保持全局共线线段的形状。现有的图像拼接算法虽然能有效地减少投影失真，保持图像的自然外观，但不能很好地解决拼接后图像边界不规则的问题。2.2. 图像矩形化为了得到矩形拼接图像，He等人。 [7]建议优化线保持网格变形。然而，在这方面，···5742（a）两阶段传统基线（为清楚起见，只画出8×6网格）。(b)建议的一阶段学习基线。图2.传统基线与学习基线传统的基线通过搜索初始网格和优化目标网格两个阶段来解决矩形化变形，而我们的解决方案在一个阶段解决它，因为我们只预测初始网格。所提出的能量函数只能保持线性结构。考虑到在全景图（ERP格式）中直线可能会弯曲，Li等人[13]将线保持能量项改进为测地线保持能量项。但是这种改进限制了它在全景图中的应用，并且不能直接从拼接图像中检测测地线后来，Zhang等人 [31]将图像矩形化和图像拼接统一优化。然而，为了减少最终矩形结果的失真，他们对矩形形状进行了妥协，采用分段矩形边界约束。由于矩形化算法性能不稳定、计算量大等问题，使得矩形化算法在实际应用中受到限制。在本文中，我们提出了一个简单而有效的学习基线来解决这些问题。3. 方法我们首先分析传统基线和3.1节中提出的学习基线之间的差异。然后，我们的网络结构和目标函数分别在3.2节和3.33.1. 传统基线与学习基线矩形化解决方案应该解决初始网格和目标网格以形成网格变形。然后通过变形得到矩形化结果。3.1.1传统基线在经典的传统方法[7，13]中，需要两个阶段：局部阶段和全局阶段（如图所示）2a）。第一阶段：局部阶段。首先，利用接缝雕刻算法[1]在拼接图像中插入丰富的接缝，得到初步矩形图像。然后，在初始矩形图像上放置规则网格，并去除所有接缝，以获得具有不规则边界的拼接图像的初始网格。第二阶段：全球舞台。该阶段通过优化能量函数来求解最佳目标网格，以保持有限的感知特性，例如直线。它们通过将拼接图像从初始网格扭曲到目标网格来产生矩形图像。3.1.2学习基线如图2b.拟议的学习基线是一个一阶段解决办法。给定一幅拼接图像，我们的解决方案只需要通过神经网络预测一个内容感知的初始网格。对于目标网格，我们预定义它具有刚性形状。此外，刚性网格形状可以容易地使用矩阵计算加速向后插值[22]。矩形图像可以通过将拼接图像从预测的初始网格扭曲到预定义的目标网格来获得。与传统的基线相比，由于采用了一级流水线，学习基线的效率更内容保持能力使我们的矩形化结果在感知上更自然（在3.3.1节中解释）。3.2. 网络结构类似于图像完成任务[25，27]，拼接掩码也包含在所提出的网络的输入如示于图3，我们在通道维度上连接拼接图像I和掩码M作为输入。输出是预测的网格运动。特征提取器。我们堆叠简单的卷积池块来从输入中提取高级语义特征。形式上，采用8个卷积层，其滤波器编号分别设置为64、64、64、64、128、128和128。最大池化层在第2、第4和第6卷积层之后使用。网格运动回归器。在特征提取之后，利用自适应池层来固定特征图的分辨率随后，我们设计了一个完全卷积的结构作为网格运动回归器，以预测每个顶点的水平和垂直运动，5743W ···V×一VV0，n→eu，→in≥αWV图3.我们的网络的整体结构，其中将拼接图像和掩码作为输入。它以渐进的方式输出预测的网格运动。矩形化结果可以通过利用预测的扭曲扭曲来扭曲拼接图像来产生。规则网格。假设网格分辨率为U × V，则输出体积的大小为（U +1）×（V +1）× 2。残差逐步回归。观察到变形后的结果可以再次作为网络的输入，我们设计了一个残差逐步回归策略来估计。哪里（，）是warp操作。知觉丧失。为了使我们的结果感知自然，我们最小化矩形化的结果和标签之间的L2第三章：lp=（R）−（W（I，mc））通过渐进方式配合精确的网格运动首先，我们不直接使用扭曲的图像作为新网络的输入，因为这会使计算量增加一倍。C2+（R）−（W（I，mf））2，（三）理性复杂性相反，我们扭曲中间特征图，提高了性能，计算量略有增加。然后，我们设计了两个具有相同结构的回归器，分别预测主网格运动和剩余网格运动。虽然它们共享相同的结构，但由于不同的输入功能，它们被指定用于3.3. 目标函数其中，表示特征提取的操作从VGG19的以这种方式，可以感知各种感知属性（不限于线性结构）。总之，内容损失是通过同时强调外观和语义上的相似性而形成的，如下所示：lc=ωa la+ωp lp，⑷C c我们优化我们的网络参数使用比较-由三项组成的目标函数。优化目标可以用公式表示如下：L总=lb+lm+lc，（1）其中Lb、Im和Ic分别是边界项、网格项和内容项3.3.1内容项的传统方法[7，13]通过保留直线/测地线的角度来保留图像内容，无法处理其他非线性结构。为了克服它，我们建议从两个不同的角度来学习内容保持能力外观损失。给定预测的主网格mp和最终网格mf，我们强制矩形化结果在外观上接近矩形化标签R，如下所示：lc=<$R− W（I，mp）<$1+<$R− W（I，mf）<$1，（2）其中ωa和ωp表示外观损失和感知损失的权重3.3.2补片术语为了防止矩形图像中的内容失真，预测网格不应过度变形。因此，我们设计了一个网格内约束和一个网格间约束来保持变形网格的形状。网格内约束。在网格中，我们对网格边缘的大小和方向施加约束。如图4a，我们鼓励每个水平边缘的水平投影方向→eu向右，连同其范数大于阈值α W（假设拼接图像具有H W的分辨率）。我们使用罚函数Phor来描述这个约束，如下所示：. αW−ε→eu，→iε，→eu，→i<<$αWP=（五）5744我UvuUMMm(a)网格内约束。（b）电网间制约。图4.网格形状保持约束。其中i是向右的水平单位向量。对于每个网格中的垂直边→ev，我们施加类似的惩罚Pver如下：图5.数据集准备。左：从真实矩形图像合成拼接图像。右：合成矩形im-. αH−ε→e，→jε，→e，→

下载后可阅读完整内容，剩余1页未读，立即下载