通过曲线感知外推实现畸变矫正的完整场景和规则形状

149 浏览量更新于2023-10-14 收藏 14.8MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{kang liao, cylin}@bjtu.edu.cn, wychao1987@gmail.com, {l1feng, sr yang, yzhao}@bjtu.edu.cn145690通过曲线感知外推实现畸变矫正的完整场景和规则形状0廖康林，林春雨，魏云超，李峰，杨尚荣，赵瑶0北京交通大学信息科学研究所0北京交通大学先进信息科学与网络技术北京市重点实验室0摘要0由于广角镜头可以捕捉到宽广的视场（FoV）场景，因此它受到越来越多的关注。然而，所获得的图像受到径向畸变的污染，使得场景不真实。以前的畸变矫正方法将图像矫正为矩形或内凹，无法同时显示完整的内容和规则的形状。在本文中，我们重新思考了矫正结果的表示，并提出了一种矫正外推（ROP）方法，旨在将连贯的语义扩展到空白区域，并在原始广角镜头之外创建更宽的视场。为了解决变量绘制区域和曲线边界等特定挑战，设计了一个矫正模块来通过几何监督矫正图像，并使用双重条件扩展策略生成外推结果。在空间上折扣相关性方面，提出了一种曲线感知相关性测量方法，以便将重点放在生成的区域上以强制实施局部一致性。据我们所知，我们是第一个通过外推来解决具有完整内容和规则形状的矫正问题的人，我们的曲线感知策略可以实现具有完整内容和规则形状的矫正构造。大量实验证明了我们的ROP相对于其他最先进的解决方案的优越性。01. 引言0近年来，广角镜头能够捕捉到宽广的视场（FoV）场景，得到了越来越多的应用。人类具有纠正和理解广角镜头引起的畸变场景的天然能力。对于计算机视觉来说，完成这个任务需要基于手工特征[6, 8, 29, 14, 1, 26]或深度特征[23, 39,18, 35, 17, 16,5]恢复真实的几何分布。现有的畸变矫正方法生成矫正后的图像为矩形。0*通讯作者0广角图像增加了22%的视场0ROP0矫正图像0（矩形）0矫正图像（内凹）0形状参考0外推方式外推图像0图1.所提出的矫正外推（ROP）方法的动机。ROP旨在结合两种传统矫正构造的优点：完整的内容和规则的形状，同时超出原始广角镜头的视场（FoV）。请注意，矩形矫正后的图像的结构被用作外推的形状参考。0或者内凹，这两种方法都有限制，无法同时显示完整的内容和规则的形状。例如，矩形构造以规则的形状显示矫正后的场景，但它丢弃了图像边界内的内容。这种表示无法提供完整的场景，削弱了广角镜头的优势。虽然内凹构造覆盖了完整的内容，但它引入了一个视觉上狭窄的视场的不规则形状。这两种表示方法都有各自的优点和缺点。如果我们能同时提供完整的内容和规则的形状的表示，那将是有吸引力和有意义的。给定一张不完整的图像，图像外推的目标是在原始边界之外产生合理的视觉内容。与广泛研究的修补不同，外推受到的关注较少，并且由于其单边约束而更具挑战性。在本文中，我们重新思考了畸变传统构造的表示方法。145700校正和探索建立一种使用外推的新表示。如图1所示，我们提出了一种校正外推（ROP）方法。给定由广角镜头捕获的畸变图像，ROP旨在以内凹形式恢复逼真的完整场景并构建规则形状。然而，ROP具有以下特点而具有挑战性：（1）可变的绘画区域。对于校正结果，由于不同程度的畸变，围绕有效内容的空白区域在每个图像中都不同。（2）曲线边界。与直线边界相反，我们的ROP从曲线边界外推连贯的语义和细节。这种特殊结构导致生成内容与原始内容之间的空间相关性更加复杂。具体而言，我们设计了一个参数化框架来解决上述挑战。首先，畸变校正模块以一般几何监督的形式校正输入图像。随后，将校正后的图像和填充掩码输入到外推模块中，使用双条件扩展策略将语义一致的内容外推到空白区域。这种策略明确考虑了全局分布和扩展内容，引导网络明确感知不同的填充区域。此外，提出了一种曲线感知相关度测量方法，以强制执行外推内容的局部一致性。大量实验证明我们的方法可以从畸变图像中恢复逼真的细节，具有完整的场景和规则的形状。我们还展示了我们的ROP方法使捕获的场景能够展示超出原始广角镜头的更宽的视场，从而实现更准确的场景推理和其他应用。总的来说，我们的贡献总结如下：0•我们首次提出了一种校正外推（ROP）方法，以消除传统校正表示的固有限制。0•设计了一种通用几何监督和双条件扩展策略，以实现准确的畸变校正和图像外推。0•为了解决空间折扣相关性，提出了一种曲线感知相关度测量方法，以强制执行外推结果的局部一致性。02. 相关工作0畸变校正：由于广角镜头引起的严重畸变，畸变校正任务在计算机视觉中起着重要作用。先前的方法主要基于手工特征[6, 8, 29, 14, 1, 26]或深度特征来解决校正问题。0[23, 39, 18, 35, 17, 16,5]。例如，Kang等人[14]利用序列中成对跟踪的点特征的一致性进行自校准。基于曲线的方法[6, 8, 29,1]通过检测到的畸变线预测畸变参数并去除畸变。另一方面，学习方法通过深度特征扩展畸变校正。例如，卷积神经网络用于提取畸变图像的语义特征并预测畸变参数[23, 39, 35,5]。为了实现盲校正，生成式方法[18, 17,16]采用编码器-解码器架构来校正畸变图像，实现了无参数的灵活校正范式。尽管上述方法取得了令人鼓舞的性能，但校正结果的构建具有同时显示完整内容和规则形状的限制。在这项工作中，我们希望从精确的校正性能转向校正结果的少数相关表示。图像补全：图像补全旨在重建损坏图像中的缺失部分，其中图像修复技术得到了广泛探索。修复中的先前工作可以分为传统方法[2, 4, 3, 27]和学习方法[40, 38, 12,36, 42, 43,44]。图像外推比修复更具挑战性，因为它具有单侧约束。Sabini等人[25]首次实现了基于深度学习的图像外推，利用生成对抗网络的强大生成能力。在[33]中逐步提出了特征扩展模块和内容预测模块来改善外推性能。Teterwak等人[31]使用InceptionV3网络的预训练特征来对鉴别器进行条件化，使外推图像能够在语义空间中与真实图像匹配。Guo等人[9]设计了一个螺旋生成网络，以人类感知方式进行图像外推。由于上述方法的有希望的努力，我们得到了有意义的启示，并研究利用外推技术构建一种新的畸变校正结果表示。03. 方法论03.1. 问题表述0给定一个畸变图像 I d ∈ R h × w × 3，我们的矫正外扩（ROP）旨在生成一个矫正和外推的图像I re ∈ R h × w × 3 。具体而言，畸变矫正模块以 I d为输入，输出一个矫正图像 I r ∈ R h × w × 3和一个填充二值掩码 M ∈ R h × w × 1。然后，外扩模块接收 I r 和 M，生成具有完整内容和规则形状的 I re 。-+++r(θ) =N�i=1kiθ2i−1, N = 1, 2, 3, · · · ,(1)ρ1 ρ2 ρ3 ρ1 ρ2 ρ3 145710畸变矫正模块0外扩模块0DRC0DRC0DRC0伪造0真实0语义条件评论家0曲率条件评论家0伪造0真实0内容外推网络0Conv+LReLU SNConv+LReLU Dilated Conv+LReLU UP+CoordConv+LReLU0图例0预训练的InceptionV3全连接层0DRC0扩张残差连接0图2. 我们的矫正外扩（ROP）框架概述。在这项工作中，关键概念：曲率，可以连接畸变矫正模块和外扩模块之间的关系。03.2. 框架设计03.2.1 畸变矫正模块0我们的框架包括一个畸变矫正模块（DRM）和一个外扩模块（OM），如图2所示。DRM以凹陷的形式矫正畸变图像并生成填充掩码，该掩码受到提出的一般几何矫正的监督。详细参数估计：考虑到广角镜头的近似中广泛使用的一般多项式相机模型[15]，我们将投影方式与畸变参数之间的关系表示如下。0其中 r 是主点与图像中像素之间的距离， θ表示入射光线与广角镜头光轴之间的角度。为了矫正畸变图像，我们设计了一个学习模型，包括一个主干网络和一个头部网络。特别是，主干网络使用堆叠的卷积层提取畸变上下文的一般表示形式，以高级语义特征的形式。我们在ImageNet数据集[7]上预训练主干网络，并在我们的畸变图像数据集上进行微调。在这里，可以利用经典的网络结构，如VGG和ResNet（去除全连接层）。头部网络由全连接层组成，将畸变图像的一般表示与构建特征向量以估计0带曲率的矫正图像掩码畸变分布图0图3. 由曲率连接的矫正图像和畸变特征之间的显式几何关系。0畸变参数。然后，可以通过估计的参数对畸变图像中的像素进行变形和矫正。此外，我们使用相同的参数对一个黑色矩形进行矫正，以提供填充掩码。一般几何监督：使用上述网络，我们可以获得畸变参数并矫正畸变图像。然而，由于学习目标与图像的视觉特征之间的隐式关系，准确地回归这些参数仍然很困难。因此，我们提出了一种一般的几何监督来限制矫正图像的显式结构。如图3所示，我们展示了两个矫正图像的示例，用渐近圆和曲率标记的填充掩码，以及3D畸变分布图（DDM）。直观地说，矫正图像中凹陷程度越大，矫正边界的曲率越大，对应的3D畸变也越大。32 .(2)minG maxDc Ladv1(G, Dc) = Ey∼data(y) log Dc((y ⊙ M)|ρmax)+ Ex∼data(x) log (1 − Dc((G(x) ⊙ M)|ρmax)).(5)Recall that ρmax implies the extrapolated area and M in-dicates the ﬁlling mask. We denote the data distributionsas x∼data(x) and y∼data(y), where x and y representthe rectiﬁed image and the ground truth extrapolated result.During the adversarial learning, we encourage the curvatureconditioned critic to pay more attention to the extrapolatedresults with the larger ﬁlling region. Thus, the outpaintingmodule gains an evident cognition regarding the variableﬁlling regions and produces better expansion images.Semantic Conditional Critic: Inspired by the conditionalprojection adversarial works [21, 31], we then present a se-mantic conditioned expansion scheme. Unlike the above145720DDM。对于修正图像或填充掩模的边界曲线f(x)，点(t,f(t))的曲率ρ可以用相切圆Oos的半径ros来描述0ρ = 0ros = |f''(t)|0(1 + (f'(t))2)03D畸变分布图D表示畸变图像中的畸变程度和畸变分布，它是基于畸变级别D[18]形成的：0D(x, y) = {x, y, D(x, y)}, 0 ≤ x ≤ W, 0 ≤ y ≤ H, (3)0其中W和H表示畸变图像的宽度和高度。然后，D的描述可以如下给出：0D(x, y) = x'0x = y'0y = k1 + k2l + k3l2 + ∙ ∙ ∙, (4)0其中(x',y')是修正图像中对应像素的坐标，l表示畸变图像中像素(x,y)与主点之间的欧氏距离。假设位于畸变图像边界上的像素(xb, yb)被修正为位于曲线边界上的像素(x'b,y'b)，那么表示坐标比例关系的畸变级别D(xb,yb)也表示该曲线边界的偏差程度，即曲率。因此，可以推导出一个数学关系：D∝ρ。根据上述方程和图3，我们可以建立修正图像的结构外观ros与畸变图像的参数畸变模型D之间的直观关系，通过曲率ρ进行桥接。因此，畸变图像的修正过程可以在全局结构方面受到限制。在实现中，我们为修正图像的曲线边界定义了最大曲率ρmax作为另一个标签。除了详细的畸变参数监督外，我们还教导学习模型关注畸变的一般先验知识，使用ρmax估计。结果，我们的畸变修正模块获得了对畸变的更全面的感知，并实现了更准确的修正性能。最重要的是，估计的曲率还暗示了填充掩模中外推内容的面积，有效地指导了后续的外推模块。03.2.2 外推模块0外推模块由内容外推网络、曲率条件判别器网络和语义条件判别器网络组成。后两部分被称为双重条件扩展范式。内容外推网络：外推可以被视为图像到图像的转换任务，0因此，我们应用了编码器-解码器架构。与经典的U-Net[24]不同，我们的内容外推网络G具有以下特定设计。首先，为了捕捉具有大范围感知域的远程空间信息，我们在编码器部分的第一个层次中使用了大小为7×7的卷积核。此外，在编码器的末尾使用了扩张卷积组，扩张率为2、4、8、16。其次，由于一些粗糙的修正结果，我们在解码器的每个卷积层中实现了坐标卷积（CoordConv）[20]，以帮助恢复准确的分布。最后，我们设计了一种扩张残差连接（DRC）来替代跳跃连接。特别地，DRC模块由三个具有不断增加扩张率的残差块组成，它们从输入中选择性地采用不同的感知域，以将有用的内容从早期层传递到解码器。因此，我们可以缓解由常见的跳跃连接操作引入的模糊内容问题，并且可以预先绘制来自编码器的特征图。曲率条件判别器：在对抗学习策略中，通常会使用判别器网络来判断生成的结果是真实还是伪造的，从而改善对数据分布的合理逼近。对于在原始边界之外产生合理语义的外推任务，需要比简单的图像到图像转换任务更具辨别力的判别器。如上所述，我们的外推与传统的外推有所不同，特别是在可变填充区域和曲线边界方面。在第3.2.1节中，我们建立了修正图像的内凹程度与修正边界的曲率之间的直观关系。内凹程度还与填充区域的面积呈正相关。因此，我们可以使用这个先验知识来引导网络明确感知修正图像的可变填充区域。具体而言，我们设计了一个判别器网络Dc，并以修正边界的最大曲率为条件。HighLowHighLowD2RD1OPD2D1ROPStraight BoundaryCurve BoundaryCurve-Aware Correlation MeasurementFigure 4. Curve-aware correlation measurement strategy. At theﬁrst two columns, we show different spatially discounted correla-tions in conventional outpainting and our outpainting. The spatialcorrelation (D1) of a ﬁlling pixel P can be calculated by the sub-traction of the radius R and its distance (D2) to center (O), basedon a circle including the curve boundary as an arc.works, our main aim is to enable an authoritative referencefeature from a pre-trained learning model to the outpaintingcritic network Ds. In detail, the backbone network of Incep-tionV3 model I [30] is added into our adversarial learningstrategy, which is pre-trained on ImageNet [7] and providesthe high-level semantic features of the input image. Thesereference features are further combined with the featuresextracted by the original convolutional layers Dsc in criticnetwork, to discriminate if the image is derived from gener-ator G or not, using fully connected layers Dsf:minG maxDs Ladv2(G, Ds) = Ey∼data(y) log Dsf(Dsc(y) + I(y))+ Ex∼data(x) log (1 − Dsf(Dsc(G(x)) + I(G(x))),(6)Getting the well-represented reference feature from the pre-trained model, our outpainting critic network achieves morecomprehensive discrimination, impelling the generator net-work to hallucinate more realistic extrapolated results.3.2.3Curve-Aware Correlation MeasurementPrevious outpainting methods reason the generation regionbased on a spatially discounted reconstruction. In general,the pixel far away from the boundary has less relation tooriginal content. Concretely, we can measure this spatialcorrelation with a weighted mask as M w:M w(i, j) = λdis(i,j,B), 0 < λ < 1,(7)where dis(·) calculates the distance from pixel (i, j) to itsnearest boundary B. In contrast to the straight boundarycase, our outpainting needs to create the content from thecurve boundary, showing a more complicated spatial corre-lation between the generated content and the original con-tent. Thus, we design a curve-aware correlation strategy tomeasure the spatially discounted reconstruction. As illus-trated in Fig. 4, we show two examples of how to calculatethe distance between a ﬁlling pixel and its adjacent curveboundary. Supposed that the curve boundary of rectiﬁedimage derives from an arc A of a circle O, and then we cancompute the center (xc, yc) and radius R using any threepoints (x1, y1), (x2, y2), (x3, y3) on A:⎧⎪⎨ xc = (bfec)/(bdea);(9)(13)145730R = �0(xc - x1)2 + (yc - y1)2, (8)0其中上述系数可以通过以下方式获得：� � � � � � � �0a = 2(x2 - x1); b = 2(y2- y1); c = x22 + y22 -x21 - y21; d = 2(x3 -x2); e = 2(y3 - y2); f =x23 + y23 - x22 - y22.0随后，填充像素(xf,yf)到其最近曲线边界Af的距离可以通过以下方式给出：0(xf - xc)2 + (yf - yc)2 || 1.(10)通过提出的曲线感知相关度测量，我们使外推模块能够从曲线边界中外推一致的语义，实现更合理和连贯的完成重建。03.3. 训练损失0整体框架分别针对扭曲矫正模块(DRM)和外推模块(OM)进行优化。首先，基于参数监督Lps和曲率监督Lcs，设计了DRM，计算如下：0LDRM = Lps + Lcs, (11)0其中我们使用平滑的L1[22]来计算Lps和Lcs的值，这可以减轻训练过程中的梯度爆炸问题。随后，OM通过双重条件扩展和曲线感知相关度测量来外推新的内容，其参数可以通过学习得到。0LOM = Ldc + Lca + λadv1Ladv1 + λadv2Ladv2, (12)0其中Ladv1和Ladv2在公式5和6中引入。λadv1和λadv1是平衡因子。Ldc计算外推图像ˆIrop与真实图像Irop在VGG19[28]中第i个最大池化层之前第j个卷积层的特征图φi,j上的差异：0Ldc = 10Wi,j Hi,j0Wi,j �0x = 10y = 1 || φi,j(Irop)x,y - φi,j(ˆIrop)x,y ||2.145740矫正图像 Boundless SRN 我们的0扭曲图像0图5. 外推方法的视觉比较：Boundless [31]、SRN[33]和我们的曲线感知外推。0Lca专注于外推内容的优化。它包含了一种曲线感知相关度测量来加权空间上的折扣重建。0Lca = Ldc(Irop ⊙ M, ˆIrop ⊙ M) ⊙ Mw, (14)0其中Mw可以通过公式7和公式10计算得到。04. 实验04.1. 实现细节0为了训练我们的框架，我们使用来自MS-COCO[19]的原始图像建立了一个标准数据集。具体来说，我们的数据集包括扭曲图像、矫正图像、填充掩码、掩码边界的最大曲率和外推图像。考虑到广角镜头的普遍多项式相机模型[15]被广泛用于近似，我们基于该模型构建了我们的数据集。坐标的转换在公式1中描述。在生成扭曲图像时，我们使用了之前的扭曲矫正方法[39, 18,17]中使用的四阶多项式模型，这对于大多数应用场景的近似已经足够。对于外推模块，我们在每个卷积层之后（生成器网络的第一层除外）添加了实例归一化[32]，因为它可以减少生成结果中的伪影[31]。在训练过程中，我们采用Adam优化器，学习率分别为5×10-4和10-4，用于扭曲矫正模块、生成器网络和评论网络中的外推模块。训练的批量大小设置为4。输入图像和输出结果在[-1,1]的范围内进行线性剪裁。对于训练损失的超参数，我们经验性地设置λadv1 = 0.04和λadv2 = 0.02。04.2. 图像外扩结果0我们发现以前的外扩方法很难应用于矫正形状的情况。例如，0NSIO [ 37 ] 不支持基于掩码的外扩。Boundless [ 31 ] 和SRN [ 33 ]需要填充区域为矩形。这些约束限制了外扩技术的实际应用，导致了较差和有接缝的外推结果，如图5所示。相比之下，一些方法 [ 13 , 40 , 41 , 38 , 12 , 44 ]在修复区域可以灵活地使用不规则掩码完成图像。因此，为了公平比较，我们主要将我们的方法与这些修复方法进行比较。定量评估：按照以前的方法，我们使用三个指标来评估比较方法：峰值信噪比（PSNR），结构相似性指数（SSIM）和Fr´echetInception距离（FID），描述生成结果的感知质量 [ 11]。我们将我们的方法与GL [ 13 ]，DeepFill v1（DF v1）[40 ]，DeepFill v2（DF v2）[ 41 ]，RK [ 12 ]和HiFill [ 38]进行比较。所有方法都用于在包含1,000个图像的测试数据集上进行外扩。然后，我们使用每个外推图像与真实图像之间的差异计算三个评估指标。为了全面评估，我们将测试数据集分为三个类别：简单、中等和困难，根据矫正图像中空白区域的面积。如表1所示，我们的方法在所有评估指标上优于比较方法。定性评估：在图6中，我们展示了来自比较方法和我们方法的结果。具体来说，DeepFill v1 [ 40]和DeepFill v2 [ 41]生成的结果存在与不相关对象和噪声相关的差劲外推内容。虽然RK [ 12 ]，HiFill [ 38 ]和ProFill [ 44]产生了更具视觉效果的结果，但语义的破裂尤其在边界处发生，因为空间折扣相关性增加。相反，我们的方法在视觉外推性能和语义一致性方面表现最佳，表明设计的双重条件扩展和曲线感知相关度测量满足ROP中的特殊绘画范式。04.3. 畸变矫正结果0虽然我们的主要目标是外推矫正图像，但我们还使用最先进的方法评估了我们的矫正算法。从图7中，我们可以观察到与Li [ 16 ]和DeepCalib [ 5]相比，我们的矫正结果在PSNR和SSIM上都有显著改善，因为我们的方法引导学习模型在畸变图像上建立通用的几何感知。相反，大多数以前的畸变矫正方法忽略了这种先验知识。此外，我们与Liao [ 18]取得了竞争性的性能，而这种方法更加复杂，需要三种类型的网络进行矫正。在视觉外观方面，我们的方法比PSNRSSIMFIDPSNRSSIMFIDPSNRSSIM ↑FID ↓Rectified ImageRectified ImageDeepFill_v1DeepFill_v2RKHiFillOursDeepFill_v1DeepFill_v2RKHiFillOursProFillProFill161820222426LiaoOursLiDeepCalib18.3220.5323.3923.020.40.50.60.70.80.9LiaoOursLiDeepCalib0.530.680.770.79145750表1. 不同方法得到的外推结果的定量评估。红色文本表示最佳表现方法，蓝色文本表示次佳表现方法。0比较方法简单中等困难0GL（ToG’17）[ 13 ] 13.52 0.37 62.15 13.06 0.35 88.41 11.63 0.26 100.78 DeepFill v1（CVPR’18）[ 40 ] 16.93 0.59 49.3316.21 0.52 80.92 14.03 0.35 90.29 DeepFill v2（ICCV’19）[ 41 ] 18.39 0.64 41.93 17.32 0.62 71.41 15.02 0.41 82.16RK（ECCV’20）[ 12 ] 20.43 0.68 37.85 17.51 0.64 62.22 16.13 0.45 67.31 HiFill（CVPR’20）[ 38 ] 20.82 0.68 32.59 18.520.58 64.78 17.50 0.47 65.920我们的 23.40 0.74 21.48 22.08 0.71 51.88 19.41 0.61 53.190图6. 测试数据集上的定性比较。对于每个案例，我们从左到右依次显示修正图像，以及由DeepFill v1 [40]、DeepFill v2 [41]、RK[12]、HiFill [38]、ProFill [44]和我们的方法生成的外推结果。0在我们的方法中，我们在真实世界的设置中使用了流行的广角镜头（如Opteka 6.5mm镜头、iZugarMKX22镜头和GoPro）捕捉到的畸变图像，与传统的基于特征的方法[1]进行了比较。04.4. 为什么曲率引导是必要的0在我们的方法中，修正图像边界的曲率起着至关重要的作用。对于畸变修正，除了畸变参数提供的详细监督外，曲率引入的一般监督教导神经网络学习修正图像的全局结构。此外，修正图像边界的曲率还暗示了填充区域的面积，这可以引导评论网络判断不同的外推结果。为了深入分析，我们探索了曲率引导在ROP中的重要性。在图8中，我们展示了曲率引导在畸变修正模块（顶部）和外扩模块（底部）中支持的性能改进。分别在畸变修正模块中采用了两种常见的主干网络，VGG16和ResNet50，以消除网络架构对性能的影响。显然，在这两种主干网络情况下，曲率引导都显著减小了畸变估计误差，而没有曲率引导的模块表现较差且倾向于过拟合模型。0PSNR0SSIM0输入我0Alemán-Flores0图7.畸变修正结果。我们展示了基于学习的方法的定量评估（顶部）和传统基于特征的方法的视觉比较（底部）。0引导。对于外扩模块，曲率引导提供的学习过程加速了内容外推误差的减小。我们可以得出结论，曲率引导在ROP中起到了重要作用。145760图8.曲率引导（CG）在畸变修正模块（顶部）和外扩模块（底部）中提供的改进。对于视觉比较，我们展示了输入、真实值、生成结果以及带有曲率引导的生成结果。箭头标出了不满意的部分。0修正图像基线 + DRC + DC + CA0图9. 我们的外扩方法的视觉消融比较。箭头标出了伪影。0曲率引导填补了ROP中隐式学习目标和显式视觉表示之间的差距。04.5. 消融实验0为了验证我们方法中不同组件的有效性，我们进行了如下的消融实验。首先，我们实现了一个基线学习模型，没有采用扩张残差连接（DRC）、双重条件扩张机制（DC）和曲线感知外扩策略（CA）。然后，我们逐步添加这些组件来展示不同的外推性能。完整的方法包含上述组件，在图9中展示了最佳的视觉效果。使用扩张残差连接可以减轻解码器网络的负担，因为来自编码器网络的引入的特征图已经在多个感受野下进行了预填充。通过双重条件扩张，模型可以生成更平滑的内容和细节。此外，曲线感知相关度测量使得我们的模型能够协调颜色和语义的一致性，构建出逼真而无缝的场景。0图10.修正图像（顶部）和外推图像（底部）的目标检测和语义分割结果。箭头标出了缺失或错误的检测部分。04.6. 场景推理的好处0所提出的ROP方法构建了一个几乎完美的矫正结果表示，并通过更宽的视场扩展了原始场景。因此，我们的方法可以帮助下游视觉任务，如目标检测和语义分割，这对于场景分析和运动预测至关重要。如图10所示，检测和分割结果来自Mask R-CNN[10]。我们可以注意到矫正图像（顶部）中一些缺失和错误的检测部分，特别是在边界上，因为外部对象无法在固定的视场内完全捕捉到。此外，矫正图像的曲线边界会误导场景理解。例如，由曲线边界包围的空白区域在第三和第四列被识别为床。相比之下，我们的方法可以以规则的结构展示完整的场景，并在原始视场之外创建语义一致的对象。因此，ROP提高了场景感知的更准确性，改善了图像边界中对象的完整性。05. 结论0在本文中，我们重新思考了畸变矫正的传统表示，并提出了一种矫正外扩（ROP）方法。给定一幅畸变图像，ROP旨在恢复真实场景的几何分布，并构建具有完整内容和规则形状的结果。此外，我们可以获得超出原始广角镜头视场的更宽视场场景，这为视频监控和自动驾驶提供了一个有吸引力和有前途的应用。为了解决特定的挑战，我们提出了一个具有通用几何监督和双重条件扩展策略的参数化框架。考虑到空间上的折扣相关性，设计了一种曲线感知相关度测量方法，以强制执行外推细节的局部一致性。在未来的工作中，我们计划基于矩形矫正结构探索外扩方案。致谢：本工作得到了中国国家自然科学基金（No.62172032，No.61772066）的支持。[10] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross B.Girshick. Mask R-CNN. IEEE International Conference onComputer Vision (ICCV), pages 2980–2988, 2017. 87[22] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.Faster R-CNN: Towards real-time object detection with re-gion proposal networks. In Advances in Neural InformationProcessing Systems, pages 91–99, 2015. 5[24] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net:Convolutional networks for biomedical image segmentation.In International Conference on Medical Image Computingand Computer-Assisted Intervention, pages 234–241, 2015.4145770参考文献0[1] Miguel Alem´an�ores，Luis Alvarez，Luis Gomez和DanielSantanacedr´es。使用单参数分割模型进行自动镜头畸变校正。在线图像处理，2014年，第4卷。1, 2, 70[2] Coloma Ballester，Marcelo Bertalmio，VicentCaselles，Guillermo Sapiro和JoanVerdera。通过联合插值矢量场和灰度级进行填充。IEEE图像处理交易，10（8）：1200-1211，2001年。20[3] Connelly Barnes，Eli Shechtman，Adam Finkelstein和DanBGoldman。Patchmatch：一种用于结构图像编辑的随机对应算法。ACM Trans. Graph.，28（3）：24，2009年。20[4] Marcelo Bertalmio，Guillermo Sapiro，VincentCaselles和ColomaBallester。图像修复。在第27届计算机图形学和交互技术年会论文集中，页417-424，2000年。20[5] Oleksandr Bogdan，Viktor Eckstein，FrancoisRameau和Jean-CharlesBazin。Deepcalib：用于宽视场相机的自动内部校准的深度学习方法。在第15届ACMSIGGRAPH欧洲视觉媒体生产会议论文集中，页1-10，2018年。1, 2, 60[6] Christian Br¨auer-Burchardt和KlausVoss。一种新的算法，用于从单个图像中校正鱼眼和强广角镜头的畸变。卷1，页225-228，2001年。1, 20[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi和LiFei-Fei。ImageNet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议论文集中，页248-255，2009年。3, 50[8] Christopher Geyer and Kostas Daniilidis.Paracatadioptric相机校准. IEEE Trans. Pattern Anal. Mach.Intell. , 24:687–695, 2002. 1

下载后可阅读完整内容，剩余1页未读，立即下载