多级课程用于训练桶畸变矫正模型

43 浏览量更新于2023-10-13 收藏 14.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Additionally, to facilitate the initial learning of the recti-ﬁcation model, we propose a distortion-aware pre-trainingstrategy. Pre-training on ImageNet [14] is a widely usedstrategy in computer vision. Nevertheless, He et al. [9]veriﬁed that it helps less if the target task is more sensi-tive to localization. Thus, it is not suitable for the recti-ﬁcation task requiring a precise coordinate transformation.Pre-training on ImageNet was demonstrated that it countsagainst the distortion estimation task in [18] as ImageNetdoes not contain any distorted images. Since it is difﬁcultto make the model learn the implicit distortion parameters,our distortion-aware pre-training strategy permits the modela better network initialization and helps to perceive how dis-43890多级课程用于训练畸变感知桶畸变矫正模型0廖康1,2 林春雨1,2 * 廖立新1,2 赵尧1,2 林伟耀301. 北京交通大学信息科学研究所02. 北京高级信息科学与网络实验室03. 上海交通大学电子工程系0{ kang liao, cylin, 16112056, yzhao } @bjtu.edu.cn, wylin@sjtu.edu.cn0摘要0桶畸变矫正旨在消除广角镜头拍摄的畸变图像中的径向畸变。以往的深度学习方法主要通过学习隐式畸变参数或非线性矫正映射函数来解决这个问题。然而，这种方式导致了矫正过程的模糊学习，并限制了对畸变的深度感知。本文受到课程学习的启发，以渐进和有意义的方式分析桶畸变矫正任务。通过考虑图像中不同构建层级之间的关系，我们设计了一个多级课程，将矫正任务分解为结构恢复、语义嵌入和纹理渲染三个层级。在与图像构建相对应的课程指导下，所提出的分层架构实现了渐进矫正并获得了更准确的结果。此外，我们提出了一种新颖的畸变感知预训练策略，以促进神经网络的初始学习，推动模型更快、更好地收敛。合成和真实畸变图像数据集上的实验结果表明，所提出的方法在定性和定量上都显著优于其他学习方法。01. 引言0对畸变图像进行矫正是大多数计算机视觉任务中不可或缺的预处理步骤，因为几何畸变会改变原始场景分布。最近的研究[25][32][31][16][19][17][5]采用直接方式学习桶畸变矫正模型，将畸变图像输入网络并仅监督最终输出。尽管具有端到端的架构，但直接学习不同域之间（从畸变域到对齐域）的复杂非线性映射函数具有挑战性。对最终输出的像素级监督无法完全指导几何分布的矫正。此外，这个过程无法明确推理畸变图像的不同构建层级，限制了模型对矫正任务中畸变特征的学习。因此，以往的直接学习方式阻碍了矫正算法的性能提升。本文受到课程学习的启发，考虑以渐进和有意义的方式改进桶畸变矫正。0*通讯作者0此外，为了促进矫正模型的初始学习，我们提出了一种畸变感知的预训练策略。在计算机视觉中，ImageNet上的预训练是一种广泛使用的策略。然而，何等等[9]验证了如果目标任务对定位更敏感，则其帮助较少。因此，它不适用于需要精确坐标变换的矫正任务。在[18]中，预训练在畸变估计任务中被证明与之相悖，因为ImageNet不包含任何畸变图像。由于很难使模型学习隐式畸变参数，我们的畸变感知预训练策略允许模型更好地初始化网络，并有助于感知畸变的方式。0课程学习是由Bengio[4]提出的一种通用范式，它引入了一种有导向且有意义的策略来训练机器学习模型。通过模仿人类的学习过程，模型可以根据课程在不同的学习阶段学习不同的知识，从而更快地收敛。受到这个过程的启发，我们构建了一个多级课程来训练深度桶畸变矫正模型。如图1(a)所示，类似于人类从草图到上色再到细节的绘画过程，我们的课程过程按照从结构、语义到纹理的简单到复杂的顺序显示。d1.0...3.0...5.0...7.0-5.8e-61.7e-12 -9.8e-15 -1.7e-19k1k2k3k41.3e-83.7e-9-3.0e-16 1.1e-19-6.2e-64.5e-10 1.7e-15 -7.7e-19............43900失真图像0轻微0适度0强烈0可视化和均匀的标签0(b) 失真感知的预训练侧重于一般概念而非模糊的细节0失真图像0隐式和异质的标签0(a) 多级课程和人类绘画过程0结构语义纹理0素描上色细节0容易0困难0图1. 所提出方法的动机。(a) 类似于人类绘画过程(底部)，构建的课程(顶部)将酒桶畸变矫正任务分为结构、语义和纹理三个级别。(b)失真感知的预训练策略关注明确和一般的失真水平而非隐式和详细的失真参数(顶部)。0图1(b)显示了图像失真的程度。特别地，我们提出了一种多级课程，结构、语义和纹理的失真感知预训练策略，用于训练深度酒桶畸变矫正模型。首先，我们构建了一个包含三个级别的课程，即结构、语义和纹理。课程也与图像的构建相关，正如Marr[22]强调的，理解图像是一个多阶段的过程，图像的不同构建层次的组成部分之间有着密切的联系。随后，我们设计了一种失真感知的预训练策略，以增强模型对失真的感知能力，教会它掌握失真的一般先验知识，而不是模糊的细节。为了逐渐学习图像矫正，我们设计了一个由结构恢复、语义嵌入和纹理渲染三个模块组成的分层框架。这样的架构使得从低级特征到高级特征的渐进矫正成为可能。与之前的方法相比，所提出的矫正过程可以通过监督每个模块的中间产品来处理酒桶畸变。合成和真实数据集上的实验结果表明，我们的方法在性能上大大优于现有方法。总的来说，我们的贡献可以总结如下：0•我们提出了一种课程，以渐进和有意义的方式训练深度酒桶畸变矫正模型。0•提出了一种失真感知的预训练策略，以增强学习模型的初始化。0•为了学习所提出的多级课程，我们设计了一种有效的分层矫正框架。02. 相关工作02.1. 酒桶畸变矫正0传统方法主要依赖于手工设计的特征检测[3][23][10][13][1][28]。然而，由于垂直线和曲线等特定约束条件，这些方法通常表现不佳，导致对其他场景的泛化能力较差。最近，使用深度学习[25][32][31][16][19][17][5]提高了矫正的准确性。Rong等人[25]首次使用卷积神经网络(CNNs)来估计失真参数。然而，简单的相机模型和AlexNet架构限制了其普适性。为了矫正更复杂的失真，DR-GAN[17]和FishEyeRecNet[32]基于对抗学习[8]和多任务学习[6]训练了它们的模型。但是，由于单次直接训练的方式，这两种方法不能引导网络明确学习失真特征。薛等人[31]通过曲线引导改进了性能，但是当面对包含较少手工设计特征的场景时，该方法的鲁棒性较差。廖等人[19]和李等人[16]分别提出使用失真分布图和失真流来统一不同类型的失真。然而，他们设计的学习模型仍然难以以渐进和有意义的方式纠正失真。02.2. 课程学习0课程学习的概念可以在Elman等人的工作[7]中找到，强调从小开始逐渐处理更具挑战性的层次的重要性。这项工作展示了一个类似人类学习过程的过程43910扭曲结构0扭曲语义0失真分布图0失真级别0估计头0扭曲结构校正结构0结构恢复0扭曲语义校正语义0语义嵌入0扭曲图像校正图像0纹理渲染0（a）课程构建（b）失真感知预训练0（c）分层校正框架0位置对齐连接0扭曲图像0扭曲结构0扭曲语义De-Net0位置对齐连接0图2.我们提出的方法的概述。（a）我们首先将扭曲图像分解为不同的层次，并构建一个从简单到复杂的课程。（b）我们为失真的一般认知开发了一种失真感知的预训练策略。（c）提出了一个分层校正框架，逐步从低级到高级特征纠正失真。0婴儿所做的，启发了一种更高效的机器学习策略。与机器人学中的方法类似[27]，Krueger等人[15]利用了一种塑造方案来加速学习过程的收敛。Bengio等人[4]对课程学习的概念、细节和实验进行了全面描述。这种策略通过按照从简单到复杂的顺序处理这些具有挑战性的任务来提高了许多任务的性能。03. 方法0在本节中，我们详细描述了所提出的方法。我们的方法的概述如图2所示。03.1. 参数化相机模型0假设世界坐标中的点Pw投影到相机平面上的点Pc。那么Pw和Pc之间的关系可以表示为：0Pc = MPw，（1）0其中M∈R3×4是透视投影矩阵，Pc =(x，y，1)T∈R3×1和Pw∈R4×1分别表示相机和世界坐标系中的齐次坐标。对于桶形失真，会引入非线性映射。投影h(∙)如下所示：0用于描述径向失真的非线性函数：0h(Pc) = (x，y，f(x，y))T.（2）0广角镜头（如鱼眼镜头）违反了透视投影模式，因此f(∙)可以近似为泰勒级数展开，如下所示：0f(x，y) = 1 + k1r + k2r2 + k3r3 + ... + kNrN.（3）0其中k1，k2，...是失真参数。r表示失真中心Pd=[xdc，ydc]T∈R2与图像中的点之间的欧氏距离。03.2. 多层次课程的构建0我们首先提出了一个分解网络（De-Net），将图像分解为结构、语义和纹理层次，构建了一个从简单到复杂的课程，如图2（a）所示。具体而言，De-Net以扭曲图像Idtex∈Rh×w×3作为输入，逐渐输出扭曲的语义Idsem∈Rh×w×c和扭曲的结构Idstr∈Rh×w×1，其中h和w表示扭曲图像的高度和宽度，c是物体类别的数量。De-Net的主干是基于U-Net[26]风格设计的，其中编码器-解码器网络通过跳跃连接获取最终的特征图Idfea∈Rh×w×64。1/243920然后，两个由softmax函数激活的1×1卷积组输出I dsem和I dstr。对于纹理级别，由于其丰富的RGB信息，我们保留扭曲图像的原始外观。De-Net是使用ADE20K数据集[34]中的语义分割标签进行训练的，该数据集涵盖了生活中的大部分场景。此外，一些对象，如彩虹和拱门，具有其曲线结构，不应被检测为扭曲线。因此，我们将语义分割图的轮廓作为我们的结构级别，其中包含比扭曲线更一般的信息。03.3. 扭曲感知预训练策略0为了增强模型对扭曲的感知能力，我们提出了一种扭曲感知的预训练策略。标准的预训练需要满足两个要求：易于学习和对后续任务有帮助。虽然在计算机视觉中广泛使用在ImageNet[14]上的预训练，但它无法促进矫正任务，因为该数据集不包含扭曲图像。此外，ImageNet上的原始分类任务很难激发矫正任务，后者需要更准确的坐标变换定位。在这项工作中，我们基于提出的扭曲感知预训练策略中的扭曲级别估计[19]来初始化我们的模型。扭曲级别表示图像像素的扭曲程度，可以在视觉上观察到，并且对图像特征是明确的。所有扭曲级别构成一个扭曲分布图。与扭曲参数相比，扭曲级别是一种更一般的描述。因此，教会网络学习图像的扭曲程度比学习图像中参数的具体值更容易。具体而言，我们选择最大扭曲级别D max作为学习标签，给出如下公式：0D max =01 + k1r max + k2r^2 max + k3r^3 max + ∙0其中rmax表示扭曲中心与扭曲图像中像素之间的最远欧氏距离。如图2(b)所示，三个编码器网络提取相应构造层的特征，并使用估计头部来估计Dmax。估计头部由三个全连接层组成，单位数分别为512、256和1。在预训练过程中，编码器网络更加关注提取受Dmax约束的几何扭曲特征。因此，神经网络在提取扭曲特征的能力上得到了显著改善，加速了矫正任务的收敛。03.4. 分层矫正框架0如图2(c)所示，分层矫正框架由结构恢复、语义0图3.原始跳跃连接操作（左）和我们的位置对齐连接机制（右）的比较，旨在修正从编码器到解码器的扭曲信息。0嵌入和纹理渲染模块。特别是，结构恢复模块旨在从畸变分布中恢复真实的结构。该模块是一个完全卷积神经网络，包括一个编码器和一个解码器网络，在相同空间分辨率下的编码器和解码器特征之间有跳跃连接。在编码器中有5个层次逐渐提取结构特征，其中每个层次都有一个具有3×3卷积核和2步长的卷积层。与编码器不同的是，在解码器中的每个层次开始时，实施双线性上采样层，将空间维度增加2倍。由于输入和输出域在几何分布上差异很大，我们在结构恢复模块中采用了坐标卷积[21]，因为它可以促进网络中坐标变换的泛化能力。结构恢复模块之后，扭曲的语义可以通过将它们嵌入到矫正的结构中来进行修正。语义嵌入模块的架构与结构恢复模块类似。需要注意的是，浅层的跳跃连接会将扭曲信息引入编码器-解码器网络的深层。为了修正这种扭曲信息，我们提出了一种位置对齐的连接机制，如图3所示。在实现中，我们首先降低矫正结构的分辨率，以匹配编码器中的每个特征图，这被视为对齐的目标。然后，将编码器中的特征图与相应的对齐目标进行级联。最后，我们利用一个卷积层作为修正层，对齐特征图的空间分布，为解码器网络提供低级和无扭曲的特征。给定一个矫正的语义，纹理渲染模块在扭曲图像的最终构建层中执行矫正。该模块的架构与语义嵌入模块类似，除了两个特殊设计。第一个设计是我们同时使用矫正的结构和矫正的语义来改善最终的矫正结果，在场景边界上显示出更连贯的细节。第二个设计是我们利用softmax函数激活的1×1卷积组来输出I d sem和I dstr。对于纹理级别，由于其丰富的RGB信息，我们保留扭曲图像的原始外观。De-Net是使用ADE20K数据集[34]中的语义分割标签进行训练的，该数据集涵盖了生活中的大部分场景。此外，一些对象，如彩虹和拱门，具有其曲线结构，不应被检测为扭曲线。因此，我们将语义分割图的轮廓作为我们的结构级别，其中包含比扭曲线更一般的信息。LstrRec =1WHLsemRec =1WHLtexRec =1Hi,j�y=1||φi,j(ˆI)x,y − φi,j(I)x,y||2 + Lw,(10)43930我们使用了实例归一化层[30]来替代批归一化层，因为它可以减少生成图像中的伪影数量。此外，我们使用了位置对齐的连接机制来替代纹理渲染模块中的跳跃连接。因此，我们设计了一个完整的分层框架，以简单到复杂的顺序进行失真校正。我们认为通过提出分层校正框架，我们可以获得以下优势：1.与直接方式相比，我们的框架可以以渐进和有意义的方式进行训练，促进失真域和对齐域之间复杂非线性映射函数的学习。2.通过失真感知的预训练策略，学习模型获得了对失真的普遍和清晰的先验知识。此外，这种预训练策略可以提升校正训练过程的收敛性。3.我们的框架充分考虑了图像中不同层次的特征，如低层结构和高层语义。因此，与仅考虑一层的其他方法相比，我们获得了更强大的校正性能。03.5. 训练损失函数0对于多级课程设置，我们通过优化混合的像素级交叉熵损失来训练De-Net：0L De = λ L sem De + L str De，(5)0其中，L sem De和L strDe分别表示语义和结构分割的交叉熵损失。为了实现失真感知的预训练策略，使用平滑的L1损失[24]来衡量估计的失真水平ˆD和真实值D之间的差异：0L P re = 0.5t^2，如果|t| ≤ 1，|t| -0.5，否则，(6)0其中，t = D - ˆD。L Pre可以解释为L1和L2损失的组合，它缓解了训练过程中梯度爆炸的问题。基于多级课程，分层校正框架的最终训练损失如下所示：0L Rec = α L str Rec + β L sem Rec + γ L tex0其中，α、β和γ是平衡结构恢复、语义嵌入和纹理渲染模块损失的权重。具体而言，我们将L str Rec表示为：0W 0x = 10y = 1 || ˆS x,y - S x,y || 1 + Lw，(8)0其中，W和H分别是失真图像的宽度和高度，ˆS和S分别是校正后的结构和真实值，0表1. 不同方法得到的校正结果的定量评估。0对比方法 PSNR ↑ SSIM ↑0传统方法 Alemán-Flores [1] 8.42 0.13Santana-Cedrés [28] 9.22 0.180学习方法 Rong (ACCV’16) [25] 12.98 0.37DR-GAN (TCSVT’19) [17] 16.43 0.56 Li(CVPR’19) [16] 17.19 0.63 DeepCalib(CVMP’18) [5] 18.43 0.67 Liao (TIP’20) [19]23.02 0.71 我们的方法 26.71 0.880分别。L w表示Wasserstein-GAN（WGAN）[2]的损失，它可以提高对抗训练的稳定性和生成图像的质量。与结构损失函数类似，我们通过以下方式最小化校正后的语义ˆM和真实值M之间的L1损失：0W 0x = 10y = 1 || ˆM x,y - M x,y || 1 + Lw，(9)0最后，我们实现了感知损失[11]和Wasserstein损失来训练纹理渲染模块：0宽度 W 和高度 H0Wi,j �0其中，通过VGG19网络[29]在第i个最大池化层之前的第j个卷积（激活后）得到的特征图φi,j上最小化了矫正后的纹理ˆI和真实纹理I之间的差异。04. 实验04.1. 实验设置0数据集：为了训练和评估提出的矫正模型，我们构建了一个全面的合成图像数据集。具体来说，我们首先选择ADE20K数据集[34]中的图像和分割地图作为源数据。然后，基于第3.1节中的参数化相机模型生成扭曲图像和扭曲分割地图。对于结构级别，我们使用分割地图的轮廓，因为它能够普遍表示语义级别。为了实现扭曲感知的预训练策略，我们为每个图像提供最大扭曲级别的标签。总共，该数据集包含20,210个训练图像序列，1,000个测试图像序列和1,000个验证图像序列。43940实现细节：我们的学习模型的训练分为三个部分，按照图2的过程进行。首先，我们使用学习率为0.02的SGD训练De-Net构建多级课程。然后，我们使用Adam[12]和学习率为1×10−3训练编码器网络和估计头部，进行扭曲感知的预训练。对于分层矫正框架，预训练权重被加载到每个编码器中，然后基于我们的多级课程使用学习率为1×10−4的Adam微调结构恢复、语义嵌入和纹理渲染模块。所有网络都在NVIDIA GeForce RTX 2080 TiGPU上进行训练。04.2. 比较结果0定量评估：我们将我们的方法与之前的矫正方法进行比较，包括传统方法：Alemán-Flores [1]，Santana-Cedrés[28]和学习方法：Rong [25]，DR-GAN [17]，DeepCalib[5]，Li [16]，Liao[19]。通过峰值信噪比（PSNR）和结构相似性指数（SSIM）对最先进的方法生成的矫正图像进行评估。所有方法都用于对测试数据集上进行扭曲矫正，包括1,000张图像。然后，我们通过每个矫正图像与真实图像之间的像素差异计算这两个指标。如表1所示，矫正图像在PSNR和SSIM上与真实图像进行评估。由于对手工特征的强依赖性，传统方法[1][28]表现不佳，难以应用于场景无关的桶形矫正任务。学习方法[16][19][17][25][5]由于对语义特征的深度感知，优于传统方法，但直接训练方式限制了对扭曲矫正的全面理解。定量结果表明，我们的方法在像素校正和结构维护方面优于其他方法，在定量评估中表现最佳。原因有三点：（1）我们提出的多级课程以渐进和有意义的方式指导矫正模型的学习。（2）扭曲感知的预训练策略增强了深度神经网络对扭曲的感知能力。（3）分层矫正框架推理了扭曲图像中不同层次的不同特征，因此我们获得了比其他方法更强大的矫正性能。定性评估：为了直观地比较，我们在这部分使用我们的合成数据集可视化了不同方法的矫正图像。如图4所示，从Santana-Cedrés等人[28]得到的矫正图像显示出更严重的扭曲效果（第一行和第四行）。主要原因是他们严重依赖于检测扭曲线条和扭曲参数的优化。0然而，这些方法很难从严重扭曲的场景中恢复准确的分布，受到学习方式不足和单一的影响。相比之下，我们的方法在定性评估中获得了最佳的校正性能，并超过了大多数比较方法。为了评估算法的泛化能力，我们将我们的方法与最先进的方法在各种广角镜头拍摄的真实世界图像上进行比较，如图5所示。对于这个评估，我们从YouTube上的视频中收集了由SAMSUNG 10mm F3、Rokinon 8mm CineLens、Opteka 6.5mmLens和GoPro等广泛使用的广角镜头拍摄的真实世界的桶形畸变图像。从图5可以看出，我们的方法能够很好地校正建筑物和道路等扭曲对象，从全局场景分布和局部视觉外观方面优于其他方法。这些结果表明我们的方法在实际的桶形畸变校正中更有竞争力。更多的定性比较结果可以在补充材料中找到。04.3. 探索学习策略0为了验证课程学习和预训练的有效性，我们可视化了不同学习方案的训练损失曲线和校正图像：直接学习而没有预训练（DL），基于失真参数估计的预训练策略（DL +DP-1），基于最大失真级别Dmax估计的预训练策略（DL+DP-2，也称为失真感知预训练），以及设计的基于失真感知预训练策略的课程学习（Ours），如图6所示。总体而言，我们的课程学习与失真感知预训练策略在训练损失的收敛和视觉校正结果方面取得了最佳性能。具体而言，所提出的失真感知预训练策略基于均匀和明确的失真级别，使得神经网络能够以失真的一般先验知识进行适当的初始化。因此，DL+ DP-2的性能远远优于DL和DL +DP-1，证明我们的预训练策略更适用于失真校正任务。我们还提出了一种多级课程学习来训练失真校正模型。这种学习方式使得校正过程逐步进行，并减轻了一次性校正的困难。因此，Ours获得了最快和最佳的学习过程，生成了具有视觉上令人愉悦外观的校正图像。TR TR+SR TR+SR+SE HRF HRF+DPS PSNR ↑ SSIM ↑18.230.6520.120.6923.870.7525.270.8026.710.8843950扭曲图像 Rong Santana-Cedrés D像0DR-GAN Liao0Ours0Li0Aleman-Flores0图4. 我们合成数据集的定性结果。对于每个比较，我们从左到右显示扭曲图像、真实图像和比较方法的校正结果：Alemán-Flores[1]、Santana-Cedrés [28]、Rong [25]、DR-GAN [17]、DeepCalib [5]、Li [16]、Liao [19]和我们提出的方法。0图5. 真实世界扭曲图像的定性结果。对于每个比较，我们从左到右显示扭曲图像和来自方法的校正结果：Santana-Cedrés [28]、Rong[25]、DR-GAN [17]、Li [16]、Liao [19]和我们提出的方法。0表2. 提出的校正框架的消融研究，其中HRF = TR + SR + SE +LAC。0模块指标04.4. 消融研究0我们还进行了消融研究，评估了所提出方法中的每个组件，如表2所示。我们主要考虑分层矫正框架（HRF）中的关键部分，包括纹理渲染模块（TR）、结构恢复模块（SR）、语义嵌入模块（SE）、位置对齐连接（LAC）和畸变感知预训练策略（DPS）。从表中可以看出，0从表2中我们可以观察到：（1）TR + SR +SE的性能优于仅考虑一个或两个构造组件的性能，表明所提出的多级课程对于畸变矫正是有益且稳健的。（2）HRF（TR + SR + SE + LAC）在PSNR和SSIM上的值都高于TR +SR +SE。我们的位置对齐连接可以修正浅层特征图的畸变分布，从而在网络中增强更多有用的信息传递。（3）完整版本（HRF +DPS）在其他基线上获得了最大的改进。如第4.3节所讨论的，所提出的方案使用畸变的一般先验知识初始化神经网络，满足标准预训练策略的两个关键要求：易于学习且有助于后续任务。04.5. 跨域评估0我们进一步检验了所提出的学习模型在不同领域之间的泛化能力，特别是ADE20KCOCOPlace365PSNR20222426283024.0324.8926.71ADE20KCOCOPlace365SSIM0.500.600.700.800.901.000.730.790.88In this paper, we revisit the challenging barrel distortionrectiﬁcation task and present a multi-level curriculum with adistortion-aware pre-training strategy for training the deeprectiﬁcation model. We ﬁrst propose a simple-to-complexcurriculum, following the construction levels of an image.Then, we develop a distortion-aware pre-training strategyto enhance the distortion perception of the deep rectiﬁcationmodel. By breaking down the rectiﬁcation learning process,we design a hierarchical rectiﬁcation framework consist-ing of structure recovery, semantics embedding, and texturerendering modules. With the multi-level curriculum and thedistortion-aware pre-training strategy, the model learns torectify distorted images progressively and converges fast.Experimental results demonstrate that our approach out-performs state-of-the-art methods, both quantitatively andqualitatively.43960图6.不同学习方案的比较，通过训练损失曲线（上）和矫正结果（下）进行评估。0图7.在COCO数据集[20]和Place365数据集[33]上进行的跨域定性评估。0在两个常见的大规模数据集上进行了实验：COCO数据集[20]和Place365数据集[33]。在实现中，我们利用在ADE20K数据集[34]上训练的DeNet对来自COCO和Place365数据集的畸变图像进行语义分割。然后，将分割结果输入到我们的畸变矫正模块中。实验结果如图7所示。正如我们所知，ADE20K数据集是最大的开源语义分割数据集，涵盖了生活中大部分场景（共150个类别）。因此，大多数在COCO数据集和Place365数据集上测试的分割结果看起来是合理和连贯的，构成了合理的矫正结果。如图8所示，对ADE20K、COCO和Place365进行了定量评估。尽管COCO数据集和Place365数据集上的定性结果看起来是合理和视觉上令人愉悦的，但与ADE20K的定量评估相比，性能有所下降。主要原因是领域差异影响了神经网络的识别能力。然而，我们的学习模型仍然优于在COCO数据集上训练的方法，如DR-GAN[19]和Liao [17]。0图8.在ADE20K数据集[34]、COCO数据集[20]和Place365数据集[33]上进行的跨域定量评估。0本文重新审视了具有挑战性的桶形畸变矫正任务，并提出了一种多级课程和畸变感知预训练策略相结合的深度矫正模型训练方法。我们首先提出了一个从简单到复杂的课程，按照图像的构造层次进行。然后，我们开发了一种畸变感知的预训练策略，以增强深度矫正模型对畸变的感知能力。通过分解矫正学习过程，我们设计了一个由结构恢复、语义嵌入和纹理渲染模块组成的分层矫正框架。通过多级课程和畸变感知的预训练策略，模型逐步学习矫正畸变图像并快速收敛。实验结果表明，我们的方法在定量和定性上都优于现有的方法。05. 结论0致谢: 本工作得到了中国国家自然科学基金(编号62172032,编号61772066)的支持. 我们感谢POP MART的YuyingShi为图1(a) (bottom)提供的绘画作品的帮助.43970参考文献0[1] Miguel Alem´an-Flores, Luis Alvarez, Luis Gomez,和DanielSantana-Cedr´es. 使用单参数分割模型进行自动镜头畸变校正.Image Processing On Line , 4:327–343, 2014. 2 , 5 , 6 , 70[2] Martin Arjovsky, Soumith Chintala,和L´eon Bottou.Wasserstein GAN. arXiv预印本arXiv:1701.07875 , 2017. 50[3] J. P. Barreto和H. Araujo.中心全反射线图像的几何属性及其在校准中的应用. IEEETransactions on Pattern Analysis and Machine Intelli- gence ,27(8):1327–1333, 2005. 20[4] Yoshua Bengio, J´erˆome Louradour, RonanCollobert,和Ja- son Weston. 课程学习. 在国际机器学习会议上 ,pages 41–48, 2009. 1 , 30[5] Oleksandr Bogdan, Viktor Eckstein, FrancoisRameau,和Jean-Charles Bazin. Deepcalib:用于宽视场相机自动内部校准的深度学习方法. 在第15届ACMSIGGRAPH欧洲视觉媒体制作会议上 , pages 1–10, 2018. 1 , 2 ,5 , 6 , 70[6] Rich Caruana. 多任务学习. Machine Learning , 28(1):41–75,1997. 20[7] Jeffrey L. Elman. 神经网络中的学习和发展:从小开始的重要性. Cognition , 48:71– 99, 1993. 20[8] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, AaronCourville,和Yoshua Bengio. 生成对抗网络.在神经信息处理系统进展中 , pages 2672–2680, 2014. 20[9] Kaiming He, Ross Girshick,和Piotr Doll´ar.重新思考ImageNet预训练. 在IEEE国际计算机视觉会议上 , pages4918–4927, 2019. 10[10] M. Hu, M. Chang, J. Wu,和L. Chi.广播篮球视频中的稳健相机校准和球员跟踪. IEEE Transactions onMultimedia , 13(2):266–279, 2011. 20[11] Justin Johnson, Alexandre Alahi,和Li Fei-Fei.用于实时风格转换和超分辨率的感知损失. 在欧洲计算机视觉会议上, pages 694–711, 2016. 50[12] Diederik P Kingma和Jimmy Ba. Adam: 一种随机优化方法.arXiv预印本arXiv:1412.6980 , 2014. 60[13] H. I. Koo. 摄像头拍摄的印刷文件图像的分割和校正. IEEETransactions on Multimedia , 15(3):647–660, 2013. 20[14] Alex Krizhevsky, Ilya Sutskever,和Geoffrey E Hinton.使用深度卷积神经网络的ImageNet分类.在神经信息处理系统进展中 , pages 1097–1105, 2012. 1 , 40[15] Kai A Krueger和Peter Dayan. 灵活塑造: 小步学习的帮助.Cognition , 110(3):380–394, 2009. 30[16] Xiaoyu Li, Bo Zhang, Pedro V Sander,和Jing Liao.通过深度学习对图像进行盲几何畸变校正.在IEEE计算机视觉和模式识别会议上 , pages 4855– 4864, 2019. 1, 2 , 5 , 6 , 70[17] Kang Liao, Chunyu Lin, Yao Zhao, and Moncef Gab- bouj.DR-GAN: 使用条件GAN在实时中自动进行径向畸变校正. IEEETransactions on Circuits and Systems for Video Technology ,30(3):725–733, 2019. 1 , 2 , 5 , 6 , 7 , 80[18] K. Liao, C. Lin, Y. Zhao,和M. Gabbouj.从静态到动态的畸变校正: 一个畸变序列构建的视角. IEEETransactions on Circuits and Systems for Video Technology ,30(11):3870–3882, 2020. 10[19] Kang Liao, Chunyu Lin, Yao Zhao, and Mai Xu.由畸变分布图连接的无模型畸变校正框架. IEEE图像处理交易,29:3707–3718, 2020. 1 , 2 , 4 , 5 , 6 , 7 , 80[20] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C LawrenceZitnick. Microsoft COCO: 上下文中的常见对象.在欧洲计算机视觉会议中, pages 740–755, 2014. 80[21] Rosanne Liu, Joel Lehman, Piero Molino, Felipe PetroskiSuch, Eric Frank, Alex Sergeev, and Jason Yosinski.卷积神经网络的一个有趣的失败和coordconv解决方案.在神经信息处理系统进展中, pages 9605–9616, 2018. 40[22] David Marr. 视觉: 对人类视觉信息的计算研究

下载后可阅读完整内容，剩余1页未读，立即下载