水下图像折射畸变的学习消除

8 浏览量更新于2023-10-13 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5007水下图像折射畸变的学习消除Simron Thapa Nianyi Li Jinwei Ye LouisianaState University，Baton Rouge，LA 70803，USA{sthapa5，nli5，jinweiye}@ lsu.edu摘要水面的波动引起折射失真，其严重地降低水下场景的图像。在这里，我们提出了失真引导网络（DG-Net）恢复无失真的水下图像。其核心思想是使用一个变形图来指导网络训练.失真贴图模拟了由水折射引起我们首先使用一个物理约束的卷积网络来估计从折射图像的然后，我们使用一个generative的对抗网络引导的失真图，以恢复清晰的无失真图像。由于失真图表明失真图像和无失真图像之间的对应关系，因此它可以指导网络做出更好的预测。我们评估了我们的网络在几个真实的和合成的水下图像数据集，并表明它的性能优于最先进的算法，特别是在存在大的失真。我们还展示了复杂场景的结果，包括无人机拍摄的室外游泳池图像和手机摄像头拍摄的室内水族馆图像。1. 介绍水下场景在空气中观察时，由于波浪形水面引起的折射而遭受强烈的失真伪影。通过消除折射畸变来恢复真实的水下图像可以有益于水下探索和外太空探险中的许多任务（通过扩展以消除大气畸变）。然而，去除折射畸变是不平凡的，因为1）由于通过波浪形水面的非线性光传输，几何变形是高度经典方法通常采用静态水下场景的长序列图像（或视频），并依赖于平均/中值图像[31，30]或由于这些方法需要图1.我们设计了一个基于物理的失真引导网络用于水下图像校正。我们的方法预测无失真的图像，给定三个失真的水下图像。由于它们是静态场景的视频输入，因此不能用于在移动平台（例如，水下航行器）上捕获的图像[34]的开创性工作提出了一种基于模型的跟踪方法来消除水下图像的失真。但它们的参数模型不易调整和应用于任意波。最近，Liet al.[28]提出一种基于学习的方法来使用单个图像校正折射畸变。这项工作展示了使用深度神经网络来解决消除屈光畸变这一具有挑战性的问题的巨大潜力。但是这个网络不考虑物理约束，并且需要一个大的训练集（来自ImageNet的超过300k个图像[10]）。在本文中，我们提出了失真引导网络（DG-Net）恢复无失真的水下图像。其关键思想是使用失真图来指导网络训练。失真贴图对水折射引起由于失真图揭示了失真图像和无失真图像之间的对应关系，我们可以使用它来指导网络做出更好的预测。我们首先使用卷积神经网络（CNN）从折射图像估计失真图具体来说，我们设计的训练损失，遵循折射失真的物理模型我们还利用了时间的一致性的失真图作为输入的三个连续的图像我们使用三个并行的CNN5008∼图2. DG-Net的整体架构。它由两个子网组成：用于估计折射失真的卷积网络（Dis-Net）和用于恢复无失真图像的失真引导生成对抗网络（DG-GAN）。请注意，我们在Dis-Net中有三个CNN网络，每个网络都有三个输入。DG-GAN的生成器和鉴别器由G和D，分别。F和B表示图像的前向和后向映射概括来自每个输入的特征，然后使用递归层通过在它们之间强制时间一致性来细化CNN预测的失真图。我们可以使用估计的失真图来校正轻微的折射失真。由于大的失真是不可逆的（由于多对一映射），我们然后使用失真引导的生成对抗网络（GAN）来恢复清晰的无失真图像。失真图用于指导GAN的生成器和鉴别器的训练我们的网络是在合成折射图像数据集上训练的，其模式类似于水下场景。我们在我们自己的合成数据集和几个真实捕获的水下图像数据集上评估DG-Net [24，33，34]。结果表明，我们的方法优于最先进的[23，24，28，30，34]，特别是在存在大失真的情况下。与基于模型的方法[24，34，30]相比，我们不需要静态水下场景的长视频序列来实现精确重建。虽然我们仍然采取三个图像，以利用时间的限制，图像可以捕捉与突发模式在一个非常短的时间间隔。因此，我们的方法可以用于动态场景，如视频从一个飞行的无人机和视频的水上场景与移动物体。与基于学习的方法[23，28]相比，我们的网络需要更少的训练数据（大小约为十分之一），但在存在大失真的情况下实现了更好的准确性，并在真实场景中得到了很好的推广。2. 相关工作恢复水下图像。水下图像的恢复是水下成像的关键问题。早期的解决方案[14，27]采用失真图像序列的平均值/中值来近似潜在的无失真图像。尽管这些方法在弱失真上工作良好，但是在弱失真下平均图像变得模糊。存在较大的扭曲。另一类流行的方法依赖于寻找和拼接“幸运补丁”来恢复潜在的无失真图像。提出了许多解决方案，如聚类[11，12]，流形嵌入[14]和基于傅立叶的平均[39]，以定位输入序列中的[34，35]的开创性工作提出了一种基于模型的跟踪方法来恢复水下图像。Oreifej等人[30]提出了一种两步算法，首先迭代地将失真图像与平均图像对齐，然后用低秩约束对估计进行降噪。最近，Jameset al. [24]提出了一种用于水下图像恢复的压缩感知（CS）求解器，其通过跟踪水下场景的视频序列的帧中的几个显著特征点来实现所有这些方法都需要长序列的失真图像（60到100帧）作为输入，并且不能用于单个或少数图像。Li等[28]提出了一种生成对抗网络，以使用单个图像来校正屈光畸变。在这项工作中，我们提出的网络考虑屈光畸变的物理模型，并使用畸变图作为训练指导。我们的方法可以恢复高质量的无失真图像与三个输入图像。估计图像之间的像素位移。在运动/流估计中，已经广泛地研究了估计像素位移的问题。这一类中的大多数方法[19，2最近的趋势是使用深度神经网络来解决这个问题。FlowNet [5，13，29]被提出来估计两个连续图像之间的偏移Kanazawa等人[25]提出WarpNet来匹配跨类别图像之间的不变特征。然而，波浪状水流引起的折射畸变是高度非刚性的，很难从畸变图像中找到不变特征。Xue等人[41]第41话经典5009∈i=1--t=1i=1xni iα αcalflow以估计由热空气或气体引起的小折射失真。在这项工作中，我们提出了一个物理约束的卷积网络与经常性的层，以估计大的折射扭曲所造成的波浪水。图像到图像生成。生成对抗网络（GANs）[17]在解决图像到图像生成问题方面取得了巨大成功，例如图像超分辨率[40，4，45，38]，去噪[47，43，6]，去模糊[47，43，6环[26，46]、修补[9，37]等。其关键思想是使用对抗性鉴别器网络（鉴别器）来对抗生成网络（生成器），并迫使生成器生成逼真的图像。大多数现有的GAN都是用自然场景[28，3，42，8]或人脸[44，36，20]的图像进行训练的，并且通常是在大型数据集（具有数百万张图像）上进行训练的。相比之下，我们的GAN使用类似于水下环境的模式进行训练。此外，我们使用屈光畸变来指导生成器和鉴别器的训练。结果，图3.折射变形的图示。I和J分别是畸变图像和无畸变图像;p1，q1和p2，q2是两对对应的像元，h0是平均水面高度，h1是像元p1处的高度，n1和n2是法向量;w1和w2是失真向量。折射畸变模型。给出一个扭曲的图像I和真实的无失真图像J，我们定义失真映射W={wi}M（其中wi∈R2是每像素失真我们的网络需要更少的训练数据（大约50k图像），向量和i=1M是像素的总数）来表示但是可以实现更好的精度。由水-空气界面的折射引起的I和J之间的像素位移wi然后可以被写为：3. 该方法我们考虑相机通过波浪状水面观看水下场景帽子-其中piqwi=qi−pi∈R2是I中的一个像素，且qi（一）∈R2是J中的一个像素.因此，扭曲图像遭受折射失真。假设J是不受水波影响的水下场景的真实图像，我们的目标是从捕获的失真图像I估计看起来接近J的无失真图像J。我们提出了一个失真引导网络（DG-Net）来解决这个问题。具体来说，地面真实失真图用于指导我们的网络的训练。我们的网络的整体结构如图所示二、我们的DG- Net有两个子网：用于估计折射失真的卷积网络（第3.1节）和用于恢复无失真图像的失真引导生成对抗网络（第3.2节）。这两个子网是单独训练的。注意，尽管我们的网络i通过折射映射到pi。由于折射畸变是由水面的起伏引起的，所以畸变的量（或像素放置）自然地与水面高度相关。通过应用斯涅耳定律的一阶近似，Tian和Narasimhan推导出畸变矢量wi与表面高度的梯度具有线性关系[ 34 ]。从表面高度图H=hiM（其中hi R是高度值）到失真图W的映射可以写为：W=f（H）=αH（2）其中， =[. ，。 ]是梯度算子，α =h0（1−1）是由平均值三个连续图像{It}3作为输入，我们只输出3表面高度h0和折射率n。逆从W到H的映射然后可以通过积分最后一帧（I）的一个无失真图像。第一失真向量：使用两个帧来加强我们的失真估计的时间一致性。与传统方法不同需要静态场景的视频，我们的方法可以用于H=f−1（W）=h0+∫∫x为ohHdxdy可以在非常短的时间间隔内利用突发模式捕获作为三个连续图像的运动场景。=α·nn−1 +∫∫x为ohWαdxdy（三）3.1. 失真估计我们首先使用失真估计网络（Dis-Net）来预测输入失真图像和潜在无失真图像之间的失真映射我们的Dis-Net考虑了屈光畸变的物理模型，并使用时间约束来提高估计精度。由于表面法线与2D高度梯度相关从失真图W导出法线图N={ni}M（其中ni∈R3n=γ[−wi（x），−wi（y），1]（4）其中γi=1/ni是归一化因子。5010t=1FBt=1t=1t=1Wt }ΣL LLM----t，s=1L2WtWs给定表面高度图H和无失真图像J，地面实况失真图W可以通过从图像平面通过水面到水下图像J的反向追踪射线来找到，如图1B所示3 .第三章。我们使用地面真实失真图以及从我们的折射模型导出的基于物理的损失来指导Dis-Net的训练网络结构。三个扭曲的图像年龄{It}3作为输入，并且输出一个失真图预针对最后一帧（I3）的词W 该网络由三个级联的卷积神经网络（CNN），然后是两个递归层（见图1）。2）的情况。请注意，我们的网络可以很容易地修改为获取任意数量的图像（通过添加或减少CNN分支）。我们发现，三个图像足以实现体面的性能，即使在存在大的distortions。添加更多的输入图像会导致更多的网络参数，但性能增益是微不足道的。CNN分支的结构如图所示。二、每个CNN从一个失真图像估计失真图。我们的CNN的编码器是由具有最大池化的标准堆叠卷积层组成的。解码器使用变分细化[13]来保留失真图中的精细细节具体地，在每一层，我们将转置卷积的特征图、来自编码器的对应使用我们的训练损失将中间失真图与下采样的地面实况图进行比较三张扭曲贴图W3输出CNN被级联为时间序列，并被馈送到具有批量归一化的两个堆叠的卷积LSTM层卷积LSTM层传输来自先前时间帧的隐藏状态以学习时间依赖性[32]。通过利用失真图之间的时间一致性，进一步提高了预测精度，如消融研究所示（见第4.3节）。图4.前进的插图反向映射.在存在大的失真的情况下，仅用正确的失真图进行反向映射不足以获得准确的无失真图像。直观地说，我们将预测的失真图与地面真实图进行比较，并计算误差ε（W，W）。由于变形图与水面直接相关深度和法线，我们考虑由物理模型约束的两个附加误差具体地，通过应用Eq.2到H，我们可以获得从地面真实高度转换的另一失真图W H。我们将W和WH进行比较，以加强它们的一致性。通过应用Eq. 3和等式 4到W，我们可以将我们预测的失真图映射到其对应的高度图H和法线图N。然后，我们可以应用反向射线追踪并获得新的畸变m ap 我们将WH与地面实况进行地图W. 由于我们的计算高度H是准确的，所以两个地图应该是一致的。总而言之，我们的失真图损失可以被写为LW=α1ε（W，W（）+α2ε（WH，W（）+α 2εα3ε（W，WH），其中α1，2，3是加权因子。折射损耗最小化输入图像I与用下式描绘的失真图像I之间的差异损失函数。Dis-Net采用地面真实无失真图像（J）、失真图（W）和表面高度图高度图H误差度量：ε映射到W？我们使用l2范数作为（I，I *）=1Σ（I−I *）2。我们的折射（三）培训。我们根据折射畸变模型设计损失函数。我们的损失函数由三项组成：失真贴图损失、折射损失和一致性损失。失真贴图损失有三个组成部分。对于每个分量，我们使用尺度不变误差函数[15]来因此，损耗记作LR=εl2（I，IH）。一致性损失强制执行来自三个并行CNN的一致估计。由于在短时间间隔内捕获三个输入I t 3，因此我们假设它们的潜在无失真图像是相同的。具体来说，我们使用预测的失真映射{Wt}3，以使其对应的测量两个失真贴图之间的差异：通过应用等式（1）响应输入1并获得{J3t=1我们使用l2误差来比较ε（W，W*）=1M（wi−wi）21- 2M2（Σ（wi−w*i））2ˆtWt3t=13. 因此，一致性损失被写为i=1i=1LC=1Σ3ε（Jt，Js）的情况。其中wi是W中的失真向量;w*i是W*中的失真向量;M是像素总数。我们结合W，R和C来训练Dis-Net。的训练是端到端执行的。CNN和递归层针对损失使用不同的权重集合。{J}L2.（五）5011WWWGGGWDDWWDGGMWWGWGWΣˆGWW∼∼23.2. 图像恢复在估计的失真图W的基础上，我们提出了一个失真引导对抗网络（DG-GAN）来估计无失真图像J。通过直接应用W^对输入的失真图像I进行去失真，我们可以获得一个帧间中间图像J=B（I，W），其中B是指后墙映射：B（I，W）=I（p-w）（6）我们使用这个warped图像作为DG-GAN的输入。虽然J的扭曲程度比I小，但一些较大的差异扭曲不能被反转，因为J中的几个像素可以通过折射映射到I中的一个像素，如图1B所示4.第一章我们的DG-GAN具有与条件GAN类似的结构[23]，但采用失真引导的训练损失。发电机使用“U-Net”作为基础架构。它在编码器中有6个卷积层，在解码器中有6个具有跳过连接产生无失真的图像，被鉴别器从“真实”中剔除。用l1和l2损失两者来训练，这迫使其输出看起来类似于地面真实无失真图像J。l1损失鼓励更少的模糊并且帮助生成更清晰的图像。此外，我们可以在G的输出上应用地面实况失真映射W=F（G（J（），W），其中F是指对于Ward映射：F（I，W）=I（p+w）（7）如果G图5.我们的合成水下图像数据集的样本图像。从左到右，我们示出了地面实况（GT）无失真图像、GT高度图、GT失真图和折射图像。4. 实验在本节中，我们将在合成和真实水下图像数据集上评估我们的DG-Net具体来说，我们比较我们的方法与竞争国家的最先进的方法，并执行消融研究我们的网络。4.1. 网络训练数据准备我们的DG-Net是在合成的水下数据集上训练的。我们使用基于物理的建模和渲染来生成数据集。具体来说，我们使用部分衍生方程从Navier-Stokes方程帐篷与输入失真图像I因此，训练G被写为：1L=（|G（J）−J|G. 的损失函数模拟水波。我们考虑具有不同高度和波动的波，以产生不同尺度的扭曲。为了表明我们的方法对不同类型的都水波前，我们模拟三种类型的波：rip-+Σ（G（J−J）2+Σ（I−I））（8）波、海浪和高斯波。更多细节这些波动方程可以在附录鉴别器被对抗地训练以识别来自生成器的我们由6个卷积形式的模块组成-BatchNorm-ReLu模块[22]。除了学习从输入到无失真图像J的映射之外，网络还学习预测失真控制是否张力得到满足。具体地，我们将地面实况失真映射W应用于鉴别器然后向前映射看起来更接近输入失真图像I的预测，而不是向前映射结果I的输出。的我们的DG-GAN的目标函数可以写为：LGAN（G，D）=E[logD（J，J）]+E[logD（F（J，W），I）]+E[log（1−D（J，G（J））]材料图5示出了示例性水失真图像及其对应的失真图和高度图。无失真水下图像选自可描述纹理数据集（DTD）[7]。DTD包含广泛的真实纹理图像。我们从DTD中选择一个子集，其外观类似于水下场景（例如，水池瓷砖、海洋植物、鹅卵石等）。此外，我们添加了500个不同的文本图像，我们的设置为水下模式。总而言之，我们的数据集包含63k扭曲的折射图像，从6354个独特的无失真图像（或参考图案）生成。我们保持每波10个连续帧。对于每个折射图像，我们提供地面真实无失真图像、失真图像和非失真图像。地形图和水面高度图。划分+E[log（1−D（F（J，W），I））]（9）我们的数据集70%用于训练（43，600），15%用于验证W（9980）和15%用于测试（9960）。注意所有的波然后将校正的无失真图像优化为J= arg min maxLGAN.并且参考模式在训练集、验证集和测试集之间不重叠G D我G5012L×LL∼ ∼∼图6.在真实捕获的数据集上与最先进的视觉比较：TianSet [34]（顶部），JamesSet [24]（中间）和ThapaSet [33]（底部）。这里Tian-10、Oreifej-10和James-10分别是指使用10帧序列作为方法[34]、[30]和[24]的输入请参阅我们的补充材料，了解更多的视觉比较结果。实作详细数据。我们使用TensorFlow实现我们的网络[1]。整个网络（DG-Net）有大约5000万个可训练参数，其中包括Dis-Net的310万个参数，DG-GAN的生成器的4100万个参数，以及DG-GAN的生成器的690万个参数所有的计算，putations进行与至强E5-2620 CPU和两个NVIDIA GTX 1080 Ti GPU的台式计算机DG-Net的训练分为两步。我们首先在合成训练集上训练我们设定了重量0的情况。55岁0的情况。25和0的情况。15的失真贴图损耗W、折射损耗R和consis。损耗C。我们使用Adam优化器来训练网络。我们使用批量大小64进行训练和验证，学习率为10- 4。我们用3.1节中描述的损失函数训练网络60个epoch，直到收敛。然后，我们训练失真引导生成对抗网络（DG-GAN）用于恢复无失真图像。我们首先使用估计的失真图将失真图像向后映射到中间未失真图像，然后将其用作DG-GAN的输入。我们使用Adam优化器以固定的学习率来训练DG-GAN2 10-4我们用3.2节中描述的损失函数训练网络大约400个epoch，这就足够了做出好的预测。4.2. 与最新技术水平的我们将我们的方法与最先进的水下图像恢复方法进行比较[34，30，23，28，24]。具体而言，Tian和Narasimhan [34]以及Oreifej等人。[30]这是两种典型的基于模型的方法。天和Narasimhan[34]使用失真的参数模型来重新存储图像。Oreifej等人[30]用平均图像执行每帧配准。James等人[24]是最近提出的所有这些方法都需要长的输入序列来实现良好的性能。Isola等人[23]和Liet al. [28]是基于学习的图像生成/恢复方法。Isola等人[23]是一种通用的像素到像素图像生成网络。该算法在风格传递、图像着色和图像修复等方面具有良好的性能。Li等[28]是一种对抗性专门用于恢复折射图像的网络，使用ImageNet中的300k图像进行训练。测试数据集。我们在四个数据集上进行实验（一个合成数据集和三个真实数据集）：1）SynSet：我们自己的合成数据集，具有9960个测试图像（用996个不同的参考图案生成）; 2）TianSet：Tian和Narasimhan [ 34 ]的真实捕获数据集; 3）JamesSet：James等人的真实捕获数据集。[24]，其中我们测试了三个视频：卡通、大象和眼睛;和4）Tha-paSet：由Thapa等人捕获的真实数据集。[33 ]第33段。TianSet包含四个具有折射失真的真实捕获视频。四个序列使用不同的参考模式，并且每个序列具有61个帧。在我们的实验中，我们还测试了田等。[34]，Oreifejet al. [30] Jameset al. [24]在具有10个连续帧的较短序列我们从ThapaSet拍摄了三个真实的水下场景。我们也在ThapaSet上测试[34]、[30]和[28]，以进行进一步比较。我们进行定性和定量评价的图像恢复结果。5013图7.“野生”数据的比较最上面的两行是由手机摄像头拍摄的水族馆场景最下面一行是由无人机相机拍摄的游泳池场景。表1.与最新技术水平的定量比较表1显示了所有方法在合成和真实捕获的数据集（SynSet、TianSet、JamesSet和ThapaSet）上的定量比较。为了公平比较，Isola等人[23]是在我们的数据集上训练的。我们可以看到，这种通用GAN [23]在折射失真校正上工作得不好。我们的方法在大多数指标上实现了最佳性能值得注意的是从定性比较中可以看出，我们的结果是多方面的评估指标。我们使用四种标准图像质量/相似性度量进行定量评估：1）峰值信噪比（PSNR）[21]，2）结构相似性指数（SSIM）[18]，3）平方差和（SSD）[30]，和4）梯度中的SSD（SSDG）[30]。有关这些度量的等式，请参见我们的补充资料。比较结果。图6示出了我们的方法与现有技术之间的定性比较。我们展示了三个真实捕获数据集的比较结果。请参阅我们的补充材料，以获得合成数据集和真实数据集的更多可视化比较结果注意，这里我们显示了Tian和Narasimhan [34]、Oreifej等人的结果。[30]，and Jameset al. [24]具有10个输入帧（在图1B中被称为Tian-10、Oreifej-10和James-10）。（六）。我们可以看到，他们恢复的图像严重降级，因为输入序列太短。我们还可以看到，我们的方法，它只使用三个输入帧，优于所有其他方法的失真校正能力和图像清晰度，并产生最好的视觉质量的结果。对于使用61个输入帧与[34，30，24]的定性比较，请参阅我们的补充材料。比那些方法更清晰，并且实际上具有更好的视觉外观。此外，我们的一些结果具有较高的SSIM，但较低的PSNR。这是因为PSNR和SSIM对不同形式的图像退化具有不同程度的敏感性。对于失真校正的任务，估计的无失真可能具有轻微的未对准。由于我们的结果通常是尖锐的，这样的不对准可能会导致PSNR急剧下降。另一方面，SSIM是基于窗口的并且对未对准不太敏感。“野外”实验。现有的折射失真校正方法[24，34，30]主要在静态和平面图像图案上进行测试，因为它们需要长序列来恢复水下图像。然而，在真实场景中，观看相机或水下物体可能正在移动。为了评估我们的方法在这些具有挑战性的情况下的鲁棒性，我们在两种设置下执行实验：1）移动摄像机观看静态水下场景和2）静止摄像机观看动态水下场景。对于第一个设置，我们使用DJI Mavic Mini无人机摄像机捕获具有静态地下图案的室外游泳池的视频（以60fps）（参见图2）。①的人。对于第二个设置，我们方法PNSR↑SSIM↑SSD↓公司简介SynSetIsola等人18.6800.3000.01360.0068Li等19.2500.4250.01180.0055DG-Net（我们的）24.0690.8000.00390.0019天集天-6116.7780.8100.02100.0107天-1016.4020.7400.02290.0112Oreifej-6120.4570.8200.00900.0047Oreifej-1015.8840.5500.02580.0125Isola等人10.0080.4000.09980.0490Li等10.0870.5100.09850.0486詹姆斯-6120.2230.7530.00950.0049詹姆斯-1016.5560.7210.02210.0109DG-Net（我们的）19.5860.8400.01100.0056詹姆斯塞特天-6117.0990.7870.01950.0095天-1015.0860.5740.03100.0153Oreifej-6115.2720.7650.02970.0141Oreifej-1014.9480.5590.03150.0150Li等12.2260.6620.05990.028詹姆斯-6120.7790.9270.00840.0041詹姆斯-1016.7850.5120.02090.0098DG-Net（我们的）20.2270.9020.00950.0052ThapaSet天-6123.1870.8270.00480.0029天-1022.0760.9090.00620.0031Oreifej-6123.3720.8750.00460.0025Oreifej-1020.5060.9030.00890.0034Li等21.4260.9500.00720.00205014LLL方法失真图图像恢复RMSE↓AbsRel↓PSNR↑SSIM↑SSD↓公司简介Li等0.10890.08219.2510.4250.01180.0055公司简介0.08720.07021.1980.5000.00760.0041DG-Net0.06240.03824.0690.8000.00390.0019表2.基于物理学损失术语的定量消融使用手机摄像头来捕获具有游动的鱼的室内水族馆的视频（以120fps）。并与Li等的结果进行了比较。[28]Jameset al. [24]（具有10个输入帧）。结果示于图7（更多结果包含在补充材料中）。我们可以看到，我们的方法在这些具有挑战性的场景中工作得很好。特别是，我们的恢复结果具有一致的鱼的形状在水族馆的场景。而Liet al. [28]未能纠正一些扭曲，詹姆斯等的结果。[24]第24话我的心4.3. 消融研究物理约束的影响。我们首先对第3.1节中描述的基于物理的损失项进行烧蚀实验，以显示其有效性。我们将我们的完整网络（DG-Net）与Dis-Net（没有失真引导的GAN）以及Dis-Net的三种变体进行比较：1) Dis-NetW，其移除W的最后两项（注意，这些项受我们的物理模型约束2) Dis-Net R，去除了Dis-Net中的折射损耗R;以及3）Dis-Net C，其去除Dis-Net中的一致性损失C。定量比较如表2所示。我们的补充材料中显示了定性比较。我们可以看到所有的损失项来改善我们的网络性能。时间限制的影响。为了评估时间约束的影响，我们通过删除递归层并仅保留一个CNN分支来创建完整网络的单个输入版本（DG-Net-S）。在这里，我们与Li等人进行了比较。[28]，因为它需要一个单一的图像作为输入。我们在SynSet上进行实验。除了恢复的图像，我们还比较了估计的失真图。我们使用均方根误差（RMSE）和绝对相对误差（Abs Rel）来评估失真图估计。定量比较如表3所示。我们可以看到，我们的整个网络实现了最佳性能。即使我们的单输入版本取得了更好的结果比李等人。[28]第10段。因此，我们得出结论，使用递归层利用时间一致性有助于提高性能。折射变形约束的效果为了评估使用失真图作为指导的效果，我们创建了两种网络变体：1）我们的网络没有失真指导（记为我们的w/o DG）和2）我们的网络与-表3.时间一致性的定量消融图8.失真水平的比较。”（《礼记》卷10：12）我们比较我们的完整网络与两个变种，以及李等人。[28] Isolaet al. [23]第10段。实验上进行折射图像与不同的失真程度。我们将SynSet划分为7个失真级别（其中0级我们使用输入图像的失真图的平均幅度来量化失真水平。图8比较了在不同失真水平下来自所有方法的恢复图像的PSNR。有关如何计算失真级别和视觉比较结果的详细信息，请参阅我们的补充资料。我们可以看到，与没有失真指导的其他方法相比，我们的方法对于所有失真水平都保持相对稳健。虽然某些失真仍然存在时，输入图像具有高水平的失真，我们的方法仍然在很大程度上提高了图像质量，使水下场景可辨。这对于文本场景尤其重要。5. 结论提出了一种用于校正折射畸变的物理约束畸变引导网络（DG-Net）。我们首先使用卷积网络，该网络利用折射失真的物理模型来估计失真图。然后，我们使用GAN通过使用估计的失真图作为指导来恢复清晰的无失真图像。实验结果表明，该方法在真实场景中具有较好的泛化能力，并具有处理复杂场景的能力。确认该项目得到了NSF奖CRII-1948524，路易斯安那州董事会授予LEQSF（2018-21）-RD-A- 10的支持，以及DGene的礼物。方法图像恢复PSNR↑SSIM↑SSD↓公司简介Dis-NetW15.0100.3580.03150.0162Dis-NetR17.8530.4070.01640.0089Dis-NetC18.0900.4220.01550.0077Dis-Net20.0150.6100.00990.0052DG-Net24.0690.8000.00390.00195015引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在USENIX操作系统设计与实现（OSDI）研讨会上，2016年。6[2] John L.作者：David J. Fleet和Steven S. Beauchemin光流技术的性能。国际计算机视觉杂志（IJCV ）， 12（1）：43-77，1994. 2[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练arXiv预印本arXiv：1809.11096，2018。3[4] Adrian Bulat，Jing Yang，and Georgios Tzimiropoulos.要学习图像超分辨率，首先使用GAN学习如何进行图像降级。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年。3[5] 放大图片作者：Daniel J. Butler，Jonas Wulff，Garrett B.Stanley和Michael J.黑色.一个用于光流评估的自然开源电影。在欧洲计算机视觉会议（ECCV）上，2012年。2[6] 陈静雯，陈嘉伟，赵宏阳，杨明。基于生成对抗网络噪声建模的图像盲去噪在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。3[7] Mircea Cimpoi ， Subhransu Maji ， Iasonas Kokkinos ，Sammy Mohamed，and Andrea Vedaldi.描述野外的纹理。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2014年。5[8] Bo Dai，Sanja Fidler，Raquel Urtasun，and Dahua Lin.通过有条件的GAN实现多样化和自然的图像描述。在IEEE计算机视觉国际会议论文集，2017年。3[9] Ugur Demir和Gozde Unal。基于生成对抗网络的图像修补。arXiv预印本arXiv：1803.07422，2018。3[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。 IEEE 计算机视觉与模式识别会议论文集（CVPR），2009年。1[11] Arturo Donate，Gary Dahme和Eraldo Ribeiro。水波扭曲纹理的分类。模式识别国际会议（ICPR），2006年。2[12] 阿图罗·多纳特和埃拉尔多·里贝罗。改进的水波失真图像的重建。计算机视觉、成像和计算机图形理论与应用国际联合会议（VISAPP），2006年。2[13] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。FlowNet：使用卷积网络学习光流。在2015年IEEE国际计算机视觉会议（ICCV）上。二、四[14] 埃夫罗斯、沃尔坎岛、施建波和米尔克岛。透过水看。神经信息处理系统进展，2005年。一、二[15] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统进展，2014年。4[16] David L.油炸。通过湍流获得幸运短曝光图像的概率JOSA，68（12）：1651-1658，1978. 1[17] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展，2014年。3[18] Alain Hore 和 Djemel Ziou 图像质量指标： PSNR 与SSIM。2010年国际模式识别会议（ICPR）论文集。7[19] 贝特霍尔德湾作者声明：John H. Schunck确定光流。图像理解技术与应用。国际光学与光子学学会，1981年。2[20] 睿煌、张舒、李天宇、冉河。超越面旋转：全局和局部感知GAN的photorealistic和身份保持正面视图合成。在2017年IEEE计算机视觉国际会议上。3[21] Quan Huynh-Thu和Mohammed Ghanbari。PSNR在图像/视频质量评估中的Electronics letters，44（13）：800-801，2008. 7[22] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，第448- 456页，2015年。5[23] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。二五六七八[24] Jerin Geo James，Pranay Agrawal和Ajit Rajwade。使用压缩感知和局部多项式图像表示的组合恢复非刚性失真的水下图像IEEE International Conference on ComputerVision（ICCV），2019。二、六、七、八[25] Angjoo Kanazawa、David W Jacobs和Manmohan Chan-draker。WarpNet：用于单视图重建的弱监督匹配。在IEEE计算机视觉和模式识别会议论文集，2016。2[26] OrestKupyn、VolodymyrBudzan、MykolaMykhailych 、 DmytroMishkin 和 Jiˇr´ıMatas 。DeblurGAN：使用条件对抗网络进行盲在IEEE计算机视觉和模式识别会议上，2018年。3[27] 约瑟夫·M维克托？莱文Savchenko和Vladimir Ju.奥萨奇。校正由波浪形水面扭曲的图像：实验室实验Applied Optics，47（35）：6650- 6655，2008. 2[28] Zhengqin Li ， Zak Murez ， David Kriegman ， RaviRamamoor- thi，and Manmohan Chandraker.学会看透-5016浓水IEEEWinter Conf

下载后可阅读完整内容，剩余1页未读，立即下载