模糊图像中隐藏的3D场景的模型及方法

169 浏览量更新于2023-10-19 收藏 1.48MB PDF 举报

运动模糊

深度网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43218493来自Blur的邱佳艳1王新潮2StephenJ.马来亚银行3号大成涛1号1UBTECH Sydney AI centre，School of Compurter Science，FEIT，悉尼大学，澳大利亚2美国史蒂文斯理工学院计算机科学系3英国伦敦大学伯克贝克学院计算机科学与信息系统系jqiu3225@uni.sydney.edu.auxinchao. gmail.comsjmaybank@dcs.bbk.ac.ukdacheng. sydney.edu.au图1：在模糊图像中揭示隐藏的3D世界所提出的模型，一旦训练，作为输入的单一模糊图像，并产生隐藏在模糊中的重建的3D场景摘要我们能从一张运动模糊的图像中看出什么？在本文中，我们表明，一个3D场景可以显示。不同于以往的去模糊方法，本文提出了一种估计和利用模糊图像中隐藏的信息--相对运动轨迹来恢复曝光过程中塌陷的三维场景的方法。为此，我们训练了一个深度网络，该深度网络联合预测运动轨迹、去模糊图像和深度图像，所有这些又形成了一个协作和自我监督的循环，它们相互监督以再现输入的模糊图像，从而能够从单个模糊图像重建出可信的3D场景。我们在基于基准构建的几个大规模数据集以及真实世界的模糊图像上测试了所提出的模型，并表明它产生了非常令人鼓舞的定量和定性结果。1. 介绍运动模糊是由曝光过程中场景物体与相机之间的相对运动引起的。当场景对象或相机的运动或者两者都是，在曝光时间期间是显著的，图像倾向于沿着相对运动的方向看起来模糊。运动模糊图像在许多情况下受到摄影师和艺术家出于美学目的的青睐，但很少受到计算机视觉研究人员的青睐，因为包括检测器、跟踪器和特征提取器的许多标准视觉工具难以处理模糊。因此，在图像处理和计算机视觉领域中已经做出了很多努力来去除模糊中的“负面”影响。一种简单粗暴的方法是忽略模糊图像，如SLAM系统[52]中所做的那样，因为匹配算法往往会在模糊图像上失败。另一种更具分析性的方法是进行去模糊，即从模糊图像恢复去模糊图像。在过去的几十年里，沿着这条线已经有了一系列开创性的工作，展示了非常有希望和视觉上令人愉快的结果。尽管取得了很好的效果，去模糊方法将其目标限制在产生无模糊图像，并忽略了模糊背后的物理原理。由于模糊图像是相对运动的结果，因此它实际上编码运动信息，尽管是以降级的方式。[35]的工作开创性地从模糊图像中提取一系列去模糊图像，但仍然忽略了运动控制。43218494模糊图像去模糊图像自我监督周期空间重构模糊图像去模糊图像深度图重建t-1时在t+1生成G生成基地坐标相机运动图2：我们的模型。给定一幅模糊图像，我们构建了一个由三个模块组成的网络来估计相机运动，去模糊图像和深度图，所有这些形成自监督循环以重建输入模糊图像，并进一步使得能够从模糊进行3D场景重建。cealed.我们在这篇论文中表明，更多的隐藏信息可以在模糊的图像中显现出来。由于运动是在模糊中编码的，我们建议显式地估计隐藏在涂抹下的隐藏运动轨迹，基于此可以恢复静态3D场景，如图所示。1.为此，我们训练了一个协作网络，它联合推断运动轨迹和深度，两者都是绝对尺度的，以及去模糊帧瞬间。所有这三个估计，反过来，形成一个自我监督的循环，以再现原始模糊图像，旨在模仿物理模糊过程。通过这个循环，不同的模块相互监督和增强，从而实现合理的3D重建，如图所示。二、毫无疑问，从单个模糊图像估计运动轨迹是一个逆问题。为了在保持合理的计算负荷的同时恢复最合法的运动过程，我们将模糊图像近似为帧序列的平均值，对于模糊图像，创建过程是连续的。在这方面，我们构建数据集上流行的基准，其中每个模糊的图像是通过采取确定性运动引起的干净的帧序列的平均值。因此，构建的数据集为我们提供了用于训练协作网络的地面实况，并允许我们进行深度估计、运动估计和帧估计，以及随后的3D重建。所提出的模型，一旦训练，产生非常有前途的结果合成和现实世界的模糊图像。因此，我们的贡献是一种新颖的方法，首次尝试从单个模糊图像中恢复绝对尺度的3D场景。它是通过训练一个创新的协作网络来实现的，该网络同时估计深度，干净的图像和运动轮廓，其中每一个都通过自我一致的循环来监督另一个，以在我们基于流行基准构建的大规模数据集上重现输入模糊图像。所提出的方法产生了令人鼓舞的结果合成和现实世界的模糊图像。我们的代码、模型和数据集将被发布。2. 相关工作已经有许多旨在从一个或多个图像恢复3D场景的重建方法，包括但不限于从阴影[95]，从图像纹理[7，8，28]，从相机运动[9]，从[49]第49话：从一个人到另一个人，ing过程[90，50，84，83]和从焦点[56]。然而，我们的方法专注于从单个模糊图像估计3D重建，而不是依赖于跟踪过程，据我们所知，这是沿着这条线的第一次尝试。由于我们的循环策略涉及三个模块，相机轨迹估计，去模糊和深度估计，在下文中，我们简要回顾了这些主题的相关工作。相机轨迹估计。最近基于监控级别，摄像机轨迹估计模型可以大致分为三类。第一类是完全监督方法。例如，Agr-walet al. [1]从移动的摄像机中学习良好的视觉特征，并从图像序列中预测摄像机运动。Wang等人[80，81]实现用于视觉里程估计的递归ConvNet架构。Ummen- hofer等。[77]设计一个架构来从立体图像中学习深度和运动信息。第二类是弱监督模型。示例包括[34]的方法，其通过利用先验已知的立体几何来估计帧间运动。第三类方法是无监督的。例如， Vijaya-narasimhanet al. [78]和Zhouet al. [97]提出了使用光度误差来估计相机自运动的非监督方法。[17，18，92]中的方法使用立体信息来从图像序列中估计里程。然而，现有的方法进行运动估计从干净的图像，这不同于我们的重点模糊图像。去模糊。盲解卷积方法[62，51，4，10，88，27，93，2，19]的图像去模糊已被广泛研究，并取得了可喜的成果。.最近，[31，32，76，61，20，60，57，53，58]的模型被设计为处理具有多于单运动模糊的图像。另一个工作线专注于视频去模糊。例如，Zhanget al. [94]提出了一种方法，联合估计连续帧之间的运动，而Sellent等人。[71]而是利用立体声信息。Wieschollek等人[86]引入递归ConvNet通过使用时间信息对图像进行去模糊。Kim等人[38]提出了一种同时进行去模糊和估计的43218495连续图像之间的光学流。Ren等人[66]利用语义信息来指导去模糊和光流估计。Su等人[75]提出了一种利用帧间信息进行去模糊的ConvNet。Pan等人[63]联合估计场景抖动和去模糊图像。从模糊中估计空间信息的方法有很多，但都是针对图像序列的系统同样，令D表示图像I的深度图，其中D（p）是相机焦点与真实世界点P之间的绝对距离最后，让T表示描述相机的绝对尺度运动的变换矩阵，由六个参数控制，三个用于平移，三个用于旋转。F或pixelp，变换T之后的对应2D坐标p′被计算为而不是单一图像。例如，Parket al.[64个]提出了一种摄像机姿态联合估计方法′p=KTD（p）K−1p，（2）深度、去模糊和超分辨率。最近，Jinet al. [35]提出了一个框架，从一个单一的模糊图像提取视频序列，但忽略了空间信息，使三维重建。深度估计。用于深度估计的早期方法依赖于来自立体对的基于几何的算法[70，14，13]。Saxena等人[68]第一次提出，利用单目线索来估计场景深度，基于此提出了许多方法，产生了搜索结果[69，29，42，45，6，39，3，73，65，16，24，91]。另一方面，[98，47，36，59，89，85]的方法不仅利用了局部图像线索，还利用了全局图像线索。鉴于ConvNet在图像处理中的成功，已经提出了许多基于深度学习的方法[21，96，44，54，72，82，67，46，37，11]。由于从深度网络（如AlexNet [40]，VGG [74]和ResNet [25]）中获得的多级上下文和结构信息，深度估计已提升到高精度水平[12，17，41，43，87，79，15]。虽然这些方法在单个图像深度估计上工作得很好，但它们不是为从模糊图像估计深度而设计的，这是我们方法的重点。3. 预赛在介绍我们的模型之前，我们简要回顾了一些基本知识，包括模糊图像的创建和3D几何的基本原理，在此基础上我们构建了我们的网络和自监督循环。模糊过程。图像模糊的过程在照相机的曝光时间t内是连续的1吨B=tI（t）dt，（1）其中B是所得到的模糊图像，t是曝光时间，I（t）是在时间t的场景的干净图像。为了以计算上易于处理的方式对模糊过程进行建模，我们使用曝光过程中2n+1帧序列的平均值来近似这个连续过程。我们取最中间的一个坐标系，即n+1坐标系，作为参考坐标系，计算其他坐标系相对于这个坐标系的相对运动，如第2节所讨论的。4.第一章视觉几何。令p表示图像I中的像素的2D齐次坐标，并且P表示图像I中的像素的坐标。在I其中，摄像机的内参数矩阵K被假定为已知的，如在[92，97]中所做的。在这个过程中，首先将原始图像I的像素p逆投影回3D空间，然后根据变换矩阵T将获得的3D点转移到新的3D位置。最后，通过将K应用于3D点的坐标，将新的3D点重新投影到新的2D场景。4. 方法在本节中，我们将介绍从单个模糊图像恢复3D场景的方法。我们首先概述我们的方法，然后讨论我们的网络的模块，最后，展示自我监督策略来共同优化所有模块。4.1. 概述我们的模型包括三个模块的运动估计，去模糊，和深度估计，以及一个创新的自我监督计划，优化所有模块在一起。通过形成三个模块的循环来实现自我监督，所有这些模块彼此协作，目的是共同再现输入的模糊图像。换句话说，输入模糊图像本身被用作- 用于计算重建损失的监控信号，在该过程期间，所有模块相互作用并相互增强。我们专注于静态场景重建，并假设相对运动是由摄像机运动引起的。因此，我们的目标是估计一个静态帧时刻或参考帧，以及一系列的相对相机运动相对于参考，引起模糊。在我们的实现中，我们将序列中间的帧时刻作为参考帧，如第2节所述3.第三章。我们遵循两阶段训练策略，我们发现这比一次性训练模块的单阶段策略更有效。在第一阶段，我们独立地训练三个模块，所有这些都是以监督的方式进行的。在第二阶段，我们将三个模块堆叠起来，形成一个自我监督的循环，其目标再次是允许预测重现原始模糊图像，以便不同的模块可以相互监督并受益。值得注意的是，在第二阶段，我们只为运动估计模块提供地面实况，而不为其他两个模块提供地面实况，以避免43218496ˆi128320320320 1281285121281281122 881281122 881122 882255 6666 44RGB图像去模糊图像图4：我们的去模糊模块的架构。图3：我们的LSTM运动估计模块的架构。它将一对图像作为输入。上分支接收模糊图像，而下分支接收干净或去模糊图像，作为参考帧。它输出一个序列的2n运动相对于参考。值得注意的是，下分支在第一训练阶段中被馈送有干净图像，并且在循环训练阶段中被馈送有来自去模糊模块的去模糊图像。一个描绘俯仰、偏航和滚转旋转，而后者表示沿X、Y和Z轴的平移。通过我们的实验，我们发现分别学习u和v会得到更好的结果。我们的LSTM学习两个三维变量的损失被认为是自我监督阶段。过度拟合我们的实验表明，与Lu=1ΣNNi=1ui−u Lv=1ΣNNi=1vi−v单阶段策略，两阶段训练收敛得更快。在下文中，我们将详细介绍这三个模块和自我监督策略。为了突出从模糊图像推断静态3D场景的可行性，我们主要依靠紧凑网络来处理深度、去模糊和运动估计任务。更复杂的端到端网络也可以很容易地应用，并可能产生更好的性能。4.2. 运动估计模块我们的运动估计模块，如图所示。3、将模糊图像以及干净图像作为输入，或者由在第2.1.1节中描述的去模糊模块估计的去模糊的一个。4.3.它输出一个2n+1相对的其中，ui、vi是第i个运动的地面真值，uii、vi ii是它们的估计，并且N是样本的数量。4.3. 去模糊模块去模糊模块将模糊图像作为输入并产生去模糊图像，我们将其作为参考帧。在我们的实现中，我们采用了CNN-L15模型[30]，该模型显示了最先进的性能，但尺寸紧凑，有一些小的修改。粗略的网络结构如图所示。4.我们在除了最后一层之外的每一层上添加批量归一化[33]，并将最后一层的活动函数从ReLU改为Tanh。去模糊的损失被认为是去模糊图像和地面真实值之间的像素级平方损失：1ΣN相机相对于参考系的运动。这种网络架构的动机是最近的成功，Lb=Ni=1阿吉尔岛2-我的，（4）图像字幕[5]，其目标是产生描述输入图像的单词序列。主要的区别是，我们的网络是由一对图像而不是一个图像组成的。具体来说，我们使用ResNet152 [25]从两个输入图像的倒数第二个全连接层中提取特征，然后将获得的特征连接成一个，作为输入馈送到由具有共享参数的2n个LSTM网络预计将学习相机运动的时间相干性，并输出相对于参考帧的2n个为了统一馈送到LSTM块的特征向量的大小，我们引入了一个linear3层，该层在第二个到最后一个帧时刻实现，但不适用于第一个帧时刻。回想一下，用变换矩阵T描述的摄像机运动由旋转向量表征 u∈R3和一个平移向量v ∈R3，其中前者其中Ii和Ii表示第i个地面真值，模糊图像，并且N表示样本的数量。4.4. 深度估计模块深度估计模块的情况比其他两个模块稍微复杂一些，因为它必须在两个训练阶段处理不同的输入。回想一下，在第一阶段，我们分别以监督的方式训练这三个模块，而在第二阶段，我们将在第二节中讨论。4.5，我们只给运动估计提供监督信号，并允许循环增强深度和去模糊模块。换句话说，在第一阶段中，深度估计模块被馈送有干净的图像作为输入以产生深度，但是在第二阶段中，它被提供有去模糊的图像，这些图像可能仍然包含拖尾。因此，期望深度估计模块即使在输入图像仍然包含模糊时也能产生合理的结果。为此，我们设计了一个双分支网络1x2048权重共享凸轮姿势t 1凸轮姿势t2凸轮姿态t2n+1线性2线性2线性2我是是是一个悲伤悲伤悲伤的的的人人人清洁/去模糊图像康卡特线性3线性3凸轮姿势t1凸轮姿势t2n1x2048LSTMLSTMLSTMResNet152线性1ResNet15243218497图像韦尔韦的去模糊模块模糊图像e自我supL运动估计模块一投影平均深度图ˆi模糊图像去模糊图像深度图深度估计模块自我监督Cycl运动估计模块平均投影投影去模糊图像序列摄影姿势去模糊模块图5：所提出的循环自我监督方案的图示。利用预测的相机运动、去模糊图像和深度图来产生帧时刻序列，然后对所有帧时刻进行平均以重建输入模糊图像以计算损失。不同的模块，通过这个循环，监督和改善彼此。128320320320128 128512128338844112288 112288 112288112288 225566664464（一）concat252566RGB图像128 128256 256 256上采样深度地图（b）第（1）款图6：深度估计模块的架构。分支（a）从去模糊模块继承，以联合处理模糊信息并提取局部深度线索。分支（b）用VGG网的前六层实现，以提取全局深度线索。对于深度估计，如图所示。6.分支（a）具有与去模糊模块相同的结构，其同时处理输入图像中的剩余模糊信息并提取局部深度线索。另一方面，分支（b）集中于提取全局深度线索。它是通过从VGG [74]中提取前六层来实现的，然后将特征上采样到与分支（a）中相同的大小。然后，来自两个分支的特征被连接并馈送到与去模糊相同架构的网络，唯一的区别是激活函数是最后一层的ReLU。深度估计模块的损失被认为是4.5. 自我监督计划如果运动估计模块、去模糊模块和深度估计模块的预测是合理的，则它们应该一起重建原始模糊图像。有了这个动机，我们将三个模块堆叠在一个循环中，其目标是确保所有的预测依次再现输入的模糊图像。在循环中，模糊图像本身被视为监督信号，允许不同的模块协同监督并使彼此受益。我们的循环设计如图所示。5.直观地，给定输入模糊图像，去模糊模块产生去模糊图像作为参考帧，其然后被馈送到深度模块和运动模块两者。乌莱前者输出深度图，后者生成运动序列。这两个输出与去模糊参考帧一起被用来产生一系列干净图像，这些干净图像被进一步平均以重新产生输入模糊图像并用于计算损失。具体地，令p表示去模糊参考系中的像素的齐次坐标。给定由运动模块估计的摄像机运动T′和由深度模块估计的深度图D′，根据等式（1）计算在经历运动之后的对应像素坐标p′2,p′=KT<$D<$（p）K−1p，（6）Ld= 1ΣNNi=1Di2-D，（5）其中再次假设K是给定的，如在以前的作品[92，97]中所做的。我们通过应用双线性插值对所有像素重复这个过程，并以这种方式得到一个完整的图像I′，在r下运动T，其中Di和Di分别表示第i个地面真值和预测，并且N是样本的数量。到参考系I。由于运动模块估计2n个相对运动，我们43218498计算2n个这样的图像，使用Eq. 6，然后对所有这些进行平均以近似输入模糊图像，用于计算损失。我们将循环重建损失写为1ΣNL=iRˆi2CIBBNi=1-Br，（7）哪里 B 是的第i 输入模糊的图像，Bi=表1：运动估计模块的结果。翻译12n+1i，kR以厘米为单位，以度为单位。纽约大学预科2n +1k=1B与B作为第k帧在序列内的瞬间，并且N是样本的数量。如前所述，我们只在循环调谐阶段。因此，我们有最终的损失函数，一个用于旋转，一个用于平移，如下所示：是指使用地面实况干净图像训练的网络，NYU，C-NYU是具有自监督循环的，其输入是去模糊模块的输出。 Pre-ICL和C-ICL是指ICL-NUIM数据集上的相应网络Lu=Lu+αLr，其中α取为10−3。5. 实验L_v=L_v+αL_r，（8）Term纽约大学预科纽约大学预ICLC-ICLPSNR25.9427.2226.4327.19SSIM0.85430.89310.88950.9206表2：在两个数据集上不使用（Pre-NYU/ICL）和使用（C-NYU/ICL）自监督循环的情况下的去模糊结果。在本节中，我们将提供实验设置并展示结果。由于我们不知道任何现有的工作，执行完全相同的任务，因为我们在这里做的，我们主要集中在显示所提出的网络的承诺，特别是自我监督的循环设计。我们还将我们的网络的一部分与其他流行的模型进行比较，然后用其他模型替换我们的模块，通过比较没有和有周期的其他模型的性能来验证周期的价值。我们的目标是再次展示从模糊图像中恢复3D场景的可能性，而不是试图击败最先进的去模糊，深度和轨迹估计以及3D重建模型。更复杂的网络，只要它们是端到端可训练的，可以在我们的循环中采用，并可能具有更好的性能。5.1. 数据集和实现细节。[55]第五十五话：它包括464个室内场景，其中364个场景用于训练，100个场景用于测试。模糊图像是通过平均7个连续帧创建的。总的来说，我们使用大约420K帧创建了57K的模糊样本用于训练，13K用于测试。我们采用这个数据集来构建模糊图像，因为它为每个视频帧提供了深度图，并且相对于相机运动，帧速率很高。我们还尝试了KITTI，但发现两个连续帧之间的空间间隙太大，使得合成模糊不切实际。ICL-NUIM数据集[23]。它的尺寸比纽约大学的小。通过遵循与纽约大学相同的过程，我们使用来自两个场景的4.9K帧创建了706个模糊样本进行训练，并使用来自另外两个场景的4.2K帧创建了604个样本进行测试。由于训练样本有限，我们采用了预先训练好的网络并在这个数据集上进行微调。实施. 我们的网络使用PyTorch 和两个Tesla V-100SXM 2 GPU实现。运动估计、去模糊和深度估计模块的批量大小分别为64、4和4。在循环阶段，由于内存限制，所有模块的批处理大小均设置为2。由于我们的模糊数据集是通过平均7张图像来训练的，因此我们训练了Sec的LSTM模型。4.2以预测相对于参考帧的6个运动5.2. 运动估计选项卡.图1显示了平移的绝对误差（以厘米为单位）和沿三个轴的旋转角度的绝对误差（以度为单位）。可以看出，在自监督循环下，平移误差减少了约1cm，旋转误差减少了50%。值得注意的是，由于训练样本有限，ICL的改进小于NYU。5.3. 去模糊我们在Tab中显示去模糊结果。2，自我监督循环再次产生显著的改善。在NYU数据集上，PNSR增加了1dB以上，SSIM增加了0.04。在ICL上观察到相同的趋势，其中PSNR提高超过0.75dB，SSIM提高超过0.03。这些结果表明，自监督循环不仅增强了去模糊图像的基于像素的外观，而且增强了更全局的结构模式，这对于随后的深度估计、运动估计和重建任务是至关重要的。5.4. 深度估计如Tab.所示。3、自监督循环大幅提高了深度估计的性能，Term纽约大学预科纽约大学预ICLC-ICL翻译x3.5892.5843.8132.961翻译y3.7352.7463.7963.142翻译z2.4461.4922.4522.112偏航0.2090.1100.2390.201间距0.1840.0840.1850.147辊0.1800.0820.2060.14443218499（一）（b）第（1）款（c）第（1）款（d）其他事项（e）（f）第（1）款（g）图7：前5行中的NYU数据集和后2行中的ICL数据集的结果。列（a）描绘了输入模糊图像，（c）描绘了去模糊参考帧，（b）和（d）是第一个和最后一个投影帧，（e）对应于地面真实干净参考帧，（f）显示了预测的深度图，以及（g）展示了3D重建结果。Term纽约大学预科纽约大学预ICLC-ICL绝对相对值0.2170.1840.2200.206SqRel0.2130.1560.2160.180RMSE0.9110.6070.9180.661RMSE日志0.2890.2220.2930.244δ<1。250.6070.7330.6030.684δ<1。2520.8840.9320.8790.918δ<1。2530.9690.9820.9610.972表3：在两个数据集上没有（Pre-NYU/ICL）和具有（C-NYU/ICL）自监督循环的深度估计的结果。包括Abs Rel、SqRel、RMSE和RMSE log的误差度量和精度度量δ<1. 25N。在δ 1上的巨大改进<。25表明，我们的循环提高了深度估计的大量pix-在整个图像中的元素，表明循环有利于全局深度估计性能。请注意，正如在第二节中所讨论的那样。4.4，在干净图像上学习预训练的深度模块。5.5. 分析真实世界模糊图像的结果。我们在图中显示。8我们的模型在一些现实世界的模糊图像上的结果，由华硕Xtion Pro作为相机参数拍摄的图像接近Kinect v2。我们在列（a）中显示了模糊图像，然后是三个恢复的干净帧，地面真实干净参考帧，深度图和3D重建。结果虽然不完美，但视觉上令人愉悦。与其他模型的比较。在这里，我们进行消融研究，以验证我们的深度估计模块的性能，并说明为什么它适合我们的目的。具体来说，我们将我们的网络与Eigen等人的流行网络进行比较。[12]第10段。在训练Eigen网络时所有消融实验均在NYU数据集上进行。我们比较了Eigen网络和我们在干净图像上训练时的性能。如Tab.所示。4、两种模型的结果非常相似。训练时43218500（一）（b）第（1）款（c）第（1）款（d）其他事项（e）图8：真实世界模糊图像的结果。列（a）示出了模糊图像，（c）对应于去模糊参考帧，(b)和（d）是第一个和最后一个投影帧，（e）示出了预测的深度图，以及（f）示出了3D重建结果。Term[12]第十二话清洁前我们清洁前本征在去模糊时前我们在去模糊时C-Eigen'sC-Ours绝对相对值0.2150.2170.2310.2240.1980.184SqRel0.2120.2130.2440.2320.1770.156RMSE0.9070.9110.9210.9170.6510.607RMSE日志0.2850.2890.2910.2900.2370.222δ<1。250.6110.6070.5830.6040.6960.733δ<1。2520.8870.8840.8690.8800.9220.932δ<1。2530.9710.9690.9640.9670.9790.982表4：Eigen深度网络和我们在不同设置下的结果。我们比较了在干净图像上预训练的两个网络的性能（Pre-Eigen's/Ourson Clean），使用去模糊网络的输出训练的两个网络的性能（Pre-Eigen's/Ours on Deflurred），以及使用建议的自监督循环（C-Eigen's/Ours）的两个网络的性能Term以艾根以我们的深度PSNR26.1327.22SSIM0.86970.8931表5：比较自监督循环后的去模糊网络与我们的深度估计模块和本征深度网络。Term以艾根以我们的深度翻译x2.7622.584翻译y3.0082.746翻译z1.6991.492偏航0.1350.110间距0.1070.084辊0.0960.082表6：将自监督循环后的运动估计模块与我们的深度估计模块和本征深度网络进行比较。然而，我们的网络产生了明显更好的结果，这表明图中所示的具有两个分支架构的拟议深度模块。6可以更好地处理模糊信息。我们进一步展示了使用本征深度网络和我们在Tabs中的去模糊和运动估计的结果。分别为5和6从这两张表中，我们可以看到，（f）第（1）款43218501所提出的模型由于更好的深度估计而产生更好的结果。研究结果还表明，深度在自我监督周期中发挥着重要作用。6. 结论在本文中，我们表明，给定一个模糊的图像，一个可以恢复的3D世界下的模糊给定的相机的内部参数。我们通过培训来实现这一点三个模块的深度网络，一个用于运动估计，一个用于去模糊，以及一个用于深度估计，所有这些模块形成循环以依次再现输入模糊图像并且彼此监督。我们在几个大规模的基准上构建数据集来训练我们的模型，并在这些数据集以及真实世界的模糊图像上证明了所提出的模型的有效性。在未来的工作中，我们将努力从单个模糊图像中估计动态场景，并将更多的任务，如场景解析到框架中。致谢本研究得到了澳大利亚研究委员会项目FL-170100117、DP-180103424、IH- 180100002和史蒂文斯技术研究所启动资金的支持。王新潮为本文通讯作者43218502引用[1] P. Agrawal，J. Carreira和J.马利克学习通过移动来观察。在IEEE计算机视觉国际会议论文集，第37-45页[2] Y. Bahat，N. Efrat和M.伊拉尼通过重模糊实现非均匀盲去模糊。在IEEE计算机视觉和模式识别会议论文集，第3286-3294页[3] M. H. Baig和L.托雷萨尼耦合深度学习。计算机视觉应用（WACV），2016年IEEE冬季会议，第1-10页。IEEE，2016.[4] A.查克拉巴蒂一种盲运动去模糊的神经方法。在欧洲计算机视觉会议上，第221-235页。施普林格，2016年。[5] X. Chen和C.劳伦斯·齐尼克。心灵之眼：一种用于图像字幕生成的循环视觉表示。在IEEE计算机视觉和模式识别会议论文集，第2422- 2431页，2015年。[6] S. 崔 D. 敏 B. 哈姆 Y. 金姆， C. 哦还有K. 孙深度类比：数据驱动一种使用梯度样本的单图像深度估计方法。 IEEE Transactions onImage Processing，24（12）：5953-5966，2015。[7] A. Criminisi和A.齐瑟曼。纹理形状：重新审视同质性。在BMVC，第1卷，第2页，2000中。[8] E. Davis和G.马库斯人工智能中的常识推理和常识知识。Communications of the ACM，58（9）：92[9] F. Dellaert，S. M.塞茨角E. Thorpe和S. Thrun.结构来自于运动而非对应。计算机视觉和模式识别，2000年。前-首席执行官。IEEE会议，第2卷，第557- 559页564. IEEE，2000年。[10] J. Dong，J. Pan，Z.苏和M H.杨盲图像去模糊与离群处理。在IEEE国际计算机视觉会议（ICCV）中，第2478-2486页，2017年。[11] D. Eigen和R.费格斯。使用通用多尺度卷积架构预测深度、表面法线和语义标签。在IEEE计算机视觉国际会议论文集，第2650-2658页，2015年。[12] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统的进展，第2366-2374页，2014年[13] J. Flynn ， I. Neulander ， J. Philbin 和 N. 很聪明Deepstereo：学习从世界图像中预测新视图。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，第5515-5524页[14] D. A. Forsyth和J.庞塞现代的方法。计算机视觉：现代方法，第88-101页，2003年。[15] H. 傅，M。贡角，澳-地 Wang，K. Batmanghelich，以及D.涛.深度有序回归网络用于单胞深度估计。在IEEE计算机视觉和模式识别会议论文集，第2002-2011页[16] R.古川河Sagawa和H.川崎使用结构光反射波的深度估计-分析物体表面上的投影图案反射波。arXiv预印本arXiv：1710.00513，2017。[17] R. Garg，G. BGV库马尔，卡佩罗，和我。里德用于单视图深度估计的非监督CNN：Geometry来拯救。在欧洲计算机视觉会议上，第740-756页。施普林格，2016年。[18] C.戈达尔湖，澳-地Mac Aodha和G. J·布罗斯托具有左右一致性的无监督单目深度估计。在CVPR，第2卷，第7页，2017年。[19] D. Gong，M.谭，Y。Zhang，中国古柏A.范登亨格尔，和Q.石自动梯度激活的盲图像反卷积。在Proceedingsof the IEEE Conference on Computer Vision andPattern Recognition，第1827-1836页[20] D. 龚， J. Yang L. 刘先生， Y. 张岛 D. 里德C. Shen，中国古猿A. Van Den Hengel和Q.石从运动模糊到运动模糊：用于去除异构运动模糊的深度学习解决方案。在CVPR，第1卷，第5页，2017年。[21] R. A. Guéler，G. Trigeor gis，E. 安东纳科斯山口斯内普S. Zafeiriou和我。Kokkinos Densereg：完全卷积的密集形状回归。在CVPR，第2卷，第5页，2017年。[22] A.古普塔A。A. Efros，和M。赫伯特区块世界重访：使用定性几何学和力学的图像理解。欧洲计算机视觉会议，第482-496页。施普林格，2010年。[23] A. Handa，T. Whelan、J.McDonald和A.戴维森。rgb-d视觉里程计、3d重建与slam之基准。在机器人和自动化（ICRA），2014 IEEE国际会议上，第1524-1531页。IEEE，2014。[24] C.汉湖Ladicky和M.波勒菲斯方向材料：使用表面法线分类器进行深度估计。在IEEE计算机视觉和模式识别会议论文集，第381-389页43218503[25] K.他，X。Zhang，S. Ren和J.太阳用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集，第770-778页[26] G. Heitz，S. Gould，A. Saxena和D.科勒分类模型：结合模型进行整体场景理解。神经信息处理系统进展，第641-648页，2009年。[27] M. 赫希C. J. 舒勒S. 哈梅林，和B. Scholkopf快速消除不均匀的相机抖动。2011年。[28] D. Hoiem，A. A. Efros，和M。赫伯特从一个单一的图像几何背景。计算机视觉，2005年。ICCV2005年。第十届IEEE国际会议，第1卷，第654-661页。IEEE，2005年。[29] D. Hoiem，A. A. Efros，和M。赫伯特从图像中恢复曲面布局。 International Journal of ComputerVision，75（1）：151[30] M. Hrad issoul，J. 科特拉山口 Zem c'ık和F. 斯劳贝克用于直接文本去模糊的卷积神经网络。在Proceedings of BMVC，第10卷，第2页，2015中。[31] T. Hyun Kim，B. Ahn和K.李慕动态场景去模糊。在IEEE计算机视觉国际会议论文集，第3160-3167页，2013年。[32] T. Hyun Kim和K.李慕免分割动态场景去模糊。在2014年IEEE计算机视觉和模式识别会议论文集，第2766-2773页中[33] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。[34] J. Y. Jason，A. W. Harley和K. G.德尔帕尼斯回到基础：通过亮度恒定性和运动平滑性的光学流的无监督学习。在欧洲计算机视觉会议上，第3-10页。施普林格，2016年。[35] M. Jin，G. Meishvili和P.法瓦罗学习从单个运动模糊图像中提取视频序列。 arXiv预印本 arXiv ：1804.04065，2018。[36] K.卡尔施角Liu和S. B. 康深度转换：使用非参数采样从视频中提取深度。 IEEE transactions onpattern analysis and machine intelligence ， 36（11）：2144[37] A. Kendall和Y.加贝叶斯深度学习在计算机视觉中需要哪些不确定性？神经信息处理系统的进展，第5574-5584页，2017年[38] T. H. Kim，S.不还有K M.李你使用局部自适应线性模糊模型的动态场景去模糊。 arXiv 预印本arXiv：1603.04265，2016年。[39] J. 康拉德M. 小王，P. 伊什瓦C. wu和D.穆克吉基于学习的自动2d到3d图像和视频转换。IEEE Transactions on Image Processing，22（9）：3485[40] A.克里热夫斯基岛Sutskever和G. E.辛顿使用深度卷积神经网络进行图像分类。神经信息处理系统的进展，第1097-1105页，2012年[41] Y. Kuznietsov，J. S tu？kle r和B. Leibe用于单目深度图预测的半监督深度学习。IEEE计算机视觉和模式识别会议论文集，第6647- 6655页，2017年。[42] L. Ladicky，J. Shi，and M.波勒菲斯把事情扯远。在IEEE计算机视觉和模式识别会议论文集，第89-96页，2014年。[43] I.莱纳角Rupprecht，V. Belagiannis，F. Tombari和N.纳瓦布使用全卷积残差网络进行更深的深度预测。在3D视觉（3DV），2016年第四届国际会议上，第239248. IEEE，2

下载后可阅读完整内容，剩余1页未读，立即下载