DAVANet：立体图像去模糊的融合网络及数据集

91 浏览量更新于2023-10-17 收藏 2.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10996DAVANet：使用视图聚合的立体声去模糊周尚晨1张佳伟1王梦左2谢浩哲2潘金山3任志1商汤科技2哈尔滨工业大学3南京理工大学，中国南京https://shangchenzhou.com/projects/davanet摘要如今，立体相机更普遍地被采用在诸如双镜头智能手机和无人驾驶飞行器的新兴设备然而，它们也遭受动态场景中的模糊图像，这导致视觉不适并且阻碍进一步的图像处理。以往的工作已经成功地在单目去模糊，但有几个研究立体图像去模糊。利用立体图像的双视特性，提出了一种新的基于Depth的立体图像去模糊网络（一）（b）第（1）款（c）第（1）款（d）其他事项（e）（f）第（1）款一个意识和视觉的集合，名为DAVANet。在我们提出的网络中，3D场景线索的深度和变化的信息，从两个视图，这有助于消除复杂的空间变化的动态场景中的模糊。具体来说，我们提出的融合网络，我们集成了双向视差估计和去模糊到一个统一的框架。此外，我们提出了一个大规模的多场景数据集的立体去模糊，包含20,637模糊清晰的立体图像对从135个不同的序列和相应的双向视差。在我们的数据集上的实验结果表明，DAVANet在准确性、速度和模型大小方面优于最先进的方法。1. 介绍随着双镜头智能手机、无人机和自主机器人的广泛应用，立体视觉越来越受到研究者的关注。相关研究不仅涵盖了传统的立体任务，如立体匹配[42，3，29]和场景流估计[22，23，11]，还涵盖了一些用于改善立体3D内容视觉效果的新任务，例如立体超分辨率[12]，立体视频重定向[18]和立体神经风格转移[4，7]。然而，立体图像去模糊很少被讨论。事实上，由手持或机载立体摄像机捕获的图像常常由于摄像机抖动和物体运动而包含模糊模糊的立体图像会给观看者带来视觉上的不适，并且使进一步的图像处理变得困难。*通讯作者权左10997图1：深度变化和视图变化模糊。（a，b）是立体模糊图像，（c，d）是根据对模糊核进行建模的光流的运动轨迹，以及（e，f）是估计的视差。具有不同深度的对象具有不同的模糊度，可以在绿色和黄色框之间看到此外，绿色框显示两个视图之间的模糊不同。所提出的DAVANet利用上述属性进行去模糊。动态场景去模糊是一个高度不适定的任务。由于动态场景中存在深度变化和物体/摄像机的运动，很难利用单次观测的有限信息来估计空间变化的模糊。尽管现有的基于CNN的方法[38，44，16，2，24，35]在单目去模糊方面取得了令人鼓舞的结果，但在处理复杂的非均匀模糊时仍然失败。据我们所知，很少有传统方法[40，33，28]被提出来利用立体信息进行去模糊，其中粗深度或分段刚性3D场景流被用来估计分层或迭代框架中的模糊核。然而，由于复杂的优化过程，它们是耗时的。对于立体视觉配置，我们的动机基于两个观察结果：（i）深度信息可以提供用于估计空间变化模糊核的有用的先验信息。在静态场景中，近点比远点更模糊，这可以在图1中的绿色和黄色框之间看到。与基于单目的算法相比，所提出的基于立体的方法可以10998通过视差估计获得更精确的深度信息。（ii）跨两个立体视图的对应像素中的变化信息在第3.1节中，我们证明了两个不同视图中的相应像素由于垂直于相机的运动和旋转而具有不同的模糊，如图1中的绿色框所示。该网络可以从聚合的信息中受益，其中可以通过使用自适应融合方案来传输和选择更清晰的像素。两个视图还可以共享不同的信息，例如，非遮挡区域，由不同视点引起。受这两个见解的启发，我们提出了一种新的深度感知和视图聚合立体去模糊网络，命名为DAVANet。它由DeblurNet和Disp-BiNet组成，分别用于图像去模糊和双向视差估计提出的融合网络FusionNet将DeblurNet和DispBiNet在特征域进行集成.具体而言，DispBiNet为FusionNet提供深度集成功能和双向视差。FusionNet充分利用了这些输入，并通过嵌入深度和其他视图信息丰富了DefurrNet功能。该方法利用立体图像中的三维场景信息，对动态场景去模糊是有效的。最后，为了获得更丰富的上下文信息，上下文模块被设计成通过应用具有不同膨胀率的多个并行的无尾卷积来合并多尺度上下文信息。目前，没有用于立体去模糊的特定数据集。因此，我们提出了一个大规模的多场景立体模糊图像数据集。它由来自135个不同序列的20，637个模糊-清晰立体图像对（98个用于训练，37个用于测试）和从ZED立体相机获得的相应双向视差组成[1]。我们采用[20，24，35]中使用的模糊生成方法，即通过累积图像序列中的帧来我们首先使用[25]中提出的帧内插方法将捕获的视频帧内插到非常高的帧速率（480 fps），然后对清晰序列进行平均以创建模糊图像。主要贡献概述如下：• 我们提出了一个统一的网络立体声去模糊。DispBiNet预测深度感知的双向差异以及视图信息聚合，FusionNet中的模糊度，它可以帮助DeblurNet从立体图像中去除动态场景模糊。• 我们提出了第一个大规模的多场景数据集的立体去模糊，其中包括20,637立体图像从135个不同的场景。它是目前最大的数据集去模糊。• 我们在我们的数据集上定量和定性地评估了我们的方法，并表明它在以下方面对最先进的算法表现得很好：精度、速度以及模型尺寸。2. 相关工作将模糊去除和视差估计集成到一个统一的网络中，是解决立体图像去模糊问题的一种新尝试。本文分别介绍了单目单图像去模糊、单目多图像去模糊以及立体图像去模糊的相关工作单幅图像去模糊。对于单幅图像的去模糊，已经提出了许多方法。一些自然图像先验被设计用于帮助去除模糊，例如L0正则化先验[41]，暗通道先验[27]和判别先验[19]。然而，这些方法很难对动态场景中的空间变化模糊进行建模。为了对非均匀模糊进行建模，一些基于深度的方法[17，31，9，30]利用预测的深度图来估计不同的模糊内核。当模糊核不能被准确估计时，它们往往会在恢复图像中产生视觉伪像此外，由于复杂的优化过程，它们在计算上是近年来，基于CNN的模型在单图像去模糊方面取得了重大进展几种方法[36，6]使用CNN来估计非均匀模糊核。使用传统的非盲去模糊算法[45]来去除模糊，这是耗时的。最近，还提出了许多用于图像去模糊的端到端CNN模型[24，26，43，38，44，16]。为了在网络中获得大的接受野以去除模糊，[38]和[38]以粗到细的方式开发了非常深的多尺度网络。与[24]不同的是，Tao等人。 [38]在三个不同的空间尺度上共享网络的权重，并使用LSTM跨尺度传播信息。为了处理动态场景中的空间变化模糊，Zhang等人。 [44]采用VGG网络来估计空间变化RNN [21]的像素权重，以消除特征空间中的 Noroozi等人 [26]在输入和输出之间建立跳过连接，这降低了恢复的难度并确保了颜色的一致性。此外，[24，16]中使用对抗性损失来恢复更多的纹理细节。多图像去模糊。最近，已经提出了几种基于CNN的方法[35，10，14，2]用于单目多图像（视频/突发）去模糊。[35]和[14]将相邻帧与参考帧对齐，恢复清晰图像，可以跨不同图像获得更丰富的信息Kim等人 [10]提出了一种帧递归网络，用于聚合视频去模糊的多帧特征通过在突发图像上重复交换特征，Aittala等人[2]提出了一种以顺序无关方式的端到端突发去模糊网络。这些多图像融合方法通常基于视频或突发图像的模糊程度不同的观测结果，获得较好的融合效果。立体去模糊。到目前为止，很少有传统的方法[40，33，28]利用场景信息（即，10999视差和流动）来进行去模糊。徐&（和Jia [40]将图像划分为区域，到从立体模糊图像估计的视差（深度并分级地估计它们的模糊核冰毒 - ）ods [33，28]提出了立体视频去模糊框架，&（+13&（+1X&（其中3D场景流估计和模糊去除联合进行，使得它们可以以迭代方式彼此增强。3. 该方法*C（一）H（b）第（1）款（c）第（1）款3.1. 动机利用立体相机进行动态场景去模糊的动机受到两个观察结果的启发，如图1所示。首先，我们发现附近的物体点比远处的物体点更模糊，立体相机可以提供深度信息（视差）。第二，由于沿深度方向的相对运动和相机旋转，立体相机的两个视图可能对同一对象产生不同大小的模糊较清晰的视图可以通过共享其信息来帮助其他视图更好地恢复在本节中，我们将详细分析上述观察结果，并假设立体相机已经被纠正。深度变化模糊。在[40]中，Xu和Jia分析了模糊大小和深度之间的关系。在图2（a）中，我们简单地重述它，只考虑平行于像平面I的相对平移。根据相似三角形定理：X/P=f/z，（1）其中，λX、λP、f和z分别表示模糊的大小、物点的运动、焦距和物点的深度当量图1示出了如果运动ΔP是固定的，则模糊大小ΔX与深度z成反比，这意味着更近的对象将生成更大的模糊。视图变化模糊。对于立体设置，物点P和立体相机的两个镜头之间的相对运动是不同的，因为点P是从不同的视点捕获的。这些差异使得O-O-图2：（a）是由于相对trans-mitting引起的深度变化模糊。平行于图像平面的位置。(b)以及（c）是由于沿深度方向的相对平移和旋转引起的视图变化模糊请注意，所有复杂的运动可以分为以上三个相对的子运动模式。对应的旋转半径CLO，CRO：vCL/vCR= CLO/CRO（三）此外，由于相对旋转，速度的方向不同因此，模糊的大小和方向在两个视图之间变化。所提出的网络可以利用来自更清晰视图的信息来帮助为更模糊的图像恢复更好的图像。3.2. 网络架构拟议DAVANet的总体管道如图3所示。它由三个子网组成：De-blurNet用于单图像去模糊，DispBiNet用于双向视差估计，FusionNet用于以自适应选择方式融合深度和两视图信息。注意，我们采用小卷积滤波器（3×3）来构造这三个子网络，发现使用大滤波器并不能显著提高性能。去模糊网基于U-Net的DeblurNet结构如图4（a）所示。我们使用基本残差块作为构建块，这在去模糊中已被证明是有效的[24，38]。编码器输出的特征输入大小的1×1之后，下面的解码器4 4物体在两种视图下呈现不同的模糊在这里，我们考虑两种情况：沿深度方向的相对平移和旋转。对于平移，我们假设物点P沿着图2（b）中的深度方向从Pt移动到Pt+1。根据相似三角形定理：XL/其中b是立体相机的基线，h是左相机CL和线PtPt1+ 1之间的距离。它表明，由于在深度方向上的相对平移，立体相机的两个视图的模糊大小是不同的至于图2（c）中的相对旋转，立体相机的两个透镜的速度vCL、vCR与以下成比例：重建清晰的图像与全分辨率通过两个上采样残差块。在编码器和解码器之间使用对应特征图之间的跳跃连接。此外，我们还采用了剩余连接的输入和输出。这使得网络容易估计模糊-清晰图像对之间的残差并保持颜色一致性。为了扩大感受野并获得多尺度信息，在[24，38]中普遍采用尺度递归方案。尽管它们的性能有所提高，但它们大大增加了时间和空间的复杂性。为了解决这个问题，我们采用了两个atrous残差块和一个上下文模块之间的编码器和解码器，以获得更丰富的功能。上下文模块将被删除-深度/0C$C%100美元31∆”ℎC$C%B∆&11000深度保险丝保险丝图3：立体去模糊网络DAVANet的整体结构，其中来自DispBiNet和DeblurNet的深度和双视图信息集成在FusionNet中。请注意，DefurNet共享两个视图的权重。在后面的一节中。应该注意的是，去模糊网对两个视图使用共享权重。DispBiNet。受DispNet [22]结构的启发，我们提出了一个小型DispBiNet，如图4（b）所示。与DispNet不同的是，DispBiNet可以在一个前向过程中预测双向视差。在场景流估计中，双向预测已被证明优于单向预测[11]。该网络的输出是三倍下采样和上采样此外，DispBiNet还使用了残差块、粗糙残差块和上下文模块。上下文模块。为了嵌入多尺度特征，我们FL和WL（FR）的自适应选择方案，即，它选择有用的功能和拒绝不正确的从另一个视图。例如，在遮挡或伪不清晰区域处，门映射中的值倾向于为0，这表明应当仅采用参考视图FlGateNet由五个卷积层组成，如图5所示。它的输入是输入左t图像IL和。扭曲的右图像W L（IR），即。IL− W L（IR）. ，输出为单通道大门地图所有功能通道共享相同的门映射，生成聚合特征：我为DeburNet和DispBiNet提出了上下文模块（ASPP [5]的一个稍微修改的版本），它包含L查看 =FL<$（1−GL）+WL（FR）<$GL，（4）具有不同扩张率的平行扩张卷积，如图4所示。四个扩张速率被设置为：1、2、3、4。上下文模块融合了更丰富的层次上下文信息，有利于模糊去除和视差估计。融合网络。利用深度和双视角信息-针对图像去模糊问题，本文引入了融合网络Fu-丰富了sionNet的功能与差异，并提出了两种观点。为了简单起见，我们在本节中以左图作为参考。如图5所示，FusionNet将原始立体图像IL、IR、左其中⊙表示逐元素乘法。对于深度感知，一个子网络DepthAwareNet使用包含三个卷积层的子网络，并且注意，该子网络不被两个视图共享。给定DispBiNet的视差DL和倒数第二层特征FD，DepthAwareNet-left产生涉及深度的特征FL。事实上，DepthAwareNet隐式地学习深度感知先验，这有助于动态场景模糊去除。最后，我们将原始的左视图特征L DFL，视图聚合要素FL和深度感知fea-视图D，特点F的倒数第二层DispBi-turesFL查看LNet和来自DeblurNet编码器的特征F L、F R作为输入，以便生成融合特征F L。深度，以生成融合的左视图特征Ffuse。然后，我们将F L馈送到DefurNet的解码器。对于两视图聚合，估计的左视图视差D_L用于将去模糊网的右视图特征F_R弯曲到左视图，表示为W_L（F_R）。代替直接级联WL（FR）和FL，采用子网络GateNet来生成范围从0到1的软门映射GL门映射可用于融合特征注意，两个视图的融合处理是相同的。3.3. 损失去模糊损失。对于去模糊，我们考虑两个损失函数来测量两个视图L、R的恢复图像I和清晰图像I之间的差异。的跳过连接FLFL&u（）去模糊编码器F*$LDispBiNet$%解码器左图像左输出右图像右输出去模糊网络编码器解码器F编F%&u（）FusionNetF11001↑双苯三胺双氢-4Conv Conv（stride=2）ResBlock AtrousResBlock ContextModuleDeconv↑上采样跳过连接剩余连接级联总和（b）DispBiNet图4：DeburNet和DispBiNet的详细结构。为了获得更丰富的多尺度特征，DeburNet和DispBiNet都采用了上下文模块，其中包含具有不同膨胀率的并行膨胀卷积层。预训练的VGG-19网络在我们的工作中，我们使用conv3 -3层（j=15）的特征。去模糊的总损失函数为：ΣL解模糊=k∈{L，R}kmsek知觉、（7）其中两个损失的权重w1，w2被设置为1，0。01在我们的实验中，分别。视差估计损失。为了训练DispBiNet，我们考虑估计的差异D之间的MSE损失和在多个尺度下的地面实况D，并使用掩模图M去除无效和遮挡区域：L位移=拉克莱姆1||Dk−Dk||2Mk，（8）图5：融合网络。 FusionNet由两个组件：深度感知和视图聚合，k∈{L，R}i=1我爱你为De-blurNet的解码器生成深度视图融合特征。为了简单起见，我们只显示左图像的前向传递。第一个损失是MSE损失：其中m是网络的尺度数，并且每个尺度i处的损失被归一化。4. 立体模糊数据集LMSE1=2个CHWΣk∈{L，R}||第二条，第（五）项||2,(5)目前，还没有专门为立体图像去模糊设计的数据集。因此，为了训练我们的网络并验证其有效性，我们提出了一个大规模，多其中C、H、W是图像的维度。另一个损失函数是[13]中提出的感知损失，它是de-作为恢复图像I的VGG-19 [34]特征和清晰图像I的特征之间的l2范数：场景和深度变化的立体模糊数据集。它包括各种各样的场景，包括室内和室外。室内场景主要收集室内的物体和人物，这些物体和人物的深度一般都比较小.户外场景包括pedestri-L=1知觉2C H WΣ||Φj(Iˆk）−Φj（Ik）||二、安，移动的交通和船只以及自然景观。此外，我们通过考虑以下因素j jjk∈{L，R}（六）包括光照和天气的各种因素在同时，我们有不同的摄影时尚，↑分散剂-bi-2↑disp-bi-0分散双1(a)DeblurNetFfu$%&1&（&）C&*ResBlock上下文模块CFLvi$w& =FL<$（1−GL）+0L（F1）FL<联系我网关网FLDepthAwareNet-leftGL：LFLFLvi$w&FL联系我们273456：经纱F1经纱查看聚合8L女性深度感知输出Concatenate图像模糊图像-左图像-右减去Concatenate4 x↓4 x↓乙状FusionNetw1L+w2L11002其中Cj、Hj、Wj是特征的尺寸，并且Φj（·）表示来自第j个卷积层的特征，手持射击、固定射击和机载射击，以覆盖各种运动模式。11003受[24，35，8]中的动态场景模糊图像生成方法的启发，我们对锐利的高帧速率序列进行平均，以生成模糊图像，以近似长时间曝光。在实践中，我们使用ZED立体相机[1]来捕获数据，它在可用的立体相机中具有最高的帧速率（60 fps）。然而，帧速率仍然不足以合成外观逼真的模糊，而不会产生存在于GO-PRO数据集中的不期望的伪影[24]。因此，我们使用[25]中提出的快速高质量帧内插方法将视频帧速率提高到480fps。然后，我们对不同数量（17，33，49）的连续帧进行平均，以生成大小不同的模糊，其在时间上以真实捕获的清晰帧（地面实况帧）为中心。对于合成，立体视频的两个视图具有相同的设置。此外，为了探索深度信息如何帮助去模糊，我们的数据集还提供了从ZED相机获取的两个视图的相应双向视差。我们还提出了用于去除视差地面实况和通过双向一致性检查获得的遮挡区域中的无效值的掩模图[37]。总共，我们收集了135个不同的现实世界的动态场景序列。该数据集由20，637个模糊-清晰立体图像对组成，其对应的双向视差为1280×720分辨率。我们将数据集分为98个训练序列（17，319个样本）和37个测试序列（3，318个样本）。训练集和测试集的场景是完全不同的，这避免了过拟合问题。5. 实验5.1. 实现细节在我们的实验中，我们训练了所提出的单个和立体图像去模糊网络（即，DeblurNet和DA-VANet）使用我们提出的立体模糊数据集。为了与单图像方法进行更有说服力的比较，我们还在公共GOPRO数据集上训练和评估了DefurNet[24]，该数据集包含3，214个模糊清晰的图像对（2，103个用于训练，1，111个用于评估）。数据增强。尽管我们的数据集很大，但我们执行了几种数据增强技术来为训练数据添加多样性。我们执行几何变换（随机裁剪为256×256块并随机垂直翻转）和色彩变换（亮度，对比度和饱和度在[0. 八，一。2]）在PyTorch中使用ColorJitter。为了使我们的网络鲁棒，从N（0，0。01）被添加到输入图像。为了保持立体图像的极线约束，我们不采用任何旋转和水平翻转的数据增强。训练所提出的整个网络DAVANet包含三个子网络：DeblurNet、DispBiNet和FusionNet。首先，我们在以下位置预训练我们的DefurNet和DispBiNet：每个任务单独，然后将FusionNet添加到网络中，并将它们作为一个整体进行联合训练。对于所有模型，我们将批量大小设置为2，并使用Adam [15]优化器，参数β1= 0。9和β2= 0。999在我们的实验中，初始学习率设置为10−4，每20万次迭代衰减0.5。对于DefurNet，我们首先在所提供的数据集上训练它，其中 2 ， 000 k 次迭代足以实现收敛。对于DispBiNet，我们首先使用FlyingThings3D数据集的子集（10，806个样本）在这个子集中，具有大视差（>90像素）的样本被移除，以确保其视差的分布与我们的数据集相同。然后，我们在立体模糊数据集上完全微调DispBiNet，直到收敛。最后，我们在我们的数据集上联合训练整个网络，进行50万次迭代。5.2. 实验结果我们在我们的数据集上定量和定性地评估了我们的单个和立体图像去模糊网络（ DefurNet 和 DA-VANet），并将它们与最先进的去模糊算法进行了比较，包括传统的非均匀去模糊算法[39]和基于CNN的去模糊方法 [36 ， 6 ， 24 ， 16 ， 44 ， 38] 的 PSNR 和SSIM。为了与其他端到端CNN方法[24，16，44，38]进行比较，我们在我们的数据集上完全微调他们的网络，直到与他们发布的代码收敛为了进一步比较，我们在GOPRO数据集上评估了我们的单图像去模糊网络DefurNet[24]，并将其与上述端到端CNN模型进行了比较。立体模糊数据集。虽然[24]和[38]都提出了使用多尺度递归方案来提高性能，但这不可避免地增加了计算成本。为了解决这个问题，我们在DeblurNet中使用两个atrous residual block和一个Context Module来获得更丰富的特征，而不需要大的网络。表1显示，在所提出的立体模糊数据集下，DeblurNet优于其他最先进的单图像去模糊算法。虽然所提出的去模糊网络在单视图下表现良好，但我们进一步评估了所提出的立体去模糊网络DAVANet与表1中的其他算法。它表明，由于额外的深度感知和视图聚合功能，拟议DAVANet图6显示了我们的测试集中的几个示例。现有的方法[6，24，16，44，38]不能完美地去除大的模糊，因为在其网络中没有考虑深度信息虽然在[9]中使用了深度信息，但很难从单个图像中准确地估计它。以这种方式，它们估计的模糊核是无效的，并且会将不期望的伪影引入到恢复的图像中。建议DAVANet估计视差被视为非均匀的先验信息，以处理动态场景中的空间变化模糊。此外，它还融合了两个视图的变化信息，提供了更有效的，11004表1：我们的立体模糊数据集的定量评估，在PSNR，SSIM，运行时间和参数数量方面。所有现有的方法都使用其公开可用的代码进行评估。“-”表示结果不可用。请注意，我们的立体去模糊网络（DAVANet）的运行时间记录了左右图像的前进时间方法怀特[39]阳光[36]Gong [6][24]第二十四话卡宾枪[16]张[44]陶[38]Ours-Single我们的立体声PSNR24.8426.1326.5130.3527.8130.4631.6531.9733.19SSIM0.84100.88300.89020.92940.88950.93670.94790.95070.9586时间（秒）700120015004.780.221.402.520.130.31/对参数（M）-7.2610.2911.7111.389.228.064.598.68(a)模糊图像(b)Hu等人 [9]第一章(c)Gong等人 [6]美国(d)Nah等人 [24日](e)Kupyn等人[16个]PSNR /SSIM21.97 /0.819628.18 /0.961831.54 /0.967828.17 /0.9394(f)Zhang等人 [第四十四届](g)Tao等人[38个](h)Ours-Single(i)我们的立体声(j)地面实况32.61 /0.970830.80 /0.973231.08 /0.973334.97 / 0.9812+∞/1.0(a)模糊图像(b)Hu等人 [9]第一章(c)Gong等人 [6]美国(d)Nah等人 [24日](e)Kupyn等人[16个]PSNR /SSIM20.56 /0.766425.00 /0.880129.76 /0.911927.26 /0.8619(f)Zhang等人 [第四十四届](g)Tao等人[38个](h)Ours-Single(i)我们的立体声(j)地面实况29.82 /0.914930.72 /0.928431.59 /0.936432.46 / 0.9445+∞/1.0图6：我们的立体模糊数据集的定性评估。所提出的方法产生更清晰的图像具有更高的PSNR和SSIM值。用于去模糊的有效和附加信息。通过深度感知和视图聚合，图6显示了我们的亲表2：GOPRO数据集[24]的定量评估，PSNR和SSIM。DAVANet可以恢复清晰和无伪影的图像。GOPRO 数据集。虽然我们的单个图像去模糊网络DefurNet在我们的数据集上表现良好，但我们进一步在公共GOPRO数据集上对其进行评估[24]，并将其与最先进的CNN模型进行比较。根据Ta-表2中，所提出的去模糊网络具有较小的规模优于其他算法的PSNR和SSIM，这进一步证明了上下文模块的有效性。运行时间和模型大小。我们使用PyTorch平台实现我们的网络[32]。为了比较运行时间，我们在同一台带有英特尔至强E5的服务器上评估了所提出的方法和最先进的图像方法[24]第二十四话卡宾枪[16]张[44]陶[38]Ours-SinglePSNR28.4925.8629.1930.2630.55SSIM0.91650.83590.93060.93420.940011005CPU和NVIDIA Titan Xp GPU。由于[39，36，6]中使用了传统的盲或非盲算法，因此它们的方法非常耗时。通过GPU实现，基于深度学习的方法[24，16，44，38]是有效的。为了扩大感受野，采用多尺度递归方案，大的CNN内核大小（例如，5×5）在[24，38]中使用出于同样的目的，在[44]中使用了空间变化的RNN。11006查看(a) 模糊图像（b）单帧（c）不带DAVA（d）不带VA （e）立体声（DAVA）（f）地面实况 (g)差异（P）(h)差异（T）图7：差异的有效性。(a)（f）、（g）和（h）分别表示模糊图像、清晰图像、我们的预测视差和地面实况视差。(b)和（e）是来自所提出的单图像去模糊网络DefurNet和立体去模糊网络DAVANet的去模糊结果。在（c）中，取两个左图像作为输入，DispBiNet不能提供用于深度感知和视图聚合的任何深度信息或视差。在（d）中，为了只消除视图聚合的影响，我们不从FusionNet中的其他视图扭曲特征。由于所提出的网络可以估计准确的差异，并利用它们，它优于其他配置。它们都导致计算时间长。我们发现，所提出的上下文模块，它利用不同的膨胀率卷积在此外，该网络仅使用了3×3卷积层根据表1，建议的网络更有效，与现有的基于CNN的方法相比，该方法具有较小的模型。5.3. 分析和讨论差距的有效性提出的模型DA-通过去模糊损失对整个网络进行更新;（c）为了消除视图聚合的影响，我们用FusionNet中的参考视图特征F_L的副本替换连接组件，视图聚合特征F_L（参见图5以进行说明）。我们使用5.1节中提到的相同策略来训练这些网络。表3显示了当采用所有组件时，所提出的网络是最好的。表3：上下文模块、深度感知和视图聚合有效性的消融研究。详情请参见正文VANet以两种方式利用估计的差异：深度感知（DA）和视图聚合（VA）。为了消除视图聚合的影响，我们不扭曲FusionNet中其他视图的特征，如图7（d）所示。此外，为了消除深度感知和视图聚合的影响，我们提供两个完全相同的图像进入所提出的网络，其中无法获得深度信息或视差，如图7（c）所示。我们还将建议的DAVANet与建议的单图像网络DefurNet进行了比较，如图7（b）所示。图 7 表明，所提出的具有深度感知和视图聚合的DAVANet使用DispBiNet提供的准确差异执行得更好。消融研究。我们提出的网络的性能改进应归功于三个关键组件，包括：上下文模块、深度感知和视图聚合。为了证明所提出的网络中每个组件的有效性，我们评估了以下三种变体网络进行受控比较：(a)为了验证上下文模块的有效性，我们将DeblurNet的上下文模块替换为相同层数的单路卷积块;（b）为了去除深度信息的影响，我们去除了 DispBiNet 的disparity损失，但将原始输入特征保留给DeblurNet，其中不涉及深度信息。的6. 结论在本文中，我们提出了一个高效和有效的端到端网络，DAVANet，立体图像去模糊。所提出的DAVANet受益于深度感知和视图聚合，其中深度和两个视图信息被有效地利用于动态场景中的空间变化的模糊去除。我们还构建了一个大规模的，多场景和深度变化的立体图像去模糊数据集，它由来自135个不同序列的20，637个模糊清晰的立体图像对组成。实验结果表明，我们的网络优于国家的最先进的方法在精度，速度和模型大小。7. 确认本工作得到了国家自然科学基金项目（No.61671182和No.61872421）和江苏省自然科学基金项目（ No.61872421 ）的部分资助。BK20180471）。网络无上下文单个不含DA无VA立体声PSNR31.4031.9732.6932.5333.19SSIM0.94610.95070.95690.95580.958611007引用[1] 立体实验室。https://www.stereolabs.com/网站。[2] MiikaAittala和Fre'doDurand。基于排列不变卷积神经网络的突发图像去模糊在ECCV，2018。[3] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR，2018年。[4] 陈冬冬、卢远、廖静、余能海、华刚。立体神经风格转移。在CVPR，2018年。[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，2018年。[6] Dong Gong，Jie Yang，Lingqiao Liu，Yanning Zhang，Ian D Reid，Chunhua Shen，Anton Van Den Hengel，and Qinfeng Shi.从运动模糊到运动流：一种用于消除异构运动模糊的深度学习解决方案。在CVPR，2017年。[7] Xinyu Gong，Haozhi Huang，Lin Ma，Fumin Shen，Wei Liu，and Tong Zhang.神经立体图像风格转移。在ECCV，2018。[8] MichaelHirsch ， ChristianJSchleman ， StefanHarmeling，and Bernhard Scholkopf.快速消除不均匀的相机抖动。见ICCV，2011年。[9] 胡哲，李旭，杨明轩。单幅模糊图像的联合深度估计和相机抖动去除。CVPR，2014。[10] Tae Hyun Kim，Kyoung Mu Lee，Bernhard Scholkopf，and Michael Hirsch.基于动态时间混合网络的在线视频去模糊。在CVPR，2017年。[11] Eddy Ilg，Tonmoy Saikia，Margret Keuper，and ThomasBrox.遮挡，运动和深度边界与视差，光流或场景流估计的通用网络。在ECCV，2018。[12] Daniel S Jeon，Seung-Hwan Baek，Inchang Choi，andMin H Kim.利用视差先验增强立体图像的空间分辨率在CVPR，2018年。[13] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。[14] Tae Hyun Kim，Mehdi SM Sajjadi，Michael Hirsch，andBernhardSc ho¨ l k opf. 用于视频恢复的时空Transformer网络在ECCV，2018。[15] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议[16] OrestKupyn，VolodymyrBudzan，MykolaMykhailych，Dmytro Mishkin和Jiri Matas。Deblurgan：使用条件对抗网络进行盲运动去模糊。在CVPR，2018年。[17] 李东宇，朴海索尔，朴仁圭，李庆武。光场联合盲运动去模糊及深度估计。在ECCV，2018。[18] 李冰，林嘉文，施博信，黄铁军，高文，郭杰。深度感知立体视频重定向。在CVPR，2018年。[19] 李仁汉，潘金山，赖伟胜，高长新，桑农，杨明轩。基于深度判别先验的图像盲去模糊。IJCV，2019年。[20] Yunpeng Li ， Sing Bing Kang ， Neel Joshi ， Steve MSeitz，and Daniel P Huttenlocher.从运动模糊视频生成清晰全景图。CVPR，2010。[21] Sifei Liu，Jinshan Pan，and Ming-Hsuan Yang.通过混合神经网络学习用于低级视觉的递归滤波器。在ECCV，2016年。[22] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox.用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。在CVPR，2016年。[23] 莫里茨·门泽和安德烈亚斯·盖格。自动驾驶汽车的目标场景流。CVPR，2015。[24] Seungjun Nah，Tae Hyun Kim，and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。在CVPR，2017年。[25] 西蒙·尼克劳斯、龙迈、风流。基于自适应可分离卷积的视频帧InICCV，2017.[26] Mehdi Noroozi，Paramanand Chandramouli，and PaoloFavaro.运动去模糊在野外。在GCPR，2017年。[27] 潘金山，孙德清，汉斯佩特·菲斯特，杨明轩.使用暗通道先验的盲图像去模糊。在CVPR，2016年。[28] Liyuan Pan ， Yuchao Dai ， Miaomiao Liu ， and FatihPorikli.同时立体视频去模糊和场景流估计。在CVPR，2017年。[29] Jiahao Pang ， Wenxiu Sun ， Chengxi Yang ， JimmyRen，Ruichao Xiao，Jin Zeng，and Liang Lin.缩放和学习：将深度立体匹配推广到新领域。在CVPR，2018年。[30] ChandramouliParamanand和AmbasamuillNRa-jagopalan。双层场景的非匀速运动去模糊。CVPR，2013。[31] Haesol Park和Kyoung Mu Lee从模糊图像序列联合估计InICCV，2017.[32] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。在

下载后可阅读完整内容，剩余1页未读，立即下载