具有帧内迭代的循环神经网络用于视频去模糊

32 浏览量更新于2023-10-18 收藏 12.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Videos captured in dynamic environments typically con-tain blurs where the relative motions occur. Hand-held cam-eras are more likely to be shaken during shooting, and fast-moving objects can exist at any time in the scene. Espe-cially, a long exposure time is required in the low-light en-vironment or for the widely used mobile cameras. Since themotions during the exposure time directly cause the blurs incaptured frames, blurs are among the most common degra-dation artifacts in videos. Those motions of various ob-jects or a camera give rise to spatially non-uniform blursthat make the deblurring problem challenging. In real-worldscenarios, the problem becomes more challenging since the181020具有帧内迭代的循环神经网络用于视频去模糊0Seungjun Nah Sanghyun Son Kyoung Mu Lee0韩国首尔国立大学电子与计算机工程系，ASRI0seungjun.nah@gmail.com，{thstkdgus35，kyoungmu}@snu.ac.kr0摘要0循环神经网络（RNN）广泛用于顺序数据处理。最近的最先进的视频去模糊方法依赖于卷积循环神经网络架构，以利用邻近帧之间的时间关系。在这项工作中，我们旨在通过调整从过去帧传递到正在处理的帧的隐藏状态来提高循环模型的准确性，以便更好地利用视频帧之间的关系。我们通过在预测输出去模糊帧之前重复使用RNN单元参数来迭代更新隐藏状态。由于我们使用现有参数来更新隐藏状态，我们的方法在不添加额外模块的情况下提高了准确性。由于架构在迭代次数上保持不变，较少迭代的模型可以被认为是具有更多迭代的模型的部分计算路径。为了利用这个特性，我们采用了一种随机方法来更好地优化我们的迭代模型。在训练时，我们随机选择迭代次数，并应用一个正则化损失，以便在没有明显重建收益的情况下更倾向于较少的计算。我们展示了我们的方法在实时速度下展现了最先进的视频去模糊性能。01. 引言0不知道空间变化运动或局部模糊核的信息的情况下，应该能够恢复清晰的视频帧。此外，突然的运动经常导致具有不同强度和类型的严重模糊。在视频去模糊中，分析连续帧之间的相关信息以及目标帧中的信息至关重要。在最近的基于深度神经网络的方法中，采用了几种CNN和RNN的设计来融入时间信息。Su等人[34]引入了一个两阶段的方法来处理帧之间的大运动引起的错位问题，并融合帧之间的信息。一系列帧通过单应性或光流与中间帧进行空间对齐。然后将这些帧输入CNN以获得去模糊的中间帧。另一方面，Wieschollek等人[39]和Kim等人[18]提出了可以处理任意长度视频的循环网络架构。[39]只是简单地复制过去帧的特征，[18]则在快速RNN上提出了一个动态时间混合模块。该模块将过去帧的隐藏状态和当前帧的特征混合，通过隐藏状态传递时间信息。这些基于神经网络的方法主要关注如何采用邻近帧的相关信息来恢复目标帧，并显示出显著的改进。然而，这些方法试图在单步操作中处理时间关系，这可能不是最优的。传统上，从多个帧估计运动信息或模糊核的困难通过迭代估计步骤来缓解。此外，使用光流[34]或复杂的神经网络[39]对邻近帧进行对齐在计算上是昂贵的。因此，为了解决这些问题，需要一种既快速又更优化的时间信息传递方法。我们在一个轻量级和快速的卷积RNN架构中建立了一个基线模型，利用了帧间信息。与[18]类似，我们以隐藏状态的形式将过去帧的信息传递给当前帧。为了让传播的隐藏状态适应目标帧，我们采用了81030(a) 输入模糊图像 B t0(b) 我们的去模糊图像 L t , IFI-RNN (C2H3-reg)0(c) i模糊0(d) RDN [39]0(e) DBN+OF [34]0(f) OVD [18]0(g) RNN0(h) IFI-RNN0图1：与最先进方法的去模糊结果比较。 (g) 双RNN单元无迭代的模型结果。 (h) 3次迭代模型通过随机正则化的结果(IFI-RNN (C2H3-reg))。0在单个帧间时间步骤内，我们采用了迭代的隐藏状态更新方案。我们将这个操作称为帧内迭代。由于帧内迭代与帧间操作具有相同的形式，因此不需要修改架构或添加参数。此外，我们通过改变RNN单元的组成（即单单元和双单元方法），研究和分析了帧内循环的方案。实验证明，所提出的帧内循环方案显著提高了恢复精度。我们使用预定义的帧内迭代次数训练每个模型。平均而言，更多的迭代会带来性能改进。然而，并不是所有的帧都能从最大迭代次数中得到最佳恢复。由于更多的计算会导致退化，我们将其视为一个不完美的优化问题。我们采用随机策略[36]来使用正则化效果来改进迭代模型。由于具有不同迭代次数的模型共享一个架构，我们将较少迭代的模型视为较大迭代模型的一部分。在训练过程中，内部迭代次数是随机选择的。然而，我们的正则化损失项更倾向于较少的计算。有几项研究表明，随机训练具有部分计算路径可以提高准确性[33, 38, 13, 9,36]。我们通过使用一个门控单元来决定迭代次数来实现训练。请注意，我们的主要目标是通过正则化RNN单元来提高性能。因此，我们在推理时去掉了门控函数，防止模型显示出随机或自适应行为。我们正则化的双单元0方法在图1中显示。本文的贡献总结如下：0•我们提出了一种简单而有效的基于RNN的视频去模糊方法，利用了帧内（内部）和帧间（外部）循环方案。通过在单个时间步骤内多次更新隐藏状态，我们的模型在不修改架构的情况下产生更好的结果。0•我们研究了各种类型的帧内迭代策略。对于具有不同内部单元参数的循环网络，我们研究了部分循环的效果，以研究更优的隐藏状态更新策略。0•最后，我们开发了一个单一模型，可以训练以处理各种内部循环路径（迭代）。我们的损失函数由一个数据项和一个先验项组成，旨在最小化恢复误差，并且有利于较短的计算路径。我们以随机方式训练我们的多路径网络。由于随机训练的正则化效果可以防止层之间的共适应，灵活的帧内迭代模型提供了更好的去模糊结果。0•通过广泛的实证测试和评估，我们证明了所提出模型在去模糊精度和计算效率方面优于当前最先进的方法。810402. 相关工作0在本节中，我们描述了与我们的研究相关的先前工作。0视频去模糊0在早期的视频去模糊研究中，采用了幸运成像的概念，其中清晰的内容替换了像素[29]和块[5]级别的模糊内容。后来，广泛研究了基于去卷积的方法，其中从帧间关系估计卷积核。利用时间信息，可以预测全局运动并从模糊视频生成清晰的全景场景[25]。为了处理不同模糊的区域，Wulff和Black[41]研究了分层模糊模型，将图像分割成层，并分别对每个层进行去卷积以改善模糊核和潜在图像的估计。Kim等人[17,19]提出了一种无分割的动态视频去模糊方法，其中从双向光流中近似估计局部变化的模糊核。这些方法将问题形式化为非凸能量最小化框架，其中变量包括局部模糊核和潜在图像。因此，许多去卷积算法用于去模糊[15, 16, 44, 17,35]通过迭代优化能量函数来解决这个问题。最近，[30,34]引入了包含真实模糊帧和相应清晰参考帧的视频数据集。由于由高速相机记录的视频帧是清晰且变化缓慢的，几个连续帧的平均值可以模拟以较长曝光时间拍摄的模糊帧。随着真实模糊数据集的出现，已经提出了一些基于深度学习的单幅图像[30]和视频[34]去模糊方法。类似地，Wieschollek等人[39]通过降采样和插值4k-8k分辨率的视频来合成训练数据。Su等人[34]提出了一种基于CNN的算法DBN。它以5个连续帧的堆栈作为输入，并对其中的中间帧进行去模糊。为了处理严重模糊的帧，他们还将输入帧与光流对齐作为预处理。另一方面，RDN[39]使用了编码器-解码器架构模型，可以处理任意长度的视频。RDN利用时间跳跃连接，使得在前一帧中提取的特征可以直接传播到下一帧。此外，OVD[18]提出了一个循环网络，其隐藏状态携带了过去时间步的时间信息。在循环架构中，他们添加了一个动态时间混合模块，以使来自上一个时间步的隐藏状态适应当前帧。此外，Spatio-temporal Transformer Network[20]通过利用长程像素对应关系来改进DBN和OVD。本文旨在提高去模糊质量。0通过更新隐藏状态以更好地预测输出，我们使用递归神经网络提高了模型的灵活性。从更好地利用隐藏状态的角度来看，我们的工作与[18,20]密切相关。然而，我们在不引入任何额外模块的情况下重用现有参数。0连拍去模糊0在低光条件下，由于手颤抖，一系列的照片很可能模糊。在[43,3]中，研究了模糊核的稀疏先验和潜在图像的空间梯度，以获得清晰的图像。另一方面，通过提出多图像配准和去模糊的联合问题，提出了一些无对齐方法[42, 4,45]。然后，Delbracio和Sapiro [6,7]提出了一种简单而高效的无需依赖于核估计和去卷积的连拍去模糊方法。他们利用傅里叶域中的频谱信息，其中来自较少模糊图像的信息更加加权。Wieschollek等人[40]通过学习一个混合网络进一步扩展了[6]，该网络决定了傅里叶连拍累积和去卷积滤波器的权重。此外，Aittala和Durand[2]提出的最近提出的无排列不变模型在噪声、模糊和饱和度存在的情况下显著改善了恢复质量。我们在训练过程中也引入了噪声，类似于[2, 30]。0随机神经网络训练0大多数神经网络都被设计为对每个输入进行相同的处理。然而，直接训练网络并不总是最优的。因此，已经提出了几种随机训练策略来规范优化过程。最经典的随机正则化技术类型是Dropout [12, 33]和DropConnect[38]。Dropout随机关闭全连接层的输出，DropConnect在训练时断开层的权重。它们被认为可以防止特征的共适应并使网络规范化以避免过拟合。在ResNets [10,11]中，残差块包含快捷连接，其中输入直接传递到与卷积特征并行的输出。Veit等人[37]观察到这可以解释为指数级的许多更浅的网络的集合。在ResNets中，令人惊讶的是，删除或重新排列几个层不会导致灾难性的退化。此外，使用随机跳过残差块训练的ResNets显示出改善的分类准确性[13]。类似地，FractalNet[24]表明，drop-path训练也可以展现出正则化效果。最近，提出了更先进的随机训练技术，让模型自己选择随机路径。Graves[9]提出了一种自适应计算时间（ACT）算法，其中输入之间的循环步数由网络通过估计的停止得分决定，而不是使用预定义的固定迭代次数。Figurnov等人[8]将ACT扩展到ResNets[11]的空间位置，以便每个像素都具有不同的网络深度。与我们的工作最相关的研究是Veit和Belonge的工作[36]。他们在ResNet的每个块中添加了一个门控单元，可以关闭不相关的层。为了从开关中获得计算上的好处，输出应该是硬二进制而不是软二进制。使用Gumbel-SoftMax松弛[14,28]的反向传播来训练硬门。与之前的方法侧重于在适度增加错误的情况下加速不同，它们在图像分类中相对于原始ResNet表现出更高的准确性。在我们的实验中，我们发现一般情况下使用几个不同数量的帧内迭代是有益的。因此，我们推测训练一个能够在可变数量的帧内迭代中运行的单一通用模型是可能的，考虑到我们模型之间的共享架构。我们的目标是通过在随机路径上训练我们的模型来获得正则化效果。为了让我们的模型自己决定迭代次数，我们实现了一个随机门函数，用于确定是否使用额外的迭代。为了同时训练门和主网络，我们设计了一个正则化损失项，它有利于较少的计算量和内容（L2）损失。我们采用了Gumbel-Softmax技巧[14,28]，该技巧已经在[36]中使用，以将模型路由到从迭代次数离散决定的单个预测路径中。我们的正则化模型在去模糊性能上超过了原始模型，无论是定量还是定性。81050通过网络使用估计的停止得分决定输入之间的循环步数，而不是使用预定义的固定迭代次数的自适应计算时间（ACT）算法。Figurnov等人[8]将ACT扩展到ResNets[11]的空间位置，以便每个像素都具有不同的网络深度。与我们最相关的研究是Veit和Belonge的工作[36]。他们在ResNet的每个块中添加了一个门控单元，可以关闭不相关的层。为了从开关中获得计算上的好处，输出应该是硬二进制而不是软二进制。使用Gumbel-SoftMax松弛[14,28]的反向传播来训练硬门。与之前侧重于在适度增加错误的情况下加速的方法不同，它们在图像分类中相对于原始ResNet表现出更高的准确性。在我们的实验中，我们发现一般情况下使用几个不同数量的帧内迭代是有益的。因此，我们推测训练一个能够在可变数量的帧内迭代中运行的单一通用模型是可能的，考虑到我们模型之间的共享架构。我们的目标是通过在随机路径上训练我们的模型来获得正则化效果。为了让我们的模型自己决定迭代次数，我们实现了一个随机门函数，用于确定是否使用额外的迭代。为了同时训练门和主网络，我们设计了一个正则化损失项，它有利于较少的计算量和内容（L2）损失。我们采用了Gumbel-Softmax技巧[14,28]，该技巧已经在[36]中使用，以将模型路由到从迭代次数离散决定的单个预测路径中。我们的正则化模型在去模糊性能上超过了原始模型，无论是定量还是定性。03. 提出的方法0在本节中，我们描述了如何开发我们的模型。在第3.1节中，我们描述了我们的基线RNN模型和公式术语。在第3.2节中，我们解释了我们的帧内迭代模型的概念，并分析了可能的迭代策略。最后，在第3.3节中，我们描述了我们的帧内迭代RNN的更高级的训练方法。03.1. 循环视频去模糊网络0我们将模糊视频、真实清晰视频和预测的潜在视频分别表示为B={Bt}、S={St}、L={Lt}，其中帧索引t∈{1...T}。我们将基线架构构建为一个循环神经网络，以便像[18]那样在视频帧之间传播时间信息。然后，我们的网络通过以下循环操作在模糊输入视频上运行。0（Lt，ht）=F（Bt，ht−1），0其中F指的是我们的RNN单元。该单元由几个组件组成，FB、FR、FL、Fh，如图2所示。首先，FB从模糊帧中提取特征fBt。然后，FR生成用于FL和Fh估计潜在帧Lt和隐藏状态ht的中间特征fBt。ht是在第t个时间步产生的隐藏状态，并将传播到第t+1个时间步。我们将h0初始化为零。RNN单元由步进卷积（FB）后跟ResBlocks（FR、Fh）和上采样卷积（FL）组成。请注意，我们使用没有批量归一化的ResBlocks[30,26]。有关层规格，请参阅补充材料。我们使用估计的潜在视频和真实清晰视频之间的L2损失来训练我们的基线模型，如下所示：0L内容=10TCHW0t=1∥Lt−St∥22，0其中C、H、W分别表示通道数（RGB彩色视频为3）、高度和训练样本的宽度。03.2. 帧内迭代模型0RNN相对于CNN最关键的部分是隐藏状态，因为CNN没有时间连接，隐藏状态带来了性能提升。因此，拥有良好的隐藏状态非常重要，这样它们可以更好地帮助在当前帧和下一帧预测更准确的输出。为了更好地利用隐藏状态，我们在将其传递给下一个RNN单元之前，尝试通过帧内迭代来改进。我们通过利用我们的基线RNN单元架构来实现这个想法。首先，我们使用我们的RNN单元从模糊输入Bt和前一个隐藏状态ht−1计算出特定时间步t的初始隐藏状态ˆht0。然后，我们将ˆht0反馈给单元，而不改变Bt以更新隐藏状态。在更新隐藏状态进行N次迭代后，我们最终在该时间步生成一个更新后的隐藏状态ˆhtN的潜在输出帧Lt。请注意，模糊特征提取器FB和潜在帧估计器FL仅使用一次，而不管迭代次数。我们提供两种不同类型的迭代：单个单元和双个单元方法。在单个单元方法中，我们使用相同的参数来估计初始隐藏状态和更新后的隐藏状态。另一方面，在双个单元方法中，我们使用两个RNN单元，并将它们分别用于不同的目的。只有第二个单元用于更新隐藏状态和预测潜在帧。尽管双个单元方法需要更多的参数1: procedure SINGLE CELL METHOD(Bt, ht−1)2:fBt = FB (Bt)3:ˆh0t ← ht−14:for i = 1 . . . N do5:f iR = FR�fBt, ˆhi−1t�6:ˆhit = Fh (fR)7:ht ← ˆhNt8:Lt = FL�f NR�9:return Lt, ht1: procedure DUAL CELL METHOD(Bt, ht−1)2:fBt,1 = FB,1 (Bt)3:fBt,2 = FB,2 (Bt)4:ˆh0t = Fh,1 (FR,1 (fBt, ht−1))5:for i = 1 . . . N do6:f iR,2 = FR,2�fBt,2, ˆhi−1t�7:ˆhit = Fh,2�f iR,2�8:ht ← ˆhNt9:Lt = FL�f NR,2�10:return Lt, ht81060（a）循环单元架构0（b）ResBlock [30, 26]0（c）第t帧的RNN0图2：IFI-RNN（我们的）的基线架构0（a）使用固定迭代进行训练0（b）随机训练（单个单元）0（c）随机训练（双单元）0图3：使用不同的隐藏状态更新方案训练IFI-RNN的方法。0与单个单元方法相比，双单元方法可以带来显著的性能提升，因为不同的参数集可以用于不同的角色。从现在开始，我们用前缀C1和C2分别表示单个和双单元模型。此外，我们在隐藏状态迭代中加上后缀H。例如，C2H2表示更新隐藏状态两次的双单元模型。我们在算法1中描述了两种帧内隐藏状态更新方法。从架构的角度来看，我们的方法在虚拟上增加了RNN单元的深度，扩大了感受野和容量。换句话说，我们的隐藏状态可以通过一个虚拟更深的模型更好地优化。03.3. 通过随机训练进行正则化0然而，对于更高迭代模型，迭代带来的性能提升变得较小。例如，C1H4模型（单个单元四次迭代）在图5中的表现不如C1H3模型。我们还观察到，对于每个图像，表现最好的模型并不总是迭代次数更多的模型。图4显示了使用不同迭代次数的单个单元方法在哪些图像上恢复效果最好。尽管许多图像更喜欢更多的迭代以获得更好的恢复效果，但也有一定数量的图像更喜欢较少的迭代次数。由于我们对每次迭代使用相同的RNN单元，我们可以自然地推测，我们可以训练一个可以使用不同迭代次数去模糊每个输入帧的模型。0算法1：使用帧内隐藏状态更新进行去模糊Lreg = 1T0200400600800100028.28.829.029.229.429.629.830.081070以随机方式进行迭代。因此，我们尝试利用使用随机计算路径进行训练的正则化效应。首先，我们添加一个门控单元 g( ∙ ) ∈ { 0 , 1 }，它查看隐藏状态并决定模型是否计算一次额外的迭代。我们通过全局平均池化 [ 27 ]后跟两个完全连接的层（激活函数为ReLU [ 23]）来计算迭代的分数。然后，使用Gumbel-SoftMax技巧[14 , 28]进行离散二进制采样。在训练时，当门控打开时，我们再更新隐藏状态一次。否则，我们停止迭代并返回去模糊的帧。其次，我们使用一个正则化项，当损失已经足够小时，它会倾向于较少的迭代次数。我们设置一个目标平均迭代比例，τ = 0 . 75。与固定迭代次数的模型相比，这个损失更倾向于以概率 1 − τ 停止迭代。我们将该项定义为迭代次数和 τ之间的L2损失，通过对迭代次数的平均门控激活进行小批量计算。0T0N0通过 g i t − τ 2的平方差，我们定义 Lreg = 10其中E[∙]是平均操作，git= g � ˆ hit�表示在时间步t的第i次迭代时的gatingunit，N是我们在训练期间设置的最大迭代阈值。因此，我们的最终损失项变为0L total = L content + λ L reg0其中λ是正则化项的权重。请注意，我们随机训练的主要目的是通过正则化参数的共适应来改善结果，而不是使我们的模型表现出随机行为。因此，我们在训练后移除了门控单元，以便系统提供指定迭代次数的结果。图5中的虚线表示正则化模型的性能。我们在IFI-RNN模型中添加'-reg'后缀，以指代使用正则化训练的模型，如C2H3-reg。04. 实验结果04.1. 数据集0我们在GOPRO数据集[30]上测试了我们的算法（标记为IFI-RNN）。GOPRO数据集包含来自22个序列的2103个训练样本和来自11个序列的1111个评估样本。我们从240fps视频中生成模糊和清晰的图像对。这些高速视频帧在伽马变换域中平均，以模拟具有非线性相机响应函数（CRF）的长曝光时间拍摄的图像。为了抑制噪声01 2 3 4 迭代次数0图像数量0最佳恢复图像数量C1H4恢复的图像数量0图4：蓝色柱表示根据迭代次数由单细胞方法恢复的图像数量。橙色柱表示C1H4模型恢复的图像总数。我们使用了降采样的GOPRO测试图像[30]。有关详细信息，请参阅第4.1节。015 20 25 30 35 40 每帧时间（毫秒）0PSNR（分贝）0H10H2 H3 H40H1 H2 H3 H40C1C20正则化正则化0图5：我们方法的PSNR和运行时间，在分辨率为960×540的降采样的GOPRO测试集上评估。有关详细信息，请参阅第4.1节。0和视频压缩伪影，我们在平均之前将原始视频分辨率从1280×720降低到960×540。我们还使用了Su等人的类似数据集[34]。该数据集也由240fps视频合成的成对样本组成。它提供了61个包含5708个训练对和10个包含1000个评估对的序列。然而，我们不像[34]那样使用K¨ohler等人提出的方法进行评估。相反，我们评估PSNR和SSIM，而不进行对齐等后处理。除了原始捕获的帧外，他们还通过光流估计插值出中间锐利帧以生成平滑模糊帧。原始和4.3. Comparisons on GOPRO [30] datasetWe evaluate our method and other methods on the down-sampled GORPO dataset. We report the evaluation resultsof all the comparing methods in terms of PSNR, SSIMand the running time in Table 1. From these results, it isclear that the proposed intra-frame iteration scheme and thestochastic training method improve the performance of ourmodel signiﬁcantly compared with the other state-of-the-artmethods. Furthermore, surprisingly, our method is muchfaster than the others, despite having internal iterative oper-ations. For visual comparison, please refer to Fig. 1.4.4. Comparisons on [34] Dataset and Real VideosWe also compared the performances on the dataset in[34]. In this case, we ﬁne-tuned our GOPRO models withthe training subset of [34]. In Table 2, our model also im-proves performance with iterations and regularization forboth C1 and C2 models. Furthermore, IFI-RNN C2 modelsshow state-of-the-art performance. In Fig. 6, our IFI-RNNrecovers the text and legs more clearly. Also, our results onreal videos also clarify blurred textures in Fig. 7.5. ConclusionIn this paper, we proposed a method to ameliorate the re-current network for video deblurring. By iteratively updat-MethodPSNR / SSIMSpeed (fps)DBN+OF [34]27.08 / 0.84291.72†RDN [39]25.19 / 0.77947.37OVD [18]26.82 / 0.82459.24IFI-RNN (C1H1)28.79 / 0.864761.2IFI-RNN (C1H2)29.03 / 0.871246.4IFI-RNN (C1H3)29.07 / 0.873036.5IFI-RNN (C1H4)29.06 / 0.873030.8IFI-RNN (C1H4-reg)29.16 / 0.876030.8IFI-RNN (C2H1)29.72 / 0.888442.0IFI-RNN (C2H2)29.72 / 0.888533.6IFI-RNN (C2H3)29.80 / 0.890028.8IFI-RNN (C2H4)29.82 / 0.891324.2IFI-RNN (C2H3-reg)29.97 / 0.894728.8IFI-RNN (C2H4-reg)29.93 / 0.894324.2Table 1: Deblurring accuracy comparison on the downsam-pled GOPRO dataset [30]. For our method IFI-RNN, C1and C2 refer to single-cell and dual-cell method, respec-tively. †Note that the above speed does not include the opti-cal ﬂow estimation time for [34]. All the running times areaveraged from 10 runs on the test set.MethodPSNR / SSIMDBN+OF [34]30.14 / 0.8913RDN [39]26.98 / 0.8076OVD [18]29.97 / 0.8696IFI-RNN (C1H1)30.07 / 0.8823IFI-RNN (C1H4-reg)30.10 / 0.8849IFI-RNN (C2H1)30.74 / 0.8974IFI-RNN (C2H3-reg)30.80 / 0.8991IFI-RNN (C2H4-reg)30.73 / 0.8976Table 2: Deblurring accuracy comparison on the datasetfrom [34].ing the hidden state to the target frame, our method removesblurs in the video frames more effectively. Furthermore, wetrain our model with a regularization term that could en-hance prediction accuracy through stochastic computationpaths. Our method does not require additional parameterswhile being fast and accurate compared to other state-of-the-art methods.AcknowledgementThis work was partially supported by LG Electronicsand the National Research Foundation of Korea (NRF)grant funded by the Korea Government(MSIT) (No. NRF-2017R1A2B2011862)81080插值帧在线性CRF假设下一起平均以合成模糊图像。为了与之前的方法进行比较，我们使用上述两个数据集的测试视频序列，除了每个视频的前四帧和最后一帧，因为[18]没有为它们提供结果。此外，我们展示了真实视频的去模糊结果，以展示我们方法的泛化能力。04.2. 实现细节0我们使用ADAM优化器[21]在GOPRO数据集[30]上训练我们的模型，其中β1 = 0.9，β2 =0.999。我们总共训练每个模型500个时期。从初始学习率10^-4开始，我们在每200个时期后将学习率减半。我们将正则化损失权重λ设置为10。训练过程中，我们从数据集中采样12帧256×256的RGB补丁序列，构建一个大小为4的小批量。对这些样本应用随机增强，包括垂直和水平翻转以及90度旋转。此外，我们向模糊输入添加均值为零的高斯噪声，其标准差从另一个高斯分布N(0,2^2)中采样。我们的实验中使用了NVIDIA GTX 1080 TiGPU。我们使用基于CUDA 9.2和cuDNN7.1构建的PyTorch0.4.1[32]实现了我们的模型。我们的源代码将公开发布。(a) Blur(b) Deblurred (Ours)(c) Blur(d) RDN [39](e) OVD [18](f) DBN+OF [34](g) IFI-RNN(C2H3-reg)(d) RDN [39](e) OVD [18](f) DBN+OF [34](g) IFI-RNN(C2H3-reg)81090图6:在[ 34 ]数据集上的去模糊结果.0(a) 模糊0(b) 去模糊 (我们的, IFI-RNN(C2H4-reg))0(c) 模糊0图7:真实视频的去模糊结果.81100参考文献0[1] Byeongjoo Ahn, Tae Hyun Kim, Wonsik Kim和Kyoung MuLee. 具有新的分层模糊模型的遮挡感知视频去模糊.arXiv预印本arXiv:1611.09572, 2016年. 10[2] Miika Aittala和Fredo Durand.使用置换不变卷积神经网络的连拍图像去模糊. 在ECCV, 2018年.30[3] Jian-Feng Cai, Hui Ji, Chaoqiang Liu和Zuowei Shen.使用多个图像的盲运动去模糊. 计算物理学杂志,228(14):5057–5071, 2009年. 30[4] Sunghyun Cho, Hojin Cho, Yu-Wing Tai和Seungyong Lee.基于注册的非均匀运动去模糊. 在计算机图形学论坛, 卷31,页2183–2192. Wiley Online Library, 2012年. 30[5] Sunghyun Cho, Jue Wang和Seungyong Lee.使用基于补丁的合成的手持相机视频去模糊. ACM图形交易(TOG),31(4):64, 2012年. 30[6] Mauricio Delbracio和Guillermo Sapiro.爆发去模糊:通过傅里叶爆发累积消除相机抖动. 在CVPR, 2015年.30[7] Mauricio Delbracio和Guillermo Sapiro.通过加权傅里叶爆发累积消除相机抖动. IEEE图像处理交易(TIP),24(11):3293–3307, 2015年. 30[8] Michael Figurnov, Maxwell D Collins, Yukun Zhu, LiZhang, Jonathan Huang, Dmitry P Vetrov和RuslanSalakhutdinov. 用于残差网络的空间自适应计算时间. 在CVPR,2017年. 40[9] Alex Graves. 适应性计算时间用于递归神经网络.arXiv预印本arXiv:1603.08983, 2016年. 2 , 30[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren和Jian Sun.深度残差学习用于图像识别. 在CVPR, 2016年. 30[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren和Jian Sun.深度残差网络中的身份映射.在ECCV, 2016年. 3 , 40[12] Geoffrey E Hinton, Nitish Srivastava, Alex Krizhevsky, IlyaSutskever和Ruslan R Salakhutdinov.通过防止特征检测器的共适应来改进神经网络.arXiv预印本arXiv:1207.0580, 2012年. 30[13] Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra和Kilian QWeinberger. 具有随机深度的深度网络.在ECCV, 2016年. 2 , 30[14] Eric Jang, Shixiang Gu和Ben Poole.使用Gumbel-Softmax进行分类重参数化.arXiv预印本arXiv:1611.01144, 2016年. 4 , 60[15] Tae Hyun Kim, Byeongjoo Ahn和Kyoung Mu Lee.动态场景去模糊.在CVPR, 2013年. 30[16] Tae Hyun Kim和Kyoung Mu Lee. 无分割的动态场景去模糊.在CVPR, 2014年. 30[17] Tae Hyun Kim和Kyoung Mu Lee.用于动态场景的广义视频去模糊.在CVPR, 2015年. 1 , 30[18] Tae Hyun Kim, Kyoung Mu Lee, Bernhard Scholkopf和MichaelHirsch. 通过动态时间混合网络进行在线视频去模糊. 在ICCV, 2017年.1 , 2 , 3 , 4 , 7 , 80[19] Tae Hyun Kim, Seungjun Nah和Kyoung Mu Lee.使用本地自适应模糊模型的动态视频去模糊.IEEE模式分析与机器智能交易, 40(10):2374–2387, 2018年. 30[20] Tae Hyun Kim, Mehdi S. M. Sajjadi,

下载后可阅读完整内容，剩余1页未读，立即下载