
用于动态场景去模糊的深度多尺度卷积神经网络
Seungjun Nah Tae Hyun Kim Kyoung Mu Lee Department of
ECE
,
ASRI
,
Seoul National University
,
151-742
,
Seoul
,
Korea
{seungjun.nah,ligher9}@ gmail.com,kyoungmu@snu.ac.kr
摘要
一般动态场景的非均匀盲去模糊是一个具有挑战性
的计算机视觉问题,因为模糊不仅来自多个物体的运
动,而且来自相机抖动,场景深度变化。为了去除这
些复杂的运动模糊,传统的基于能量优化的方法依赖
于简单的假设,使得模糊核是部分均匀的或局部线性
的。此外,最近的基于机器学习的方法还依赖于在这
些假设下生成的合成模糊数据集。这使得传统的去模
糊方法无法去除模糊核难以近似或参数化的模糊(例
如,对象运动边界)。在这项工作中,我们提出了一
个多尺度卷积神经网络,它可以以端到端的方式恢复
清晰的图像,其中模糊是由各种来源引起的。同时,
我们提出了多尺度损失函数,模仿传统的粗到细的方
法。此外,我们提出了一个新的大规模的数据集,提
供对现实的模糊图像和相应的地面真实锐利的图像,
由高速相机获得。通过在该数据集上训练所提出的模
型,我们实证地证明了我们的方法不仅在定性上而且
在定量上实现了动态场景去模糊的最新性能。
1.
介绍
运动模糊是拍摄照片时最常见的伪影类型之一。相
机的抖动和快速对象运动使图像质量降级为不期望的
模糊图像。此外,诸如深度变化、运动边界中的遮挡
等各种原因使得模糊更加复杂。单幅图像去模糊问题
是在给定一幅模糊图像的情况下,估计出未知的清晰
图像。早期的研究集中在去除由简单的平移或旋转相
机运动引起的模糊最近的工作试图处理由动态环境中
的深度变化、相机抖动和对象运动引起的一般非均匀
模糊。这些方法中的大多数基于以下内容
模糊模型[28,10,13,11]。
B
=
KS
+
n
,
(
1
)
其中B、S和n分别是矢量化模糊图像、潜在清晰图
像和噪声。K是大的稀疏矩阵,其行各自包含作用于S
以生成模糊像素的局部模糊核。在实践中,模糊核是
未知的。因此,盲去模糊方法试图同时估计潜在清晰
图像
S
和模糊核
K
。
为每个像素寻找模糊核是一个严重不适定的问题。
因此,一些方法试图通过对模糊源的简单假设来参数
化模糊模型。在[28,10]中,他们假设模糊仅由3D相
机运动引起。然而,在动态场景中,由于存在多个移
动对象以及相机运动,核估计更具挑战性。因此,
Kim et al.[14]提出了一种动态场景去模糊方法,该方法
联合分割和去模糊非均匀模糊图像,允许估计分段内
的复杂(非线性)核。此外,Kim和Lee [15]将模糊核
近似为局部线性,并提出了一种联合估计潜像和局部
线性运动的方法然而,这些模糊核近似仍然是不准确
的,特别是在突然的运动不连续性和遮挡的情况下。
注意,这种错误的核估计直接影响潜像的质量,导致
不期望的振铃伪影。
最近,CNN(卷积神经网络)已被应用于许多计算
机视觉问题,包括去模糊问题,并显示出有希望的结
果[29,25,26,1]。由于没有一对真实模糊图像和真
实清晰图像可用于监督学习,因此通常使用卷积合成
模糊核生成的模糊图像。在[29,25,1]中,使用具有
均匀模糊核的合成模糊图像进行训练。而且,在[26]
中,训练分类CNN来估计局部线性模糊内核。因此,
基于CNN的模型仍然只适用于某些特定类型的模糊,
并且对更常见的空间变化模糊有限制。
3883