没有合适的资源?快使用搜索试试~ 我知道了~
突发摄影:利用迭代残差CNN实现高质量图像恢复
5929用于突发摄影应用的迭代残差CNN菲利波斯·科基诺斯·斯塔马蒂奥斯·莱夫基米亚蒂斯俄罗斯莫斯科斯科尔科沃科技学院(Skolkovo Institute of Science and Technology,Skoltech)filippos. skoltech.rus. skoltech.ru摘要现代廉价的成像传感器受到固有的硬件限制,这通常导致捕获的图像质量差处理这些限制的最常见方法之一是依靠连拍摄影,这是现在所有现代智能手机成像应用程序的支柱。在这项工作中,我们专注于这样一个事实,即每一帧的突发序列可以准确地描述了一个前向(物理)模型。这反过来又使我们能够从一系列低质量图像中恢复一个更高质量的图像,作为优化问题的解决方案。受梯度下降方法的扩展(可以处理非光滑函数,即近似梯度下降)和现代深度学习技术的启发,我们提出了一种具有透明架构的卷积迭代网络我们的网络使用低质量图像帧的突发,并且能够产生更高图像质量的输出,恢复在任何原始突发帧中无法区分的精细细节。我们将两者作为一个整体集中在突发摄影流水线上,即,突发去马赛克和去噪,以及对超高斯去噪任务。所开发的方法在两个任务中表现出一致的最先进性能,并且与其他最近的深度学习方法相反,对帧的数量或它们的顺序没有任何固有的限制1. 介绍随着每年超过10亿部智能手机的销售,智能手机相机已经主导了摄影市场。然而,为了允许小型和通用的传感器,这种相机的制造商不可避免地需要做出几个妥协。因此,由智能手机相机捕获的图像的质量明显劣于由复杂的手持相机(如DSLR)获取的图像的质量。智能手机摄像头中最常见的硬件限制是缺乏大光圈镜头和由更少光电二极管组成的小传感器。为了克服这种固有的硬件限制,焦点因此转移到软件上摄像机的,即,图像处理流水线(ISP)移动摄影的缺点可以通过使用连拍摄影来弥补,其中相机首先捕获相隔毫秒的图像的连拍,然后以复杂的方式融合它们以产生更高质量的图像。因此,连拍摄影允许廉价的硬件来克服机械和物理约束,从而以计算时间为代价实现更高的成像质量虽然理想情况下,我们希望每个帧的突发捕捉精确相同的场景,这是不可能的,由于相机运动(例如,手抖动)、动态移动物体引起的场景运动以及最终的光学图像稳定(OIS)硬件的无效,其甚至对于完全静态的场景也可能引起轻微的漂移。因此,当处理相同场景的帧时,通常需要单应性估计和对准。使用一系列照片来提高图像质量的想法并不新鲜,过去已经成功地用于图像去模糊[1,5],去噪[29]和超分辨率[9]的任务受这些工作的启发首先,我们依赖于一个物理模型的观测的突发,这反过来又使我们能够得到一个优化方案的恢复目的。优化方案与具有透明架构的神经网络的监督学习相结合,从而产生迭代神经网络(INN)。所开发的框架通过设计展示了许多期望的属性,用于突发摄影的竞争深度学习方法不一定展示这些属性,即a)帧排序的固有不变性,b)支持任意大小的突发,以及c)突发大小的可伸缩性。2. 相关工作2.1. 图像去噪单图像去噪是一个长期存在的问题,近几十年来取得了巨大进展,接近其公认的性能极限[26]。方法列表包括但不限于专家场[35]、非局部均值[4]和BM 3D[6],后者是最常用的方法。5930→−[12]第二十二话:我的世界图1:来自HDR+数据集的真实低光原始突发的去马赛克和去噪[12]。即使在传感器数据中存在过多噪声的情况下,我们的方法也能实现高质量的重建。至今仍在使用的方法随着深度学习的出现,在过去几年中出现了几种基于学习的方法,这些方法利用神经网络来进一步提高重建质量。像DnCNN [41],NLNet[23]和MemNet [37]这样的系统已经成功地为图像去噪任务设置了新的最先进的性能。不幸的是,最近的工作经验表明,我们现在接近相信perfor-mance限制为单一的图像去噪任务,因为定量的性能改善不再是实质性的,并没有完全证明计算复杂性的同时不成比例的增加。幸运的是,突发去噪仍然允许开发可以实现比单图像去噪更好的重建的方法。事实上,单图像去噪方法的几种多帧变体已经成功地被发现。例如,VBM3D[22]和VBM4D [29]是BM3D框架的两个已知扩展,分别适用于视频和图像突发。此外,[43]中的技术是专门针对低资源摄影应用开发的最后,最近出现了用于突发去噪的现代深度学习方法,例如[11,31],并通过实现卓越的重建质量为端到端方法2.2. 图像去马赛克虽然关于多图像去马赛克方法的文献不足,但是去马赛克作为一个独立的问题已经研究了几十年,并且对于完整的调查,我们参考[40]。一种非常常见的方法是双线性插值,以及该方法的其他变体,这些变体自适应于图像边缘[18,30]。在过去的几年里,图像通过使用神经网络方法,去马赛克任务见证了令人难以置信的定量和定性性能提高,如[10,17]和最近的[21]。即使在存在干扰相机传感器读数的噪声的情况下,这种性能提高也是真实的与多帧摄影相关,支持突发去马赛克的两个众所周知的系统是FlexISP [16]和ProxImaL [15],它们通过对许多图像处理相关问题的有效优化提供端到端公式和联合解决方案。最后,在[12]中介绍了一种非常成功的连拍摄影再现商业应用HDR+,其中利用帧的连拍来缓解智能手机相机的缺点例如低动态范围和噪声扰动。3. 问题公式化为了解决各种突发摄影问题,我们依赖于总大小为B的突发序列的每个帧yi的以下观察模型,yi= HSi(x)+ni,i = 1。. . 、B.(一)由方程式(1),yi∈RN对应于我们旨在恢复的仿射变换的基础图像x∈RN的退化版本虽然x和yi是二维图像,但为了数学推导,我们假设它们已经使用字典顺序进行了光栅扫描,并且它们对应于N维的向量算子Si:RNRN负责x坐标系的仿射变换。具体地,它通过从原始图像x的网格中为每个帧i插值来提供映射。在我们提出的方法中,我们限制仿射变换旋转和平移,以便与现实的突发摄影应用程序看齐。在上述模型中,5931∈N2z22L假设仿射变换是已知的,在实践中,我们只能通过将一个观测值设置为参考并将所有其它观测值与该参考值对齐来从观测值y i估计仿射变换。 该参考帧被认为与底层图像X完全对准,并且它们的关系被描述为y_ref= Hx + n_ref。此外,底层图像x被线性算子HRN×N进一步扭曲,这描述了我们旨在解决的特定恢复问题。该公式是文献中最常用的公式之一,用于模拟各种恢复问题,如图像修补、反卷积、去马赛克、去噪和超分辨率。每个观测yi也被噪声ni (0,σ2)失真,噪声ni(0,σ 2)被假设为遵循独立同分布高斯分布。从测量yi恢复x属于广义的逆问题。对于大多数实际问题,算子H通常是奇异的,即,不可倒置。这一事实,再加上干扰的测量和仿射变换的噪声的存在导致一个不适定的问题,其中一个唯一的解决方案不存在。在一般情况下,这样的问题可以解决以下变分的方法。在此框架下,通过最小化以下形式的目标函数来获得解:对正则化子的显式形式做任何假设。相反,正如我们稍后将详细解释的那样,我们的目标是通过邻近映射学习正则化器对解的影响[32]。4. 近端梯度下降高效求解Eq。(2)是一个长期存在的问题,因此多年来已经提出了各种复杂的优化方法在我们的工作中,我们采用了一种相对简单的方法,扩展了经典的梯度下降,即近端梯度下降(PGD)[32]。特别地,PGD是梯度下降的推广,可以处理函数的优化,这些函数不是完全可微的,但它们可以被分成可微和不可微的部分,即F (x)=s (x)+g(x)。然后,根据PGD,可以如下迭代方式获得解xt= proxγg(xt−1−γ<$xs(xt−1)),(3)其中γ是步长,proxγg是邻近算子,与总函数g(x)的非光滑部分和步长γ相关。通常,γ是自适应的,并且使用线搜索算法来计算。然而,当s(·)是Lips时,x = arg minX1 ΣB2σ2Byi−HSi(x)<$2+r(x),(2)Chitz连续的,它可以是固定的,并设置为γ=1,其中L是Lipschitz常数。在每次迭代中,首先,`i=101xf(x)其中第一项对应于量化解与观测值的接近度的数据保真度项。梯度下降步骤是针对目标函数的平滑部分s(x)执行的,而在随后的非平滑部分s(x)中,项通过邻近算子处理,其对向量v的作用定义为:第二项对应于正则化子解决方案,它编码任何可用的先验知识,prox(v)= arg min 1<$v− z <$2 + γg(z)。(四)我们可能对潜在的图像有什么看法。可以从Eq.(2)解x_i必须服从突发的每帧y_i虽然以上从信号处理的角度来看,邻近映射对应于高斯去相关的正则化解噪声问题,其中v是噪声观测值,g(·)是变分公式足够一般,对于各种不同的反问题,在第7节中,我们重点讨论两个特定的问题:1)联合去马赛克和去噪以及2)突发高斯去噪。在第一种情况下,H变成对应于相机的滤色器阵列(CFA)的二进制对角矩阵,而在第二种情况下,H简化为恒等算子。如前所述,正则化子的作用是促进解决方案,遵循特定的形象特性,因此其选择显着影响到最终,所采用的正则化子和γ是正则化参数。根据上述内容,并通过检查Eq.(2),我们观察到在我们的情况下,数据保真度对应于光滑部分,而我们进一步考虑正则化子作为非光滑部分。我们注意到,变分方法中最有效的正则化子已经被证明是不可微的,因此,我们的假设是合理的。参考方程式(2),数据保真度项的梯度可以容易地计算为:恢复的结果。正则化反问题的一些典型选择是全变分[36]和Tikhonov [38]泛函。虽然这样的正则化器具有1xf(x)=σ2B ΣBi=1xSi(x)H(−yi+ HSi(x))。( 五)过去在图像处理和计算机视觉应用中经常使用,但它们的功效有限。出于这个原因,在这项工作中,我们遵循不同的路径,我们试图从可用的训练数据中隐式地学习正则化器因此,在整个工作中,我们不不γg5932有用的观察是f(x)的梯度可以线性化,因此可以完全避免仿射变换Si的雅可比矩阵的耗时计算。这种观察的基础是映射Si(x)对应于图像上的插值,例如双线性插值5933我σ2t−1我×××−x相对于某个翘曲矩阵。通过使用估计的扭曲矩阵预先计算我们想要从图像x插值的新像素位置,插值本身可以被重写为线性操作Six。在这种情况下,S1是稀疏矩阵,其只有少数列是非零的,并且其保持用于像素强度的加权平均的系数因此,在这种方法下,Six =Si(x)成立。例如,在双线性内插的情况下,矩阵Si的每一行的仅四个元素将是非零的,而在最近邻内插的情况下,仅一个元素是非零的并且等于一。因此,数据保真度项的梯度可以重写为:IRCNN [42]、即插即用[39]和RED [34]等近端操作符完全无参数,因此无需手动调整,即可生成良好的重建。5. 迭代神经网络(Iterative5.1. 近程网络如第4节所述,邻近图可以解释为高斯去噪问题的正则化解决方案基于这一观察结果,我们可以利用神经网络的能力,用CNN代替邻近映射的迭代计算,CNN将噪声图像和噪声的标准差作为输入,f(x)=1σ2BΣBi=1STHT(−y+ HSix),(6)返回输入的去噪版本作为输出。虽然我们可以使用许多图像去噪神经网络,如DnCNN [41]或MemNet[37]其中ST是S的伴随算子。这个伴随运算-为了近似近端地图,在这项工作中,我们采用[20]中描述的ResDNet网络,它是原始的。插值相当于用逆插值图像x,扭曲矩阵。在我们的例子中,这个矩阵总是前-因为我们已经限制了仿射变换仅支持旋转和平移。最后,通过使用方程的数据保真度项的梯度。在等式(6并且通过计算其Lipschitz常数为L=1(证明在补充材料中提供),我们最终得到用于突发摄影应用的以下迭代优化步骤1ΣB受UDNet启发[24]。与DnCNN类似,Res- DNet是一个完全卷积的去噪网络,可以通过使用一组参数来处理广泛的噪声水平。它还具有残差结构,因为它不是直接估计去噪图像,而是首先估计噪声实现,然后从噪声输入中减去ResDNet相对于DnCNN的优势在于,它将噪声的标准差作为额外的输入,然后由网络用于归一化噪声估计,以确保它具有所需的方差。xt= proxσ2r(xt−1+B i=1STHT(y-HSix))。(七)此功能有助于成功实施我们的整体方案,因为它使我们能够拥有更多为了得到最小化问题的解在Eq.(2)在上述迭代格式的基础上,必须首先确定r(x)的适当形式。然而,这远不是一项有害的任务。除此之外,收敛到一个解决方案通常需要大量的迭代,这意味着一个显着的计算成本。为了应对这些挑战,在这项工作中,我们追求一种不同于传统正则化方法的方法特别地,代替选择特定的正则化子并经由等式(1)导出解,(7)设计了一个网络来学习最近输入和去噪输出之间的映射该策略允许我们展开PGD方法的K次迭代,并使用合适的网络来近似邻近算子的输出。重要的是要注意,这种方法不会带来导致重建质量低劣的任何风险原因是,在大控制网络的输出。详细地说,ResDNet的架构由D个残差块组成,每个残差块有2个卷积层,每个卷积层有64个滤波器和维度为3 3的内核。残差块在应用于输入的卷积层之前,该卷积层使用大小为5的内核将通道的数量从3增加到64五、通过具有支持核的卷积层,特征图最终从645个5.在每一步中,除了最后一个卷积层之外,在每个卷积层之后应用的所采用的非线性是参数化整流线性单元(PReLU)[13]。ResDNet的最终结果是从失真图像中减去的噪声实现估计。在减法发生之前,噪声实现被归一化,使得其方差匹配输入方差。这是通过可训练的投影层来实现的,规模优化技术,即使当正则化是完全指定,通常近端标测图不能被COM。θC(y)=θy/max(θ y ≤2√,θ),(8)以封闭形式呈现在这种情况下[2,25],它是大致上,我们想强调的另一个重要点是,我们的方法,而不是使用网络来取代其他相关的方法,其中θ=σN1.一、 总的来说,这个去噪网络是它的体积相对较小,因为它含有大约380K Pa。它可以很容易地部署在我们的INN的每次迭代中,而不需要过多的内存或计算时间。我我5934∈∈z = z + S H(−y+ HSu);ii←−←×t+2日∀≤≤算法一:建议用于半身像摄影应用的迭代神经网络输入:H:降级运算符,y{1. B}:输入突发,K:迭代,wRK:外推权重,σ:估计噪声,s RK:投影参数0= 0;通过反向传播在训练数据集上进一步微调从Smax到Smin以及之后的向量S的我们探索的第二种加速策略涉及使用类似于[3]中介绍的外推步骤。具体地,两个连续迭代的输出以加权方式组合,以便获得当前迭代的解。[3]前,使用y初始化x1ref;插值权重w∈RK是先验已知的,但在我们的估计映射S1. B;对于t 1到K,u = xt+wt(xt xt−1);z=0;对于i 1到B,T T我端xt+1=ProxNet(xt−z/B,σ,st);端为了强调我们的INN中所采用的去噪网络用作邻近图估计而不是单个图像高斯去噪器,下文中,我们将其称为ProxNet。我们命名约定的另一个原因是,我们的 整 体 方 法 不 依 赖 于 特 定 的 邻 近 网 络 , 原 则 上ResDNet可以被具有类似属性的其他网络架构所取代。5.2. 迭代神经网络建议的INN结合了第4节中讨论的PGD算法和作为Eq.(四)、实现INN的一种直接方法是在每次迭代中使用由不同参数集控制的邻近网络。然而,在这种情况下,INN的训练很快变得棘手,因为参数的数量线性增加到所采用的迭代次数为了解决这个缺点,我们在每次迭代中使用相同的邻近网络,因此我们保持网络参数的数量很小,这反过来又减少了必要的训练时间和网络的内存占用。为了加快收敛的优化计划,我们利用两个常用的收敛加速策略。第一种是同伦连续策略[27],其中噪声的标准差在第一次迭代中被故意高估,并逐渐降低,直到达到σ同伦延拓方案加速了PGD算法的收敛,如[27]所示,它可以很容易地通过modi集成到我们的公式中。通过用θθ=esθ代替θ来对投影层进行修正。详细地说,我们初始化投影层的可训练参数s∈RK,其值在对数工作,我们在INN的培训中学习它们我们签个名-将外推权重设置为wi=t−1,1t K,这与[32]中描述的配置相匹配。算法1描述了我们的整体策略,该策略组合了我们描述的所有不同组件,即,PGD、近端网络、延拓和外推策略。从算法1可以看出,我们的重建方法仅对突发大小具有弱依赖性,因为这仅涉及每个突发观测的梯度计算,这可以非常有效地完成。该特征使得我们的方法非常有效,因为邻近网络独立于胸围尺寸B,不像其他最近的基于深度学习的方法[11,1],其首先单独处理突发的每个帧,然后联合处理,因此计算时间线性增加到B。同时,我们提出的方法支持设计突发的任意大小,只有一个小的计算开销。我们注意到,对于[31]中的网络,情况并非如此,该网络被限制为使用8帧的突发在另一种情况下,整个网络需要从头开始训练最后,我们提出的INN的定义是置换不变类似于[1]。特别地,只要参考帧保持相同,突发帧的排序就根本不影响6. 网络训练6.1. 合成训练数据集由于没有公开可用的适合训练我们的网络的连拍摄影数据集,我们使用Microsoft Demosaicking Dataset(MSR)[19]进行连拍图像演示和Waterloo Dataset [28]进行连拍高斯去噪来创建地面实况和输入连拍的训练对。在这两种情况下,我们修改地面实况图像的仿射变换它8倍,以创建一个突发的合成错位,然后图像的中心裁剪,以保留一个补丁的128 - 128像素。我们假设参考系是最后一个,因此它不经历任何变换。随机仿射变换应该接近现实场景,因此我们将变换限制为包含每个方向上最多10个像素的平移和最多2度的旋转。对于连拍图像去马赛克,我们选择了MSR数据集,这是一个小但众所周知的数据集,用于评估。5935N调整图像去马赛克算法,如[19]所述。MSR数据集的优点是所有数据都在线性颜色空间中,其中像素测量与计数的光子的数量成比例,并且没有执行后处理步骤(例如,锐化、色调映射),这将改变图像统计。该数据集由200张用于训练的图像、100张用于验证的图像和200张用于测试的图像组成。对于每个地面实况图像,我们生成相应的突发序列,然后在每个帧上应用拜耳模式我们还解释了噪声干扰相机测量的情况,因此我们添加了从异方差高斯分布采样的噪声,其标准偏差与信号相关(ω,αω+β2),遵循[14]中提出的模型。参数α与散粒噪声分量有关,散粒噪声分量由光子计数过程的随机性质产生,并且取决于真实强度y,而参数β与信号无关的读取噪声分量有关这两个噪声参数都是从[31]中讨论的特定范围均匀采样的,该范围涵盖了许多广泛使用的相机的噪声水平。数据集还增加了随机翻转和颜色抖动,以确保过多的照明条件。对于突发图像去噪,我们使用由4,744张图像组成的Waterloo数据集。使用所描述的程序,我们检索了8帧的合成未对准的突发,并且这些突发中的500个被单独保存以用于测试目的。所有帧都被加性高斯噪声扭曲,标准偏差从[5,25]采样,步长等于2。五、对于所有实验,我们估计了使用增强相关系数(ECC)[8]将每个观察结果与参考帧对齐。由于图像被噪声严重扭曲,我们在图像的高斯金字塔上估计对齐度,并使用粗尺度的扭曲矩阵初始化更细层次的ECC估计,以实现对噪声扰动的鲁棒性使用这种方法未能对齐的爆发从训练集中删除。6.2. 实现细节对于所有的实验,我们选择的插值操作,参与的仿射变换的观测模型方程。(1),由于其低的计算复杂度和它提供的足够的结果,因此是双线性的使用预先训练的邻近网络,我们的整个网络进一步进行端到端训练,以最大限度地减少1001损失。由于我们的框架的迭代性质,使用时间反向传播(BPTT)算法更新网络参数,更具体地说,我们采用[33,21]中提出的截断BPTT框架当我们展开网络的K个实例时,我们通过大小为k的较小块传播梯度,而不是嘈杂无噪声linRGBsRGBlinRGBsRGB双线性- 单身27.6223.0229.0722.86- 爆发30.0326.4531.4627.23加尔比[10]- 单身36.5231.3741.0834.46- 爆发37.1431.8739.7434.39科基诺斯[21]- 单身38.4833.4141.0334.37- 爆发38.0633.0638.9333.02BM3D-CFA[7]- 单身35.6330.49--- 爆发35.3630.30--我们39.6434.5642.4036.24我们的(甲骨文)41.5535.5942.4036.24表1:不同方法在线性和sRGB空间中的PSNR性能。每种方法都在单帧图像和突发场景下进行了测试。在BM3D-CFA的情况下,使用[21]的无噪声模型执行去噪图像的去马赛克。K,由于我们在训练过程中面临的固有记忆限制。每k次迭代,我们基于损失函数更新参数,然后继续展开接下来的k次迭代,直到达到总迭代次数K。对标准BPTT的这种修改允许使用更大的批量和更高的迭代次数,从而获得更好的性能,如[21]所示。因此,我们为所有实验设置K=10,k=5,并且通过AMSGRAD优化器进行优化,其中训练从初始学习率开始,我们每100个时期减少10倍。补充材料中提供了用于训练每个模型的特定超参数。7. 实验7.1. 图像去马赛克和去噪我们评估我们的方法上的测试集的突发MSR数据集。在表1中,我们将我们的INN与双线性插值基线、两个最近的去马赛克神经网络[10,21]以及使用BM3D-CFA [7]的去噪方法进行比较,然后使用[21]的无噪声模型进行去马赛克BM 3D-CFA也被用来在噪声场景中对双线性插值基线的原始数据进行去噪。在所有比较中,我们考虑单个图像场景和突发变体,其中我们对突发的每个帧应用相应的方法,然后对齐帧以进行平均。我们的方法在有噪声和无噪声的情况下都比竞争方法产生了更好的定量结果,5936增益范围为0.9至1.5 dB。为了直观地评估我们的方法的优越性,我们进一步在图中提供了3 .第三章。为了研究观测值的对齐如何影响结果,我们还考虑了我们的预训练网络被提供了Oracle翘曲矩阵的情况。正如预期的那样,恢复性能提高到1.9 dB,这突出了鲁棒图像对齐的重要性,并表明我们可以通过采用比我们目前使用的更好的对齐方法来提高我们的网络7.2. 高斯图像去噪我们在高斯去噪任务上测试了我们的方法,大多数突发摄影方法都专注于此。为了比较,我们使用了BM3D、VBM 4D和Res- DNet方法,分别用于单次和突发场景。在ResDNet的突发变体的情况下,首先使用ResDNet对图像进行降噪,然后在平均之前使用方法[8出于实验完整性的原因,我们希望将我们的方法与两种最新的深度学习方法进行比较[11,31],然而,其中任何一种模型或其各自的测试集都尚未公开。从表2和图4中给出的结果可以看出,我们的方法达到了最先进的水平。方法σ=5σ=10σ=15σ=20σ=25噪声参考帧34.2628.3724.9522.5520.71BM3d39.7835.8633.5531.8630.50VBM4D39.6435.6733.3531.6730.34ResDNet:- 单身40.1936.6534.5533.0331.82- 爆发39.6937.6536.0634.8933.86我们40.0838.7137.3636.2435.28表2:五种不同噪声水平的彩色图像去噪比较。恢复质量是衡量的平均PSNR。3938373635在各种噪音水平下的性能。一个有趣的结果是,我们的INN使用ResDNet作为子组件,始终优于ResDNet的突发变体这要归功于我们设计INN的原则性方式,使其忠实地遵循正向模型。我们还进行了一项消融研究,研究了训练期间爆发大小的重要性。具体来说,我们使用大小为2、4和8的突发训练了3个模型,并在突发大小从2到16变化的序列上测试了它们,如图所示。二、用4帧和8帧训练的模型在推理过程中提供更多帧时能够很好地泛化,因为它们的性能稳步提高。然而,模型之间存在性能被训练来处理仅两帧突发的模型在一定数量的帧之前表现出相同的行为我们的发现与作者在[11]中的结论相矛盾,即深度学习模型需要用许多帧进行训练,以便在推理过程中推广到更长的序列事实上,我们针对4和8个突发训练的网络变体随着突发序列的增加而显示出一致的性能改善。8. 限制我们的方法是能够产生高品质的图像,从突发序列取得了巨大的成功。但2345678910 1112 13 141516推理期间的帧图2:我们的INN对不同突发大小的泛化能力。三个模型分别用2帧、4帧和8帧进行训练,并在2帧至16帧的突发序列上进行测试。我们的网络的主要限制是它依赖于扭曲矩阵的ECC估计,这在实践中可能相当不准确,特别是当存在很强的噪声时。当估计的仿射变换矩阵不精确时,我们的网络不可避免地会将重影伪影引入到最终结果中。4(更多的例子可以在补充材料中找到)。在这种情况下,一种可能的解决方案是通过[43]中的一致性度量来估计变换矩阵的质量,并从帧中裁剪出不一致的区域。9. 结论在这项工作中,我们提出了一种新的迭代神经网络架构的突发摄影应用。我们的衍生网络已经被设计为尊重突发摄影的物理模型,而其整体结构的灵感来自大规模的优化技术。通过考虑到所研究问题的特殊性,我们的网络在各种任务中的表现优于以前的最先进的方法,同时对帧的排序保持不变,并且能够很好地generalize到任意突发大小。2帧4帧8帧峰值信噪比(dB)5937[12][20]第一届中国国际汽车工业展览会[编辑图3:来自FlexISP数据集[16]的真实和合成突发的突发去马赛克结果(结果最好在计算机屏幕上显示我们的模型成功地恢复了底层图像的缺失颜色,同时抑制了噪声。补充材料中提供了系统的PSNR比较。ResDNet ResDNet平均VBM4D [29]图4:突发高斯去噪,σ=25。我们的方法能够有效地恢复图像并保留精细的细节,而不是过度平滑高纹理区域的其他方法。不精确的未对齐将导致方法引入视觉伪像,例如最后一行中的那些。结果最好在电脑屏幕上放大。5938引用[1] 米卡·艾塔拉和弗雷多·杜兰德基于排列不变卷积神经网络 的 突 发 图 像 去 模 糊 。 在 欧 洲 计 算 机 视 觉 会 议(ECCV),2018年9月。[2] Amir Beck和Marc Teboulle。线性反问题的一种快速迭代收缩阈值算法。SIAM journal on imaging sciences,2(1):183[3] Amir Beck和Marc Teboulle。线性反问题的一种快速迭代收缩-保持算法。SIAM Journal on Imaging Sciences,2(1):183[4] Antoni Buades,Bartomeu Coll,and J-M Morel.一种非局部图像去噪算法。 在计算机视觉和模式识别,2005年。CVPR 2005。 IEEE计算机协会会议,第2卷,第60-65页。IEEE,2005年。[5] Jian-Feng Cai,Hui Ji,Chaoqiang Liu,and Zuowei Shen.使 用 多 个 图 像 的 盲 运 动 去 模 糊 。 Journal ofComputational Physics,228(14):5057[6] Kostadin Dabov、Alessandro Foi、Vladimir Katkovnik和Karen Egiazarian。稀疏三维变换域协同滤波图像去噪IEEE Transactions on image processing,16(8):2080[7] A. Danielyan,M.Vehvilainen,A.福伊河谷Katkovnik和K.埃吉亚扎利安人噪声原始数据的交叉彩色bm3d滤波。2009年图像处理中的局部和非局部近似国际研讨会,第125[8] G. D. Evangelidis和E. Z. Psarakis。使用增强的相关系数最大化的参数图像对齐。IEEE Transactions on PatternAnalysis and Machine Intelligence,30(10):1858[9] S. Farsiu,M. D.罗宾逊,M。Elad和P.米兰法快速和强大 的 多 帧 超 分 辨 率 。 IEEE Transactions on ImageProcessing,13(10):1327[10] Mi cha eülGharbi , Gaura vChaurasia , Syl vainParis ,andFre´doDurand.深度联合去马赛克和去噪。ACM事务处理图表,35(6):191:1-191:12,Nov. 2016年。[11] 克莱门特·戈达尔,凯文·马岑,马特·乌滕代尔。深度突发去噪。欧洲计算机视觉会议,2018年9月。[12] 塞缪尔·W.放大图片创作者:Jonathan T.Barron,FlorianKainz,Jiawen Chen,and Marc Levoy.用于移动相机的高动态范围和低光照成像的连拍 ACM Transactions onGraphics(Proc. SIGGRAPH Asia),35(6),2016。[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 深入研究整流器:超越人类对imagenet分类的水平在IEEE计算机视觉国际会议(ICCV),2015年12月。[14] G. E. Healey和R.康德普迪 辐射CCD相机定标与噪声估计。IEEE Transactions on Pattern Analysis and MachineIntelligence,16(3):267[15] Felix Heide , Steven Diamond , Matthias Nießner ,Jonathan Ragan-Kelley,Wolfgang Heidrich,and GordonWetzstein.近端:使用近端算法进行有效的图像优化。ACM Transactions on Graphics(TOG),35(4):84,2016.[16] Felix Heide , Markus Steinberger , Yun-Ta Tsai ,Mushfiqur Rouf,Dawid Pajak,Dikpal Reddy,OrazioGallo , JingLiu , WolfgangHeidrich , KarenEgiazarian,et al.Flexisp:一个灵活的相机图像处理框架 。 ACM Transactions on Graphics ( TOG ) , 33(6):231,2014。[17] 放大图片作者:Bernardo Henz,Eduardo S. L. Gastal和Manuel M.奥利维拉彩色滤光片阵列的深度联合设计与演示. 计算机图形论坛,37(2):389[18] K. Hirakawa和T. W. Parks.自适应均匀性定向去马赛克算法。IEEE图像处理学报,14(3):360[19] D. Khashabi,S.Nowozin,J.Jancsary和A.W. 菲茨吉本通过学习非参数随机场的联合去马赛克和去噪。IEEETransactions on Image Processing,23(12):4968[20] Filippos Kokkinos和Stamatios Lefkimmiatis。使用卷积残差去噪网络级联的深度在欧洲计算机视觉会议,2018年9月。[21] Filippos Kokkinos和Stamatios Lefkimmiatis。迭代残差网络用于深度联合图像去马赛克和去噪。arXiv预印本arXiv:1807.06403,2018。[22] D Kostadin,F Alessandro和E Karen。基于稀疏三维变换域协同滤波的视频去噪。在欧洲信号处理会议上,第149卷。坦佩雷,芬兰,2007年。[23] Stamatios Lefkimmiatis.基于卷积神经网络的非局部彩色图 像 去 噪 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2017年7月。[24] Stamatios Lefkimmiatis. 通用去噪网络:一种用于图像去噪的新型CNN结构。在IEEE计算机视觉和模式识别会议上,2018年6月。[25] S. Lefkimmiatis , P. Ward 和 M. Unser 线 性 反 问 题 的Hessian-Schatten- 范 数 正 则 化 IEEE Trans-actions onImage processing,22(5):1873[26] Anat Levin和Boaz Nadler自然图像去噪:最佳性和内在界 限 。 在 Computer Vision and Pattern Recognition(CVPR),2011 IEEE Conference on,第2833-2840页中。IEEE,2011年。[27] 林启航和林晓。稀疏优化的自适应加速逼近梯度法及其同伦延拓。计算优化和应用,60(3):633[28] Kede Ma,Zhengfang端木,Qingbo Wu,Zhou Wang,Hongwei Yong,Hongliang Li,and Lei Zhang. 滑铁卢探险数据库:图像质量评估模型面临的新挑战。IEEETransactions on Image Processing , 26 ( 2 ) : 1004-1016,Feb. 2017年。[29] Matteo Maggioni、Giacomo Boracchi、Alessandro Foi和Karen Egiazarian。使用可分离的4维非局部时空变换的视频去噪。在图像处理:算法和系统IX,第7870卷,第787003页中。国际光学与光子学会,2011年。[30] D. Menon和G.卡尔瓦尼奥用空间变化滤波器联合去马赛克和2009年第16届IEEE Interna...5939图像处理国际会议(ICIP),第477- 480页[31] Ben Mildenhall , Jonathan T Barron , Jiawen Chen ,Dillon Sharlet,Ren Ng,and Robert Carroll.使用核预测网络进行突发去噪。在IEEE计算机视觉和模式识别会议论文集,第2502-2510页[32] Neal Parikh,Stephen Boyd,et al.近端算法基础和Tr端2014.优化,1(3):127-239,[33] A. J. Robinson和Frank Fallside实用程序驱动的动态误差传播网络。技术报告CUED/F-INFENG/TR.1,剑桥大学工程系,剑桥,英国,1987年。[34] Yaniv Romano,Michael Elad和Peyman Milanfar。小引擎可以:通过去噪正则化(RED)。SIAM Journal onImaging Sciences,10(4):1804[35] Stefan Roth和Michael J Black。专家领域:用于学习图像先验的 在计算机视觉和模式识别,2005年。CVPR2005。 IEEE计算机学会会议,第2卷,第860-867页。IEEE,2005年。[36] Leonid I Rudin,Stanley Osher,and Emad Fatemi.基于非线性全变分的噪声去除算法。Physica D:Nonlinearphenomenon,60(1-4):259[37] Ying Tai , Jian Yang , Xiaoming Liu , and ChunyanXu.Mem- net:一种用于图像恢复的持久存储网络。在计算机视觉国际会议论文集,20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功