没有合适的资源?快使用搜索试试~ 我知道了~
123700Lucas-Kanade Reloaded:从原始图像连拍进行端到端超分辨率0Bruno Lecouat 1, 2 Jean Ponce 1, 3 Julien Mairal 201 Inria和DIENS(ENS-PSL,CNRS,Inria),法国巴黎 2 Univ. GrenobleAlpes,Inria,CNRS,Grenoble INP,LJK,法国格勒诺布尔,邮编38000 3纽约大学数据科学中心,美国纽约,电子邮件:名字.姓氏@inria.fr0Dcraw相机ISP的输出(高质量JPEG)联合解码+单图像SR提出的方法0图1:使用手持式Panasonic Lumix GX9相机以12800ISO拍摄的30张原始图像连拍获得的4倍超分辨率结果,底部图像的ISO为25600。Dcraw执行基本的demosaicking。0摘要0本文讨论了从空间和时间上稍有不同视角捕获的多个低分辨率快照中重建高分辨率图像的问题。解决这个超分辨率问题的关键挑战包括:(i)以亚像素精度对齐输入图片;(ii)处理原始(嘈杂)图像,以最大程度地保持对原始相机数据的忠实度;(iii)设计/学习适合任务的图像先验(正则化器)。我们通过基于[45]的洞察力的混合算法来解决这三个挑战,该洞察力认为在这种情况下,混叠是一个有利因素,其参数可以端到端地学习,同时保留了对逆问题的经典方法的可解释性。我们的方法的有效性在合成和真实图像连拍上得到了证明,在多个基准测试中取得了新的最佳结果,并在真实图像上提供了出色的定性结果。0智能手机和专业消费级相机捕获的原始连拍。我们的代码可在https://github.com/bruno-31/lkburst.git上获得。01. 引言0从低分辨率(LR)图像重建高分辨率(HR)图像的问题有多种形式,这些形式在技术细节和总体目标上可能有很大的不同。当只有一个LR图像可用时,相应的逆问题是严重的不适定问题,需要对所考虑的图片类型有非常强的先验知识[18,47]。对于自然图像,基于卷积神经网络(CNNs)的数据驱动方法已经被证明非常有效[26,44]。生成对抗网络(GANs)也被用于合成令人印象深刻的HR图像,这些图像可能,然而,大多数数字视频是通过将原始传感器数据映射到可能经过压缩的低分辨率帧的复杂流水线产生的,导致高频细节和空间相关噪声的丢失可能非常困难[12]。另一方面,现代智能手机和专业消费级相机具备记录原始图像连拍的能力,这为在图像信号处理器(ISP)生成不可逆损坏之前恢复相应帧的新机会[4,45]。这是本文所讨论的问题,由于以下几个原因,这是一个具有挑战性的问题:(i)图像通常包含由于手部震颤而产生的未知运动,使得亚像素对齐困难;(ii)将嘈杂的原始传感器数据转换为全彩色图像本身就是一个困难的问题,被称为demosaicking[22,25];(iii)有效的图像先验通常是数据驱动的,因此需要一个可微的估计过程进行端到端学习。在本文中,我们共同解决了这些问题,并提出了一种新的方法,保留了经典逆问题形式的可解释性,同时允许模型参数的端到端学习。这可以看作是信号处理的“旧世界”与数据驱动黑盒子的“新世界”之间的桥梁,而不会牺牲可解释性:一方面,我们通过模型优化过程交替进行运动和HR图像估计步骤来解决逆问题,直接建立在20世纪80年代[1,29]和90年代[16]的经典工作上。另一方面,我们还充分利用了现代技术,采用了深度神经网络与变分方法的混合先验[6, 42]。反过来,展开优化过程[7, 25,48]使我们能够通过使用具有合成运动的训练数据来端到端地学习模型参数[4]。由于混叠会产生与原始信号的欠采样高频分量相关的低频伪像,通常被认为是一个干扰项,23710在真实的超分辨率设置中[31, 39,47],当有多个低分辨率帧可用时,数据中存在高分辨率细节,但它们分散在多个不对齐的图像中,面临着恢复亚像素注册的技术挑战,但也有恢复真实信息的承诺,应用范围从业余摄影到天文学、生物和医学成像、显微成像和遥感。当然,视频是同一场景的多个相关图片的丰富来源,最近有几种方法在这个领域进行超分辨率处理,通常结合了来自CNN的数据驱动先验和帧之间的自相似性[21, 27,43]。然而,大多数数字视频是通过将原始传感器数据映射到可能经过压缩的低分辨率帧的复杂流水线产生的,导致高频细节和空间相关噪声的丢失可能非常困难[12]。另一方面,现代智能手机和专业消费级相机具备记录原始图像连拍的能力,这为在图像信号处理器(ISP)生成不可逆损坏之前恢复相应帧的新机会[4,45]。这是本文所讨论的问题,由于以下几个原因,这是一个具有挑战性的问题:(i)图像通常包含由于手部震颤而产生的未知运动,使得亚像素对齐困难;(ii)将嘈杂的原始传感器数据转换为全彩色图像本身就是一个困难的问题,被称为demosaicking[22,25];(iii)有效的图像先验通常是数据驱动的,因此需要一个可微的估计过程进行端到端学习。在本文中,我们共同解决了这些问题,并提出了一种新的方法,保留了经典逆问题形式的可解释性,同时允许模型参数的端到端学习。这可以看作是信号处理的“旧世界”与数据驱动黑盒子的“新世界”之间的桥梁,而不会牺牲可解释性:一方面,我们通过模型优化过程交替进行运动和HR图像估计步骤来解决逆问题,直接建立在20世纪80年代[1,29]和90年代[16]的经典工作上。另一方面,我们还充分利用了现代技术,采用了深度神经网络与变分方法的混合先验[6, 42]。反过来,展开优化过程[7, 25,48]使我们能够通过使用具有合成运动的训练数据来端到端地学习模型参数[4]。由于混叠会产生与原始信号的欠采样高频分量相关的低频伪像,通常被认为是一个干扰项,01“单图像超分辨率”已成为单图像在强先验条件下上采样的流行别名;在这里,我们使用多个低分辨率快照的经典超分辨率定义[39,47]。2在实践中,三脚架上拍摄的图像连拍也可能出现亚像素错位,这是由于地板振动引起的,我们的实验中观察到了这一现象。0激励相机制造商在传感器前添加抗混叠(光学)滤镜。然而,混叠图像携带高频信息,可以从多个平移测量中恢复。令人惊讶的是,在超分辨率的背景下,混叠实际上是一个盟友,这一事实已经在早期的参考文献中注意到,参见[41]。正如本演示的其余部分所示,我们对原始连拍超分辨率的方法也利用了这一见解,并在使用合成运动作为基准的几个标准基准测试中取得了新的技术水平。它还在使用智能手机和半专业相机获取的真实数据上获得了出色的定性结果。有趣的是,正如图1所示,我们的方法在噪声方面表现出了出乎意料的稳健性,考虑到原始图像超分辨率的特别具有挑战性的设置,其中涉及到同时进行盲去噪、去马赛克、配准和上采样。0贡献摘要。•据我们所知,我们提出了第一个基于模型的、可端到端学习的原始图像连拍联合图像对齐和超分辨率的架构。0•我们引入了一种新的可微分图像配准模块,可应用于不同分辨率的图像,易于集成到神经架构中,并可能在超分辨率之0•我们展示了我们的方法在真实图像连拍(对于原始图像最多进行4倍上采样)和合成图像连拍(对于RGB图像最多进行16倍上采样)上取得了出色的结果。02. 相关工作0经典多帧超分辨率。Tsai和Huang在这个设置中撰写了开创性的论文[39],其中在已知帧之间的平移下假设频域中的恢复模型。后来的大多数方法都集中在空域中,并且通常分为两个主要类别[23]:在基于插值的方法中,具有亚像素精度对齐的低分辨率快照被共同插值为高分辨率图像[15,38]。最近,使用Wronski等人提出的这种方法的变体,已经取得了令人印象深刻的手持相机结果,他们利用混叠效应的洞察力已经成为我们工作的灵感之一。然而,由于他们算法的顺序性质,错误可能从一个阶段传播到下一个阶段,导致次优的重建[34]。相反,迭代空域技术通过最佳解释观察到的低分辨率帧来迭代地改进超分辨率图像的估计,以适应某种图像形成模型。这种方法的变体包括Irani等人的早期迭代反投影算法[20]、Elad和Feuer的最大似然技术[11]和Far-siu等人的双边总变差正则化模型[13]。图像形成参数可以通过校准事先假设已知,也可以与高分辨率图像一起进行联合估计。一般来说,帧间运动可以单独估计,也可以作为超分辨率问题的一个组成部分来处理[2,16],从而避免了低分辨率帧之间的运动估计,其准确性可能受到欠采样的影响[40]。本文中提出的方法结合了两种方法的优点,因为它在对齐低分辨率帧与重建的高分辨率图像时进行联合估计。0然而,如今有一种趋势是去除这些滤镜,就像我们在一些使用真实图像的实验中使用的半专业相机一样。and the model regularized by bilateral total variation of Far-siu et al. [13]. The image formation parameters are eitherbe assumed to be known a priori through calibration, or es-timated jointly with the HR image. In general, inter-framemotion can either be estimated separately, or be treated asan integral part of the super-resolution problem [2, 16], thusavoiding motion estimation between LR frames, whose ac-curacy may be affected by undersampling [40]. The methodproposed in the rest of this paper combines the best of bothworlds since it performs joint estimation while aligning theLR frames with the reconstructed HR image.��23720基于学习的方法。在这种情况下,多帧情况比其单帧对应物受到的关注要少,对于单帧情况,已经提出了几种损失函数和架构[ 9,28,48]。大多数多帧算法侧重于视频超分辨率。基于模型的技术使用卷积神经网络学习非均匀插值或运动补偿[ 37],但迄今为止最成功的方法是基于模型的技术,利用3D卷积或注意机制的多样性[ 21,43]。学习方法也已经在遥感应用中使用,例如使用3D卷积[32 ]或联合注册/融合架构[ 8]。最后,与我们的工作更接近的是Bhat等人[ 4]最近提出了一种用于原始连拍超分辨率的网络架构,以及一个非常有趣的数据集,其中包含合成和真实图像用于训练和测试。值得注意的是,超分辨率的基于学习的方法通常是在合成生成的LR图像上进行训练[ 30],这种策略可能不适用于真实照片,除非在建模图像损坏过程时非常小心[ 5 ]。从真实的LR /HR图像对中学习超分辨率模型非常具有挑战性,因为通常需要使用具有不同镜头和空间分辨率的单独相机,不可避免地会出现空间和光谱的错位。正如我们的实验证明的那样,我们的方法虽然是从合成的LR图像训练的,但在来自不同智能手机和相机的真实连拍中取得了出色的结果。利用训练时的真实图像,目前仍然留待将来的工作。03. 提出的方法0本节介绍我们方法的三个主要组成部分:图像形成模型,解决相应逆问题的优化过程以及其展开实现,其参数可以端到端学习。03.1. 图像形成模型0数字相机的图像获取始于连续视网膜域上定义的瞬时辐照度函数 f γ,t :[0,1] 2 → R + ,其具有非负值。0图2:极端 × 16上采样的概念验证。右侧图像是通过处理在左侧呈现的20个LR图像的连拍获得的,这些图像是通过合成的随机仿射运动和双线性下采样获得的。0其中 f γ,t ( u ) 是点 u ,时间 t 和波长 γ处的光谱辐照度值,考虑到光学、大气等因素引起的模糊。相机传感器在空间、时间和频谱域中积分 f γ,t,构建原始数字图像 y :[1,...,n] 2 → R +,其中每个像素的光谱响应通常由 2 × 2 RGGBBayer模式决定,绿色通道的测量次数是红色和蓝色通道的两倍[ 22 ]。现代相机通过称为 demosaicking的插值过程将原始图像 y转换为具有相同空间分辨率的全彩三通道 RGB 图像 x。在实践中,我们无法访问 f γ,t作为学习图像恢复过程的基本事实,即使 f γ,t 到 x映射的准确模型可用。因此,我们改为对过程 x 到 y k的建模,其中 x是我们希望恢复的潜在高分辨率(HR)图像,低分辨率(LR)图像 y k ( k = 1,...,K )在一系列长度为 K的连拍中被观察到。我们假设 x是清晰的,没有模糊和无噪声。通过以下正向模型获得连拍图像(图 3 ):0y k = DBW p k x + ε k ,其中 k = 1,...,K,(1)0其中 ε k 是一些加性噪声。在这里,高分辨率图像 x和连拍的帧 y k 都被展平成向量形式。操作符 W p k由参数 p k 参数化,将 x通过图像平面上的6参数仿射变换与 y k之间的相机或场景运动引起的错位进行补偿,然后对扭曲的图像进行重新采样,以使其像素网格与 y k的像素网格对齐。最后,对应的高分辨率图像被模糊处理,以考虑空间(低分辨率像素区域,使用简单平均或高斯滤波器)和时间(曝光期间的相机和/或场景运动)的积分,并且最终通过操作符 D在空间和频谱域中进行下采样,选择从哪里选择样本(例如像素角或中心),频谱部分对应于选择三个RGB值之一来组装原始图像。在接下来的过程中,这将证明是方便的。Latent HR image 𝑥LR input image 𝑦!Warped HR imageBlurred HR imageDecimated HR imageResampled HR image𝑊"! 𝐵𝐷DBWp1...DBWpKzt ← zt–1−ηt U ⊤pt–1(Upt–1zt–1−y)+µ(zt–1−xt–1) , (5)minpk12∥yk − DBWpkzt∥2.(6)ptk ← pt–1k− Jt⊤k Jtk−1 Jt⊤k rtk,(7)23730图3:图像形成:HR图像 x 经过变形然后通过运算符 W p k重新采样以与LR图像 y 对齐。然后通过运算符 B进行模糊处理,以考虑对LR像素的积分,最后通过运算符 D在空间和光谱域进行下采样(这里为了简单起见,未显示RGB到R、G或B的光谱下采样)。0将(1)重写为 y = U p x + ε,其中0U p =0�0��0�0�� ,=0�0�0y 1... yK0�0�� ,=0�0�0p 1... pK0�0�� ,=0�0�0ε 1... εK0�0��.(2)0在结束本节之前,让我们注意到,根据应用的不同,可以考虑更简单的运动模型,如两个(平移)或三个(刚体运动)参数,或者(更)复杂的分段仿射或弹性模型。我们在这里专注于用户希望放大相对较小的裁剪区域(例如,100×100到800×800像素之间)的场景,而仿射模型在这种设置下已被证明对于真实手持相机非常有效。这隐含地对应于全局分段仿射运动模型。03.2. 逆问题和优化0根据方程(1)-(2)的图像形成模型,从爆发中的 K个LR帧 y k 中恢复HR图像 x 可以被表述为找到使得 1/2∥y− U p x∥2 + λφθ(x) 最小化的 x 和 p 的值,即:0其中 φ θ 是一个参数化的正则化器,稍后详细介绍,λ是平衡数据保真度和正则化项的参数。当然,有很多方法可以最小化这个函数。像其他方法一样(例如,[24]),为了简单起见,我们选择了一个二次惩罚方法[33,Sec.17.1],通常称为半二次分裂(或HQS)[14]:原始目标被以下式子替代:0E µ (x, z, p) = 02 ∥ y − U p z ∥ + µ02 ∥z − x∥2 +λφθ(x),(4)0其中 z 是辅助变量,µ 是每次迭代递增的参数,当 µ → +∞时,关于 x、z 和 p 的(4)的最小化等价于关于 x 和 p的(3)的最小化。每次迭代的更新步骤如下:0HQS的每次迭代可以被视为一步块坐标下降过程,用于最小化 E,每次改变一个变量 z、x 或p,同时保持其他变量不变,随着每次迭代后 µ的值递增。二次惩罚方法的收敛保证要求随着时间的推移对方程(4)进行近似最小化,并提高精度[33]。遵循计算机视觉的常规做法(例如[24]),我们使用HQS,而不是正式检查其精度是否确实随着迭代而增加。这个非常简单的过程在实践中效果很好。下面的三段详细介绍了它的步骤,指数t 用于指代迭代 t 时的变量值。权重序列(µt)t≥0作为第3.3节中解释的端到端学习而学习。0更新 z。有多种策略可以最小化关于 z的方程(4)。鉴于问题的维度,可以选择一种快速迭代最小化过程,如共轭梯度下降。由于我们的需求只需要近似最小化,我们选择使用一步普通梯度下降,理论上收敛速度较慢,但更简单,更容易适应即将介绍的端到端学习的展开优化策略。第 t 次迭代的更新如下:0其中 η t > 0 是一些步长,也是端到端学习的。0更新运动参数 p。设 p k 是参数向量 p 中负责对齐 z t 和 yk 的部分(在(4)中)。相应的优化问题可以重写为0这是一个非线性最小二乘问题,可以使用许多不同的技术来解决。在这里,我们选择了高斯-牛顿方法,它对应于Lucas-Kanade算法的一种变体[1,29],再次表明40年前的技术仍然有用。具体来说,我们在每次迭代 t 的每个 p k上执行一次高斯-牛顿步骤:0其中 r t k = U p t – 1 k z t − y k是非线性最小二乘问题(6)的残差,J t k = ( ∂U p t – 1 k/∂ p k ) z t 是 DBW p k操作符的雅可比矩阵。与Lucas-Kanade迭代的唯一区别是存在高分辨率帧 z t 和下采样操作符DB。这类似于[16],或者更近期的[2,17],它们将高分辨率图像与低分辨率图像对齐。xt ← arg minxµt–12 ∥zt − x∥2 + λφθ(x),1nn�i=1L(ˆxT (Yi), xi),(8)4https://github.com/goutamgmb/NTIRE21_BURSTSR.23740估计 HR 图像 x。x 的更新如下获得0这相当于计算先验 φ θ的近端算子。在实践中,我们采用“即插即用”的方法[6,35,42],用参数化函数 f θ ( z t)(这里是一个CNN,详见实现细节)替换近端算子。在我们的设置中,使用这样的隐式先验已经被证明非常有效。当然,也可以使用更传统的图像先验,如总变差。03.3. 展开优化和反向传播0到目前为止,所描述的优化过程需要选择超参数,如序列(µ t)t ≥ 0,其隐式先验还涉及模型参数θ。通过使用一个包含 n 个 LR burst/HR图像对的训练集,我们建议以监督的方式学习所有这些参数。我们用 (Y i, x i) n i =1 表示训练集,其中 Y i = {y i j} K j=1 是与 HR 图像 x i 关联的第 i 个 LR图像突发。然后,我们将优化过程展开 T 步,并用 ˆ x T (Yi) 表示从突发 Y i 估计得到的 HR 图像,我们考虑目标函数0其中 L 是 ℓ2 或 ℓ1 损失(实践中我们观察到 ℓ1损失效果稍好)。由于我们估计过程的每一步都是可微的,我们通过随机梯度下降来最小化(8)。0学习的数据先验。良好的图像先验对于解决不适定的逆问题至关重要。如前所述,我们不使用传统的先验,如总变差(TV)或双边总变差(BTV)[13],而是以数据驱动的方式学习一个由卷积神经网络 f θ参数化的隐式先验。在实践中,我们使用了[48]中介绍的ResUNet架构。它包括四个尺度,每个尺度在下采样和上采样操作之间有一个身份跳跃连接。03.4. 实现细节和变体0下采样和模糊操作D,B。我们尝试了不同的下采样/模糊策略,如高斯平滑。实践中,我们观察到简单的平均值,在所有实验中都能给出良好的结果,而且是可微分且无参数的。因此,我们不假设任何关于生成数据所使用的模糊的知识,对应于只捕捉由于传感器上的光子积分而引起的模糊而不涉及光学模糊的操作符B。我们认为这个有限的模型是相关的,因为现代相机和智能手机是混叠的[45],这可能解释了对真实图像的泛化,只要场景是静态的。0通过粗对齐进行初始化。为了初始化运动参数p,我们不能像前一节那样最小化(6),因为没有HR图像的良好估计。因此,我们使用Lucas-Kanade前向累加算法[1,36]将每个LR帧与突发中的任意帧(例如第一帧)对齐,这种算法对噪声具有鲁棒性。请注意,另一个困难在于图像的原始格式。为了解决这个问题,我们通过使用双线性插值将原始图像转换为灰度图像。这当然不是最优的,但对于获得粗略的运动参数是足够的。0通过粗到精策略进行初始化。对于极端的上采样因子(×16),我们发现粗到精的初始化策略很有用:我们通过使用较低上采样因子训练的算法的输出来初始化运动参数p0j和高分辨率图像z0。例如,可以通过两次应用×4算法或四次×2算法来获得×16。04. 实验0实验是在合成和真实的原始图像突发上进行的。我们还在附录中提供了对RGB突发的实验,以便与不能处理原始数据的早期方法进行更容易的比较。0训练过程和数据。为了从真实的RGB图像合成逼真的原始突发,我们遵循[4]中描述的方法,使用作者公开可用的代码4在苏黎世原始到RGB数据集[19]的训练集上。该方法包括应用[5]中介绍的逆RGB到原始的流程。位移使用欧几里得运动随机生成,帧使用双线性插值进行降采样,以模拟包含混叠的LR帧。然后,向帧添加合成但逼真的噪声,并根据Bayer模式丢弃颜色值。然后,我们训练我们的模型以最小化损失(8)。我们使用批量大小为10、突发大小为14、学习率为3×10-5(在50000次迭代后衰减2倍)的ADAM优化器进行100000次迭代。我们的方法在Pytorch中实现,使用NvidiaTitan RTXGPU进行训练大约需要1.5天。除非另有说明,我们在所有实验中使用突发大小为14进行评估。0RGB图像上的极端16倍上采样。作为概念验证,我们还使用第3.4节的粗到精策略对一个不寻常的16倍超分辨率任务进行实验。图2展示了一个结果,显示了令人印象深刻的重建效果,附录中还有其他结果。尽管不现实,但我们相信这些实验具有重要意义。Table 1: Results with synthetic raw image bursts of 14images generated from the Zurich raw to RGB dataset [19]with synthetic affine motions. Reconstruction error in av-erage PSNR and geometrical registration error in pixelsfor our models. “known p” is the oracle performance ourmodel could achieve, if motion estimation was perfect.23750实验对于我们的方法的有效性来说是有趣的,因为它展示了我们的方法在理想但极端的环境中的效果。0Demosaic+SISR ETH [4] 我们的方法0图4:在[4]中使用的合成原始图像突发的视觉比较。Demosaic+SISR是我们基于ResUNet架构[48]的单图像基准线(详见正文)。右侧两列分别由[4]和我们的方法生成。0在合成的原始图像上进行评估。[4]的评估协议允许我们与他们用于处理原始图像突发的最先进方法进行定量比较。与[45]的额外比较可能会很有趣,但该方法是商业产品,无法与我们共享。0方法 PSNR(分贝) Geom(像素) SSIM0公共验证集ETH [4]的分数 39.09 - - 我们的方法(细化) 41.45 -0.950在我们自己的验证集上进行消融研究的分数 双三次插值单图像33.45 - - 多帧L2仅 34.21 - - 多帧L2 + TV先验 34.48 - - 单图像36.80 - - 我们的方法(无细化) 40.38 0.55 0.958我们的方法(细化) 41.30 0.32 0.9630我们的方法(已知运动)42.41 0.00 0.9710我们在表1中提供了定量比较0表1:使用苏黎世原始到RGB数据集[19]生成的14张图像的合成原始图像爆发的结果。我们模型的平均PSNR重建误差和像素几何注册误差。如果运动估计完美,我们的模型可以达到的“已知p”是理论性能。0爆发长度和裁剪尺寸的影响。苏黎世rgb-to-raw[19]数据集对于训练我们的模型非常有用,但不幸的是,它的图像作物相对较小,尺寸为96×96,没有提供原始的百万像素图像。通过使用真实原始数据进行实验,我们发现我们的方法在较大的作物(例如,超过200×200像素)上表现更好,实现更好的注册和视觉效果。为了研究作物尺寸和爆发长度的影响,我们从DIV2K数据集合成了额外的原始爆发,并在图5中报告了我们的实验结果,证实了我们的发现。请注意,这似乎不是我们方法的一个强限制,因为在现实生活场景中,我们总是可以假设原始的百万像素图像是可用的。正如预期的那样,我们方法的性能也随着爆发大小的增加而提高,尽管我们的模型是使用大小为14的爆发进行训练的。0实际原始图像爆发的结果,数据集为[4]。在图6中,我们使用他们的数据集与[4]进行比较,该数据集具有96×96的小作物。正如之前讨论的,这种设置对我们的方法来说是次优的,但仍然产生了视觉上令人愉悦的结果。然而,在这个数据集上选择哪种方法表现最佳是非常主观的,我们发现很难得出结论。而[4]中介绍的模型以及基于ResUNet架构[48]的单图像上采样基线,我们将其用作我们模型中的即插即用先验。为此,我们首先使用[4]的在线验证集(与训练集没有重叠),其中运动是未知的,从而使我们能够与他们的方法进行比较,我们的方法的性能超过了他们2dB以上。为了进行进一步的比较和进行消融研究,我们还通过从苏黎世原始到RGB数据集中随机提取266个图像来构建一个额外的验证集,从而使我们能够生成具有已知运动的验证数据。我们在同一表格中评估我们模型的变体,特别是通过使用[36]中提出的几何误差来比较这些变体实现的注册精度。更具体地说,我们通过引入一个更简单的基线进行小规模消融研究,该基线不执行联合对齐,只利用粗略对齐模块(无细化基线)。进行运动细化显著提高了注册精度,从而提高了图像重建质量。最后,我们还报告了我们的模型在已知运动下的理论性能。我们在图4中与单图像SR基线和最先进的方法[4]进行了视觉比较,处理原始图像爆发。只有处理爆发的两种方法能够恢复高频细节,证明了它们利用和消除了顶部图像中非常明显的混叠伪影的能力。我们的方法获得了更好的质量结果。100 125 150 175 200 225 25042.242.442.642.82 6 10 14 18 22 26 30 34 38 42 46 5037383940410.20.40.60.81.023760推理期间的块大小0推理期间的帧数0几何误差(像素)0图5:左:作物尺寸对注册和重建性能的影响。右:爆发长度的影响,详见正文。0由[4]生成的图像有时看起来可能略微更清晰,可以说我们的方法似乎恢复了更可靠的细节,例如,文本可能更容易阅读。请注意,我们的模型仅在合成数据上进行了训练,我们将在将来的工作中留下在该数据集上使用真实数据进行微调。[4]中有一种尝试解决使用自定义度量对真实数据进行定量评估的开放问题,但与迄今为止的任何尝试一样,它都存在缺陷,因为(i)它基于[4]的对齐方法,具有不可避免的对其有利的轻微偏差,以及(ii)它假设来自特定佳能相机的真实图像。有趣的是,这种分数改进并不总是与视觉质量相关,如图6所示。这绝不是对[3]的批评:相反,我们认为在真实图像上进行定量评估是一个极具挑战性的问题,远未解决。自我们提交论文以来,NTIRE2021爆发超分辨率挑战的结果已经发布[3]。我们的方法在我们参加的“合成数据”部分中在定量上排名第三。047.49db051.04db049.51db045.13db049.66db048.29db0单图像超分辨率ETH[4]我们的0图6:来自数据集[4]的真实原始连拍结果,包括对齐的PSNR分数(见正文)0来自不同设备的真实原始图像连拍的结果。最后,我们展示了我们方法的有效性0来自不同设备获取的真实原始连拍结果。我们考虑了松下LumixGX9相机,这对于超分辨率来说非常有趣,因为它没有光学抗混叠滤波器,佳能Powershot G7X相机,三星S7和Pixel4a智能手机。在高噪声环境下获得的结果已经在图1中展示,表明我们的方法对噪声具有惊人的鲁棒性。我们认为这个结果很有意义,因为它可以让摄影师在低光条件下使用高ISO设置,而不会牺牲图像质量。其他结果在图6中展示,这是在低噪声的户外条件下进行的,包括20到30张原始图像的连拍。在所有情况下,该方法都能成功恢复高频细节。在补充材料中提供了更多的示例和与其他多帧方法的比较。我们还展示了失败案例,其中很大一部分是由于场景运动。最后,我们注意到我们的方法在推理时间上相对较快。例如,处理一组20张原始300×300图像大约需要1秒钟,在NvidiaTitan RTXGPU上产生一个大小为1200×1200的上采样图像。05. 结论0我们提出了一种简单但有效的超分辨率方法,它结合了基于模型的逆问题的可解释性和数据驱动架构的灵活性,并可以从合成低分辨率和真实高分辨率图像的配对中进行学习。我们计划进行几个扩展,包括使用多个相机将真实的低分辨率连拍/高分辨率图像对添加到训练中,并在测试时利用现在高端智能手机上可用的多样性成像设备。这将为宽基线超分辨率应用打开大门,例如构建高质量全景图和多视图立体重建中的细节纹理映射。最后,我们计划探索我们方法的几个其他扩展,包括处理模糊连拍,将超分辨率扩展到重建HDR图像,并在天文学和显微镜领域开展应用0致谢0我们感谢FrédéricGuichard的有益讨论和评论。本工作部分资助来自法国政府,由Agence Nationale de laRecherche管理,作为“Investissementsd'avenir”计划的一部分,参考号码ANR-19-P3IA-0001(PRAIRIE 3IAInstitute)。JM和BL获得了ERC资助号码714381(SOLARIS项目)和ANR 3IA MIAI@GrenobleAlpes(ANR-19-P3IA-0003)的支持。JP部分得到了LouisVuitton/ENS人工智能讲座和Inria/NYU合作的支持。本工作获得了GENCI授予的2020-AD011011252号IDRISHPC资源的访问权限。23770松下0松下0佳能G7X0三星S70Pixel3a0Pixel4a0源图像ISP相机(jpeg输出)联合解模糊+单图像超分辨率我们的连拍处理方法0图7:使用不同相机获得的真实原始图像连拍结果。我们与单图像和多帧基准进行比较。通过在计算机屏幕上放大可以看到最精细的恢复细节。电话号码的最后三位数字,在我们的重建中可读,出于隐私考虑,在图中被遮蔽了。23780参考文献0[1] Simon Baker和IainMatthews.卢卡斯-卡纳德20年:一个统一的框架.国际计算机视觉杂志(IJCV), 56(3):221–255, 2004. 2 , 4 , 50[2] Cosmin Bercea, Andreas Maier和ThomasK¨ohler.置信度感知的Levenberg-Marquardt优化用于联合运动估计和超分辨率. 在IEEE国际图像处理会议(ICIP)上,页码1136–1140. IEEE, 2016. 3 , 40[3] Goutam Bhat, Martin Danelljan和RaduTimofte.爆发超分辨率的NTIRE 2021挑战:方法和结果.在IEEE/CVF计算机视觉和模式识别会议上, 页码613–626, 2021.70[4] Goutam Bhat, Martin Danelljan, Luc Van Gool和RaduTimofte.深度爆发超分辨率. arXiv预印本:2101.10997, 2021. 2 ,3 , 5 , 6 , 70[5] Tim Brooks, Ben Mildenhall, Tianfan Xue, Jiawen Chen,Dillon Sharlet和Jonathan TBarron.用于学习原始去噪的图像还原.在计算机视觉和模式识别会议(CVPR)论文集中, 2019. 3 , 50[6] Stanley H Chan, Xiran Wang和Omar AElgendy.用于图像恢复的即插即用ADMM:固定点收敛和应用.IEEE计算成像交易, 3(1):84–98, 2016. 2 , 50[7] Xiaohan Chen, Jialin Liu, Zhangyang Wang和WotaoYin.展开ISTA的理论线性收敛及其实际权重和阈值.在神经信息处理系统进展(NeurIPS)中, 2018. 20[8] Michel Deudon, Alfredo Kalaitzis, Israel Goytom, Md Ri-fat Are�n, Zhichao Lin, Kris Sankaran, Vincent Michal- ski,Samira E Kahou, Julien Cornebise和Yoshua Bengio.Highres-net: 递归融合卫星图像的多帧超分辨率.arXiv预印本:2002.06460, 2020. 30[9] C. Dong, C. C. Loy, K. He和X.Tang.使用深度卷积网络的图像超分辨率.IEEE模式分析与机器智能交易(PAMI), 38(2):295–307, 2016.2 , 30[10] Thibaud Ehret, Axel Davy, Pablo Arias和Gabriele Fac-ciolo.通过对原始图像序列进行微调进行联合去马赛克和去噪.在计算机视觉和模式识别会议(CVPR)论文集中, 2019. 110[11] Michael Elad和ArieFeuer.从多个模糊、噪声和欠采样测量图像中恢复单个超分辨率图像. IEEE图像处理交易, 6(12):1646–1658, 1997. 20[12] Sina Farsiu, Dirk Robinson, Michael Elad和Peyman Mi-lanfar.超分辨率的进展和挑战. 国际图像系统和技术杂志,14(2):47–57, 2004. 20[13] Sina Farsiu, M Dirk Robinson, Michael Elad和PeymanMilanfar.快速且鲁棒的多帧超分辨率. IEEE图像处理交易,13(10):1327–1344, 2004. 3 , 50[14] Donald Geman和ChengdaYang.半二次正则化的非线性图像恢复. IEEE图像处理交易,4(7):932–946, 1995. 40[15] RussellHardie.使用自适应Wiener滤波器的快速图像超分辨率算法.IEEE图像处理交易, 16(12):2953–2964, 200
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功