DP相机的散焦模糊去除通过递归卷积网络（RCN）架构与合成数据进行训练

153 浏览量更新于2023-10-15 收藏 2.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2289相机像素智能手机佳能DSLR输入具有散焦模糊的双像素图像（仅显示单个DP视图）去模糊结果[1]DNN训练仅佳能数据我们的结果编码器RCN解码器编码器RCN解码器r我们的RCN训练了我们的合成数据编码器解码器学习通过对双像素数据进行真实建模来减少散焦模糊AbdullahAbuolaim 1*Mauricio Delbracio 2DamienKelly 2Michael S. 布朗1佩曼米兰法21约克大学2谷歌研究摘要最近的工作已经示出了使用在现代双像素（DP）传感器上可用的双图像视图的数据驱动的散焦去模糊的令人这一研究领域的一个重大挑战是获得DP数据。尽管许多相机具有DP传感器，但只有有限数量的相机提供对低级DP传感器图像的访问。此外，捕获用于散焦去模糊的训练数据涉及耗时且繁琐的设置，需要调整相机具有DP传感器的一些相机（例如，智能电话）不具有可调节的孔径，进一步限制了产生必要的训练数据的能力。我们提出了一个程序来生成逼真的DP数据synn-thectically解决数据捕获瓶颈。我们的合成方法模仿DP传感器上发现的光学图像形成，并可应用于用标准计算机软件渲染的虚拟场景。利用这些逼真的合成DP图像，我们引入了一种递归卷积网络（RCN）架构，该架构改善了去模糊结果，并且适合与单帧和多帧数据（例如，视频）。最后，我们证明了我们的合成DP数据对于训练DNN模型是有用的，这些模型针对的是视频去模糊应用程序，在这些应用程序中，DP数据的访问仍然具有挑战性。1. 导言和相关工作散焦模糊发生在相机的景深（DoF）之外捕获的场景区域中。尽管该效果可以是有意的（例如，肖像照片中的散景效果），在许多情况下散焦模糊是不希望的，因为它由于图像细节的锐度损失而影响图像质量（例如，图 1 ，第二行）。由于散焦点扩散函数（PSF）[25，41]的空间变化性质，恢复散焦图像细节是具有挑战性的，所述散焦点扩散函数不仅是场景深度相关的，而且还基于相机孔径、焦距、焦距、径向散焦、距离和/或距离而变化。*这项工作是在阿卜杜拉在谷歌实习时完成的。图1.从Pixel 4智能手机和Canon 5D Mark IV的图像去模糊结果。第三行：用来自佳能相机的DP数据训练的[1]中提出的DNN的结果。最后一行：我们提出的网络仅在合成生成的数据上训练的结果。扭曲和光学像差。大多数现有的去模糊方法[6，20，23，31，38]通过首先估计散焦图像图来解决散焦去模糊问题。散焦图然后与现成的非盲去卷积方法（例如，[7，22]）。这种去焦去模糊的策略受到估计的散焦图的准确性的极大限制。最近，[1]中的工作首次提出了一种有趣的方法，通过利用在大多数现代相机上发现的双像素（DP）传感器上可用的信息来解决散焦去模糊问题DP传感器最初被设计为便于自动聚焦[2，3，19];然而，研究人员已经发现DP传感器在更广泛的应用中是有用的，包括深度图估计[10，30，34，47]。散焦去模糊[4，43，24，30]，反射去除[35]和合成DoF[44]。 DP传感器由两个光-...2290焦平面透镜场景点P1 P2RP1P2SFDSY困惑圈（CoC）Xq传统传感器双像素（DP）传感器DP单元{左光电二极管右光电二极管左视图右视图左视图右视图半CoC半CoC翻转翻转前对焦案例：P1后对焦案例：P2图2.薄镜头模型插图和双像素图像形成。对于给定场景点，使用其与镜头的距离、相机焦距和光圈大小来计算混淆圈（CoC）大小。在两个双像素视图上，如果场景点在焦平面的前面或后面，则半CoC PSF翻转。二极管在每个像素位置有效地提供了一个简单的两个样本光场相机的功能（图2、DP传感器）。来自相机的散焦模糊。认识到这一点，[1]中的工作提出了一种深度神经网络（DNN）框架，以使用从佳能DSLR捕获的地面实况数据从DP图像对恢复去模糊图像尽管[1]的工作展示了最先进的去模糊结果，但其受到对精确的地面实况数据的要求的限制，这要求在不同的孔径处连续捕获DP图像。除了是劳动密集型的之外，该过程还需要仔细控制以最小化捕获之间的曝光和运动差异（例如，见图1中的局部未对准。（3）第三章。另一个显著的缺点是，数据捕获仅限于单个商业相机，佳能5D Mark IV，这是目前唯一提供对原始DP数据的访问并具有可控光圈的设备。虽然存在用于散焦估计的数据集，包括 CUHK[37]、DUT [48]和SYNDOF [23]，以及用于散焦去模糊[6]和深度估计[14，40]的光场数据集，但是没有一个提供DP图像视图。的工作[1]是当前适合于散焦去模糊应用的地面实况DP数据的唯一来源，但限于单个设备。这种数据的缺乏严重限制了对数据驱动的基于DP的散焦去模糊的持续研究，特别是不可能收集地面实况数据的应用（例如，基于DP的散焦去模糊）。固定孔径智能手机）。捐款. 这项工作的目的是克服在收集地面实况DP数据的数据驱动的defocus去模糊的挑战。特别是，我们提出了一个广义模型的DP图像采集过程中，允许现实主义的合成DP数据的生成使用标准的计算机图形生成的图像。我们证明了我们可以仅使用合成数据来实现最先进的散焦去模糊结果（参见图1）。1），以及通过数据增强补充真实图像数据集。为了证明模型的通用性，我们探索了一个新的应用领域的视频散焦去模糊使用DP数据图3.由于物理捕获程序，Canon DP数据集[ 1 ]未对齐。补丁P1和P2是从两次拍摄的对焦区域中裁剪出来的：第一次使用了大光圈第二次捕获使用窄光圈（无散焦模糊），第二次捕获使用窄光圈（无散焦模糊）。第二次捕获旨在用作该图像对的地面实况。第三列显示图10示出了图块2D（P1，P2）之间的2D互相关，其揭示了在这样的数据捕获中发生的局部未对准。并提出了一种递归卷积网络（RCN）体系结构，其可从单图像去模糊应用扩展到视频去模糊应用。此外，我们提出的RCN解决了补丁式训练的问题，结合径向距离学习，并提高了去模糊的结果与一种新的多尺度边缘损失。我们的综合性实验证明了我们的合成DP数据生成过程的能力，并表明我们可以通过使用该数据训练的新型网络设计定量和定性地实现2. 双像素传感器合成生成真实模糊已被证明可以改善散焦图[23]和深度图估计[29]的数据驱动方法。我们在这项工作中遵循类似的ap-proach，但解决了生成针对DP图像传感器的真实散焦模糊的问题为此，我们全面地模拟了完整的DP图像采集过程与空间变化的PSF，径向镜头失真，和图像噪声。图4示出了我们的DP数据生成器的概述，其使得能够从全聚焦图像和对应的深度图生成逼真的DP视图。2.1. 薄透镜模型我们使用薄透镜模型对虚拟相机光学器件进行建模，该模型假设透镜厚度可忽略不计，有助于简化光线跟踪计算[32]。通过第一次捕获W。DoF模糊第二次捕获，无DoF模糊局部错位图像补丁P1图像补丁P2Y2D P1、P22291散焦左奥特沃思径向畸变噪声×个LL.ΣΣ2Σ×× ×图4.概述了我们的框架用于合成生成双像素（DP）的意见。我们的方法开始与计算机生成（CG）的图像与标准的计算机图形软件包。从这些数据开始，我们对场景散焦、与DP传感器图像形成相关的PSF以及包括径向失真和传感器噪声在内的附加伪影进行建模。DP组合DP左DP右DP组合DP左DP右DP组合DP左DP右与测量PSF的相似性为0.630.59与测量PSF的相似性与测量PSF的相似性为0.89与测量PSF的相似度为0.87图5.前后对焦DP PSF。两个PSF之间的相似性通过2D互相关来测量。左：从佳能5D Mark IV DSLR测量的DP PSF。中间：如[34]所建模的DP PSF。右图：我们新提出的基于改进的2D Butterworth滤波器的DP PSF模型。我们的建模实现了更高的相关性与现实世界中测量的PSF。在该模型中，我们可以基于给定点距透镜的距离和相机参数（即，焦距、光圈大小和焦距）。该模型如图所示。其中f是焦距，s是焦距，并且F是f制光圈。透镜和传感器之间的距离s′和孔径q被定义为s′=fs和q=f。然后，场景的CoC半径r其中n是滤波器阶数，Do是控制3dB截止位置的参数。为了捕获PSF的圆环形结构，我们基于巴特沃斯滤波器B定义参数PSF模型如下：H=B◦C（xo，yo），（3）其中C表示半径为r的圆盘，点Ps−fF摄像头的d是：CoC半径，如在等式2中计算的。1.一、符号◦de-1位于距离qs′R=2s2.2. 双像素PSFd− s（一）D注意Hadamard乘积。B和C都以（x〇，y〇）为中心。D〇是半径r的函数，并且由参数α控制。B的值被重新缩放为[β，1]，其中引入参数β>0以控制内核中心处的最小耗尽（其总是正的[34]中的最近工作介绍了一种用于使用左右PSF之间的良好对称性来近似在DP传感器的左右视图中发生的PSF的模型然而，该模型仅涉及与CoC大小直接相关的单个游离参数（图1B）。5，中间栏）。尽管该模型能够捕获在真实DP PSF中观察到的对称性，但总体PSF并不充分反映真实世界PSF所表现出的真实结构，如图所示5真实的DP PSF在CoC中表现出归因于光学像差的甜甜圈形耗尽[41]。为了为DP视图提供更真实的PSF，我们引入基于2D巴特沃斯滤波器B的参数模型，定义如下：基于我们对从真实世界数据测量的PSF的观察利用我们提出的模型，参数化PSFH在圆周周围急剧下降。因此，我们通过将H与标准偏差为κr的高斯核卷积来平滑H，其中0<κ1。我们对H的建模表示组合的DP PSF，其形成为H=Hl+Hr，其中 Hl和 Hr 分别是左和右DPPSF。类似于[34]中的工作，我们在Hl和Hr之间强制执行水平对称性的约束，并且将Hr表示为Hr=Hf，其中Hf表示围绕垂直轴翻转的左PSF。Hl可以被示出为H，其中H朝向右方向（见图中左前焦点DP）（五）。数学上，我们将Hl表示为：B（x，y）=.1个以上2n−1Do（x-xo）2+（y-yo）2CG输入散焦地图第2.2...左Butterworth=第2.1DP视图径向畸变噪声第2.3后聚焦全焦点深度贴图前焦点薄透镜模型测量PSFDP PSF建模PSF模型[34]权左摄像机伪影我们√2292、（二）Hl=H◦M，s.t.其中M是具有恒定衰减的2D斜坡掩模。这2293∗◦N衰减可以被认为是在给定方向上的强度下降（强度/像素）。方向由基于薄透镜模型计算的CoC半径的符号确定。正号表示前焦点（即，焦平面后面的物体模糊），而负号表示后焦点（即，焦平面前面的物体的模糊）。我们的PSF模型，用五个参数进行参数化，有助于合成PSF形状，更类似于我们在不同场景下在真实相机中测量的形状（参见图1B）。5，右栏）。根据该模型，我们可以基于来自真实相机的实际观察来生成一组代表性PSF。有关校准程序、PSF估计方法和参数搜索的其他详细信息，请参见补充材料。2.3. 对其他摄影机伪影径向镜头畸变。由于透镜曲率缺陷导致真实世界中的直线映射到图像平面中的圆弧，因此发生径向透镜失真。这是一个经过充分研究的主题，具有许多用于建模和校正径向失真的方法（例如， [5 、 8 、 13 、33]）。在我们的框架中，我们考虑将径向失真应用于合成生成的图像，以模仿在真实相机中发现的这种效果。我们采用[8]中介绍的广泛使用的划分模型，如下所示：（x，y）=（x，y）+（xu−xo，yu−yo），（5）生成DP左视图和右视图。我们的合成示例数据的来源来自街景SYNTHIA数据集[16]，其包含来自虚拟城市的照片真实感GC渲染图像的图像序列。每个序列平均具有400帧。数据集包含场景设置的多样性很大，涉及许多对象、城市、季节、天气条件、白天/夜晚时间等。SYNTHIA数据集还包括深度缓冲区和标记的分割图。在我们的框架中，我们使用的深度图应用合成散焦模糊的过程中产生的DP视图。为了基于计算的CoC半径r模糊图像，我们首先根据每像素深度值将图像分解为离散层，其中最大层数设置为500。然后，我们将每个层与我们的参数化PSF进行卷积，模糊图像和掩模。深度层接下来，我们使用模糊蒙版作为alpha值，按照从后到前的顺序对模糊层图像进行alpha混合。对于每个全聚焦视频帧Is，我们生成两个图像，即左Il和右Ir子孔径DP视图，如下（为了简单起见，让Is是具有来自相同深度层的Il=Is*Hl，Ir=Is *Hr，（6）其中表示卷积运算。之后，基于相机的焦距将径向失真应用于Il、Ir和Is最后，我们添加依赖于信号的噪声层（即，Nl和Nr）的两个DP视图DDoO1+c1R2+c2R4+···具有相同的σ，但独立绘制。最终输出散焦模糊图像Ib等于Il+Ir。其中（xu，yu）和（xd，yd）分别是未失真点和失真点，并且ci是第i个径向失真系数。R是距图像平面中心（x〇，y〇）的径向距离。此模型支持不同类型的径向失真，包括桶形和枕形。我们生成在相机上发现的不同焦距处的代表性径向失真集合补充材料中提供了该程序的详细描述。噪声图像噪声是图像中强度或颜色信息的不期望的随机变化的出现。我们的初始输入是无噪声的CG生成的数据。为了合成逼真的图像，我们添加信号相关的噪声作为最后一步。我们使用依赖于信号的高斯分布对噪声进行建模，其中噪声的方差与图像强度成比例[9，26]。设I为无噪声图像，N为零均值高斯噪声层;那么我们对信号相关高斯噪声的建模是I噪声=I+IN，其中N（0，σ2Id），并且σ控制噪声强度。3. 生成双像素视图在本节中，我们将介绍所使用的合成数据集，然后描述合成我们的合成生成的DP视图表现出与我们在真实数据中发现的相似的聚焦视差，其中聚焦区域不显示视差，并且失焦区域具有散焦视差。4. 散焦去模糊图像序列利用生成合成DP数据的能力，我们可以将注意力转移到训练新的基于RCN的架构来寻址图像序列（例如，视频）。这仅通过使用我们的合成DP数据是可能的，因为当前没有设备允许视频DP数据捕获。正如我们将展示的，我们的方法可以用于图像序列和单图像输入。在图像序列的上下文中，散焦模糊的量基于相机和场景的对象随时间的运动而改变。在存在这样的运动的情况下，帧序列上的样本深度变化提供用于去模糊的有用信息。我们的工作是第一次探索图像序列上的散焦去模糊域（例如，视频）。我们采用数据驱动的方法来校正离焦模糊。我们利用基于CNN的对称编码器-解码器架构，在相应的特征图之间具有跳过连接[28，36]。跳过连接包括2294HC我我我}}联系我们联系我们×个FFFCo ooC图6.我们经常性的双像素去模糊（RDPD）架构。我们的模型采用模糊图像序列，其中在时间t的每个图像被馈送为左II（t）和右Ir（t）DP视图。DP视图在编码器部分被编码以馈送convLSTM，该convLSTM输出隐藏状态t和存储单元t到下一个时间点。convLSTM单元还输出通过解码器部分处理以给出去模糊清晰图像Id（t）的特征图。注意：输出滤波器的数量显示在每个卷积运算下。广泛用于编码器-解码器CNN中，并且已经发现对于图像去模糊任务是有效的[1，11]。我们提出的网络还与convLSTM单元[42，45，46]相结合，以更好地学习多个帧之间的时间依赖性使用convLSTM单元，相同的网络保持完全convo。任意数量的图像序列。图6显示了我们提出的CNN-convLSTM架构的详细概述忽略Ft-convLSTM输出一个隐藏状态Ht，并维护一个存储单元Ct，用于控制状态更新和输出：it=Σ（W X*Xt+WH*Ht−1+WC◦Ct−1+bi），（7）Ft=Σ（W X*Xt+WH*Ht−1+WC◦Ct−1+bF），（8）ot=Σ（W X*Xt+WH*Ht−1+WC◦Ct−1+bo），（9）真实，我们称之为循环双像素去模糊（RDPD）。我们的架构类似于[ 1 ]中的架构，但有以下修改：（1）convLSTM单元被添加到网络瓶颈，（2）我们使用径向距离补丁来训练网络，以解决补丁式训练问题，（3）我们引入了一个多尺度边缘损失函数，有助于恢复尖锐边缘，（4）每个块的节点数量减少到一半，以使模型更轻，以及(5)最后一层由具有[0，1]箝位的线性层代替，因为在[11]中发现其更有效。RDPD架构。给定具有散焦模糊I1（t）、I1（t）、I1（t+j）、I1（t+j）的j个连续帧的输入视频（使得I1（t）和I1（t）是给定帧在时间t处的DP视图），我们首先获得在CNN瓶颈处编码的紧凑卷积特征序列X（t）、X（t+j），即，X（t）= CNN编码器（I1（t）、I1（t））。然后，特征被馈送到convLSTM，如图所示。六、我们利用convL-STM来学习顺序输入的时间动态这通过将存储器单元与门控操作结合来实现。 convLSTM还通过用卷积运算替换点积来保留空间信息，这对于使空间变化估计与空间变化的DP PSF对准是必不可少的。我们选择LSTM而不是RNN，因为已知标准RNN在学习长时间依赖关系方面存在困难[17]，而LSTM已经显示出学习长时间和短时间依赖关系的能力[18]。对于时间t的输入特征X（t），我们的convLSTM利用了三个卷积门Ct=Ft◦Ct−1+it◦τ（W X*Xt+WH*Ht−1+bC），（10）Ht=ot◦τ（Ct），（11）其中，W项表示不同的权重矩阵，并且b项表示不同的偏置向量。Σ和τ分别是logistic sigmoid和双曲正切的激活函数。之后，输出去模糊图像Id通过如下通过我们的编码器-解码器CNN的解码器部分进行解码来获得Id（t）= CNN解码器（〇 t）。（十二）径向距离面片。径向畸变和透镜畸变使得PSF在远离图像中心的径向方向上变化。与[1，31]类似，我们执行分块训练以避免完整图像训练的冗余，并确保输入具有足够的方差。然而，这种方法破坏了图像块之间的空间相关性，因为它们是独立馈送的，而不知道它们在图像平面上的位置因此，除了六通道RGB DP视图之外，我们还包括表示相对径向距离的单通道贴片。多尺度边缘损失。除了MSE损失，我们引入了一个多尺度的边缘损失，使用Sobel梯度来引导网络，以鼓励更清晰的边缘。我们的新损失在原理上类似于单尺度（即，3 3）在[27]中使用了Sobel损失，但我们在两个中修改了这个损失方法：首先，我们添加了Sobel算子的多个尺度（即，核尺寸），以便捕获不同的边缘尺寸。其次，我们分别针对水平和垂直方向最小化，以更多地集中在垂直于成像传感器取向的方向上。为我们1t-1CT-1convLSTM128256512256128646432CNN编码器1tCtCNN解码器323Id（t）3×3卷积ReLU 2×2最大池化2×2上采样卷积1×1卷积线性+箝位[0，1]跳过连接视频帧（时间）..................可以成功地对单个图像或部分图像进行去模糊。2295联系我们L联系我们联系我们×个×× ××× ×d m×mdm×m边%s %dXyL表1.来自[1]的Canon DP数据集的结果。 DPDNet是由[1]提供的佳能数据的预训练模型。 DPDNet+和我们的RDPD+使用Canon和我们合成生成的DP数据进行训练。粗体数字是最好的，并以绿色突出显示。第二个最佳性能结果以黄色突出显示。测试集由37个室内场景和39个室外场景组成方法室内户外室内室外&时间↓PSNR↑SSIM↑MAE↓PSNR↑SSIM↑MAE↓PSNR↑SSIM↑MAE↓NIQE↓欧洲广播局[20]25.770.7720.04021.250.5990.05823.450.6830.0495.42929.7DMENet [23]25.700.7890.03621.510.6550.06123.550.7200.0494.85613.7[第38话]26.730.8280.03121.100.6080.06423.840.7150.0485.11843.1DPDNet [1]27.480.8490.02922.900.7260.05225.130.7860.0413.770.5DPDNet+27.650.8520.02822.720.7190.05425.120.7840.0423.730.5RDPD+28.100.8430.02722.820.7040.05325.390.7720.0403.190.3在多尺度修改的边缘损失的情况下，去模糊输出Id及其地面实况Is的垂直Gx和水平Gy导数近似为：Gx=Id*Sx，Gy=Id*Sy，（13）Gx=Is*Sx，Gy=Is *Sy，（14）四、五、六、五、八、六、七、五、八、十、十三、十二、二十二、十、三十–尺寸和焦距。根据发现的深度范围在SYNTHIA数据集[16]中，这些相机组涵盖广泛的前焦和后焦CoC尺寸。为每个图像序列在的SYNTHIA数据集，s m×msm×m我们根据预定义的其中Sxm×m 和Sym×m 是垂直的和水平的摄像机设置径向畸变系数bel算子的大小分别为m。在多个滤波器尺寸下执行导数操作。我们的新边缘损失边缘是每个方向x/y的多个尺度的平均值，并表示为：L{x，y}= E[MSE（G{x，y}，G{x，y}）]。（十五）相应地用于每个摄像机组。对于DP PSF，我们通过在给定范围n内改变参数来生成许多代表性PSF形状3、6、9、α0的情况。四，零。6，0。8、1、β0的情况。1，0。2，0。3，0。4和κ= 0。十四岁随机选择图像噪声层强度，其中σ ∈{5e-2，5. 5e−2，···，5e−1}。这些参数则最终损失函数L为：L=LMSE+λxL边缘+λyL边缘，（16）使得MSE是输出估计Id与其基础事实Is之间的典型MSE损失。增加λ项是为了控制我们的最终损失。5. 实验我们评估我们提出的RDPD和其他现有的散焦去模糊方法：DP去模糊网络（DPDNet）[1]、基于边缘的散焦模糊（ EBDB ） [20] 、散焦图估计网络（DMeNet）[23]和最佳可察觉模糊（JNB）[38]估计。DPDNet [1]是利用DP数据进行去模糊的唯一方法，而其他方法 [20 ， 23 ， 38]仅使用单个图像作为输入（即，11）并估计散焦图以便将其馈送到现成的去卷积方法（即，[7，22]）。EBDB [20]和JNB [38]不是基于学习的方法;因此，我们可以直接测试它们。对于基于学习的DMEnet方法，我们不能用佳能数据[1]重新训练它，因为它不提供地面真实散焦图。然而，使用我们的数据生成器，我们能够生成散焦图，这允许我们使用我们的合成生成的数据重新训练DMENet。生成DP数据的设置。对于我们的DP数据生成器，我们定义了五个相机参数集根据经验设置以模拟真实的相机硬件。更详情见补充材料。我们将SYNTHIA数据集[16]分为训练序列和测试序列。我们为每个图像序列生成五组模糊图像。我们总共合成了2023个训练和201个测试模糊DP视图。虽然我们的合成DP数据生成器能够生成无限数量的图像，但我们发现这个数量的图像足以用于训练。除了我们合成生成的DP数据之外，我们还使用来自[1]的DP地面实况数据，其中具有300个训练、74个验证和76个测试对的模糊图像（具有DP视图）和相应的清晰图像。RDPD设置和培训程序。我们将convLSTM的大小设置为512个单元。对于分块训练，我们将输入和输出层的大小固定为5125127和五一二五一二 3所示。我们使用He使用Adam优化器[21]来训练模型。初始学习率为510−5，每40个epoch减少一半。对于从合成到真实数据的域泛化[12，39]，我们使用小批量的真实（即，单个图像）以及合成数据（即，图像序列），其中在每次迭代时随机地裁剪块。这种类型的迭代图像/图像序列训练变得可行，因为我们的再流模型RDPD允许使用任何2296联系我们图7.定性结果。DPDNet [1]在Canon DP数据上进行训练。RDPD是我们的方法训练合成生成的DP数据。DPDNet+和RDPD+在Canon和合成DP数据上进行训练。通常，RDPD和RDPD+能够恢复更多的图像细节。有趣的是，在合成数据上训练的RDPD很好地概括了来自两个测试相机的真实数据请注意，由于智能手机具有固定光圈的事实，Pixel 4没有地面真实清晰图像，因此无法捕获窄光圈图像以用作地面真实图像。此外，我们注意到，目前可从Pixel智能手机获得的DP数据不是全帧的，而是仅限于原始拜耳帧中的一个绿色通道。帧的数量，并且它不需要预先设置。我们将真实数据迭代的最小批次大小设置为八个批次，因为真实数据的数据集仅具有单个图像示例（即，没有图像序列）。对于合成数据迭代，我们将小批量大小设置为两个序列，每个序列的大小为四帧。我们定义三个尺度为我们的边缘损失发现λ项在λ x=0处是有效的。03且λ y= 0。02.为了避免过拟合，convLSTM中的dropout层被设置为0。4.第一章我们的模型在140个时期后收敛。尽管我们在图像补丁上训练，但我们的RDPD（使用con-vLSTM）是完全卷积的，并且能够在全分辨率输入上进行测试。为了证明我们模型中每个组件的有效性，补充材料中提供了不同训练设置的消融研究。单个图像结果。我们评估我们提出的RDPD对现有的散焦去模糊方法的单图像输入。对于利用输入图像的DP视图的方法（即，RDPD和DPDNet [1]），我们引入了用于更全面评估的训练数据的变体是RDPD+和DPDNet+，其在来自[1]的Canon DP数据与由第2节中描述的过程生成的合成DP数据组合上进行训练。二、没有+符号的RDPD是我们仅用合成生成的DP数据训练的基线DPDNet没有+的情况下，仅在Canon数据上进行训练。在表1中，我们报告了使用标准度量（即MAE、PSNR、SSIM和时间）的[1]中真实佳能DP数据的定量结果。我们还报告的自然度图像质量（NIQE）度量的输出去模糊的图像，年龄相对于一个参考模型来自DPGT图像。总的来说，与其他方法相比，我们的RDPD+具有最佳的整体PSNR。特别是，RDPD+实现了室内和组合类别的最佳PSNR和MAE，并且所有这些都与我们的轻量级网络一起实现了最快的推理时间。对于Outdoor数据集，RDPD+的PSNR略低（即，0的情况。08分贝），由于事实上，户外数据集是不完美的捕获过程的结果（见图。（3）第三章。DP相机不能够同时捕获DP图像和对应的地面实况清晰图像（即，图像对只能在不同时间连续捕获）。因此，户外地面实况是不完美的，具有小的局部运动和照明变化。室内地面实况是在更受控的条件下捕获的，并且具有更少的缺陷。DPDNet在户外场景中的性能稍好，是因为DPDNet正在学习补偿户外数据集中的缺陷。我们工作的一个关键优势是能够合成生成DP数据，而不受输入DPDNet [1]DPDNet+我们的RDPDRDPD+地面实况无可用的地面实况Pixel 4智能手机佳能5D单反2297表2.我们合成生成的DP数据的结果。sRDPD+是用单帧数据训练的变体（绿色 = 最佳，黄色 = 第二佳）。我们的RDPD+，用图像序列训练，达到了最好的结果。方法PSNR↑SSIM↑MAE↓DPDNet [1]26.380.7820.034DPDNet+29.840.8280.025sRDPD+30.260.8490.020RDPD+31.090.8610.016时间图8. Canon 5D DSLR图像序列上的结果。针对每个去模糊图像示出了PSNR。sRDPD+具有0。与我们的多帧方法（即RDPD+）相比，使用单帧训练时，平均PSNR降低4手动捕获的缺陷。RDPD+在户外数据集以及合成生成的数据（没有这种缺陷）上进行训练，从不完美的地面实况中消除结果的偏差。结果是降低了对不完美的地面实况的保真度（在PSNR/SSIM方面），但总体上具有更好的散焦去模糊性能当DPDNet用Canon数据和我们的合成生成的数据（即，DPDNet+）。在图7中，我们还提供了与佳能DSLR和Pixel 4相机捕获的数据的其他方法相比的RDPD的定性结果。通常，RDPD+能够从输入的去模糊图像恢复更多的细节。此外，图7表明，基线RDPD在Canon和Pixel 4数据上实现了良好的去模糊结果，尽管仅使用合成数据进行训练。该结果证明了所提出的用于合成DP数据生成的框架的准确性和递归模型推广到不同相机的能力还可以看出，与DPDNet相比，DPDNet+具有改进的结果，证明了DPDNet+通过在训练中添加合成DP数据而补充材料包含佳能和Pixel 4相机的更多定量结果、视觉比较和动画去模糊示例。图像序列结果。我们的RDPD设计用于处理输入图像序列。在这里，我们研究了通过使用图像序列与单个跳转对于该比较，我们引入RDPD+变量sRDPD+，其用单帧输入训练。如前所述，不存在使得能够访问视频数据的DP视图的相机然而，我们模仿[1]中相同的捕获过程，以便捕获图像序列。我们对同一场景进行了四次捕获，在捕获之间引入了小的相机运动。每个图像具有其自己的DP视图，并且在窄和宽孔径处被捕获。图8呈现了图像序列的结果。利用具有RDPD+的图像序列进行训练的有效性可以从平均PSNR增益（即，+0。4dB）相比，sRDPD+训练使用单图像输入。表2示出了我们的合成生成的DP图像序列的定量结果。我们的方法RDPD+（在多个帧上训练）实现了最佳结果，因为它利用convLSTM架构来更好地对图像序列中的时间依赖性进行建模。回想一下，与DPDNet相比，我们的RDPD网络更轻，权重数量更少。6. 结论我们提出了一种新的框架来生成逼真的DP数据，通过建模的图像形成的步骤，目前的相机与DP传感器。我们的框架有助于解决当前在捕获DP数据的挑战。利用我们的合成DP数据，我们还提出了一个新的经常性卷积的结构，旨在减少图像序列中的散焦模糊我们对现有的去模糊方法进行了全面的评估，并证明了我们合成生成的DP数据和递归卷积模型在定量和定性上都达到了最先进的结果。此外，我们提出的框架证明了通过仅在合成数据上进行训练来在不同相机之间进行概括的能力。我们相信，我们的DP数据生成器将有助于激发更多关于去焦去模糊和利用DP数据的应用程序的想法。我们的数据集，代码和训练模型可在https：//github.com/Abdullah-Abuolaim/recurrent-defocus-defurring-synth-dual-pixel. 致谢。作者要感谢Shu- mian Xin、Yinxiao Li、NealWadhwa和Rahul Garg富有成效的评论和讨论。...27. 二十三个26. 九十八个27. 四十一...28. 0128. 五十四29. 六十一个...28. 七十八28. 八十四29. 七十一......我们的RDPD+我们的sRDPD+DPDNet [1]输入2298引用[1] Abdullah Abuolaim和Michael S Brown。散焦去模糊-使用双像素数据。在ECCV，2020年。一二五六七 8[2] Abdullah Abuolaim和Michael S Brown。在线镜头运动平滑视频自动对焦。在WACV，2020年。一个[3] AbdullahAbuolaim ， AbhijithPunnappurath ， andMichael S Brown.重新审视智能手机相机的自动对焦。在ECCV，2018。一个[4] Abdullah Abuolaim、Radu Timofte、Michael S Brown等人，使用双像素图像进行散焦去模糊的NTIRE 2021挑战：方法和结果。在CVPR研讨会，2021年。一个[5] Faisal Bukhari和Matthew N Dailey。自动径向畸变估计从一个单一的形象。Journal of Mathematical Imagingand Vision，45（1）：31-45，2013. 四个[6] LaurentD'Andr e ` s ， Jordi Sal vado r ， A x el Kochale ，and Sabine Süsstrunk. 用于景深扩展的非参数模糊映射回归TIP，25（4）：1660-1673，2016. 一、二[7] DA Fish，AM Brinicombe，ER Pike和JG Walker。用richardson-lucy 算法实现盲解卷积。 Journal of theOptical Society of America（A），12（1）：58-65，1995. 1、6[8] 安德鲁·菲茨吉本。多视图几何形状和透镜畸变的同时线性估计。载于CVPR，2001年。4[9] Alessandro Foi、Mejdi Trimeche、Vladimir Katkovnik和Karen Egiazarian。单幅图像原始数据的实用泊松-高斯噪声建模与拟合。TIP，17（10）：1737-1754，2008.四个[10] Rahul Garg ， Neal Wadhwa ， Sameer Ansari ， andJonathan T Barron. 使用双像素学习单相机深度估计在ICCV，2019年。一个[11] Jochen Gast和Stefan Roth深度视频去模糊：细节决定成败。在ICCV研讨会，2019年。五个[12] Xiaoyang Guo，Hongsheng Li，Shuai Yi，Jimmy Ren，and Xiaogang Wang.通过提取跨域立体网络学习单眼深度。在ECCV，2018。六个[13] Richard Hartley和Sing Bing Kang。无参数径向失真校正与失真中心估计。TPAMI，29（8）：1309-1321，2007. 四个[14] Caner Hazirbas ， Sebastian Georg Soyer ， MaximilianChris-tianStaab，LauraLeal-Taix e'和DanielCremers。深度聚焦。在ACCV，2018年。二个[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在ICCV，2015年。六个[16] Daniel Hernandez-Juarez，Lukas Schneider，Antonio Es-pinosa ， David Vazquez ， Antonio M. Lopez ， UweFranke，Marc Pollefeys，and Juan Carlos Moure.倾斜的stixels：代表旧金山最陡峭的街道。在BMVC，2017年。四、六[17] SeppHochreite r ， YoshuaBengio ， PaoloFrasconi ， J ürgen Schmidhuber，et al.循环网络中的梯度流：学习长期依赖性的困难，2001年。五个[18] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。五个2299[19] Jinbeum Jang，Yoonjong Yoo，Jongheon Kim和JoonkiPaik。基于多尺度特征提取和相位相关匹配的传感器自动聚焦系统。传感器， 15 （ 3 ）： 5747-5762 ，2015。一个[20] Ali Karaali和Claudio Rosito Jung。具有自适应尺度选择的基于边缘的离焦模糊估计。TIP，27（3）：1126-1137，2017. 1、6[21] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。六个[22] Dilip Krish

下载后可阅读完整内容，剩余1页未读，立即下载