单双像素图像的散焦图估计与去模糊方法

151 浏览量更新于2023-10-05 收藏 3.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2228单双像素图像的散焦图估计与去模糊Xin Shumian 1*Neal Wadhwa 2TianfanXue 2Jonathan T.Barron2Pratul P. Srinivasan2Jiawen Chen3IoannisGkioulekas1Rahul Garg21 Carnegie Mellon University2 Google Research3Adobe Inc.摘要我们提出了一种方法，作为输入的一个单一的双像素图像，并同时估计图像我们的方法灵感来自最近的作品，利用在许多消费者相机中可用的双像素传感器来协助自动对焦，并使用它们来恢复散焦图或所有对焦图像。这些先前的工作已经彼此独立地解决了两个恢复问题，并且通常需要大的标记数据集用于监督训练。相比之下，我们表明，它是有益的，同时治疗这两个密切相关的问题。为此，我们建立了一个优化问题，通过仔细建模的双像素图像的光学，共同解决这两个问题。我们使用消费者智能手机摄像头捕获的数据来证明，在一次性校准步骤之后，我们的方法改进了散焦图估计和模糊去除的先前工作，尽管完全无监督。1. 介绍现代数码单反相机和无反光镜相机的特点是大光圈镜头，可以收集更多的光线，但也会导致散焦模糊，这意味着图像中的物体会出现模糊，模糊程度与它们离焦平面的距离成正比。减少散焦模糊的简单方法是向下停止，即，缩小孔径。然而，这也减少了到达传感器的光量，使图像噪声更大。此外，在固定光圈的相机上，比如大多数智能手机上的相机，向下更复杂的技术分为两类。首先是添加额外硬件的技术（例如，编码孔径[46]、专用透镜[47，15]），因此不适于大规模部署或跨已经可用的摄像机部署。第二种是焦点堆叠技术[76]，它在不同的焦距处捕获多个图像，并将它们融合成一个全聚焦图像。这些技术需要长的捕获时间，因此仅适用于静态场景。理想情况下，散焦模糊消除应使用数据*工作主要完成于Shumian Xin在Google实习输入双像素图像远附近恢复的全焦图像恢复的散焦图图1：给定左右双像素（DP）图像和相应的空间变化模糊内核，我们的方法联合估计全聚焦图像和散焦图。从一个单一的捕获。不幸的是，在常规相机中，该任务基本上是不适定的：捕获的图像可能不具有高频内容，因为潜在的全聚焦图像缺少这样的频率，或者它们被散焦模糊去除。已知散焦图，即，散焦模糊的空间变化量可以帮助简化模糊去除。然而，从单个图像确定散焦图与单目深度估计密切相关，单目深度估计本身就是一个具有挑战性的问题。即使散焦图是已知的，恢复全对焦图像仍然是不适定问题，因为它需要对缺失的高频内容进行幻觉。双像素（DP）传感器是最近的创新，其使得利用来自单次捕获的数据更容易解决散焦图估计和散焦模糊去除问题。相机制造商已经将这种传感器引入到许多DSLR和智能手机相机中，以改善自动对焦[2，36]。DP传感器上的每个像素被分成两半，每个像素从主镜头的一半孔径捕获光，每次曝光产生两个子图像（图1）。①的人。这些可以被认为是一个双样本光场[61]，它们的总和相当于普通传感器捕获的图像权左2229输入：观察到的DP图像渲染DP图像MPI表示输出图2：我们提出的方法的概述。我们使用输入的左和右DP图像，以适应多平面图像（MPI）的场景表示，由一组正面平行层组成。每个层是包含对应深度处的对焦场景内容的强度α图像。MPI可以通过混合所有层来输出全聚焦图像和散焦图。它还可以渲染失焦图像，通过将每个层与左和右DP视图的预校准模糊核卷积，然后混合。我们优化MPI的正则化损失最小化比较渲染和输入图像。两个子图像具有不同的半孔径形状的散焦模糊核;由于光学缺陷，例如透镜中的渐晕或场曲率，特别是对于便宜的智能手机透镜，这些附加的空间变化。我们提出了一种方法，同时恢复离焦地图和所有的焦点图像从一个单一的DP cap-ture。具体地，我们执行一次性校准以确定左和右DP图像的空间变化模糊核。然后，给定单个DP图像，我们优化多平面图像（MPI）表示[77，91]以使用校准的模糊核最好地解释观察到的DP图像。MPI是准确地对遮挡进行建模的分层表示，并且可以用于渲染散焦图像和全聚焦图像，以及产生散焦图。由于求解MPI从两个DP图像是约束不足，我们引入了额外的先验，并通过消融研究显示其有效性。此外，我们表明，在存在图像噪声的情况下，标准优化有一个偏向低估的散焦模糊的量，我们引入了一个偏差校正项。我们的方法不需要大量的训练数据，节省一次性校准，并且当对使用消费者智能手机相机捕获的图像进行测试时，在散焦图估计和模糊去除方面优于现有技术。我们公开我们的实施和数据[85]。2. 相关工作深度估计。多视图深度估计是适定且被广泛研究的问题[30，71]。相比之下，单视图或单目深度估计是不适定的。尝试从单个图像恢复深度的早期技术通常依赖于附加线索，诸如silhouettes、阴影、纹理、消失点或数据驱动的特征。监督[5，7，10，13，29，37，38，42，44，51，67，70，72]。使用在大型RGBD数据集上训练的深度神经网络[17，22，50，52，69，74]显着改善数据驱动方法的性能，使用合成数据的激励方法[4，28，56，60，92]，自我监督训练[23，25，26，39，54，90]或多个数据源[18，66]。尽管有这些进步，但是由于单目深度估计的固有模糊性，从单个图像产生高质量深度仍然是困难的。最近的工作已经表明，DP数据可以通过解决这些模糊中的一些来改善单目深度质量。Wadhwa等人[82]将经典立体匹配方法应用于 DP 视图以计算深度。Punnappurath等[64]表明，在立体匹配过程中对散焦模糊进行明确然而，他们假设散焦模糊是空间不变的并且在左DP图像和右DP图像之间是对称的，这在真实的智能手机相机中是不正确的。DP图像的深度估计也被用作反射去除算法的一部分[65]。Garg等人[24]和Zhanget al. [87]训练神经网络以使用数千个DP图像和地面真实深度图的捕获数据集从DP图像输出深度[3]。由此产生的性能改进是以显著的数据收集成本为代价的。聚焦或散焦已经被用作在这些DP工作之前用于单目深度估计离焦深度技术[19，63，78，84]使用具有相同视点的两个不同聚焦的图像，而焦点深度技术使用密集焦点堆栈[27，33，76]。其他单目深度估计技术使用散焦线索作为用于训练深度估计网络的监督[75]，使用编码孔径来估计来自一个[46，81，89]或两个捕获[88]的深度，或使用同步滤波器估计散焦图。左左输入：校准的DP模糊内核强度通道全焦点图像共混Conv.*共混共混权权Alpha通道散焦图损失条款数据丢失、辅助数据丢失颜色平滑先验，Alpha平滑先验、熵先验附近远2230OOOO常规传感器浏览1浏览2DP传感器焦平面透镜传感器DP数据Io针孔传感器Is(a) 传感器（b）带光圈透镜的光学器件（c）针孔透镜的光学器件图3：常规传感器和DP传感器（a），其中每个绿色像素被分成两半。对于有限孔径透镜（b），聚焦场景点产生重叠的DP图像，而离焦点产生偏移的DP图像。将两个DP图像相加产生将由常规传感器捕获（c）示出了对应的针孔相机，其中所有场景内容都聚焦。忽略遮挡，可以通过应用深度相关模糊从（c）中的图像生成（b）中的图像。数据[45]。最后，一些双目立体方法还明确地考虑散焦模糊[12，49];与来自DP图像的深度估计相比，这些方法假设两个视图的不同焦距。散焦去模糊。除了深度估计之外，通常期望测量和去除散焦模糊以产生清晰的全聚焦图像。散焦去模糊技术通常估计深度图或等效散焦图作为第一处理阶段[14，40，62，73]。一些技术修改相机硬件以促进此阶段。示例包括在相机光圈中插入图案化遮光器，以使散焦比例选择更容易[46，81，89，88];或在曝光内扫描多个焦点设置，以使散焦模糊空间均匀[59]。一旦散焦图可用，第二去模糊阶段采用非盲去卷积方法[46，21，43，83，57，86]来去除散焦模糊。深度学习也已成功用于散焦去模糊。Lee等[45]训练神经网络回归到散焦图，然后用于去模糊。Abuo-laim和Brown[1]将该方法扩展到DP数据，并训练神经网络以直接从DP图像回归到全聚焦图像。他们的方法依赖于用DSLR捕获的宽和窄孔径图像对的数据集，并且可能不能推广到在智能手机相机上捕获的图像这样的数据集不可能在具有固定光圈镜头的智能手机相机上收集。与这些先前的工作相比，我们的方法不需要难以捕获的大型数据集。相反，它使用DP数据的散焦模糊特性的精确模型，并且同时(a) 左DP图像模糊核（b）右DP图像模糊核(c)（d）（e）来自[64]的图4：左DP图像和右DP图像的校准模糊核（a）和（b）（c）和（d）示出了以红色和青色标记的左内核和右内核的示例对。与[64]中的参数内核（e）相比，校准内核是空间变化的，不是圆形的，也不是左右对称的。将全聚焦图像转换为所捕获的图像。为此，我们考虑相机对具有两个点的场景进行成像，其中只有一个点在焦点上（图2）。第3（b）段）。从焦点（蓝色）发出的光线会聚在一个像素上，形成清晰的图像。相比之下，来自失焦点（棕色）的光线无法会聚，从而产生模糊的图像。如果我们考虑具有无限小孔径的透镜（即，针孔照相机），只有通过其中心的光线才能撞击传感器，并产生清晰的全聚焦图像（图3（c））。在薄透镜模型下，离焦点的模糊图像I。等于具有深度相关核kd的模糊Is，其形状为孔径的d缩放版本-通常为半径为1的圆盘。d=A+B/Z，其中Z是点深度，A和B是透镜相关常数[24]。因此，被称为散焦图D的每像素带符号内核半径d是逆深度的线性函数，因此是深度图的代理。给定散焦图D，并且忽略遮挡，可以使用非盲解卷积从捕获的图像I〇恢复清晰图像Is在实践中，从单个图像Io恢复散焦图D或清晰图像Is是不适定的，因为多个（Is，D）组合产生相同的图像Io。即使当散焦图D已知时，确定清晰图像Is仍然是不适定的，因为模糊不可逆地移除图像频率。DP传感器使得更容易估计散焦图。在DP传感器中（图图3（a）），每个像素被分成两半，每个像素收集来自透镜孔径的对应一半的光（图3（a））。第3（b）段）。将两个半像素或DP，im-从而解决了散焦图和全聚焦图像。年龄IL而Ir产生与该帽相等的图像3. 双像素成像我们通过描述常规和双像素（DP）传感器的图像形成开始，以将散焦图和由常规传感器，即，Io=Il+Ir。此外，DP图像对于对焦场景点是相同的，并且对于离焦点是彼此的移位版本移位量（称为DP视差）与DP视差成比例。视差2231×DiBDiDJ∗DBBΣ2l2r222BO2ΣΣYEDI|Kd，σ=ΣC1Kdi，σ，Φ.KdKdi− KdKdi。DdDiDi我模糊大小，并且因此提供了用于散焦图估计的替代方案。除了促进散焦图D的估计之外，具有两个DP图像而不是单个图像提供了用于恢复底层清晰图像Is的附加约束。利用这些约束需要知道两个DP图像的模糊核形状。模糊内核校准。由于真实透镜具有空间变化的内核，我们校准内核的8 × 6网格。为此，我们固定焦距，在监视器屏幕上捕获圆盘的规则网格，并使用一种方法独立地求解左右图像的[55]与《易经》相似。当求解核时，我们假设它们被归一化为总和为1，并且针对渐晕分别校准：我们使用与上述相同的焦距对来自白色漫射器的六次捕获的左图像和右图像进行平均，以产生左渐晕图案Wl和右渐晕图案Wr。详情请参阅补充资料。我们在图中示出了校准的模糊核。4.第一章我们注意到，这些内核显著偏离通过将薄透镜模型扩展到DP图像形成而导出的参数模型[64]。特别地，校准的内核是空间变化的、非圆形的和非对称的。MPI表示强度通道MPI层模糊内核散焦MPI层各层Alpha通道Conv.*共混共混共混远附近散焦图全焦点图像散焦图像图5：多平面图像（MPI）表示由离散的前平行平面组成，其中每个平面包含强度数据和α通道。我们使用它来恢复散焦图，全聚焦图像，并根据给定的模糊核渲染散焦图像。对于每个层的核k{l，r}，我们通过将每个层与其对应的核进行卷积来渲染散焦图像，然后如等式（1）中那样合成模糊层。（一）：4. 该方法我们的方法的输入是两个单通道DP im-I{l，r}=NΣi=1好吧k{l，r}*（ciαi）Σ⊙Nj=Yi+1.1−k{l，r}*αjΣ、（二）年龄，以及校准的左和右模糊内核。我们可以-使用Wl和Wr针对渐晕进行校正，并且将两个经渐晕校正的DP图像表示为Il和Ir，以及它们的校正。其中表示卷积。在实践中，我们通过散焦缩放校准的空间变化的左和右内核〇〇l大小di，并且将缩放的空间变化模糊应用于每个在特定散焦大小d处的响应模糊核为kd，以及强度-α图像c α。我们注意到我们呈现左和kr，分别。我们假设在散焦处的模糊核是我尺寸d′可以通过因子d′/d[64，88]进行缩放来获得。我们的目标是优化多平面图像（MPI）表示，其最好地解释观察到的数据，并使用它来记录潜在的全聚焦图像（Is）和散焦图D（）。我们首先介绍MPI表示，并展示如何从一个单一的MPI的正确的意见，但不同的内核。4.2. 高斯噪声对离焦估计的影响使用等式（2），我们可以优化MPI，使L-误差最小化||2之间呈现的im-||2betweenrenderedim-渲染散焦图像。然后，我们制定了MPI优化问题，并详细说明其损失函数。4.1.多平面图像表示我们使用MPI表示对场景进行建模，以前主要用于视图合成[80，91]。MPI显示-年龄{l，r}和观察到的DP图像I{ol，r}。这里我们展示在存在噪声的情况下，这种优化偏向于较小的散焦尺寸，并且我们校正这种偏差。假设加性高斯白噪声N{l，r}分布为N（0，σ2），我们可以将DP图像建模为：I{l，r}=I{l，r}+N{l，r}，（3）ob将3D空间分解为固定深度处的N个前平行平面（图1）。（五）。我们选择对应于线性变化的散焦模糊大小[dl，. . . ，dN]。每个MPI平面其中I{l，r}是潜在的无噪声图像。为了简单起见，我们现在假设所有场景内容都位于具有地面实况散焦大小d的单个前平行平面上。是聚焦场景的强度α图像，其包含由强度通道ci和α通道ai组成。全聚焦图像合成。给定MPI，我们使用over算子[53]合成清晰图像：我们对由每个层的透射率t加权的所有层求和，然后，使用频域分析类似周等。[88]，我们在补充中证明，对于散焦大小假设di，对应于MPI的MAP估计的预期负对数能量函数是：.{l，r} Σ Σ。 {l，r}Σ。 LrˆINNNF河湖i=1i=1j=i+12Σ|K|+的|K| +σ |Φ|F|KL|2个以上|KR|2 +σ2|Φ|22S =tic我=Σciα我Σ（1−αj）.（一）+σ+C（σ），（4）2散焦图像渲染。鉴于左右模糊2232所有NDiDJBDiDi| |B·idf22BDi⊙··LL√DidBˆI（x，y）−Io（x，y），BDiO我Σ。Σ我联系我们其中K{l，r}和K{l，r}是ker-r的傅立叶变换didnelsk{l，r}和k{l，r}，Φ是逆谱Σ。{l，r}{l，r}{l，r}Σ自然图像的功率分布，并且求和是在所有频率上。我们希望当di=d时损失最小。第一项衡量的是不一致性-B{l，r}=Bx为ohΣΣk{l，r}*αiY所有.1−k{l，r}*αjΣΣB（di）。（八）假设的模糊核di与真实内核d，并且当di=d时确实最小化。怎么-i=1j=i+1{l，r}第二项依赖于噪声方差，并且随着|Di|减少。这是因为，对于归一化的模糊内核（||k{l，r}||1=1），作为散焦k内核大小|Di|其功率谱||K{l，r}||2增加。这我们将总偏差校正全部计算为每一层的所有偏差校正项的总和，由相应的响应散焦透射率。当量（8）等于Eq。（2）其中，我们将每个MPI层的强度变化替换nel_c_i具有恒定的偏置校正值B（d_i）。为了-表明输入图像中的高斯白噪声导致偏向较小的模糊核。为了解释这种偏差，我们从优化损失中减去第二项的近似值，我们称之为偏差校正项从等式（1）（5），我们根据经验将方差设置为σ2= 5 10−5，并使用恒定的逆谱功率分布Φ 2= 102，遵循先前的工作[79]。辅助数据丢失。在大多数真实世界的场景中，场景内容应该在单个层上不过，是-B.D|K{l，r}，σΣ≈σ2Σσ2|Φ|二、（五）. 克湖 +。克河+σ2|Φ|2使Eq.（2）形成加权. di..di.所有层的总和L数据可以是小的，即使当场景包含时。我们忽略包含地面真值d的项，因为它们仅在d本身很小时才有意义，即，在这种情况下，偏置有利于真实的内核。在具有与散焦大小[dl，. . . ，dN]，我们减去使用等式（1）计算的每层常数（di）（五）、我们注意到，我们使用高斯噪声模型来使分析易于处理，但捕获的图像具有混合泊松分布-帐篷被涂抹在多个层上。为了阻止这种情况，我们在每个层的强度上引入每层辅助数据丢失，该强度Laux=k{l，r}∪ti（x，y）⊙x，y，iB.k{l，r}*ci（x，y）−I{l，r}（x，y），B（di）Σ，（9）高斯噪声[31]。在实践中，我们发现使用突发去噪对输入图像进行额外去噪是有益的[32]。然而，即使在去噪之后也存在残余噪声5.1我们的偏差校正项仍然提高了性能。一个有趣的未来研究方向是使用更准确的噪声模型来获得更好的偏差估计，并消除任何去噪的需要4.3. MPI优化我们寻求恢复MPI c，α，i [1，. . . ，N]，使得使用经校准的模糊核从其渲染的散焦图像接近输入图像。但是最小化-仅计算重建损失是不够的：由于存在全部精确地再现输入图像的MPI的无限族，所以该任务是不适定的。就像在DEFO-cus去模糊[46]，我们正则化我们的优化：其中表示逐元素乘法。这种辅助损失类似于 Eq.（7），不同之处在于它被单独地应用于每个MPI层。强度平滑度。我们的第一个正则化项encour- ages平滑的全聚焦图像和MPI强度通道。对于具有对应边缘图E的图像I，我们基于全变差V（·）定义边缘感知平滑度，类似于Tucker和Sn avely[80]：VE（I，E）=（V（I））+（1 −E）⊙（V（I）），（10）其中（）是Charbonnier损失。有关E和V（）的详细信息，请参阅附录。我们在全聚焦图像和MPI强度通道上的平滑度先验是：Li ntensi ty=ΣVE。Is，E.isΣΣ+ΣVE（tici，E（tici））.（十一）x为ohx，y，iL=L数据+L辅助+L强度+Lα+L熵，（6）其中data是促使渲染图像类似于输入图像的偏差校正数据项，aux是应用于每个MPI层的辅助数据项，并且其余的是正则化项。我们在下面讨论所有条款偏差校正数据丢失。我们认为碳-nier [11]损失函数（x）=x2/γ2+ 1，并定义NL数据=、（7）2233Alpha和透射率平滑度。我们对所有alpha通道和透射率（通过计算其平方根进行锐化）使用附加平滑正则化器，根据全聚焦图像的总体变化来鼓励边缘感知平滑Lalpha=ΣΣVE。√αi，E.VE. √ti，E.IsΣ. （十二）偏差校正版本为B（x，B）=√（x2−B）/γ2+1，x，y，i其中我们选择尺度参数γ=0。1[6]。我们使用该损失函数来形成数据损失，该数据损失惩罚左和右输入与渲染图像之间的差异，如：Alpha和透射熵。最后一个正则化器是对alpha通道和透射率的碰撞熵惩罚。碰撞熵，对于向量x定义为22342Σ。ΣΣ。Σ×LLLLB||X||2−S（x）= log2/||X||1、是仁义恩的特例--熵[68]，我们根据经验发现它比香农熵更适合我们的问题。最小化碰撞熵鼓励稀疏性：S（x）在x的除一个元素之外的所有元素都为0时最小，在我们的情况下，这鼓励场景内容集中在单个MPI层上，而不是分散在多个层上。我们的熵损失是：L熵=S [√α2（x，y），. . . ，√αN（x，y）]Tx为oh5.1. 结果我们评估我们的方法散焦去模糊和深度从散焦任务。我们对数据集中的所有场景使用N=12个MPI层。我们手动确定前层和后层的内核大小，并在屈光度空间中均匀分布层。每个优化使用Adam运行10，000次迭代[41]，并在Nvidia Titan RTX GPU上花费2小时。我们逐渐将全局学习率从0.3降低到0.1，并呈指数衰减。我们的JAX+S√t1x为oh（x，y），. . . ，√tN（x，y）ΣTΣ。（十三）可在项目网站上查阅实施情况[85]。我们比较了用于散焦去模糊（DPDNet [1]，维纳去卷积[79，88]）和散焦图估计（DP立体匹配[82]，超卷积[84]）的最新方法。我们提取每个通道的alpha通道和透射率像素（x，y），计算它们的平方根以用于锐化，计算每像素熵，并且跨所有像素对这些熵求在alpha通道上计算熵时，我们跳过最远的MPI层，因为我们假设所有场景内容都在最远的层结束，因此强制此层不透明（α1=1）。5. 实验我们捕获一个新的数据集，并使用它来执行定性和定量比较与其他国家的最先进的散焦去模糊和散焦图估计方法。项目网站[85]包括一个交互式HTML查看器[8]，以便于在我们的完整数据集之间进行比较。数据收集。尽管DP传感器很常见，但据我们所知，只有两个相机摄像机提供了读取DP图像的API-Google和Canon。然而，佳能与可以学习解释这种变换的基于监督学习的方法[1]不同，我们的损失函数需要原始传感器数据。因此，我们使用Google Pixel 4智能手机收集数据，该智能手机允许访问原始DP数据[16]。像素4捕获DP数据仅在绿色通道，nel。为了计算地面实况，我们捕获具有在屈光度空间中均匀采样的36个切片的焦点堆栈，其中最近的焦点距离对应于我们校准的距离13。7厘米，最远的到无穷远。遵循先前的工作[64]，我们使用商业Helicon Focus软件[35]来处理堆栈并生成地面实况清晰图像和散焦图，并且我们手动校正所生成的散焦图中的孔。尽管如此，仍然存在难以手动修补的图像区域，例如，靠近遮挡边界或曲面。在计算定量指标时，我们忽略了这些区域我们总共捕捉了17个场景，包括室内和室外。类似于Garg等人。[24]，我们将DP图像集中裁剪为1008 1344。更多详情请参阅补充资料。我们的数据集可在项目网站上获得[85]。从DP视图的可视化学习[24]，基于核对称的DP散焦估计[64]，维纳反卷积[79，88]，DMeNet [45]）。对于将单个图像作为输入的方法，我们使用左右DP图像的平均值我们还提供了原始的和渐晕校正的DP图像作为输入，并报告最佳结果。我们在Tab中显示了定量结果。1和定性结果图。6和图7对于散焦图，我们使用来自Garg等人的仿射不变度量。[24]第10段。我们的方法在这两个任务上都取得了最好的定量结果。散焦去模糊结果。尽管输入DP图像中存在大量模糊，但我们的方法产生了具有接近地面真实的高频细节的去模糊结果（图1）。（六）。DPDNet会产生很大的错误，因为它是在Canon数据上训练的，并且不会泛化。我们通过提供渐晕校正图像作为输入来提高DPDNet的准确性，但其准确性仍然低于我们的。散焦图估计结果。我们的方法产生最接近地面实况的散焦图（图12）。7），尤其是在无纹理区域上，诸如第一场景中的玩具和时钟类似于[64]，边缘附近的深度精度可以通过引导滤波[ 34 ]来提高，如图所示。第7（d）段。消融研究。我们调查的影响，每个损失函数项删除他们一次一个定量结果见表1。2，和定性比较图。8.我们的完整流水线在重新覆盖全聚焦图像和散焦图方面具有最佳的整体性能强度和α分别强烈地影响全聚焦图像和散焦图的平滑度。在没有熵或辅助的情况下，即使恢复的全聚焦图像是合理的，场景内容也会跨多个MPI层被涂抹，从而导致不正确的散焦图。最后，在没有偏移校正项的情况下，散焦图偏向较小的模糊半径，尤其是在噪声更明显的无纹理区域中，例如，白色的时钟Abuolaim和Brown数据的结果[1]。尽管Abuolaim和Brown [1]在佳能相机的数据上训练他们的模型，但他们也捕获Pixel 4数据进行定性测试。我们在他们的Pixel 4数据上运行我们的方法，使用我们设备的校准，并显示我们的重新校准。2235(a) 输入图像（b）GT全聚焦图像（c）我们的（d）维纳解卷积。 [88]（e）DPDNet [1]（Orig. Input）（f）DPDNet [1]图6：各种散焦去模糊方法的定性比较。示出为两个DP视图的平均值的输入图像（a）、从焦点堆栈计算的真实全聚焦图像（b）、从我们的方法和其他方法（d）-（f）恢复的全聚焦图像（c）。我们通过提供渐晕校正图像（f）来提高在佳能数据上训练的DPDNet（e）的准确性。我们的方法在恢复高频细节方面表现最好，并且呈现较少的伪影。(a)输入图像（b）地面实况（c）我们的（d）我们的w/ GF（e）Wiener [88]（f）DMENet [45]（g）[64] （h）Garg [24]（一）Wadhwa [82]图7：散焦图估计方法的定性比较。被示为两个DP视图的平均值的输入图像（a）、来自具有白色的零置信度像素的焦点堆栈的地面实况散焦图（b）、我们的散焦图（c）、以及我们的具有引导滤波的散焦图（d）、以及来自其他方法的散焦图（f）-（i）。总的来说，我们的方法产生的结果最接近地面实况，并正确处理无纹理区域。从单个双像素捕获图像我们表明，图像噪声在优化中引入了偏差，在适当的假设下，可以量化和校正。我们还引入了额外的先验来规范优化，并通过消融研究显示了其有效性。我们的方法改进后，过去的工作都散焦表1：离焦去模糊和离焦去模糊的定量评价我们的DP数据集上的散焦图估计方法。“-” indicates 我们使用来自[24]的仿射不变度量进行散焦图评估。我们的方法在这两个任务中都实现了最佳性能（以红色突出显示）。覆盖的全聚焦图像具有较少的伪影（图第9段）。这表明，我们的方法在相同模型的设备上很好地推广，即使没有重新校准。6. 讨论和结论我们提出了一种优化MPI场景表示的方法，以联合恢复散焦图和全聚焦地图估计和模糊去除，当在我们用消费者智能手机相机捕获的新数据集上进行评估时局限性和未来方向。我们讨论了我们的方法的一些局限性，为未来的研究方向。首先，我们的方法不需要具有地面实况的大型数据集进行训练，但仍然依赖于一次性模糊内核校准过程。探索盲去卷积技术[20，48]将是有趣的，该盲去卷积技术参数模糊核模型的开发空间变异，不对称方法全聚焦图像PSNR ↑SSIM ↑MAE↓AIWE（1）散焦图AIWE（2）↓1 - -一种|ρ s|↓维也纳反卷积[八十八]25.8060.7040.0320.1560.1970.665DPDNet [1]25.5910.7770.034---DMENet [45]---0.1440.1830.586Punnappurath等[64个]---0.1240.1610.444Garg等人[24日]---0.0790.1020.208Wadhwa等人[八十二]---0.1410.1770.540我们26.6920.8040.0270.0590.0830.1932236LBL LL(a) 输入图像（b）地面实况(c)我们的满了(d)无L强度（e）无Lα（f）无L熵（g）无L辅助（h）无B图8：消融研究。输入图像（a）、地面真实全对焦图像和散焦图（b），其中零置信度像素为白色，我们的结果（c），以及我们的结果，其中不同项一次移除一个（d）-（h）。去除L强度和Lα分别强烈影响全聚焦图像和散焦图的平滑度。没有熵正则化L熵、Laux或偏差校正B的结果在无纹理区域（时钟）上的散焦图中表现出更多的误差尝试，缺乏循环性）可以促进这一研究方向。其次，MPI表示将场景离散化为一组前平行深度层。这可能潜在地导致具有连续深度变化的场景中的离散化伪影。在实践中，我们没有发现这是一个问题，这要归功于使用软混合操作来合成全聚焦图像和散焦图。尽管如此，用连续的MPI表示替换MPI表示可能是有用的，例如，神经辐射场[58]，以帮助更好地模拟连续变化的深度。第三，随着散焦模糊的增加（例如，模糊度增加），重构精确的全对焦图像变得更加困难。在非无限远焦点处的非常远的场景），并且从输入图像中丢失了更多的高频内容。这是所有去卷积技术共有的基本限制。使用强大的数据驱动先验来幻觉缺失的高频内容（例如，基于深度学习的去卷积技术）可以帮助减轻这种限制。第四，我们的技术的高计算复杂性使得其对于实时操作不切实际，特别是在诸如智能手机的资源受限的设备上。因此，值得探索优化的实现。致谢。感谢David Salesin和Samuel Hasinoff提供的有用反馈。S.X.公司和I.G.由NSF奖1730147和斯隆研究奖学金支持。表2：消融研究的定量比较我们比较了完整的流水线，分别去除正则化项α，强度和熵，辅助数据丢失辅助和偏差校正项。对于所有消融实验，我们将剩余项的权重设置为与完整管道中的权重相同最佳和次佳结果以红色和橙色突出显示（a）来自[1]的投入 (b)DPDNet [1]（c）我们的结果图9：来自[1]的数据的结果。我们的方法恢复所有的焦点图像与较少的文物，同时使用校准数据从我们的设备。方法充分全聚焦图像散焦图PSNR↑26.692SSIM↑0.804MAE↓0.027AIWE（1）↓AIWE（2）↓0.047 0.076 0.1781− |ρ s|↓无L强度无Lα无L熵诺洛没有B0.1610.05726 211 0.768 0.0300.14826.265 0.790 0.0280.0630.2060.0850.1900.0920.7950.1900.6100.21427.154 0.819 0.0260.1850.0780.04714.882 0.158 0.13624.748 0.726 0.0372237引用[1] Abdullah Abuolaim和Michael S.布朗散焦去模糊-使用双像素数据。2020年欧洲计算机视觉会议。三六七八[2] Abdullah Abuolaim、Abhijith Punnappurath和Michael S.布朗重新审视智能手机相机的自动对焦2018年欧洲计算机视觉会议。1[3] Sameer Ansari，Neal Wadhwa，Rahul Garg，and JiawenChen. 多个分布式摄像机的无线软件同步。 IEEEInternationalConferenceonComputationalPhotography，2019。2[4] Amir Atapour-Abarghouei和Toby P.我猜使用合成数据的实时单目深度估计，通过图像风格转换进行局部自适应。IEEE/CVF计算机视觉和模式识别会议，2018年。2[5] 鲁泽娜·巴伊奇和劳伦斯·利伯曼。纹理梯度作为深度提示。计算机图形和图像处理，1976年。2[6] 乔纳森·T.巴伦一种通用的自适应鲁棒损失函数。IEEE/CVF计算机视觉和模式识别会议，2019年。5[7] 乔纳森·T.巴伦和吉坦德拉·马利克形状，反照率和照明从一个单一的图像一个未知的对象。IEEE/CVF计算机视觉和模式识别会议，2012年。2[8] BenediktBitterli ， WenzelJakob ， JanNova`k ，andWojciechJarosz.使用逆映射的可逆跳跃都市光输运。ACM Transactions on Graphics，2017。6[9] 詹姆斯·布拉德伯里冰霜斯蒂格彼得Hawkins、Matthew James Johnson、Chris Leary、Dougal Maclau-rin、George Necula、Adam Paszke、Jake VanderPlas、SkyeWanderman-Milne 和 QiaoZhang 。 JAX ：Python+NumPy程序的可组合转换，2018。6[10] Michael Brady和Alan Yuille从轮廓求形状的一个极值原理。IEEE Transactions on Pattern Analysis and MachineIntelligence，1984。2[11] Pierre Charbonnier、Laure Blanc-Feraud、Gilles Aubert和Michel Barlaud。计算成像的两种确定性半二次正则化算法。IEEE图像处理国际会议，1994年。5[12] Ching-Hui Chen，Hui Zhou，and Timo Ahonen.基于散焦立体图像的模糊感知视差估计。2015年IEEE/CVF计算机视觉国际会议。3[13] Sunghwan Choi ， Dongbo Min ， Bumsub Ham ，Youngjung Kim，Changjae Oh，and Kwanghoon Sohn.深度类比：使用梯度样本的单图像深度估计的数据驱动方法。IEEE Transactions on Image Processing，2015年。2[14] LaurentD'Andr e ` s ， Jordi Sal vado r ， A x el Kochale ，and Sabine Süsstrunk. 用于景深扩展的非参数模糊映射回归 IEEETransactions on ImageProcessing，2016。3[15] Edward R. Dowski和W.托马斯·凯西。通过波前编码扩展应用光学，1995年。1[16] 双像素捕获应用程序https://github.com/google-research/google-research/tree/master/dual_pixels.6[17] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统进展，2014年。2[18] 何塞 ·M·Facil ， Benjamin Ummenhofer ， HuizhongZhou，Luis Montesano，Thomas Brox，and Javier Civera.cam-convs：用于单视图深度的相机感知多尺度卷积。IEEE/CVF计算机视觉和模式识别，2019年。2[19] 保罗·法瓦罗通过非局部均值正则化恢复薄结构并应用于离焦深度。IEEE/CVF计算机视觉和模式识别会议，2010年。2[20] 放大图片作者： Rob Fergus ， Barun Singh ， AaronHertzmann，Sam T. Roweis和William T.弗里曼。从单张照片中消除相机抖动。ACM Transactions on Graphics，2006。7[21] 鱼检察官上午 Brinicombe 急诊室 Pike 和 J.G. 沃克用Richardson-Lucy 算法进行盲反卷积。 Journal of theOptical Society of America A，1995。3[22] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归IEEE/CVF Confer-ence on Computer Visionand Pattern Recognition，2018。2[23] Ravi Garg，Vijay Kumar B.G.，古斯塔沃·卡内罗和伊恩·里德用于单视图深度估计的无监督CNN：几何学拯救了我们。2016年欧洲计算机视觉。2[24] Rahul Garg、Neal Wadhwa、Sameer Ansari和Jonathan T.巴伦使用双像素学

下载后可阅读完整内容，剩余1页未读，立即下载