学习自动对焦方法及数据集的研究

20 浏览量更新于2023-10-23 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1学习自动对焦查尔斯·赫尔曼1理查德·斯特朗·鲍文1尼尔·瓦德瓦2拉胡尔·加格2丘瑞·何2乔纳森·T.Barron2 Ramin Zabih1，21康奈尔理工学院2谷歌研究{cih，rsb，rdz}@ cs.cornell.edu{nealw，rahulgarg，qiurui，barron，raminz}@ google.com摘要自动对焦是数码相机的重要任务，然而当前的方法通常表现出较差的性能。我们提出了一个基于学习的方法来解决这个问题，并提供了一个现实的数据集足够大的有效学习。我们的数据集标记有从多视图立体获得的每像素深度，如下[9]。使用这个数据集，我们应用现代深度分类模型和有序回归损失来获得有效的基于学习的自动聚焦技术。我们证明，与以前的学习和非学习方法相比，我们的方法提供了显着的改进：我们的模型将平均绝对误差减少到最佳可比基线算法的3.6倍。我们的数据集和代码是公开的。1. 介绍在具有可变深度的场景中，具有有限大小光圈的任何相机镜头只能聚焦在一个场景深度（焦距）处，并且场景的其余部分将包含模糊。这种模糊很难通过后处理去除，因此选择合适的焦距对图像质量至关重要。有两个主要的，独立的任务，相机必须解决时，聚焦。首先，摄像机必须确定应该聚焦的显著区域。用户可以明确地选择这样的区域，通过在智能手机的屏幕上轻敲，或者可以通过例如面部检测器自动检测第二，给定显著区域（相机制造商通常将其称为第二个任务称为自动对焦。常规自动聚焦算法通常分为两大类：基于对比度和基于相位的方法。基于对比度的方法定义清晰度度量，并通过最大化清晰度度量跨越一系列焦距。这种方法在实践中必然是缓慢的，因为它们必须进行大量的观察，其中每一个都需要物理透镜移动。此外，它们还有一些重要的弱点，我们将在第4节中讨论。现代基于相位的方法利用了智能手机和DSLR相机上越来越多的双像素传感器的差异。这些传感器基本上是双视图全光相机[26]，其具有从孔径的两个半部接收光的左子图像和右子图像。这些方法在这样的假设下操作，即聚焦对象将产生类似的左子图像和右子图像，而散焦对象将产生具有与散焦程度成比例的位移或视差的子图像简单地说，人们可以搜索使左/右失配最小化的焦距，如基于对比度的方法。或者，一些方法使用校准来对视差和深度之间的关系进行建模，并且仅用一个输入进行预测然而，由于有效基线小，所以精确估计双像素子图像之间的视差是具有挑战性的此外，由于难以建模的光学效应，难以准确地表征视差和深度之间的关系，从而导致误差[9]。在本文中，我们介绍了一种新的基于学习的自动对焦方法：一个ConvNet，作为输入的原始传感器数据，可选地包括双像素数据，并预测理想的对焦距离。深度学习非常适合这项任务，因为现代ConvNets能够利用数据中的微妙散焦线索（例如形状不规则的点扩散函数），这些线索通常会误导启发式基于对比度的自动聚焦方法。与基于相位的方法不同，学习模型还可以直接估计镜头应该移动到的位置，而不是使用手工制作的模型和校准从视差中确定它-这可能容易出错的策略。为了训练和评估我们的网络，我们还介绍了一个使用智能手机相机捕获的大型真实数据集，并使用多视图立体计算的每像素深度进行标记。该数据集由焦点22302231堆栈：同一场景的一系列图像块，仅在焦距上变化。我们将在第3节中精确地阐述自动聚焦问题，但请注意，自动聚焦的输出是一个焦点索引，它指定焦点堆栈中的一个补丁。包括常规和双像素原始图像数据，允许对基于对比度和相位的方法进行评估。我们的数据集比以前的大多数努力都要大[4，14，23]，并且包含更广泛的现实场景。值得注意的是，我们包括户外场景（这是特别难以捕捉的深度传感器，如Kinect）以及场景与不同的照明水平。我们表明，我们的模型在所有版本的自动对焦问题上，特别是在具有挑战性的图像上，都实现了准确性的显著在我们的测试集上，以一帧作为输入的最佳基线算法产生的平均绝对误差为11.3（在49个可能的焦点指数中）。我们的模型具有相同的输入，误差为3.1，因此将平均绝对误差降低了3.6倍。2. 相关工作令人惊讶的是，计算机视觉社区在自动对焦算法方面的工作很少。在图像处理文献中有许多非学习技术[5，19，20，45，46]，但唯一的学习方法[23]使用经典而不是深度学习。使用计算机视觉技术进行自动对焦的一种自然方式是首先计算度量深度。在关于深度估计的大量文献中，最密切相关的工作当然依赖于焦点。大多数使用聚焦的单目深度技术一个完整的焦点堆栈作为输入，然后估计深度根据清晰度的一些测量对每个焦点切片进行评分[16，25，40]。虽然用静态相机获取静态场景的完整焦点堆栈是繁重的，但是这些技术可以通过考虑视差而变得易于处理[38]。最近，基于深度学习的方法[14]已经通过全焦点堆栈方法产生了改进的结果。一些早期的工作试图在一两幅图像中使用焦点线索，而不是使用完整的焦点堆栈通过将图像的明显模糊与其视差相关联来估计每个像素处的深度[10，28]，尽管这些技术在其精度方面必然受限于能够访问完整焦点堆栈的那些技术。能量最小化[39]和深度学习[4，35]也已应用于单图像方法，用于从焦点估计深度，具有显着提高的准确性。类似地，在使用除焦点之外的深度线索[8，33]（包括双像素线索[9，42]）进行单目深度估计的学习的更一般问题中已经取得了很大进展在这项工作中，我们解决了自动对焦的相关问题(a) 单层（b）焦点堆栈(c)两步图1.三个不同的自动聚焦子问题;在每个子问题中，目标是通过为每个可能的焦点切片（蓝色）生成一组分数在单切片问题（a）中，算法被给定一个观察切片（红色）。在焦点堆栈问题（b）中，算法给出整个堆栈。在多步骤问题（这里只显示了两个步骤）（c）中，问题是分阶段解决的;给定初始镜头位置和图像，我们决定下一步聚焦在哪里，获得新的观察结果，然后使用两个观察到的图像对聚焦切片进行最终估计。通过应用深度学习。自动聚焦问题的一个关键方面是商品聚焦模块需要单个聚焦估计来引导它们，由于硬件问题，这可能与预测的深度图有脆弱的连接（参见第4节）。许多算法预测非度量深度图，使得任务更加困难，例如，尺度不变的单眼深度预测[8]或使用双像素数据的仿射不变深度预测[9]。因此，我们不是预测密集的深度图，而是直接预测可用于引导聚焦模块的焦深的这种预测是通过深度学习完成的。3. 问题公式化在自动对焦问题的自然公式中，镜头可以连续移动，产生对应于不同焦平面的无限可能焦距。我们将连续透镜位置离散为n焦点距离，并且从每个位置提取图像块Ik，k ∈ {1，.- 是的- 是的.，n}。我们假设补丁的位置由用户或一些外部显著性算法确定，因此我们将此图像补丁视为“图像”，并将在整个论文中如此提及。此外，图像可以包含作为两个通道的双像素子图像，也可以基于所考虑的输入类型我们指的是在不同焦距{Ik}处获得的图像作为焦点堆栈，个体图像Ik作为焦点切片，并且k作为焦点图像。焦点指数我们假设每一个焦点堆栈都有一个2232焦点指数，其切片在焦点上。标准自动聚焦算法可以根据它们需要作为输入的聚焦切片的数量自然地划分。例如，基于对比度的方法通常需要整个焦点堆栈（或大的子集），而基于相位或散焦深度算法可以仅在给定单个焦点切片的情况下估计焦距动机是焦平面透镜传感器LG(a) 普通传感器焦平面透镜传感器(b) 双像素传感器标准自动对焦算法之间的输入空间差异，算法中，我们定义了三个代表性的子问题（如图1所示），它们都试图预测正确的聚焦指数，但主要基于它们的输入而变化。焦点堆栈：图2.相机（a）通过移动传感器或镜头聚焦，并且仅在单个深度（在这种情况下为g）处产生清晰的图像双像素传感器（b）将每个像素分成两半，每一半都收集来自镜头两半的光线，这有助于自动对焦。f：{Ik|k = 1，. - 是的- 是的，n} → k（1）这是最简单的公式，其中算法给出了完全观察到的焦点堆栈。算法透镜和近轴近似，散焦模糊的量由下式指定：. .. ΣLf. 11 号。这种类型通常定义清晰度或对比度度量，并选取使所选度量最大化的聚焦指数。-是的 -.1− f/g。gZ.（四）单切片：f：Ik<$→ k ∈ {1，. - 是的- 是的，n}（2）其中L是光圈大小，f是焦距，Z是深度一个场景点和g焦距（图。第2（a）段）。 G与透镜和传感器之间的距离g0有关这是最具挑战性的公式，因为该算法仅给出单个随机焦点切片，其可以被认为是透镜的起始位置。在该公式中，算法通常尝试估计模糊大小或使用几何线索来估计深度的测量，然后将其转换为焦点指数。多步骤：由薄透镜方程排序。这意味着，如果深度Z是已知的，则可以聚焦，即，通过选择适当的g将散焦模糊减小到零，这可以通过物理地调节透镜和传感器g。之间的距离来实现。这表明恢复深度（Z）足以聚焦。双像素传感器可以帮助找到Z的任务，因为它们产生两个图像，每个图像都看到一个f1：Ik0›→k1场景的视角略有不同（图2（b））。的这些观点之间的差异d[9]是f2：Ik0，Ik1<$→k2. - 是的- 是的Lf. 11Σd=α1−f/g g−Z（五）fm：Ik0，. - 是的- 是的，Ikm−1<$→km（3）其中k0∈ {1，. - 是的- 是的，n}，并且m是控制总步数的预定常数。多步探测器lem是前两个问题的混合体算法被给予初始聚焦指数，获取并分析在该焦距处的图像，然后被允许移动到其选择的附加聚焦指数，重复该过程至多m次。该公式近似于在线问题，即用尽可能少的尝试将透镜移动到正确该多步公式类似于相机制造商经常使用的4. 自动对焦挑战我们现在描述真实相机中的挑战，这些挑战使自动对焦问题在实践中变得困难带着薄薄的-ZGO2233其中α是比例常数。该理论模型经常用于自动聚焦（或更经常地，从散焦深度）算法的学术追求中然而，近轴和薄透镜近似是相机硬件设计和成像物理学的显著简化。在这里，我们详细介绍了这个模型和现有的方法所忽略的一些问题，并解释了它们是如何在一个有效的，实用的自动对焦算法的设计至关重要不现实的PSF模型。基于对比度的算法的一个核心假设是，随着被成像的对象进一步移离焦点，对应于对象的高频图像内容减少。聚焦内容导致锐利边缘而失焦内容导致模糊边缘的假设仅被证明对于高斯点扩散函数（PSF）是正确的[22，48]。然而，这个假设可以被现实世界的PSF打破，其可以是盘形或六边形，目的是产生美学上令人愉悦的或2234预测的地面实况10- 33210 24 48（a）Im，λ max= 1。22（b）模糊，模糊度= 0。62（c）Disc，disc= 2。[45]图3。许多基于对比度的自动对焦算法返回的焦距可使图像清晰度最大化，此处测量为图像梯度的范数为零。这对一些人来说很好。相机PSF，作为清晰图像（例如饱和增量函数），（a）中的图像）将可能具有比在高斯PSF下失焦看到的相同图像（例如（b）中）更多的梯度能量但是实际的相机倾向于具有不规则的PSF，其比高斯更接近地再现圆盘，并且因此，离焦图像可以具有比聚焦图像更高这就是为什么简单的基于对比度的自动对焦算法在实践中经常失败的原因之一。它们可以是某种不规则的形状，其不符合作为硬件的副作用和现代智能手机相机构造的成本约束的特征。在盘形PSF的情况下，例如，离焦增量函数实际上可能比聚焦增量函数具有更多的梯度能量，特别是当像素饱和时（见图3）。低光环境下的噪音在昏暗的环境中拍摄的图像通常包含显著的噪声，这一问题因消费相机的小光圈尺寸和小像素间距而加剧[13]。在低光成像方面的先前工作已经注意到，传统的自动对焦算法在这种条件下系统地中断[21]。这似乎是由于随机发生的传感器噪声导致的梯度能量超过图像中的实际结构的梯度能量有关此问题的可视化，请参见图4。聚焦呼吸相机的视野取决于它的焦距，这种现象称为焦点呼吸。1这是因为传统相机通过改变图像平面和镜头之间的距离来聚焦这种效果对于基于对比度的自动聚焦算法可能是有问题的虽然可以通过将其建模为缩放来校准局灶性呼吸，1有时也被称为焦点呼吸或镜头呼吸。(a) 对比度度量（b）预测（c）地面实况图4.图像噪声会误导基于对比度的对焦措施，使其难以在弱光下对焦。在应用于（b）和（c）中的噪声块的对比度测量（a）中没有明显的峰值因此，argmax索引导致散焦的片（b），而不是包含细微高频纹理的聚焦的地面实况片（c）(a) 光学（b）聚焦，λ=0.88（c）未聚焦，λ=1.02图5。成像的光学意味着改变透镜的焦点会导致“焦点呼吸”：摄像机视野的改变考虑来自两个点的光在三个不同的焦距处成像，如（a）的顶部。因为光线是从传感器的中心向外扩散的，因此导致成像平面上的点的位置随着成像平面和透镜之间的距离向内移动（即，焦距）减小。这发生在真实图像块中，并且可能误导基于对比度的度量：聚焦图像块(b) 具有比离焦图像块（c）小的梯度能量，因为当聚焦时边缘移入和移出块。(Gra-梯度能量仅在（b）和（c）的红色矩形内计算应用这种校准的裁剪增加了等待时间，由于未知的径向失真可能是不准确的，并且可能引入干扰基于对比度的度量的再现伪像。硬件支持。几乎所有的智能手机摄像头都使用音圈电机（VCM）进行对焦：透镜位于镜筒内，在镜筒处，透镜连接到螺旋弹簧并位于电磁体附近，调节电磁体的电压以使照相机沿弹簧和镜筒的1D轴移动，从而改变照相机的焦距。虽然VCM是廉价且普遍存在的，但它们对自动聚焦或散焦深度算法的设计提出了许多问题。1)大多数VCM自动对焦模块都是“开环”的：可以指定电压，但不可能确定实际的度量聚焦距离。点光源镜头焦点1焦点2焦点3空间强度2235这是由这个电压引起的。2)由于温度的变化、透镜相对于重力的取向、与其它部件的串扰（例如，光学图像稳定（OIS）模块中的线圈和磁体），以及VCM弹簧的简单磨损，从指定电压到其产生的度量焦距的映射非常不准确。3)在自动对焦过程中，由于OIS，镜头可能会“离轴”（垂直于弹簧）移动未知和未校准的PSF、噪声、焦点呼吸以及VCM如何表现的大的不确定性使得难以手动设计自动聚焦问题的可靠解决方案这表明了一种基于学习的方法，使用现代神经网络。5. 数据集我们的数据捕获程序通常遵循[9]的方法，主要区别在于我们捕获和处理焦点堆栈，而不是单独的焦点捕获。具体来说，我们使用[1]的智能手机相机同步系统来同步以交叉模式排列的五个Google Pixel 3设备的捕获我们捕捉一个静态场景，所有五个相机在49个焦深采样均匀的逆深度空间从0.102米到3.91米。我们使用运动结构[12]联合估计所有相机的内在和外在，然后使用多视图立体的修改形式计算每个图像的深度（图6（c））管道[9]。我们从中央相机捕获的128×128块中以40的步幅采样，产生尺寸为128×128×49的焦点堆栈。然后，我们通过取相关数据的中值来计算每个堆栈的地面真实指数在相关联的深度图中响应堆栈，并在逆深度空间中找到中值对深度误差是鲁棒的，并且是可能需要更多努力的其他地面实况来源的合理代理，例如，手动注释。然后，我们通过深度图的中值置信度来过滤这些补丁。更多详情请参阅补充材料。我们的数据集有51个场景，每个场景有10个堆栈，包含不同的成分，总共有443，800个补丁。这些设备捕获RGB和双像素数据。由于自动对焦通常是在原始传感器数据（而不是去马赛克的RGB图像）上执行的，因此我们仅使用原始双像素数据及其总和，这相当于原始绿色通道。为了生成训练集和测试集，我们从51个场景中随机选择了5个场景作为测试集;因此，我们的训练集包含460个焦点堆栈（387，000个补丁），我们的测试集包含50个（56，800个补丁）。我们的便携式捕获装置允许我们使用消费者相机（图6）从室内和室外场景捕获具有焦点堆栈的语义多样的数据集，(a) 我们的捕获钻机（b）RGB（c）深度(d)焦点堆栈图6.我们的便携式装备（a）具有与[9]中的一个类似的5个同步相机，允许我们使用多视图立体来捕获户外场景（b）和计算地面实况深度（c）。在（d）中，我们显示了来自不同深度的三个焦点堆栈的49个切片中的7个，对应于（b）中标记的斑块。地面实况补丁（根据我们估计的深度的焦点补丁）用黄色标记。这是第一个这样的数据与其他主要用于自动对焦的数据集[4，23]相比，我们的数据集要大得多，这是深度学习技术的关键要求。我们的数据集在大小上与[14]相当，后者使用Lytro进行光场捕获，使用Kinect进行度量深度。然而，我们有更多的场景（51比12），并使用标准的手机摄像头，而不是全光相机后者具有较低的分辨率（[14]中使用的Lytro为383×552，而我们的双像素数据为1512×2016），并且通过算法重新聚焦生成的不会出现聚焦呼吸、硬件控制、噪声、PSF等问题，这些问题这些问题是自动对焦的一些核心挑战，如上文第4节所述。6. 我们的模型我们在MobileNetV2架构[31]上构建模型，该架构旨在将传统的3通道RGB图像作为输入。在我们的用例中，我们需要表示一个完整的焦点堆栈，其中包含49个图像。我们将焦点堆栈的每个切片编码为单独的通道，因此模型可以对焦点堆栈中的每个图像进行推理。在我们的实验中，2236访问双像素数据，焦点堆栈中的每个图像是2通道图像，其中通道分别对应于左和右双像素图像。在我们的消融中，模型没有双像素数据，焦点堆栈中的每个图像都是包含左右视图之和的1通道图像为了在网络的输入中容纳更多实际上，网络运行速度很快：32.5毫秒的旗舰智能手机。在完整焦点堆栈可用作输入的设置中，模型对于双像素数据给出128×128×98张量，对于传统绿色通道传感器数据给出128×128×49在只有一个焦点切片的任务中，是可观察的，我们使用沿着通道维度的独热编码作为输入：输入是98通道张量（或者对于仅绿色通道输入是49），其中对应于焦点堆栈中未观察到的切片的通道都是零。我们在多步模型的第一步中使用相同的编码，但我们为模型的每个后续步骤添加了额外的one-hot编码，从而使模型能够我们通过采用一个完整的单片网络来训练这个网络，并在所有可能的焦点堆栈和输入索引上对其进行评估。然后，我们将这个one-hot编码馈送给一个新的网络，因此新的网络看到第一个输入索引和单片网络的预测。我们将自动对焦建模为一个有序回归问题：我们将每个焦点索引视为其自己的离散的不同类，但是我们假设在对应于每个焦点索引的类标签之间存在顺序关系（例如，索引6比索引15更接近索引7）。我们网络的所有版本的输出是49 logits。我们通过最小化[7]的有序回归损失来训练我们的模型，这类似于传统逻辑回归对无序标签使用的交叉熵，但是其中不是计算关于表示地面真实标签的Kro necker delta函数的交叉熵，而是将delta函数与拉普拉斯分布卷积。这鼓励模型做出尽可能接近地面实况的预测，而使用传统的交叉熵会错误地将地面实况以外的任何预测（即使是直接相邻的预测）建模为同样昂贵。对于训练，我们使用Adam [17]和默认参数（初始lr= 1e−3，beta1 = 0）。5，β 2 = 0。999），批量为128，全局步长为20k。对于有序回归损失，我们使用[7]的L2成本度量，系数为1。7. 结果算法越高越好= 0≤1≤2≤4低越好Mae RMSE我*我*DCT降低能量比[20]总变差（L1）[24，30][18]第十八话修改DCT [19]梯度计数（t= 3）[18]梯度计数（t= 10）[18]DCT能量比[6]特征值轨迹[43][18]第十八话强度变异系数百分位数范围（p= 3）[32]百分位数范围（p= 1）[32]百分位数范围（p= 0. 3）[32]总变差（L2）[30][41]第41话：我的世界，我的世界拉普拉斯能量[37]拉普拉斯方差[27]平均局部对数比（σ= 1）平均局部比率（σ= 1）[15]平均局部范数距离平方（σ= 1）小波和（σ= 2）[47]平均梯度幅值[40]小波方差（Σ= 2）[47]梯度幅值方差[27]小波方差（Σ= 3）[47]小波比（WaveletRatio）[44]平均小波对数比（σ= 2）平均局部比（σ= 2）[15]小波比（σ= 2）[44]平均局部对数比（σ= 2）小波和（σ= 3）[47]平均局部Norm-Dist-Sq（σ= 2）平均局部比率（σ= 4）[15]平均局部对数比率（σ= 4）平均小波对数比率（σ= 3）平均局部Norm-Dist-Sq（σ= 4）我们的模型0.0340.0820.122 0.1860.0480.1360.208 0.3160.0870.2300.326 0.4320.0330.0910.142 0.2350.1090.3120.453 0.6120.1260.3470.493 0.6450.1100.2860.410 0.5540.1160.3030.434 0.5800.1160.3030.434 0.5800.1250.3270.469 0.6240.1100.2930.422 0.5700.1230.3260.470 0.6330.1340.3470.502 0.6720.1670.4420.611 0.7700.2090.5240.706 0.8520.2100.5280.709 0.8570.2080.5200.701 0.8520.1950.4960.672 0.83218.673 22.85515.817 21.01314.013 20.22315.713 20.19716.44816.21815.28614.59414.5938.068 13.80813.76112.31211.4565.488 11.4094.169九七八一4.006九四六七3.917九点零六二3.795八点二三九2.6526.3962.6456.3742.526五九二四2.392五千六百五十2.3595.2842.3985.1052.3745.1032.761五点零六2.706四点八五六2.191四点八四三2.072四点五六九2.265四点五五九2.067四点五五四2.446四点五三一2.0564.3952.0854.3092.0834.3052.3584.1740.2200.5590.751 0.9060.5590.751 0.9060.2200.2190.5620.752 0.9070.2100.5470.752 0.9180.2100.5450.747 0.9150.1980.5220.731 0.9060.2050.5360.739 0.9090.1620.4290.636 0.8540.1610.4300.640 0.8620.2080.5440.753 0.9270.2210.5700.772 0.9310.1990.5270.734 0.9110.221零点五七一0.7720.9310.1700.4580.672 0.8882019 - 05 - 22 00：00：000.5500.755 0.9270.2110.5510.755 0.9270.1690.4580.672 0.8910.2120.5550.760 0.9282.059 4.1640.2330.6000.798 0.9571.6002.446D*D*D*D*D*D*标准化SAD [11]三进制普查（L1，= 30）[36]归一化互相关[2，11]秩变换（L1）[49]普查变换（汉明）[49]三元普查（L1，ε= 10）[36]归一化包络（L2）[3]归一化包络（L1）[3]我们的模型0.1660.4430.636 0.8190.1710.4500.633 0.8020.1680.4460.639 0.8240.1720.4510.633 0.8110.1790.4730.6630.8420.178个单位2016年12月31日0.1550.4320.633 0.8560.1650.4480.653 0.8704.2808.9814.347八七九四4.149八千七百四十4.1388.5583.7378.1263.645七八零四2.9455.6652.7315.2180.2410.6060.807 0.9551.6112.674D1D1D1D1ZNCC视差与校准SSD视差†[42]学习深度（Learn Depth） [9]我们的模型0.0640.1810.286 0.4480.0970.2620.393 0.54712.9117.537 11.3740.1080.2890.428 0.58611.3510.1640.4550.653 0.8852.2353.112I1我们的模型0.1150.3180.597 0.6914.321六点七三七表1.我们的模型结果和测试集上的基线，针对四个不同版本的自动对焦问题。最左边的一列表示问题类型，其中I* 表示绿色通道图像的全焦点堆栈在D* 中，双像素数据的全焦点堆栈被传递给算法。在D1中，随机选择的双像素焦点切片被传递给算法，在I1中，随机选择的绿色通道切片被传递。结2237果排序的RMSE独立为每个输入类型。每个指标的前三种技术都用单个切片技术拼凑在一起。A†表示结果是在整个图像的1.5倍裁剪内的补丁上计算的。我们证明，我们的方法是优于numer- ous基线的几个变种的自动对焦问题。我们使用与Middlebury立体数据集类似的误差度量[34]：其预测的焦点的斑块的分数2238(a) 双像素输入（b）基线（c）我们的（d）GT图7.使用学习深度[9]和我们的D1模型的定性结果。给定散焦的双像素块（a），基线预测散焦切片（b）;我们的模型预测与地面实况（D）相似的聚焦切片（C）。(a)原始输入（b）输入增亮（c）基线（d）我们的（e）GT图8.使用ZNCC视差作为基线和我们的D1模型对黑暗场景的示例补丁进行低光示例的定性结果。图像已被调亮以便于可视化。(a)输入堆栈I*（b）基线（c）我们的（d）GT图9.关于I* 的示例补丁（a）的定性结果。所有49个图像都作为输入传递。I* 基线平均局部标准距离Sq（σ= 4）的输出（b）失焦。由于局灶性呼吸欺骗了基于对比度的基线，因此输出中的暗图像内容我们的I* 模型的输出（c）与地面实况（d）相同。指数的误差不超过0、1、2或4，以及平均绝对误差（MAE）和均方根误差（RMSE）。对于焦点堆栈问题，所有算法都在测试集的所有元素上运行并聚合。对于单切片问题，将对所有k在Ik上运行算法。对于多步问题，测试集中的每个补丁将被评估49个不同的时间，不同的焦点指数作为起始位置。我们将模型的性能与广泛的基线进行比较。对于标记为I* 的基线，我们获取所有49个图像（即，两个双像素图像之和），评估每个图像的锐度度量，然后将得分最高的图像作为堆栈的预测焦深。这基本上是基于对比度的散焦深度。我们从最近的一份调查报告[29]中选取了最好的执行技术。标记为D* 的基线使用双像素图像作为输入。他们不是最大化对比度，而是试图在对焦图像的两个子图像相同的假设下，识别双像素焦点堆栈中的哪个切片具有最相似的左子图像和右子图像。因为在使用整个焦点堆栈的双像素自动聚焦或焦深方面几乎没有先前的工作，所以我们在立体图像匹配中使用经典技术来产生我们最大化的左右图像之间的相似性度量最后，D1基线尝试预测仅给定一个双像素图像对的聚焦指数。这些基线计算左视图和右视图之间的视差。由于这些基线缺乏整个焦点堆栈的全局知识，因此它们需要将这种差异映射到物理世界中的焦点距离的校准。这种校准是空间变化的，并且通常在视场的周边不太准确[42]。基于先前工作的两个基线仅在图像的中心1.5x裁剪中起作用。我们仅在作物区评估这些基线。这只会帮助那些基线，因为像局灶性呼吸和不规则的PSF这样的问题在外围更糟关于基线的说明，请参阅补充材料7.1. 性能表1给出了我们的模型在全焦绿色（I*）、全焦双像素（D*）、单切片绿色（I1）和单切片双像素（D1）问题上的性能。我们的D1模型显著优于其他单切片算法，RMSE为3.11，而最接近的基线值为11.351，MAE为2.235，而7.176。换句话说，基线平均错误了14.6%的焦点扫描，而我们学习的模型只有4.5%的错误。我们还证明了提高性能的全焦点扫描的问题，与1.60COM-2.06的平均本地Norm-Dist的MAE 我们的D* 模型也优于其类别中的基线，但表现与我们的I* 模型大致相同;尽管有更好的0内，1内和2内得分，但它的MAE和MSQE略低。在视觉比较中，我们观察到我们的两个全焦点模型产生的补丁在视觉上与地面实况非常相似，并且很少有明显的错误。这表明I* 和D* 都有足够的信息来进行准确的预测;因此，D* 中的附加信息并不提供显著的优势。7.2. 多步表2给出了多步问题的结果。将两个D1基线扩展为多步算法2239通过重新评估它们的前一次运行的输出结果。两者都从额外的步骤中得到了实质性的特别地，这些算法在具有较少散焦模糊的索引上更准确（接近地面实况的索引）。第一步用于将算法从高模糊切片移动到较低模糊切片，然后我们从I1模型中看到了类似的行为，它在第二步中也有了很大的我们将这种增益归因于解决焦点模糊模糊的模型，我们将在第7.4节中详细讨论。我们的D1模型改进了，但比其他技术的改进量要小，可能是因为它在第一步就已经有了很高的性能。它从第二个切片中获得的信息也比I1模型少得多，因为没有歧义需要解决。算法越高越好越低越好步骤数= 0≤1≤2≤4MAE RMSED1带校准的ZNCC差异120.0640.1810.286 0.4480.1000.2780.426 0.61712.91110.993D1学习深度（Learn Depth） [9]120.1080.2890.428 0.58611.3513.876七四一零0.172 零点四三三0.6180.802D1我们的模型120.164零点四五五0.6530.8852.2353.1121.9312.7720.201个单位0.5190.7230.916I1我们的模型120.1150.3180.597 0.6910.1380.3770.5670.8074.321六点七三七2.855四点零八表2.多步问题。请注意，D1学习深度模型在其评估的图像上使用1.5倍中心裁剪;它评估通常具有较少伪像的测试集的子集（例如，局部呼吸、径向畸变等）。7.3. 注册后的性能如第4节所述，局灶性呼吸可能导致基于对比度的技术出现错误在这里，我们估计这个问题的严重性，通过注册的焦点堆栈，以补偿焦点呼吸，然后重新评估注册的焦点堆栈上的算法算法越高越好=0 ≤1 ≤2 ≤ 4低越好MAE RMSE我我我*平均局部比率（σ= 2）[15]平均局部对数比（σ= 2）平均局部Norm-Dist-Sq（σ= 2）平均局部比（σ= 4）[15]平均局部对数比（σ= 4）小波和（σ= 3）[47]平均小波对数比（λ= 3）我们的模型0.2220.578 0.7760.9322.181 5.1842.176 5.1782.202 五点零九七1.9233.9201.916 三九一七2.0193.5582.0033.2391.570两千五百二十九0.222 0.5790.7760.9320.5760.773 0.9280.2210.2120.5650.7730.9400.2130.5660.774 0.9410.1940.5200.731 0.9220.1850.5040.718 0.9220.2510.6100.8090.957表3.与配准相关的消融研究。现有技术在焦点堆栈经历简单配准时表现更好。然而，我们在注册数据上训练的模型仍然比基线表现得更好。理论上，由于焦点呼吸引起的FoV变化可以使用由相机焦距校准的缩放和裁剪配准来去除。然而，在实践中，这种配准远非完美，并且可能将伪影引入到场景中。另外，焦距测量中的任何噪声意味着基于校准的配准可能是不完美的。为了评估这种方法，我们测试了两种不同的配准：一个缩放和裁剪的注册表(a)（b）第（1）款图10. (a)I1和D1对给定焦点切片25作为输入的贴片的预测进行建模。I1模型输出双峰分布，因为它努力消除可能产生相同焦点模糊的当前切片前面和后面的焦点指数之间的D1分布是单峰的，因为双像素数据有助于消除两者之间的歧义。对于同一块，I1模型对不同输入切片的预测在（b）中可视化。对于朝向近端或远端的焦点切片，模型正确地预测，因为两个候选索引之一位于范围之外，而对于中间的输入切片，模糊性是有问题的。在这个有问题的范围内，该模型倾向于预测与深度相对应的焦点指数，当在焦平面的错误侧时，将产生相同大小的混淆圈。通过报告的焦距校准的光栅，以及在缩放和裁剪配准参数上的网格搜索，以最小化图像之间的L2差异。我们注意到，这两种技术都导致配准消除了FOV中的一些但不是全部变化。表3显示了我们训练的模型的性能以及注册数据上的最佳对比技术。在配准焦点堆栈上运行时，大多数对比度算法都得到了改善这表明局部呼吸影响他们的表现。此外，我们在注册数据上训练和评估的模型优于在非注册数据上训练和评估的模型。7.4. 单层聚焦模糊模糊在单切片问题中，仅给出绿色通道的算法面临基本的模糊性：由于等式4中的绝对值，失焦图像内容可能位于焦平面的任一侧。另一方面，具有双像素数据的模型可以解决这种模糊性，因为双像素视差是有符号的（等式5）。这可以从表2中的I1与D1结果中看出，其中I1单步结果明显差于单步D1结果，但是对于两步情况，差异缩小，其中可以通过查看两个切片来解决模糊性。图10（a）中还显示了特定斑块的模糊性，其中I1模型输出双峰分布，而D1模型的输出概率为单峰。有趣的是，这种模糊性仅对于其中两个候选索引都是合理的焦点切片是有问题的，即，介于0和49之间，如图10（b）所示。2240引用[1] Sameer Ansari，Neal Wadhwa，Rahul Garg，and JiawenChen.多个分布式摄像机的无线软件同步。ICCP，2019年。[2] 丹尼尔岛Barnea和Harvey F.西尔弗曼一类快速数字图像配准算法。《计算机学报》，1972年。[3] 斯坦·伯奇菲尔德和卡洛·托马西。一个像素相异度测量，是不敏感的图像采样。TPAMI，1998年。[4] 马塞拉·卡尔·瓦霍，贝特朗·勒索，波琳·特鲁夫·埃佩鲁，还有阿尔曼·萨，还有弗雷德里克·香槟。离焦深度：散焦模糊如何使用密集神经网络改进3D估计？ECCV，2018年。[5] C.陈，S. Huang和H. H.尘增强相位检测自动对焦。ICIP，第41-45页，Sep. 2017年。[6] Chun-Hung Shen和H.H. 尘低对比度图像的鲁棒聚焦测量2006年国际消费电子会议[7] 劳尔·迪亚兹和阿米特·马奎尔。有序回归的软标签。CVPR，2019年。[8] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度NIPS，2014年。[9] Rahul Garg、Neal Wadhwa、Sameer Ansari和Jonathan T.巴伦使用双像素学习单相机深度估计ICCV，2019。[10] 保罗·格罗斯曼从焦点的深度。模式识别字母，1987年。[11] 玛莎·乔·汉娜立体图像中区域的计算机匹配。1974年博士论文[12] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2003年。[13] 塞缪尔 ·W. 放大图片创作者： Jonathan T. Barron ，Florian Kainz，Jiawen Chen，and Marc Levoy.用于移动相机的高动态范围和低光照成像的连拍SIGGRAPHAsia，2016.[14] Caner Hazirbas ， Sebastian Georg Soyer ， MaximilianChris-tianStaab，LauraLeal-Taix e'和DanielCremers。深度聚焦。ACCV，2018年。[15] 弗朗茨·赫尔姆利和斯特凡·谢勒。光学显微镜中具有误差估计的自适应聚焦形状2001年图像与信号处

下载后可阅读完整内容，剩余1页未读，立即下载