重新审视智能手机相机的自动对焦技术

15 浏览量更新于2023-10-13 收藏 2.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

重新审视智能手机相机Abdullah Abuolaim、Abhijith Punnappurath和Michael S. 布朗加拿大约克大学拉松德工程学院电气工程与计算机科学系{abuolaim，pabhijith，mbrown} @ eecs.yorku.ca抽象。智能电话上的自动对焦（AF）是确定如何移动相机镜头以在对焦中具有自动对焦能力的过程。AF系统所使用的底层算法（诸如对比度检测和相位差分）是良好建立的。然而，确定关于如何最佳聚焦特定场景的高级目标不太清楚。这在一定程度上是显而易见的，因为不同的智能手机相机采用不同的自动对焦标准;例如一些尝试保持中心的项目聚焦，另一些给予面部优先级，而另一些使整个场景的清晰度最大化。不同目标存在的事实提出了是否存在优选目标的研究问题。当AF应用于动态场景的视频时，这变得更加有趣。本文中的工作旨在重新审视AF的时间图像数据的上下文中的智能手机。作为这项工作的一部分，我们描述了一个新的4D数据集，提供访问一个完整的焦点堆栈在每个时间点的时间序列的捕获。基于此数据集，我们开发了一个平台和相关的应用程序编程接口（API），模拟真实的AF系统，将镜头运动限制在动态环境和帧捕获的约束范围内。使用我们的平台，我们评估了几个高层次的聚焦对象，并发现了有趣的洞察用户喜欢什么。我们相信我们新的时间焦点堆栈数据集，AF平台和最初的用户研究结果将有助于推进AF研究。关键词：自动对焦，焦点叠加，自动对焦平台，低层计算机视觉1介绍图像捕获中的关键步骤之一是确定要聚焦于场景的哪个部分在本文中，我们研究了智能手机摄像头的这个问题，因为智能手机现在代表了视频和图像捕获的主要形式，由摄像头组成。通过直接操纵镜头位置或通过在相机的所有自动对焦（AF）机制上点击镜头中的内部区域，可以在图像上显示手动对焦。AF的目标很简单。给定期望聚焦什么场景内容或图像区域的某个高级目标，AF系统试图2A. Abuolaim等人聚焦失焦失焦聚焦聚焦聚焦聚焦聚焦失焦0秒5秒8秒时间图1：使用Apple iPhone 7和Google Pixel来捕获经由平移台控制的相同动态场景。在捕获的视频中的不同时隙处，表示为0秒、5秒、8秒，清楚的是，每个电话正在使用不同的AF物镜。目前尚不清楚哪种是首选AF目标。这是一个具有挑战性的问题，因为很难访问给定场景的完整（和可重复）解决方案空间。移动镜头，使这些区域看起来最清晰。从光学观点来看，锐度与位于视场的边缘内的期望图像区域相关。与数码单反相机（DSLR）和傻瓜相机相反，数码相机在这方面是独特的，因为它们具有固定的光圈，因此景深仅限于镜头位置。用于确定图像清晰度的低级算法（例如，对比度检测和相位差）已得到很好的建立。更具有挑战性的是使用这些低级算法来实现时间图像序列中的动态场景内容的高级AF视频）。这从不同智能手机相机使用的各种不同AF标准中显而易见。图1示出了说明性示例。在该示例中，Apple iPhone 7和Google Pixel已经捕获了具有在平移台上移动的对象的场景。平移台和受控环境允许每个相机对相同的动态场景内容进行成像。我们可以看到，每个摄像机在视频中的相同时隙聚焦在不同的图像区域上。这引出了用户优选这两种方法中的哪一种的问题。从研究的角度来看，开发AF算法时的主要挑战之一是无法检查完整的解决方案空间，因为在每个时间实例处只能捕获固定的焦点位置虽然有可能捕获静态场景的完整焦点堆栈，但目前不可能捕获动态环境中的时间图像序列此外，在AF系统中存在除了在给定全焦点堆栈的情况下确定正确焦点位置之外的附加约束。例如，镜头不能被瞬时移动到Google Pixel苹果iphone7重新审视智能手机相机3正确的焦点位置;它只能在某个固定的时间量内向前或向后前进，并且在该时间量内，场景内容可以改变并且当前视频帧可以前进。缺乏对（1）时间焦点堆栈数据和（2）整体地结合镜头运动、场景动态和帧推进的AF平台的访问是我们工作的动力贡献这项工作的贡献是一个软件平台的AF研究和相关的4D时间焦点堆栈数据集。我们的AF平台允许以可重复的方式设计、测试和比较AF算法。我们的焦点堆栈数据集由33，000个全帧图像组成，包括10个时间图像序列，每个序列包含50 我们的软件平台提供模拟实时约束的AF应用程序编程接口（API），包括相对于场景运动和帧推进的镜头运动定时。此外，我们还对几种智能手机自动对焦算法进行了分析，以提出一组具有代表性的高级自动对焦目标。使用我们的平台和数据，我们已经实现了这些算法，以产生在真实手机上发现的类似输出，并使用结果进行用户研究，看看是否有任何偏好。我们的用户研究表明，整体镜头运动，而不一定是实际的场景内容的重点，是支配偏好的主要因素我们相信我们的数据集和软件平台将为重新审视AF研究提供进一步的机会2相关工作本节讨论与自动对焦和焦点堆栈数据集相关的工作自动对焦技术已经存在了几十年，关于现有自动对焦方法的全面讨论超出了本文的范围。在这里，我们提供了在智能手机设备中使用的方法的背景，并且与我们的平台相关绝大多数智能手机摄像头具有简单的光学系统，具有固定光圈，将焦点限制在镜头运动（而不是光圈调整）。有使用辅助硬件的主动AF方法，例如激光深度传感器;然而，本文仅关注依赖于从图像传感器捕获的数据的被动AF方法。存在两种主要类型的被动AF：相位差自动对焦（PDAF）和对比度检测自动对焦（CDAF）。PDAF在硬件/光学器件级别操作，并且旨在调整透镜位置，使得来自场景点的两条光线之间的相位匹配。PDAF硬件模块可以以两种方式设计：（1）如在较旧的DSLR相机中使用的具有线传感器的半子镜[1，2]和（2）在现代DSLR和智能手机相机中使用的传感器上双像素布局[3，4]。与CDAF相比，PDAF方法能够在单个处理步骤中近似最佳透镜位置;然而，单独的PDAF通常不足以给出准确的聚焦透镜位置。摄像头是DLSR和智能手机摄像头中最常用的方法。通过应用低级图像处理算法（即，梯度幅度分析）来确定单个图像的锐度或重新确定4A. Abuolaim等人场景12345678910例如图像类别NFFFNFFFFBNFFF相机固定移动固定移动固定纹理化背景✓✗✓脸✗✓✗✓✗✓运动开关13022视频长度21.6秒27.5秒29秒30.8秒39.1秒离散时间点51617191表1：AF数据集中的10个场景/图像序列参见第3.3表格和视频/图像序列描述的详细信息。表的最后一行，离散时间点，表示每个捕获的时间图像序列的全焦点堆栈的数量图像中的感兴趣区域（ROI）[5]。由于Cynomial只处理一张图像，因此需要来回移动相机镜头，直到图像清晰度达到最大值[6]。已经提出了许多不同的锐度测量，并且存在一些调查，以检查它们在各种条件下的性能[7，8]。大多数最近的智能手机相机使用所谓的混合AF，即利用PDAF和CDAF。特别地，混合AF首先执行PDAF以将镜头移动到接近最佳聚焦位置的位置，然后执行CDAF以精确地微调镜头位置以达到最佳聚焦位置[9]。焦点堆栈数据集除了从课堂项目和摄影爱好者在线获得的各种临时焦点堆栈数据外，很少有正式的焦点堆栈数据集可用于学术研究。两个值得注意的数据集是由Mousnier等人。[10] Li et al.[11]第10段。[ 10]中的数据集提供了30个大小为1088×1088像素的静态场景的焦点堆栈。[ 11]中的数据集捕获了100个图像大小为1080×1080像素的焦点堆栈，同样是静态场景。每个焦点堆栈的图像数量范围从5到12。这些数据集不用于AF研究目的，而是针对切向相关主题，例如数字重聚焦[12，13，14]，散焦深度[15，16]和焦点堆栈深度[17]。此外，这些数据集中的焦点堆栈是基于Lytro光场相机合成生成的[18，19]。不幸的是，消费级Lytro设备不支持视频捕获。新的LytroCinema确实提供视频光场捕获，但租用这种设备的成本高得惊人（数十万美元）。此外，Lytro Cinema并不代表智能手机。与[10，11]中的数据集不同，我们的数据集提供了重新审视智能手机相机5图2：捕获环境的俯视图。每个镜头都包含场景组件：线性载物台致动器、智能手机相机、三脚架、对象和场景背景。一个更大的焦点堆栈的50个图像的大小为3264×1836像素，并由10个时间图像序列与多达90个完整的焦点堆栈每个序列。3AF分析和数据集采集3.1捕获环境为了开始我们的工作，我们构建了一个环境，允许以可重复的方式对具有不同内容和移动对象的场景进行成像。所有视频和图像均在室内使用直流（DC）光源捕获，以避免交流灯的闪烁效应[20]。为了控制场景运动，我们使用了三个由 ST-4045-A1 电机驱动器和Arduino/Genuino Uno微控制器控制的DIY-CNC线性载物台执行器。每个线性平台的行程长度为410mm，使用Nema 23 24V 3A 1N.M的步进电机。三个线性平台致动器可以组合在一起以提供更多的自由度我们校准了我们的电机，以允许106个相等的3.87mm的步长，每个步长具有9.35mm/s的运动速度。3.2智能手机AF在这种环境下，我们分析了三款具有代表性的消费智能手机（AppleiPhone 7，Google Pixel，Samsung Galaxy S6）的性能，以观察它们在不同场景下的行为。相机被定位成使得它们的视场尽可能相似视频捕获的帧速率考虑到相机之间的不同光学系统和图像格式，视场中存在轻微差异，但这些差异对AF结果的影响可以忽略不计。我们尝试了各种场景配置，例如带有人脸的小雕像的如图1所示，我们观察到不同手机的AF行为不同例如，在一个实验中，我们设置了一个纹理6A. Abuolaim等人...：{1，：{1，：{1，11 122233315151图3：场景3的时间图像序列的示例焦点堆栈由I1，…，我有50个年龄段的孩子。我我背景和纹理对象相对于相机从左到右水平移动。我们观察到，对于Google Pixel和三星Galaxy S6 Edge，前景对象只有在图像中心内部时才能对焦;否则它就会失焦。然而，对于由Apple iPhone 7捕获的相同设置在另一个带有人脸的小雕像的实验中，我们观察到三款智能手机都能检测到视频中的人脸，但只有苹果iPhone 7关注人脸区域。3.3场景和图像序列捕获根据我们的观察，我们确定了10个代表性场景，这些场景被分类为三种类型：（1）不包含面部的场景（NF），（2）在前景中具有面部的场景（FF），以及（3）在背景中具有面部的场景（FB）。对于这些场景中的每一个，我们允许在纹理背景，相机是否移动，以及场景中有多少类型的对象改变它们的方向（称为运动开关）方面进行不同的安排表1总结了该信息。图2显示了几个场景的物理设置对于这10个场景中的每一个，我们捕获了以下数据。首先，用三个智能手机摄像头对每个场景进行成像。此视频捕获有助于建立在手机上使用的高级自动对焦目标，并确定捕获整体场景动态所需的近似视频长度这些视频的持续时间见表1。由于对补充材料的限制，提供了视频的代表性下采样版本接下来，我们为这些场景中的每一个捕获时间焦点堆栈。我们将这些称为图像序列以将它们与实际视频区分开。为了捕获每个图像序列，我们以定格方式复制视频捕获。具体地，场景中的对象在连续时间点之间以3.87mm的运动增量移动。我们使用三星Galaxy S6 Edge使用自定义Android应用程序执行图像捕获，该应用程序修复了所有相机设置（例如，ISO、白平衡、快门速度）。我们的应用程序还控制镜头位置，使得对于每个时间点ti，我们捕获50个图像的焦点堆栈，其中相机镜头以线性步长从其最小位置移动到最大位置。表1中的最后一行还示出了每个捕获的时间图像序列的时间点的数量在本文中，我们使用术语时间重新审视智能手机相机7我全局（GB）9个对焦点（9 FP）51个对焦点（51 FP）面部区域（FR）图4：我们的四个AF目标。以绿色框为界的区域是ROI的候选者点表示我们的定格数据中的时隙。我们还使用术语帧来表示实时视频帧，无论是来自真实视频还是由我们的AF平台产生的输出。图3示出了具有50个时间点的场景2的示例。图3中的每个时间点ti具有50个图像的焦点堆栈，其被表示为Ij，j = l，…50，其中i表示时间点，j索引与特定镜头位置相关联的焦点堆栈图像。4AF平台和API我们首先简要讨论我们的平台如何仿真PDAF和CDAF，因为这些是任何AF系统的低级算法接下来是对整个平台和相关API的讨论。4.1PDAF/CDAF仿真CNOW和PDAF过程可分为三个主要步骤：首先，基于高级AF物镜确定期望的感兴趣区域（ROI）;第三，调整镜头位置，使焦点最大化。基于从我们的三个智能手机相机在10个场景上所捕获的视频的观察到的行为，我们在ROI方面确定如下的四个高级AF目标：（1）针对整个图像的全局ROI;（2）具有9个ROI的9个焦点的布局;（3）针对整个图像的全局ROI。（3）具有51个ROI（类似于全局ROI）的51个焦点的布局;（4）和面部区域ROI，其中检测到的面部的最大区域被设置为ROI。图4显示了每个目标的ROI（s），并以绿色框为界。我们的AF平台提供了手动指定ROI的灵活性;然而，基于上述四个目标，我们提供这些作为用户可以选择的预置。为了便于我们的数据集的人脸区域目标，我们手动标记的人脸区域，以避免任何人脸检测算法的错误。我们的平台允许通过API调用检索标记的面部区域;然而，当选择预定义的面部区域时，会自动执行此调用关于CDAF的锐度测量，我们提出了两个梯度，分别是梯度、梯度和梯度。根据Loren在[ 7]中的发现，所述S 〇 be 18A. Abuolaim等人C球API调用描述返回值时钟周期setScene（intsc）选择10个场景之一，sc= 0，...，9null0setRegion（int[]reg）通过选择一个预定义区域来设置区域：全局（reg=[0]）、9个焦点（reg=[1]）、51个焦点（reg=[2]）或面部区域（reg=[3]），或者通过传递一个大小为r×4的数组，其中r是数字的区域。每个区域具有偏移量（x，y）、宽度和高度。null0setSharpMeasure（intsh）选择两个预定义锐度度量之一：Sobel（sh=0）或Prewitt（sh=1）。null0public intfindDuplicate（inti）选择三种预定义内核大小之一：3（ker=0），5（ker=1）或7（ker=2）。null0recordScript（）开始在脚本中记录后续API调用null0endScript（）停止在脚本中记录后续API调用null0callPD（intp）计算相位差并返回近似值最佳透镜位置p±p。[C loc，C glob，Ij、j、p]C球1callCD（函数fun）允许用户将自定义对比度检测AF实现作为一个功能。默认Sobel/Prewitt，内核大小由用户设置。fun是一个写在Python格式。[C loc，C glob，Ij，j，得分]C球1（如果默认）或由用户move（）将镜头向前移动一步。[C loc，C glob，Ij，j]C球1moveLensBackward（）将镜头向后移动一步。[C loc，C glob，Ij，j]C球1noOp（）不做手术。无镜头移动。用于递增C loc为了在全球时间C glob中移动。[C loc，C glob，Ij]C球1getFaceRegion（）检测人脸并返回人脸区域intface[]（如果存在）。face[]是一个大小为m×4的数组，其中m是面区域的数量。每个面部区域具有偏移（x，y），宽度和高度。[C loc，C glob，Ij，face[]]C球0表2：API调用及其参数和返回值。每个API调用都会产生与内部时钟周期数相关的成本C锁定当前时钟周期，Cglob当前时间点，Ij当前Cglob和当前镜头位置j，p最佳透镜位置，并且score是梯度能量的分数（默认或由用户定义有关更多API详细信息，请参见补充材料在其他锐度测量方法中是准确的。这些过滤器的大小也可以控制。4.2AF平台和API调用我们的AF API旨在模拟智能手机中的AF。平台和API相对于场景运动和视频帧速率对镜头运动定时施加约束。因此，我们的API和平台具有本地和全局虚拟时钟。表示为Cloc的本地时钟模拟智能电话上的实时内部时钟，而全局时钟Cglob模拟真实世界的定时（场景动态）。由于三星Galaxy S6被用来捕获我们的数据集，我们测量了它的性能，以建立本地和全局时钟之间的映射。具体来说，我们测量了相机在拍摄视频时通过将镜头扫到这个位置来响应不同焦点位置处的场景变化所需的时间为此，我们设置了两个对象：有纹理的平坦背景和有纹理的平坦前景;两者都在不同的深度层（一个近，一个远）处平行于照相机平面。背景对象出现在视频捕获的开始并且处于焦点中;然后，在短暂的延迟之后，我们立即显示更靠近相机的前景对象，其重新审视智能手机相机9使AF系统将焦点从背景移动到前景。之后，我们将捕获的视频分解为帧，并计算从背景移动到前景需要多少帧。对于完全相同的场景，我们收集了一个完整的焦点堆栈（50张图像），如前所述。为了获得镜头移动了多少步，我们使用焦点堆栈来计算背景和前景物体在哪些镜头位置对焦。一旦我们获得了所需的镜头步数和帧数，我们可以从透镜步长到帧单位（33.33毫秒）进行计算。因此，我们估计三星Galaxy S6 Edge需要42毫秒来移动镜头一步（包括图像捕获和AF处理）。平移载物台电机移动一步（3.87mm）所需的时间回想一下，实时的单个平移载物台电机步相当于我们的停止运动设置中的离散时间点。因此，允许透镜在一个时间点内移动的步数s等于414/42 ≈ 9。86步。基于该近似计算，我们将s固定为10步，并且我们将s与本地时钟C_loc相关（一个透镜移动花费一个时钟周期）。因此，对应的全局时钟C_glob每10个时钟周期递增。因此，我们的关系是：10 Cloc使Cglob提前1。API我们的API基于Python，提供12个原语调用，如表2所示。更多详情请参见补充材料。recordScript（）和endScript（）API调用用于保存API调用，并在以后加载它们以供用户算法回放。这些调用也是完整的，以便在例如透镜位置、在每个时钟周期进行的API调用和所选择的ROI的算法的性能的基础上进行捕获我们的callPD（intρ）AP I cal用于模拟大多数高端智能手机摄像头上可用的PD AF。相机上的真实PDAF例程能够在低级原始图像的单个处理过程内找到接近焦点堆栈中的最佳焦框的期望ROI的近似透镜位置在实际相机上，PDAF结果是在硬件级别上基于传感器上双像素二极管的专有布局获得的。我们无法访问此数据，并将其作为焦点堆栈数据集的一部分因此，我们替代地通过在由全局时钟C glob定义的当前时间点t i处在整个焦点堆栈上运行针对指定ROI的Cclock来仿真相位差的结果。如前所述，首先执行真实相机PDAF以将镜头移动到更接近最佳聚焦位置;然后通常执行CDAF以细化镜头位置。为了模拟这种接近最优性，我们在所获得的最优聚焦位置上应用不准确度容限ρ。该不准确度容差允许估计的透镜位置随机地位于最佳±[0，ρ]附近，并且是可以传递给API的参数。4.3示例实现Alg. 1提供了基于我们的API的简单伪代码，以演示如何实现基于场景4的全局目标的AF算法。中提供了真实的Python示例以及脚本记录和视频输出10A. Abuolaim等人我我我我我算法1使用最佳PDAF1：启动API2：setScene（Scene4）3：setRegion（全局）4：recordScript（）//创建脚本并开始记录API调用5：虽然没有结束的时间点做6：如果时间点ti递增，则7：Cloc，Cglob，Ij，j，p←callPD（0）8：否则，如果最佳透镜位置p>当前透镜位置j，则9：Cloc，Cglob，Ij，j←moveLensForward（）10：否则，如果最优透镜位置p当前透镜位置j，则<11：Cloc，Cglob，Ij，j←moveLensBackward（）12：否则，如果最佳透镜位置p==当前透镜位置j，则13：Cloc，Cglob，Ij←noOp（）14：如果结束第15章：我是你的女人//将获取的图像写入视频16：结束while17：endScript（）//关闭并总结脚本（例如，镜片移动次数）补充材料。在这个简单的示例中，我们将ρ设置为零，这导致callPD（）调用返回最佳镜头位置。基于我们在Alg.1，时间点ti将由API每10个时钟周期递增（如之前在第4节中所讨论的）。2）的情况。在每个时钟周期，API返回一个图像，这意味着我们将在每个ti处获得10个图像。因此，API针对特定场景返回的图像总数等于10×n，其中n是以时间点为单位的场景大小。为了生成场景的输出视频，我们在每个时钟周期将每个图像写入视频对象。运行Alg. 1将返回关于场景4的全局目标的性能的元数据。在图5中，我们用深蓝色实线显示了全局物镜（GB）在本地时间（时钟周期）上的镜头位置。从图5中，我们可以分析透镜随时间的移动，其中GB具有较少的透镜移动和较少的振荡。图5还示出了场景4的其他物镜的镜头位置随时间的变化。5AF偏好我们进行了一项用户研究，以确定是否存在对不同AF方法的任何特定偏好。如图5所示，AF平台为我们提供了跟踪每种方法的精确镜头移动的机会晶状体运动被视为潜在因素。准备对于这项研究，我们定义场景数，物镜和镜头运动作为我们的自变量;用户偏好是我们的因变量。我们采用了强制选择配对比较方法，要求研究中的每个参与者从一对视频中选择一个首选视频给定对中的两个视频属于相同场景，但具有不同的AF目标。我们用上了所有重新审视智能手机相机11中国（19）9FP（25）51FP（118）法国（61）（0）2228场景424201612840时钟周期cloc图5：该图显示了每个物镜测试场景4每个时钟周期的镜头位置。镜片移动的总次数显示在括号中。包括在整个序列上不移动透镜的失焦物镜（OF）对于场景4，51个焦点（51个FP）物镜振荡最多。对于面部区域（FR）物镜，面部直到时钟周期70全球（GB）和9 FP物镜往往振荡比其他更少的镜头运动。我们的研究数据集中的10个场景。有六个场景，有脸，有四个有脸。对于具有面部的场景，针对AF的效果是全局、全局、9个焦点、51个焦点和面部区域。没有人脸的场景只有前三个AF物镜。我们通过我们的API并使用我们的数据集和Alg的1（图6中示出了来自场景1的示例视频帧）。由于补充材料的限制，提供了用户研究视频的代表性此外，对于每个场景，我们生成了一个失焦视频，其中所有场景元素都失焦。那些失焦的视频是通过我们的API生成的场景结束的时间点。然而，对于场景6，我们省略了该物镜，因为不存在使所有场景元素失焦的镜头位置。因此，总共有五个场景，具有五个AF物镜（具有被去除的离焦），以及另外五个。esΣwithon.lyΣforourAFobjectives.配对比较的总数为5 ×5+ 5 ×4=80。程序我们收集了10个意见，每个视频对从80名参与者（34名女性和46名男性），年龄从18岁到50岁。向每个受试者展示以随机顺序选择的10个视频对我们设计了一个简单的图形用户界面，允许用户查看视频对，一对接一对，并轻松检查AF行为的差异。该界面允许参与者在他们做出选择并进行到下一对之前观看当前对中的两个视频任意次数补充资料中提供了我们界面的快照调查平均需要三到五分钟完成。实验在室内进行，具有校准的监视器和受控的照明。结果回想一下，我们的场景被归类为“猫”。1：没有面部的场景（NF），类别2：在前景中具有突出面部的场景（FF），以及猫。3：人脸在背景中的场景（FB）。对于每个类别，我们汇总了镜头位置j05010015020025030035040045050012A. Abuolaim等人图6：由我们的AF平台使用随时间应用于场景1的不同物镜生成的示例输出视频帧。有关其他场景的其他结果，请参见补充材质。用户通过对每个AF目标优选于任何其他目标的次数进行计数来投票到表示用户偏好的总得分中。这些结果见图7和图8。在图7中，在第一列中，我们示出了每个类别的每个AF目标的平均用户偏好（即，在场景上聚集）。我们可以看到，对于NF视频，全局（GB）AF物镜是最优选的。对于FF视频，面部区域（FR）AF物镜是最优选的。对于FB视频，在三个物镜GB、51个聚焦点（51FP）和FR之间没有强烈的偏好，但是最优选的是GB，其次是FR。此外，我们计算了这些结果的95%置信区间，如误差条所示，其指示结果的统计学此外，图7右侧的曲线图表示针对单独场景的每个目标的用户偏好（下部曲线图），其中针对三个类别中的每一个具有对应数量的镜头移动（具有灰色条的上部曲线图）。单独的场景图也证实了除场景9之外的所有情况的汇总图的观察结果。为了检查用户偏好与每个类别的镜头移动次数之间的相关性，我们绘制了用户偏好与镜头移动次数之间的关系。每个类别的镜头移动，如图8所示。我们看到，用户偏好和镜头移动之间存在明显的相关性，这表明用户倾向于更喜欢镜头移动较少的物镜。这由图上所示的负相关系数指示。对于前景中包含突出面部的第二类，结果表明用户更喜欢锁定面部的面部AF，即使需要更多的镜头运动来实现此目标。这种投票模式可以在图7的第二行中看到，其中FR AF物镜比具有最小镜头运动量的GB AF获得更高百分比的投票还要注意的是，51个对焦点（51FP）物镜的数量最高7218832837051个AF点9个AF点全球重新审视智能手机相机1310.80.60.4猫：没有脸1501005001GB9FP 51FP FR OF场景1GB9FP 51FPFR的场景2GB9FP 51FPFR的场景5GB9FP 51FPFR的第九0.20GB9FP51FPFR的0.50150GB9FP 51FP FR OF场景1GB9FP 51FPFR的场景2GB9FP 51FPFR的场景5GB9FP 51FPFR的第九10.80.60.4Cat：LLP 0011005001GB9FP 51FP FR OF场景3GB9FP 51FPFR的场景4GB9FP 51FPFR的场景6GB9FP 51FPFR的场景100.20GB9FP51FPFR的0.50GB9FP 51FP FR OF场景3150GB9FP 51FPFR的场景4GB9FP 51FPFR的场景6GB9FP 51FPFR的场景1010.80.60.4Cat：LLP 0011005001GB9FP 51FP FR OF第七GB9FP 51FPFR的场景80.20GB9FP51FPFR的0.50GB9FP 51FP FR OF第七GB9FP 51FPFR的场景8图7：针对三个场景元类别的AF物镜的用户偏好：针对AF物镜的无面部（NF）、前景中的面部（FF）和背景中的面部（FB）：全局（GB）、9个对焦点（9FP）、51个对焦点（51FP）、面部区域（FR）和失焦（OF）。左列显示平均用户偏好。右侧的小图显示了各个场景的用户偏好（下部图）和镜头移动（灰色上部图）。并且是最不优选的。在第三类包含在背景中的人脸的情况下，用户似乎没有任何强烈的偏好，如通过跨越51个FP、GB和FR的投票的几乎相等的分布所看到的，所有这些有趣地具有大致相同的镜头运动量（图7中的第三行）。同样重要的是要注意，与我们对前两个类别的发现一致，具有最高透镜移动量的物镜（在这种情况下是9个焦点（9FP）物镜）是最不优选的。离焦（OF）物镜在所有三个类别中是优选最少的，尽管它具有最少量的透镜运动。这与场景的至少一部分必须对焦的常识一致，并且简单地最小化镜头运动的量不会引起更高的偏好。平均用户偏好平均用户偏好平均用户偏好用户偏好镜头移动次数用户偏好镜头移动次数用户偏好镜头移动次数14A. Abuolaim等人目标-猫：无脸1目标-Cat：Face前景1目标-目录：面背景10.80.80.80.60.60.60.40.40.40 50 100透镜移动0 50 100透镜移动0 50 100透镜移动图8：用户偏好与用于三个场景元类别的AF物镜的镜头移动的数量之间的关系。左：无面（ NF ）。中间：前景中的面部右：背景中的人脸（FB）。6讨论与总结本文开发了一个新的软件平台和数据集，专注于智能手机摄像头的视频捕获自动对焦。为此，我们构建了一个硬件设置，允许动态场景准确地“重播”。使用该环境，我们分析了代表性的智能手机摄像头AF，其具有不同的智能手机、背景我们还用离散时间点捕获了这些场景，产生了用于AF研究的4D时间焦点堆栈数据集。整个数据集由33，000个智能手机摄像头图像组成，并将公开提供。我们还开发了一个自动对焦平台，允许在工作相机系统的内容内开发自动对焦算法。API调用允许算法模拟镜头运动、图像访问和低级功能，例如相位和对比度检测。该平台还限制AF算法在真实相机环境内操作，其中需要直接与系统时钟周期和场景运动相关的镜头运动来访问焦点堆栈中的不同图像从我们的角度来看，AF的结构包括四个高级别的AF对象-N个对象、全局、9个焦点、51个焦点和Face Region。使用我们的自动对焦平台，我们实现了这些高级自动对焦目标，以产生在用户研究中使用的几个视频输出。由于我们的AF平台允许对底层AF算法进行准确分析，因此我们能够确定用户偏好与整体镜头运动的相关性高于所使用的实际场景物镜。对于具有面部的场景，聚焦在面部（当足够大时）优先，其次是镜头运动的量。虽然这些发现有些直观（例如，没有人喜欢镜头抖动太多的场景），据我们所知，这是第一个以受控方式确认这些偏好的研究。我们相信能够访问我们的时间焦点堆栈数据集和AF平台将是一个受欢迎的资源for the research研究community社区.致谢本研究部分由Canada First Research Excellence Fund for the Vision资助：科学应用（VISTA）计划和NSERC发现补助金。相关系数=-0.87GB9 FP51 FP相关系数=-0.28GB9 FP51 FPFR相关系数=-0.99GB9 FP51 FPFR用户偏好用户偏好用户偏好重新审视智能手机相机15引用1. Ohsawa，K.：焦点检测设备和操作方法（1996）美国专利5，530，513。2. 井上D.高桥，H.：焦点检测装置和使用相同装置的相机系统（2009）美国专利7，577，349。3. S'liwin'ski，P.， Wachel，P. ：一个简单的应用程序，用于对客户端进行同步检测。ing算法计算机与通信学报1（06）（2013）114. Jang，J.，Yoo，Y.金，J.，Paik，J.：基于多尺度特征提取和相位相关匹配的传感器自动聚焦系统。传感器15（3）（2015）57475. Jeon，J.，李，J.，Paik，J.：基于最优离散余弦变换系数的无监督自动聚焦鲁棒聚焦度量。IEEE Trans. on Consumer Electronics 57（1）（2011）6. Vuong，Q.K.，Lee，J.w.：基于模糊检测的自动聚焦初始方向和速度判定系统。在：消费电子（ICCE），2013年IEEE国际会议。（二零一三年）7. 石磊：自动对焦调查：算法的比较。在：数码摄影 III. 第 6502 卷。（2007）65020B8. Mir，H.，徐，P.，Van Beek，P.：对数码摄影的聚焦措施进行了广泛的实证评估数码摄影X.第9023卷。（2014）90230I9. Nakahara，N.：用于相机的被动自动聚焦系统（2006）美国专利7，058，294。10. Mousnier，A.，Vural，E.，Guillemot，C.：部分光场层析重建从一个固定的相机焦点堆栈。arXiv预印本arXiv：1503.01903（2015）11. Li，N.，是的，J.，Ji，Y.，Ling，H.Yu，J.：光场显著性检测在：CVPR中。（2014）28 0612. Baxansky，A.：Apparatus，method，and manufacture for iterative auto-focususing depth-from-defocus（2012）美国专利8，218，061。13. 张伟，詹伟康：单幅图像重新聚焦和散焦。IEEETrans.onImageProocesssing21（2）（2012）87314. 曹玉，Fang，S.，Wang，Z.：数字多聚焦从一个单一的照片采取了未经校准的传统相机。IEEE图像处理学报22（9）（2013）370315. Tang，H.Cohen，S.，普莱斯BSchiller，S.，Kutulakos，K.N.：野外离焦深度在：CVPR中。（2017年）16. Alexander，E.，Guo，Q.，Koppal，S.，Gortler，S.，Zickler，T.：聚焦流：用聚焦和聚焦差测量直径和速度。 In：EECV. （2016）66717. Suwajanakorn，S.，埃尔南德斯角Seitz，S.M.：移动电话的景深。 In：CVPR. （2015）349718. 我来了，M。：Lightfildsandcommputtatioalimaging. 《普通法》39（ 8）（2006）4619. Ng ， R. ，莱沃， M.我知道了， M.你好 GH 〇 r 〇 witz ， M. ，Hanrahan ，P. ：使用手持式全光相机的现场摄影。 Computer ScienceTechnicalReprtCSTR2（11）（2 0 05）1-1120. Sheinin，M.，Schechner，Y. Y.，Kutulakos，K.N.：电网上的计算成像。在：CVPR中。（2017年）

下载后可阅读完整内容，剩余1页未读，立即下载