新型光场相机特征检测与描述符：LiFF

198 浏览量更新于2023-10-18 收藏 3.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8042LiFF：光场的尺度和深度特征Donald G. Dansereau1，2，Bernd Girod1，and GordonWetzstein11斯坦福大学，2悉尼大学donald. sydney.edu.au摘要特征检测器和描述符是许多高级任务构建的关键低级视觉工具。不幸的是，这些在具有挑战性的光传输效应（包括部分遮挡、低对比度和反射或折射表面）的存在下失败。基于新兴光场相机提供的空间-角度成像模式，我们引入了一种新的计算效率高的4D光场特征检测器和描述符：Liff. LiFF是尺度不变的，并利用全4D光场来检测对视角变化具有鲁棒性的特征。这对于运动恢复结构（SfM）和匹配场景的视点上的特征的其他任务特别有用。当使用LiFF而不是领先的2D或4D特征时，我们通过SfM展示了显著改善的3D重建，并表明LiFF比领先的4D方法快一个数量级最后，LiFF固有地估计每个特征的深度，为基于光场的SfM的未来研究开辟了道路。1. 介绍特征检测和匹配是计算机视觉中广泛任务的基础。图像配准、姿态估计、3D重建、位置识别、这些的组合，例如，运动恢复结构（SfM）和同时定位和映射（SLAM）以及大量相关任务直接依赖于能够识别和匹配图像中的特征。虽然这些方法在一系列应用中相对稳健地工作，但由于在具有挑战性的条件下性能差，有些方法仍然遥不可及即使是不常见的故障也是不可接受的，就像自动驾驶一样。最先进的功能在具有挑战性的条件下失败，包括自相似，遮挡丰富和非朗伯场景，以及在低对比度的情况下，包括低光和散射介质。例如，在图1中的场景中的自相似性和遮挡的1导致COLMAP [35] SfM解决方案失败。在计算负担和鲁棒性之间也存在图1.（左）COLMAP的运动恢复结构（SfM）解决方案未能使用SIFT重建，但使用LiFF成功重建的场景的五个视图之一;LiFF特征具有定义明确的尺度和深度，以光场斜率测量，揭示场景的3D结构-请注意，我们在SfM解决方案中没有使用深度。代码和数据集在http://dgd.vision/Tools/LiFF，数据集详细信息见补充信息。在给定足够的计算的情况下，可以理解异常丰富的特征集，但是更希望从更高质量的特征开始，从而减少计算负担、故障概率、功耗和等待时间。光场（LF）成像是计算机视觉中的一种成熟工具，在计算复杂性和对挑战性场景的鲁棒性方面具有优势[7，10，29，38，48]。这是由于比传统相机更有利的信噪比（SNR）/景深折衷，以及LF固有地支持的丰富深度、遮挡和原生非朗伯表面捕获。在这项工作中，我们建议直接从4D LF中检测和描述斑点，以提供与领先的2D和4D替代方案相比更具信息性的功能。正如尺度不变特征变换（SIFT）检测具有良好定义尺度的斑点一样，所提出的光场特征（LiFF）识别场景中具有良好定义尺度和良好定义深度的斑点。随着视点改变其外观的同时，部分遮挡的明确特征通常无法通过2D方法检测到，但可以通过聚焦部分遮挡物来通过LiFF检测到。8043最终，LiFF功能导致更少的误配准，更强大的行为，以及比领先的2D和4D方法更完整的3D模型，允许在更广泛的条件下操作。根据最近的工作比较手工制作和学习的功能[36]，我们评估了LiFF的低级别检测和通过SfM进行3D点云重建的高级任务。LiFF功能适用于出现挑战性条件的情况，包括自动驾驶、无人机交付、监控和基础设施监控，其中天气和低光通常使视觉复杂化。它还开辟了一系列应用，其中基于特征的方法目前没有采用，由于其成功率低，包括医疗成像，工业场所与能见度差，如地雷，并在水下系统。这项工作的主要贡献是：• 我们描述了LiFF，一种新的特征检测器和描述器，它比领先的4D方法计算成本更低，并且原生地提供深度信息;• 我们证明了LiFF在低SNR情况下与竞争的2D和4D方法相比具有更高的检测率;• 我们表明，LiFF扩展了SfM可以可靠工作的条件范围，在重建性能上优于为了评估LiFF，我们收集了一个大型多视图LF数据集，其中包含超过800个场景的4000多个LF。这是第一个大型数据集，以前的例子仅限于每个场景的单个LF [39]。我们希望LiFF和附带的数据集将刺激在特征检测、配准、插值、SfM和SLAM方面的广泛研究。2. 相关工作特征检测和匹配2D特征检测器，如SIFT [25]，SURF[2]，FAST [33]和ORB [34]，在许多计算机视觉算法，包括SfM，SLAM，视差估计和跟踪工具。这些应用中的许多依赖于同一场景的不同视点之间的匹配特征不幸的是，这种匹配通常是不可靠的，因为类似的空间结构可能在同一场景中出现多次，并且诸如部分遮挡和镜面反射的视图依赖效应使得特征从不同的视角看起来不同。为了可靠地匹配特征，必须施加附加的几何约束，例如经由光束法平差，但是这在计算上是昂贵的，严重影响运行时间、所需的存储器和功率。从RGB-D图像进行3D特征检测可能比2D特征检测更稳健，如在对象检测和分割[17]以及SLAM [12]的背景下所示。而不是使用RGB-D数据，3D特征检测器也可以直接在点云上操作[16，40，55]，同时提供类似的好处。然而，点云通常在常规成像系统中不可用，并且RGB-D数据通常不处理部分遮挡和其他视图相关效应。LF固有地捕获结构化的4D表示，其包括视图相关效果、部分遮挡和深度。一些现有的作品触及利用这些特征进行特征检测和描述。Ghasemi等人[14]利用LF中的深度信息来构建一个全局的、尺度不变的描述符，用于场景分类，尽管它们没有解决3D重建所需的局部特征。Tosic等人[44]使用LF尺度和深度来导出边缘敏感特征检测器。我们的重点是斑点检测，而不是边缘检测，因为它是更容易唯一地匹配斑点跨视点，使其适合于更大的一组任务，包括3D重建。从LF中提取特征的主要方法是在子图像上运行2D检测器，然后通过与对极几何学的一致性来巩固检测到的特征例如，Teixeira等人[42]提出了在2D子图像上重复SIFT的特征检测，然后在2D对极切片上进行合并。在探索LF SfM中，Jo- hannsen et al.[20]在子图像中提取 SIFT 特征，然后使用 4D LF 几何体合并它们。Zhang等人[54]证明了通过检测子图像中的2D线段，然后应用高阶合并步骤，可以将线和平面对应最后，Maeno et al.[26]和Xu et al.[53]通过使用光流跟踪LF的2D特征来检测折射物体。然后，它们强制执行4D对极几何来检测折射特征。虽然这些方法在细节上有所不同，但它们都从根本上受到它们所依赖的2D检测器性能的限制。我们将这些称为重复的2D检测器，并在这项工作中与重复的SIFT进行直接比较。我们发现，LiFF在检测和描述特征时同时考虑了所有子图像，因此比重复的2D方法具有更高的性能由于重复的2D探测器在方法上不那么直接，因此它们提供了更多需要调谐的参数最后，在视点之间重复SIFT是一个高度冗余的操作，我们将证明LiFF的计算复杂度显著降低。光场成像LF [15，23]包含关于场景中的光的4D空间-角度信息，并且可以用相机阵列[51]或配备有小透镜阵列[1，8，31]或编码掩模[28，45]的传感器记录。LF成像的详细概述见[19，50]。到目前为止，LF图像处理已经应用于各种应用，包括基于图像的渲染[9，22，23]，8044拍摄后图像重新对焦[13，30]，SfM [20]，镜头aber-定量校正[18]、空间[3]和时间[46]超分辨率、视频稳定[37]、运动去模糊[38]和深度成像[24，41，43，47，49]。在这项工作中，我们解释了强大的LF特征检测和匹配，以改善重建，包括SfM的应用程序。约定在这项工作中，我们考虑两个平面参数化的LFL（s，t，u，v）与Ns×Nt视图的Nu×Nv像素每个[7，23]。3D空间中的点在LF中显示为一个平面，其斜率与这一点使用采样的LF会在斜率和深度之间引入未知的比例因子在下文中，我们参考斜率，理解其可以经由相机校准映射到深度[4，6，52]。3. 光场特征检测我们从著名的SIFT特征检测器开始开发，并将其扩展到4D LF。我们从SIFT开始，因为它在重建应用中占主导地位[36]。我们的关键见解是，SIFT在2D图像平面中定位具有明确尺度和位置的斑点，而LF提供了在3D空间识别具有明确尺度和位置的斑点的能力。在极值检测之后，SIFT通过以下步骤进行：子像素精确的特征定位、可以触发斑点检测过程的边缘特征的拒绝、以及允许旋转不变性的主导取向的估计最后，从边缘方向直方图构造图像描述符。LiFF与这些步骤的区别仅在于检测和描述符阶段。3.1. 搜索比例和斜率跨尺度和3D位置的联合搜索可以作为SIFT的DoG空间的直接扩展来实现我们首先将DoG（2）的每个尺度重写为单个卷积，应用于u和v维Hσ（u，v，σ）=G（u，v，σi+1）−G（u，v，σ），（3）D2D（u，v，σ）=Hσ（u，v，σ）<$I（u，v）.（四）滤波器Hσ在尺度σ处找到LF子图像中的斑点。我们使用频率平面滤波器Hλ通过深度选择性来增强这一点。频率平面滤波器选择LF中的特定深度，并且可以在频域或空间域中以多种方式构造[7，30]。对于这项工作，我们考虑直接空间域实现.1、u=λs，v= λt，为了将SIFT推广到LF，我们首先提出了一种计算成本更高的方法，Hλ（s，t，u，v，λ）=（五）0，否则。关节4D比例-斜率空间中的特征然后，我们展示了如何通过首先将LF转换为焦点堆栈，同时保留4D搜索步骤来实现数值上相同的结果。结果比在LF上重复SIFT更鲁棒且计算效率更高。这种方法提供了许多优点，包括在遮挡边界处拒绝不期望的虚假特征，检测所需的但部分遮挡的特征，以及固有的深度估计。SIFT通过在构造为高斯差分（DoG）堆栈的3D尺度空间中搜索极值来识别斑点。通过与一组覆盖一系列尺度的高斯滤波器进行卷积，然后取相邻尺度之间的差值，构建DoG，如下所示L（x，y，σ）=G（x，y，σ）<$I（x，y），（1）D（x，y，σi）=L（x，y，σi+1）−L（x，y，σi），（2）其中G（x，y，σ）是尺度为σ的高斯滤波器，DoG是在尺度为σ i的范围内计算的，1≤i≤N，具有常数乘法因子k，使得σi+1= kσi。卷积（1）表示SIFT的大部分计算成本。通过在输入图像的下采样版本上应用更大规模的卷积可以显著节省成本[25]。尽管如此，这种方法的成本的一个很好的近似是将其理解为一组N2D滤波操作，我们表示为N×Filt2D。8045我们将（3）和（5）结合起来，得到一个在尺度和斜率上同时具有选择性的滤波器：H（φ，σ，λ）=Hσ（u，v，σ）<$Hλ（φ，λ），（6）其中φ=[s，t，u，v]收集LF索引。我们在N个尺度σ和M个斜率λ上应用滤波器H：D6D（φ，σ，λ）= H（φ，σ，λ）<$L（φ）.（七）D6D是高度冗余的，因为每个子图像包含实际上相同的信息，因此当搜索局部极值时，我们将注意力限制在s，t中的中心视图上，从而产生4D搜索空间D（u，v，σ，λ）。识别D中的局部极值是一个简单的例子，SIFT中使用的3D方法的张力，产生特征坐标[u，v，σ，λ]。重要的是联合搜索尺度-斜率空间，以识别具有不同尺度和斜率的那些特征。这是LiFF与LF或焦点叠加上的重复SIFT3.2. 使用焦点堆栈到目前为止，该方法在计算上非常昂贵。在N个尺度和M个斜率上重复4D卷积（7）。简化（7）的关键是利用（6）中Hσ和Hλ事实上，我们只采用D的中心视图，8046选择性步骤仅在该子集上计算，将4D LF折叠成3D焦点堆栈：ΣF（u，v，λ）=L（s，t，u−λs，v−λt），（8）s和tD（u，v，σ，λ）= Hσ（u，v，σ）<$F（u，v，λ）.（九）即我们在M个斜率上计算焦点堆栈F，然后对每个斜率在N个最后，我们搜索联合空间D的极值。该过程产生与构建完整的6D尺度-斜率空间（7）在数值上相同的结果，但计算成本仅为计算成本的一小部分。已经提出了一些计算焦点叠加F的有效方法[27，32]。这些通常至少找到与s或t中的样本一样多的层。特征检测可能不需要这么多层，因此，我们继续进行移位和求和LF子图像（8）的更直接的方法，理解到对于大的堆栈深度，计算节省是可能的。这个焦点堆栈的成本是M×Ns×Nt×Nu×Nv.从每个焦点堆栈图像F计算DoG是与传统SIFT的第一步相同，并且可以从相同的下采样优化中受益[25]。我们将复杂度近似为传统SIFT的M倍，M×N×Filt2D。对于实际场景，这将掩盖计算焦点堆栈的成本。3.3. 特征描述符与SIFT一样，对于每个特征[u，v，σ，λ]，我们构建边缘方向的直方图与LiFF描述符的关键区别在于，它是在场景中对应于检测到的斜率λ的特定深度处计算的。因此，每个描述器都是从适当的堆栈切片F（u，v，λ）构造的。关键的优点是对不同深度的干扰对象的选择性，包括部分遮挡和反射离开光滑表面。3.4. 复杂性LF特征检测的常见方法是在子图像上重复SIFT，然后应用一致性检查以拒绝虚假检测[20，42]。这种方法的复杂性至少是应用在子图像上，即，Ns×Nt×N×Filt2D。请注意，这忽略了跨视图合并观测的成本其随实施方式而变化并且可能是实质性的。比较复杂性，我们看到，对于M个斜率，LiFF比重复SIFT快至少NsNt/M倍。在一个典型的场景中，使用Lytro Illum捕获的具有11×11视图的LF，并在M=11的斜率上应用LiFF， LiFF将比重复SIFT快11倍对于较大的LF，例如斯坦福门架收集的LFs1，17×17视图，1http://lightfields.stanford.edu速度增加较大，为26倍，假设斜率计数相同。当考虑到在重复SIFT中跨视图合并特征所需的时间时，速度增益甚至更大。3.5. 参数LiFF与SIFT具有相同的参数：计算DoG的尺度列表、峰值检测阈值和边缘拒绝阈值。描述符参数也是相同的，包括收集边缘直方图的区域、箱数等。LiFF的唯一附加参数是计算焦点堆栈的斜率列表。基于小透镜的相机的一个好的经验法则是考虑-1到1之间的斜率，其中斜率与Ns或Nt中的样本一样多。较大的斜率计数会增加计算时间而不会提高性能，而较小的斜率计数可能会错过场景中特定深度的特征。4. 评价LiFF实现我们的LiFF实现是在C，编译成我们从MATLAB调用的MEX文件。出于测试目的，我们在MATLAB中加载光场并转换为灰度，但特征检测和提取过程完全在C中进行。我们的焦点堆栈实现使用最近邻插值的移位和求和方法，并包括一个归一化步骤，防止LF边缘附近变暗。重复SIFT实现为了将LiFF与重复SIFT进行比较，我们调用了SIFT v0.9.21的VLFeat C实现，并在MATLAB中实现了一个巩固过程，以加强子图像之间的一致性。已经提出了各种方法[20，26，42，53]。SfM测试的目标不是速度，而是接近性能的上限。因此，我们采用了exhaustive搜索开始在每个检测到的2D功能在所有子图像。对于每个特征，我们根据一组标准（包括比例、方向、特征描述符和与最佳平面的最大偏差）在所有其他子图像中识别匹配检测。在评估速度时，我们忽略了这个整合过程所花费的时间。任何重复的2D检测器的关键参数是子图像的数量，在子图像中，在被认为是检测之前必须识别特征。在下文中，我们在不同的阈值上进行测试，并相应地识别方法，例如：重复的SIFT 0.5要求至少一半的子图像包含检测到的特征。我们重复的SIFT实现在计算效率上不是很高。然而，我们相信它的表现揭示了广泛的重复和巩固的2D特征。8047图2.一组不同尺度和深度的圆盘，以两个噪声水平σ表示。在较低的噪声水平（顶行），所有方法都运行得相当好;虽然SIFT示出了一些虚假检测，但是重复SIFT能够通过在视图之间强加一致性来拒绝这些;在较高噪声（底行）中，LiFF的性能是理想的，包括合理的斜率估计，但是SIFT错过了一些特征并且具有虚假检测;阈值为0.25的重复SIFT拒绝虚假特征，但无法定位在各个视图中遗漏的特征;阈值较低的重复SIFT允许更多虚假检测，但仍遗漏一些真阳性。4.1. 速度我们比较了LiFF实现与VLFeat中SIFT实现的速度所有测试均在3.20 GHz的Intel i7-8700测试包括特征检测和描述符提取，并在SIFT和LiFF具有相似特征计数关于Illum-用11×11×541×376个样本捕获的LF，我们发现LiFF平均花费2.88秒，而重复SIFT子图像平均花费53.1秒，不包括用于合并观察结果的时间，这是相当可观的。总体而言，我们的实现从重复SIFT到LiFF的速度增加为18倍，这与预期的速度增益非常一致。进一步的速度改进应该是可能的：与SIFT一样，LiFF也可以通过并行化进行优化，GPU等。4.2. 噪声性能重复SIFT从根本上受到其构建的2D方法的为了证明这一点，我们合成了一组具有已知良好特征位置的场景，并引入不同级别的噪声来观察特征性能。在一组实验中，如图所示。2，输入由26个不同尺度和深度的圆盘组成，对应于-1和1之间的斜率。LF的尺寸为9×9×256×256，信号对比度为0.1。我们引入方差为10−3的中等噪声（顶部），以及方差为10−1的强噪声（底部）。我们在中央子图像上运行SIFT操作，LF，重复SIFT，最小子图像一致性为0.25 0.12和LiFF。峰值阈值、边缘检测阈值和尺度范围等常用参数所有方法相同。LiFF在-1和1之间的9个斜坡上运行。参见图2、LiFF在中等和高噪声下成功检测所有26个磁盘，即使在高噪声下也能提供斜率估计。SIFT遭受虚假（a）（b）(c)（d）其他事项图3.噪声性能：（a，b）对于固定的检测阈值，扫描噪声水平σ，LiFF对于噪声图像具有最佳的真阳性（TP）率，尽管像SIFT一样遭受高的假阳性（FP）计数;（c）扫描检测阈值，在中等噪声下，方法显示出相似的性能，而(d) 对于适当设置的阈值，LiFF在高噪声中提供高得多的TP速率和零FP速率总体而言，LiFF匹配或优于SIFT和重复SIFT。8048方法合格率键盘/图像假定匹配/图像内点匹配/图像配合比精度匹配分数3D点跟踪镜头COLMAPLiff64.1926842822740.140.960.133823.38SIFT57.8326692432350.100.950.103373.31COLMAP许可Liff97.5326892132060.110.930.114722.46SIFT97.8826881751670.0770.920.0733962.40交叉Liff54.6526743042970.150.960.144183.44SIFT54.6526892482400.100.950.103483.33允许相交Liff96.2326872122050.110.930.114732.46SIFT96.2326841721650.0760.920.0733972.40表1.动态结构：使用COLMAP的默认值，LiFF在所有指标上都优于SIFT，包括成功再现更多场景;在更宽松的设置下，COLMAP几乎重建了所有场景，使用SIFT在更多场景上取得了成功，但LiFF在所有其他测量中（包括每个模型的3D点）都优于SIFT。只取那些通过两个特征检测器（“Intersect”）的在中等噪声中的检测，以及在高噪声中的丢失和虚假检测重复SIFT成功地拒绝虚假检测在低噪声，但要么错过检测，或两者都错过检测，并承认虚假的特点，在高噪声，这取决于其阈值。为了更好地揭示这些方法的行为，我们在同一场景上运行了一组实验，具有不同的噪声水平和峰值检测阈值，测量26个磁盘上的真阳性（TP）率和假阳性（FP）计数。每个实验重复25次，平均结果如图所示。3.第三章。顶行描绘了两个检测阈值（在底行上突出显示为竖条），噪声方差σ在10−7和101. TP率表明LiFF正确检测到了要素在一个数量级以上的噪音比其他方法。在高噪声水平下，LiFF和SIFT都受到高FP计数的影响，尽管通过设置更高的峰值检测阈值，LiFF的情况有所改善。图1的底行图3描绘了两个噪声电平，σ=10−3和10−1（在顶行中突出显示为竖条），用于不同的峰值检测阈值。在中等噪声（左）中，所有方法在阈值范围内的表现都相似。在高噪声（右）中，只有LiFF提供良好的TP速率，并且对于足够大的检测阈值，FP计数为零。从这些实验中，我们得出结论，LiFF提供了增强的性能在嘈杂的条件下相比，SIFT和重复SIFT。我们预计这种增加的性能适用于在弱光下收集的LF，也适用于光照良好场景的阴影和低对比度区域。它也适用于对比度受到水、灰尘、烟雾或雾等参与介质限制的情况4.3. 运动恢复结构遵循[36]中的特征比较方法，我们采用SfM解决方案在3D重建应用的背景下评估LiFF。我们使用LytroIllum收集了一个大型LF数据集，每个场景都有多个视图。该数据集包含4211个LF，覆盖30个类别的850个场景，每个场景有3到5个视图图像在室内和室外校园环境中，包括朗伯和非朗伯表面，遮挡，镜面反射，次表面散射，精细细节和透明度的示例。没有试图强调具有挑战性的内容。尽管我们预计LiFF的斜率估计可以显著改善SfM，但我们忽略了这一信息，以便与SIFT进行更直接的比较。我们还对SIFT和LiFF的所有公共参数使用相同的设置。基于上述噪声性能实验，LiFF的更高峰值阈值可能会导致更少的虚假特征，而不会丢失有用的特征。然而，通过使用相同的阈值，我们能够更好地突出LiFF和SIFT之间的行为差异，而不是仅仅关注噪声性能的差异。我们提取每个LF的中心视图并转换为灰度。灰度转换的方法显著影响性能[21]，我们确定MATLAB我们使用0.0066的峰值阈值、10的边缘阈值和覆盖4个倍频程的DoG尺度运行LiFF和SIFT的VLFeat实现，每倍频程3个级别我们从八度-1开始，因为我们的图像相对较小，8049图4.与SIFT比较：仅由LiFF识别的特征，仅由SIFT识别的特征，以及两者都识别的特征分别以绿色，红色和蓝色显示。(top)LiFF拒绝低对比度区域中的虚假特征，并且在一定程度上拒绝那些通过折射而失真的特征;（中）LiFF拒绝遮挡边界处的虚假特征-插图突出显示了由不同深度处的叶子引起的仅SIFT检测;（底部）LiFF检测SIFT遗漏的部分遮挡特征-注意朝向场景后部的仅LiFF特征的比例增加，以及插图中突出显示的仅LiFF检测。底部场景的斜率估计如图所示。五、使得较小的特征变得重要。对于LiFF，我们使用了最中心的11×11子图像，并计算了-1和1之间的11个斜率的焦点堆栈。对于特征描述符，我们发现，与VLFeat的SIFT实现中默认的L2规范化相比，L1根规范化产生了显著改进的匹配因此，我们将相同的归一化方案应用于SIFT和LiFF特征描述符。为了确认我们的外部特征检测工作正常，我们比较了使用外部提取的 SIFT 特征时COLMAP我们运行COLMAP直到并包括SfM阶段，在密集多视图立体重建之前停止。我们根据每张图像的关键点数量、每张图像生成的推定特征匹配以及SfM期间归类为内点的推定匹配数量来评估性能。在[36]之后，我们还评估了假定的匹配率：产生推定匹配的检测到的特征的比例; precision：假定匹配的比例产生内点匹配;匹配分数：产生内点匹配的特征的比例;重建模型中3D点的平均数量;轨道长度：在其上成功跟踪特征的图像的平均数量。使用其默认设置，我们发现COLMAP无法为许多场景生成输出。它在光束法平差期间未能收敛，或者未能识别良好的初始图像对。我们的每幅图像只有541×376像素，每个场景只有3到5幅图像，COLMAP故障设置不太适合我们的数据集。然而，LiFF和SIFT在此阶段的性能差异是有用的，如表1的顶行所示。LiFF并没有比SIFT检测到更多的特征，但它确实导致了更高数量的成功重建场景（%通过）。统计数据支持这样的结论，即LiFF具有更高比例的信息特征，产生更高的推定匹配和内点匹配的绝对数量，更高比例的内点匹配，更多的3D点和更长的轨道长度。请注意，我们并没有强调更高的关键点计数是一个更好的结果，因为让LiFF检测更多的功能不一定是一个更好的结果，如果这些功能也是有用的。我们放松了COLMAP 在这种更宽松的模式下，COLMAP能够重建数据集中的大部分场景。如表中第二组结果1，在这种模式下，SIFT允许稍微更多的场景被重建，并检测到几乎相同数量的特征，但在所有其他统计数据中的表现明显不如LiFF。特别要注意的是，LiFF生成的模型平均有472个重建点，而SIFT上述比较的一个缺点是，它们适用于不同的数据子集：SIFT通过了一组不同于LiFF的场景。为了进行公平的比较，我们仅对使用SIFT和LiFF功能通过的场景计算相同的统计数据表1下半部分的结果清楚地表明，LiFF在所有测量中均优于SIFT。4.4. 挑战性的案件为了更好地揭示SIFT和LiFF之间的性能差异，我们研究了那些COLMAP难以与SIFT功能融合，但在使用LiFF功能时通过的场景。图4描述了一些信息性的例子。在右边，我们显示了仅由LiFF（绿色），仅由SIFT（红色）和两种方法（蓝色）检测到的特征。在顶行中，我们看到这个相对明亮的室内场景在门边缘周围具有低对比度，产生许多虚假的仅SIFT检测。同时，也要注意，8050图5. 3D场景形状：在这项工作中，我们建立了LiFF的能力，提供更多的信息功能凭借更高的选择性和能力，通过部分遮挡图像。我们预计LiFF在这里，我们看到每个场景的3D形状通过检测到的LiFF特征的斜率显示。通过水瓶折射的光线会触发一些只适用于SIFT的检测。折射特征的不一致表观运动使它们不适合SfM，并且缺乏明确的深度阻止LiFF将这些特征检测出来。图中的中心行。图4示出了在边缘附近以及在遮挡边界处具有许多虚假SIFT检测的场景。SIFT无法区分明确定义的形状和由遮挡物体偶然对齐形成的形状另一方面，LIFF拒绝通过在不同深度处遮挡对象而形成的形状，因为这些形状没有明确的深度。插图中突出显示了仅通过SIFT检测到的典型虚假遮挡特征图中的底行图4显示了LiFF比SIFT提供更多功能的场景。请注意，朝向场景后部的仅LiFF特征的比例越来越大在插图中，我们看到一个例子，两个水滴只是通过前景遮挡可见，只有LiFF检测到。在更极端的情况下，某些子图像中的特征请注意，插图中的绿色圆圈被扩大以帮助清晰。这一幕在图中重复。5，这提供了视觉确认，三维结构被反映在LiFF斜率估计。5. 结论我们提出了LiFF，这是一种LF的特征检测器和描述符，它直接扩展了SIFT以在整个LF上操作。所提出的检测器比跨多个视图重复SIFT的常见做法更快，并且在chal中产生更多的正确检测和更少的虚假检测密封条件。我们在Lytro Illum拍摄的图像上展示了18倍的速度增加，与重复拍摄的图像相比SIFT ，并预计进一步优化是可能的，通过parallelization和GPU上的实现。在SfM测试中，我们表明LiFF在推定和内点匹配的绝对数量、内点匹配的比例、跟踪特征的图像数量以及重建模型中的3D点数量我们的测试数据集没有被处理以强调具有挑战性的场景，这些结果是针对典型的室内和室外环境的。我们预计，在更具挑战性的条件下，LiFF可以更大幅度地提高3D重建的性能，并扩大基于特征的技术可以应用的应用范围作为未来的工作，我们希望自适应选择的焦点堆栈斜率可以进一步提高LiFF的速度焦点堆栈的一个有趣的好处是，它可以简单地扩展以执行线性超分辨率[19]，允许检测更精细的特征，尽管以增加处理时间为代价LiFF应用于直接捕获焦点堆栈的探索也可能证明是有趣的。最近的工作表明，在多个尺度上计算直方图提供了改进的SIFT检测器性能，这也可以应用于LiFF特征[11，36]。我们还预计，斜率信息，LiFF恢复的兴趣。对于校准的LF相机，斜率产生每个特征的绝对3D位置和绝对比例。该绝对尺度可以在尺度敏感的特征匹配方法中用作一个参数。最后，LiFF检索的3D信息可能在直接告知3D重建方面具有重要的实用性鸣谢这项工作得到了NSF/Intel视觉和体验计算合作伙伴关系（Intel #1539120，NSF #IIS-1539120）的部分支持。引用[1] E. H. Adelson和J. Y. A.王. 具有全光相机的单镜头立体声。IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），14（2）：99-106，1992。二、三[2] H.贝，A.埃斯，T. Tuytelaars和L. V.Gool加速鲁棒特征（SURF）。计算机视觉与图像理解，110（3）：346-359，2008. 28051[3] T. E. Bishop，S. Zanetti和P.法瓦罗光场超分辨率。在计算摄影（ICCP），第1IEEE，2009年。3[4] Y. Bok，H.- G.全和我。S.奎恩基于线特征的微透镜光场相机的几何校准。计算机Springer，2014. 3[5] R. 博尔斯H.Baker和D.马里蒙特对极平面图像分析：从运动中确定结构的方法国际机场Journal of Computer Vision（IJCV），1（1）：7-55，1987. 3[6] D. G.丹瑟罗岛Pizarro和S. B.威廉姆斯基于微透镜的全光相机的解码、校准和校正。计算机视觉和模式识别（CVPR），第1027-1034页。IEEE，2013年6月。3[7] D. G.丹瑟罗岛Pizarro和S. B.威廉姆斯用于光场相机的线性体积聚焦。ACM图形交易（TOG），34（2）：15，2月。2015. 第1、3条[8] D. G. Dansereau，G.舒斯特Ford和G.韦茨斯坦一种宽视场单中心光场相机。在计算机视觉和模式识别（CVPR）中，第3757- 3766页。IEEE，2017年7月。2[9] A. 戴维斯，M。Levoy和F.杜兰德非结构光场。在Computer Graphics Forum，第31卷，第305Wiley Online Library，2012. 2[10] F. 东，S-地H. Ieng，X.萨瓦捷河艾蒂安-卡明斯，还有R.贝诺斯曼实时机器人中的全光相机。国际机场Journalof Robotics Research（IJRR），32（2）：206-217，2013. 1[11] J. Dong和S.索阿托局部描述符中的域大小池：Dsp-sift.在计算机视觉和模式识别（CVPR）中，第5097-5106页，2015年。8[12] X. Gao和T.张某使用平面点特征的鲁棒RGB-D同时机器人和自主系统，72：1-14，2015。2[13] T.格奥尔基耶夫角Intwala，S. Babakan和A.拉姆斯丹光场相机的统一频域分析。计算机Springer，2008. 3[14] A. Ghasemi和M.维特利用于目标识别和跟踪的光场图像的尺度不变表示。在SPIE的程序，卷9020。国际机场光学与光子学学会，2014年2[15] S.戈特勒河格热什丘克河Szeliski和M.科恩光显仪。在SIGGRAPH中，第43-54页。ACM，1996年。2[16] S. Gumhold，X. Wang和R. S.麦克劳德从点云中提取特征。在IMR，2001年。2[17] S. 古普塔河，巴西-地Girshick，P. Arbe la'ez和J. 马利克从RGB-D图像中学习丰富的特征，用于对象检测和分割：补充材料，2014年。2[18] P. Hanrahan和R.Ng. 光场摄影中透镜像差的数字校正在国际光学设计会议，第WB2页。美国光学学会，2006年。3[19] I. Ihrke，J. Restrepo，and L.米格纳德-迪比斯光场成像原理。IEEE信号处理杂志，1053（5888/16），2016年。二、三、八[20] O. Johannsen，A. Sulc和B.戈德卢克关于光场摄影机运动的线性结构。在国际计算机视觉会议（ICCV），第720-728页，2015年。二、三、四[21] C. Kanan和G. W.科特雷尔彩色到灰度：这种方法在图像识别中重要吗？PloS one，7（1）：e29740，2012.6[22] A. Levin和F.杜兰德使用维度间隙光场先验的线性视图合成。计算机视觉和模式识别（ CVPR ），第1831IEEE，2010。2[23] M. Levoy和P.汉拉汉光场渲染。在SIG中-图，第31-42页。ACM，1996年。二、三[24] C.- K. Liang和R. Ramamoorthi用于小透镜光场相机的光传输框架。ACM Transactions on Graphics（TOG），34（2）：16，2015. 3[25] D. G.洛从尺度不变关键点中提取独特的图像特征。国际机场 Journal of Computer Vision（IJCV），60（2）：91-110，2004. 二、三、四[26] K. Maeno，H. Nagahara、A. Shimada和R. I.谷口透明物体识别的光场失真功能。计算机视觉和模式识别（CVPR），第2786-2793页。IEEE，2013年6月。二、四[27] J. G. Marichal-Her na'ndez，J. P. Luke，F. L. Rosa和J.M. 罗德里格斯-拉莫斯。快速近似4D：3D离散Radon变换，从光场到焦点堆栈，求和为o（n4）。在IS T/SPIE电子成像中，第78710 G国际机场光学与光子学学会，2011年。4[28] K.马尔瓦湾Wetzstein，Y. Bando和R.拉斯卡使用过完备词典和优化投影的压缩光场摄影。在SIGGRAPH，第32卷，第1-11页ACM。2[29] K.米特拉岛S. Cossairt和A.维拉加万用于分析计算成像系统的框架：信号先验、传感器噪声和复用的作用。IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），36（10）：1909-1921，2014。1[30] R. Ng.傅里叶切片摄影。ACM Transactions on Graphics（TOG），24（3）：735-744，2005年7月。3[31] R. Ng，M。我来了，M。 B re dif，G. Du v al，M. 霍洛维茨，还有P. Hanrahan.使用手持式全光相机进行光场摄影。技术报告，斯坦福大学计算机科学，2005年。2[32] F. Pe'rez，A. 我是佩雷斯先生。 Rod r'ıguez和E. 玛格达勒诺一种用于全光传感器的快速且有存储效率的离散焦点堆叠变换。数字信号处理，2014年。4[33] E. Rosten和T.德拉蒙德用于高速角点检测的机器学习。在欧洲计算机视觉会议（ECCV）中，第430-443页。Springer，2006年。2[34] E. Rublee，V. Rabaud，K. Konolige和G.布拉德斯基ORB：SIFT或SURF的有效替代方案在国际计算机视觉会议（ICCV），第2564-2571页。IEEE，2011年。2[35] J. L. Schonberger和J. M.弗拉姆结构从运动重新审视。在IEEE计算机视觉和模式识别会议论文集，第4104-4113页，2016年。1[36] J. L. 你看，H。 Hardmeie r，T. Sattle r和M. 投票人。手工制作和学习的地方特色的比较评价。在计算机视觉和模式识别（CVPR），2017年7月。二三六七八8

下载后可阅读完整内容，剩余1页未读，立即下载