没有合适的资源?快使用搜索试试~ 我知道了~
6029黑暗中的匹配:一个用于匹配低光场景图像对的数据集文正松1菅沼正则1、2刘兴1下林纪之1丸田大辅3冈谷隆之1、21东北大学GSIS2理研AIP中心3 Socionext Inc.{song,suganuma,ryu,nshimobayashi,okatani} @vision.is.tohoku.ac.jpmaruta. socionext.com摘要本文考虑低光场景的图像匹配,旨在拓宽SfM和视觉SLAM应用的前沿。最新的图像传感器可以以超过8位的精度记录场景的亮度,并以RAW格式图像提供。我们感兴趣的是充分利用这样的高精度信息来匹配传统方法无法处理的极低光照场景图像。对于极端低光场景,即使它们的亮度信息中的一些存在于RAW原始图像的正如Chen et al. [14],CNN可以学习从这样的RAW格式图像产生具有自然外观的为了考虑我们是否以及如何利用存储在RAW格式图像中的这些信息进行图像匹配,我们创建了一个名为MID(黑暗中的匹配)的新数据集使用它,我们实验评估了8种图像增强方法和11种图像匹配方法的组合,包括经典/神经局部描述符和经典/神经初始点匹配方法。结果表明,使用RAW格式的图像和上述组件的方法的优点和缺点。这也意味着还有进一步研究的空间1. 介绍运动恢复结构(SfM)[24,58]和视觉SLAM(同时定位和映射)[38,53]已经用于现实世界的应用一段时间。主流方法使用场景的多个视图之间的点对应。他们首先检测关键点并提取每个关键点处的局部特征的描述符[31,35,2,44]。然后,他们找到图像之间的初始点SfM和可视化SLAM具有拓宽应用领域的潜力。一个重要的目标是应用于极低光环境,例如月光下的夜间室外场景或照明不足的室内场景。使得在这些环境中使用SfM和视觉SLAM成为可能对于现实世界的应用(诸如可以在夜间操作的自动驾驶车辆)是至关重要的由于图像传感器的进步,它们可以记录具有多于八位的入射光(例如,14位)。然而,在许多照相机上采用的标准原始图像处理不能充分利用存在于传感器信号的较低比特中的信息;它减少了传感器信号上的马赛克伪像,调整白平衡和对比度,然后将处理后的信号转换为8位RGB图像的标准格式(在本文中,我们将这种原始图像处理称为RIP)。这种限制可以说是来自除了减少比特数之外,对具有各种照明条件的各种场景的通用性的要求。在极低光照的场景中,即使场景亮度的某些细节存储在RAW信号的低位,标准RIP通常也会产生主要为黑色的图像。SID(在黑暗中看到)[14]的研究很好地证明了图像管道的这种限制,其中作者表明CNN可以学习将这种黑暗场景的RAW格式图像转换为具有自然外观的明亮图像很可能我们可以用应用于低光场景的SfM和视觉SLAM来做同样的事情,即,提取存在于RAW信号的低位中的信息以使SfM/视觉SLAM工作。问题是如何做到这一点。值得注意的是,目标不是像SID那样生成看起来自然的明亮图像,而是实现SfM和视觉SLAM的最佳性能。有几个潜在的方向来实现这个目标。一个是开发直接在RAW格式图像上工作的关键点检测器和特征描述符。即使关键点检测器和描述符不好6030×如果足够,则可以通过加强流水线中的后续步骤来获得必要的匹配性能水平。最近,CNN已被应用于这些步骤,导致有希望的结果,例如初始对应关系中的离群值去除[37,12]和建立初始匹配[45]。与这些并行地,在图像匹配的预处理阶段中应用用于RAW格式低光图像的图像增强方法可能是有用的,例如,[14]和其他[13,57]。用于更一般的图像恢复的方法将应用于RAW格式图像[63,29]。如上所述,我们可以想到多种不同的方法来使SfM和视觉SLAM方法适用于低光环境。为了促进进一步的研究,我们需要一个数据集,以多方面的方式评估上述方法。为了拓宽它们在低光场景中的应用领域,有必要研究每种方法可以处理的图像的欠曝光程度目前没有可用于此目的的数据集。考虑到这些,我们创建具有以下特征的数据集:• 为了检查每种方法8 ISO设置)曝光设置范围从调整到轻度曝光不足设置。 相机安装在三脚架上,同时捕捉所有图像。• 我们还提供了长曝光图像,使用它作为地面真相,人们可以评估图像恢复方法的任务,估计它从曝光不足的图像之一。• 目前评价图像匹配方法的标准是衡量下游任务的准确性,即,几何参数的估计,如在最近的研究中所指出的[27]。因此,我们从两个位置获取图像,以形成每个场景的立体对以及它们的地面真实相对姿态。为了获得地面实况姿态,我们针对每个场景位置捕获具有长曝光设置的良好质量的图像。• 该数据集包含由54个室外和54个室内场景组成的各种场景。使用该数据集,我们实验性地评估了用于SfM流水线的几种现有组件方法,即,检测关键点并提取描述符[31],找到初始点对应关系,并从中删除离群值[20,12,45]。 我们选择经典的方法和基于学习的方法。我们还评估了图像增强的有效性,包括带/不带去噪的经典图像增强方法[16],和基于CNN的方法[14,62]。结果表明,使用RAW格式的图像,而不是使用的标准RIP处理后的图像的重要性。它们进一步提供了上述组分方法的优点和缺点,也表明存在进一步改进的空间。2. 相关工作2.1. 多视点图像匹配场景多视点图像匹配是计算机视觉的一项基本任务,其研究有着悠久的历史。它通常执行以下步骤:检测关键点/计算局部描述符、建立初始点对应关系、以及去除异常值以找到正确的对应关系。 建立在传统方法上的该流水线的基线包括用于检测兴趣点并提取其局部描述符的SIFT [ 31 ]、SURF [ 8 ]等,用于获得跨图像的初始对应的描述符空间中的最近邻搜索,具有用于过滤掉不可靠匹配的可选“比率测试”步骤[ 31 ],以及用于离群值去除的RANSAC [ 20]。43]。最近的趋势是使用CNN来检测关键点和/或提取局部描述符。早期的研究试图学习关键点检测器[56,48,7]或描述符[51、61、23、5、60]。在最近的研究中,研究人员已经提出了可以同时执行这两个的端到端流水线[59,17,19,40,26,39]。尽管CNN在许多计算机视觉任务中取得了成功,但目前尚不清楚这些基于学习的方法是否已经超越了经典的手工制作方法。与关键点检测器和描述符的方法的发展并行,最近的几项研究已经开发了用于初始点匹配和离群值去除的基于学习的方法[12,45]。2.2. 用于图像匹配的存在为图像匹配的研究创建的许多数据集[36,1,64,42,52,28,56]。许多最近的图像匹配研究使用HPatches [6]。还有许多用于视觉SLAM和定位/导航的数据集[47,21,33,46,4]。这些数据集中的一些提供了具有挑战性的情况,包括照明变化、匹配白天和夜间图像、低光条件下的运动模糊等。然而,所有这些数据集只提供了标准RIP可以成功地产生具有良好平衡的亮度直方图的RGB最近的一项研究[25]也是如此,该研究分析了不同光照条件下的图像检索。我们的数据集包含非常黑暗场景的图像,所有图像都是14位深度的RAW格式。事实上,虽然我们已经验证了作者6031×××直接使用RAW格式图像的情况,我们将在后面说明。还有许多图像匹配的评估方法,这些方法是为了更精确的评估而开发的[49,36,1,15,10]。最近的一项研究为图像匹配引入了一个全面的基准[27]。正如在本研究中,目前的趋势是把重点放在下游的任务上;重建的摄像机姿态的精度被选择为用于评估的主要度量。遵循这一趋势,我们的数据集为每个立体图像对之间的相对相机姿态提供了地面实况2.3. 图像增强有许多图像增强方法可以提高曝光不足图像的质量。除了直方图均衡化等基本图像处理之外,还有许多基于不同假设和基于物理模型等的方法。例如基于逆暗通道先验[34,18]、小波变换[32]、Retinex模型[41]和照明图估计[22]的全局分析和处理。这些方法被证明是有效的图像是轻度曝光不足。为了处理更严重的曝光不足的图像,Chen等人。提出了一种基于学习的方法,该方法使用CNN将低光照RAW图像直接转换为优质RGB图像[14]。 创建包含曝光不足和曝光良好的RAW图像对的数据集(即,SID数据集),它们以监督的方式训练CNN。他们的方法可以处理更严重的图像噪声和色彩失真出现在曝光不足的图像比以前的方法。对于增强极低光视频的问题,Chen等。在创建用于训练的数据集时扩展了该方法[13]。在这些研究的同时,Weiet al.已经开发了一个图像噪声模型,使得合成真实的曝光不足图像成为可能[57]。他们证明,在由他们的模型生成的合成数据集上训练的CNN与在真实曝光不足/曝光良好的图像对上训练的CNN相比,去噪效果同样好,甚至更好。虽然这些研究的目的非常图像增强,我们的研究认为,匹配图像的极端低光场景的问题。我们的数据集包含多个场景的立体图像对;有48个具有不同曝光设置的低光RAW图像和每个场景的每个相机位置的一个长曝光参考图像。值得注意的是,它们包括比[14,13]的数据集多得多的曝光不足图像。3. 用于低光图像匹配的3.1. 数据集的设计我们建立了一个低光场景的立体图像数据集,并将其命名为MID(黑暗中的匹配)数据集。它图1.四个室内场景(上两行)和四个室外场景(下两行)的示例立体图像对(长曝光版本)。包含54个室内场景和54个室外场景的立体图像对(总共108个)。我们用了一台高端数码相机来捕捉所有的图像;它们被记录在具有14位深度的RAW格式中。图1示出了示例场景图像。对于108个场景中的每一个,我们从两个视角拍摄了49个不同曝光设置的图像,即,固定范围内的48个曝光设置加上一个长曝光设置以获取参考图像。请注意,大多数图像曝光不足,以至于标准RIP无法从中产生合理的RGB图像。使用曝光不足最严重的设置拍摄的每个场景的48张图像中的一些图像曝光不足,以至于它们似乎只存储了噪声;即使我们尝试了当前可用的每一种方法,也不可能使用它们进行图像匹配然而,我们将这些图像保留在数据集中,以评估图像匹配和恢复方法工作的曝光下限,不仅是现有的方法,而且是将来开发的方法。我们设计的数据集主要用于评估低光照条件下的图像匹配方法,但用户也可以评估图像增强方法。我们的每个场景的48个图像包含比用于低光图像增强的任何现有数据集更严重的曝光不足图像(例如,[14])。3.2. 详细规格数据集总共包含10,584(= 108(场景)2(立体)(48+ 1)(曝光设置))张图像。 它们是6720×4480像素,并且是每像素14位的RAW格式;其拜耳模式为RGGB。我们使用佳能EOS 5D Mark IV全画幅CMOS传感器和EF 24 - 70 mm f/2.8L II USM来拍摄这些图像。对于每个场景,我们将相机设置在两个位置以捕获立体图像。对于每个位置,我们将相机安装在坚固的三脚架上,同时拍摄49张图像。我们首先拍摄了一张长曝光的图像,作为参考。6032--我们使用它来计算立体对的地面实况相机姿态,如将在第2节中解释三点三为了拍摄参考图像,我们选择10到30秒的曝光时间,同时将ISO固定为400。然后,我们在48个不同的曝光设置中捕获低光图像,这些曝光设置是六个曝光时间和八个ISO值之间的组合。 曝光时间从用于室内场景的[1/200,1]秒和用于室内场景的[1/200,0. 5]秒用于室外场景。 ISO值选自100、200、400、800、1600、3200、6400、12800。室内场景图像是在关闭常规灯光的封闭房间中捕获的;相机的照度在0.02至0.3勒克斯的范围室外场景图像是在夜间在月光或街道照明下捕获的。相机处的照度在0.01至3勒克斯的范围内。3.3. 获取地面实况摄影机姿态为了比较具有不同局部描述符和关键点检测器的各种图像匹配方法,我们需要评估从其匹配结果估计的相机姿态的准确性。我们认为立体匹配在我们的数据集,和图像匹配方法产生的立体图像之间的相对相机姿态的估计。为了获得其地面实况,我们使用参考图像对来执行图像匹配,由此我们估计每个场景的相对相机姿态在[11]之后,我们将其用作手动检查以及校正(如有必要)后的基础事实,我们将在稍后解释。用于获得每个场景的地面实况相机姿态的详细过程如下。我们首先将RAW格式的两个参考图像转换为RGB空间1。然后,我们将每个RGB图像转换为灰度,并使用高斯差分(DoG)算子和RootSIFT描述符计算关键点及其描述符[3]。接下来,我们使用最近邻搜索和Lowe比率测试[ 31 ]建立它们的初始点匹配,阈值为0。8.然后,我们通过使用5-点 算 法 与 预 训 练 的 神 经 引 导 RANSAC ( NG-RANSAC)[12]。 我们采用了作者的实现。我们采用NG-RANSAC超过常规RANSAC,因为我们在我们的实验中发现,它一致地产生更准确的结果。使用平面校准图用标准方法校准相机,我们分解估计的本质矩阵并获得相对相机姿态(即,平移和旋转)。如上所述,我们进行了手动检查1在[14]之后,我们使用了rawpy(https://pypi.org/project/rawpy/),这是libraw的Python包装器,libraw是一个原始图像处理库(https://www.libraw.org/)。的估计的基本矩阵,确保它们足够可靠,可以用作地面真理。我们通过检查配对图像上的任何图像点是否满足由估计的基本矩阵给出的极线约束来做到这一点。具体来说,我们手动选择左或右图像上的一个点,并在另一个图像上绘制其核线然后,我们目视检查相应的点是否位于极线上,偏差小于一个像素。我们选择了具有不同深度的多个点进行此检查。如果估计的基本矩阵未能通过该测试,则我们完全移除场景或手动添加若干点匹配以获得基本矩阵的更准确估计并再次执行上述测试。所有的场景在我们的数据集中已经通过了这个测试。4. 弱光环境本节讨论哪些方法适用于匹配我们数据集中的低光图像我们在实验中评估了4.1. RAW图像到RGB的转换由于目前没有直接适用于RAW格式图像的图像匹配方法,我们考虑现有的关键点检测器和接收灰度图像的局部描述符。为了应对低光条件,我们在关键点检测器和局部描述符之前插入图像增强方法,我们将在后面描述。首先需要将RAW格式图像转换为RGB/灰度图像。我们有两个选择。一种是使用标准RIP将RAW转换为RGB。如SEC中所述1,标准RIP通常不能利用存储在暗场景的RAW信号的较低比特中的亮度信息,这是由于针对具有不同照明条件的各种场景的通用性的要求以及板上RIP可用的计算资源的限制。为了证实它的局限性,我们在实验中评估了这种基于标准相机流水线的转换;我们使用LibRaw库和rawpy,一个Python图像处理模块。另一种选择是不使用标准RIP进行转换。我们将在下面解释这一点,因为它与图像增强步骤相结合。4.2. 图像增强因此,我们考虑两种方法,即,使用标准RIP进行RAW到RGB转换,并直接使用RAW格式图像。对于每一个,我们考虑三种不同的图像增强方法。4.2.1通过标准相机流水线进行当使用标准RIP转换RAW图像时,我们考虑将以下四种方法应用于其输出-6033−100200400800160032006400128001/200 1/100 1/40 1/20 1/6 1/2快门速度(s)1/200 1/100 1/40 1/20 1/6 1/2 1/200 1/100 1/40 1/20 1/6 1/2(a)(b)(c)第(1)款图2.从相同相机姿态捕获的场景图像,通过三种转换方法从原始RAW格式转换而来。(a)RIP-组织学等式(b)Direct-BM3D。(c)Sid.这些方法见正文。拜耳原始���×���×1RGGB2×2 ×4灰度直方图均衡或CLAHE转换为8位(一)(b)输出去噪2×2 ×1cvtColor 。 接 下 来 , 我 们 执 行 直 方 图 均 衡 化 或CLAHE来提高图像的亮度。我们将范围[m2d,m+2d]中的亮度映射到范围[0,255],其中m是平均亮度,d是从m到每个像素值的平均绝对差。最后,我们将像素深度设置为8位。我们将此方法称为Direct-HistEq或Direct-CLAHE。我们可选地在最后一步对转换后的图像应用去噪在我们的实验中,我们采用噪声PSD比为0.08的BM 3D[16]。所得到的图像将被传送到图像匹配的第二步骤。图2(b)示出了由所述转换器转换的图像的示例图3.两种图像增强方法的流水线 (一)Direct-HistEq或Direct-CLAHE。(b)Sid.提出:无,经典直方图均衡,对比度受限自适应直方图均衡(CLAHE)和基于CNN的图像增强,MIRNet[62]。我们选择MIRNet是因为它是目前适用于RGB/灰度图像的最佳图像增强方法。图2(a)示出了具有直方图均衡化的标准RIP的示例。我们将把这四种方法称为 标 准 RIP 、 RIP-HistEq 、 RIP-CLAHE 和 RIP-MIRNet。五、4.2.2直接使用RAW格式图像我们考虑两种方法。一种是使用标准的图像处理方法将RAW转换为RGB/灰度图像;参见图3(a)。为此,我们采用以下简单方法。给定一个包含输入RAW数据的Bayer阵列,我们首先对其应用黑电平减法,然后将结果分成四个通道;像素值现在被表示为浮点数。然后,我们取两个绿色通道的平均值以获得RGB图像,并使用OpenCV函数法我们将此方法称为Direct-BM 3D。与上述并行,我们考虑直接作用于RAW格式图像的基于CNN的图像增强方法;参见图3(b)。我们采用SID [14],这是一种CNN,用于将低光场景的曝光不足RAW图像转换为高质量图像。它的目的是接收图像的RAW数据,并输出RGB图像的年龄。我们使用曝光不足图像和参考图像之间的快门速度和ISO值来计算SID的放大率由于SID算法的输出是其他算法的两倍,我们将图像尺寸缩小2:1,然后转换为灰度图像进行匹配;参见图2(c)。我们使用了作者提供的预训练模型,该模型是在SID数据集上训练的。我们在下面的代码中称这个方法为SID4.3. 图像匹配我们考虑在这里匹配场景的一对图像它是建立图像之间的点对应,同时对它们施加极线约束,并估计相机姿态(即,基本或基本矩阵)编码在约束中。解决该问题的标准方法是首先从每个输入图像中提取关键点及其局部描述符,建立关键点的初始匹配ISO输出RGB灰度拜耳原始���×���×1���×���×3���×���×1SID管线6034×××i=1点之间的图像,并最终估计相机姿态从他们。三个步骤中的每一个至少有几种方法。有许多经典的方法不依赖于学习数据。与其他计算机视觉问题一样,神经网络已应用于每个步骤。它们首先应用于第一步,即,关键点检测器[56]SP + SG SP RS和描述符[23,51,5,60],仅举几例。下一20° ≤ $rr r 30°10° ≤ $rr r 20°是 稳 健 估 计 的 第 三 步 [37 , 12] 。 最 近 , 提 出 了SuperGlue [45],其涉及建立初始点对应的步骤。5. 实验我们实验评估的几种方法的组合在第二节中讨论。4使用我们的数据集。5.1. 实验配置5.1.1比较方法在图像匹配的每一步,我们都选择了经典的方法和基于神经网络的方法.至于关键点检测和局部描述符,我们选择Root-SIFT [3]和ORB [44]作为代表性的经典方 法 ; 我 们 考 虑 ORB , 因 为 它 已 被 广 泛 用 于 视 觉SLAM。我们使用他们的OpenCV-3.4.2实现我们使用SuperPoint [17] , Reinforced SuperPoint [9] , GIFT[30],R2D2 [26]和RF-Net [50]作为代表性的基于神经网络的方法。此外,我们使用L2-Net[54]和SOSNet [55]作为经典和基于神经的方法的混合方法;它们基于SIFT关键点和神经网络计算局部描述符对于它们,我们使用作者对于点对应的离群值去除,我们选择RANSAC和NG-RANSAC [12] 。我 们 使 用 具 有 阈 值 = 0 的RANSAC的OpenCV-3.4.2实现。001,概率=0。999和maxIters=10,000的五点算法,并为后者使用作者为了获得初始点对应,我们使用最近邻搜索和SuperGlue [45]。 我们应用Lowe比率检验[ 31 ],阈值为0。8到RootSIFT、L2-Net、SOSNet和RF-Net。总 而 言 之 , 我 们 比 较 了 以 下 11 种 方 法 : SP :Superpoint + NN + RANSAC,RSP:增强型SuperPoint+ NN + RANSAC,GIFT:GIFT +NN + RANSAC,SP + SG:SuperPoint + SuperGlue +5° ≤ $rr r 10° 0° ≤ $rr r 5°图4.角度误差的相机姿态估计的几种方法从6 - 8不同的曝光设置的图像的场景。具有低于指定阈值的误差的细胞的数量量化了方法的稳健性。标 准 RIP 、 RIP-HistEq 、 RIP-CLAHE 、 RIP-MIRNet 、 Direct-HistEq 、 Direct-CLAHE 、 Direct-BM3D和SID。我们将这八种图像增强器与上述十一种图像匹配方法相结合,并对88对中的每一对进行评估。我们从每个图像增强器的输出图像调整为960 -640像素,并将其馈送到图像匹配步骤。5.1.2评价我们比较这些方法,通过评估其估计的相对相机姿态的准确性。我们将每对图像增强器和图像匹配方法应用于每个场景的立体图像。我们只考虑具有相同曝光设置的立体图像对;每个场景有48对。因此,对于每个场景,我们具有相对相机姿态的48个估计为了评估这些估计的准确性,我们遵循以前的工作[37,12,45]。具体来说,我们测量地面实况相机姿态的旋转分量与其估计之间的差异,以及它们的平移分量之间的角度差异。我们使用两个值的最大值作为最终的角度误差。图4显示了结果的示例每个着6 × 8矩阵指示用于场景和48个曝光设置的比较方法我们感兴趣的是如何强大的每一种方法将曝光不足的图像。为了衡量这一点,我们计算了每种方法表现良好的曝光设置(48个)。具体地,通过 ei(i =l,. . . ,48),我们设置阈值τ并且对具有较低误差的曝光设置进行计数。RANSAC,R2D2: R2D2 + NN + RANSAC,RF:RF-比τ为Nτ=Σ48 1(ei<τ),其中1(True)=1L2:L2-Net + NN + RANSAC,SOS:SOSNet + NN + RANSAC,RS:RootSIFT + NN+ RANSAC,RS + NG:RootSIFT + NN + NG-RANSAC,ORB:ORB + NN + RANSAC。至于图像增强剂,我们使用第二节中解释的八种方法。 4.2., 也就是说,1(False)= 0。我们归一化Nτ除以总曝光设置的数量如图4、安--从曝光良好到曝光不足的设置,误差大致以单调的方式减小。因此,较大的Nτ意味着该方法对曝光不足更鲁棒$rr r ≥ 30°RIP-MIRNetSid6035RIPRIP-HistEqRIP-CLAHERIP-MIRNet直接组织学方程直接克拉赫直接BM3DSid图5.每种方法的估计误差低于阈值τ(水平轴)的曝光设置的归一化数量N τ(垂直轴)。每个面板示出了图像增强方法的11种图像匹配方法在54个室内5.2. 结果图5示出了室内场景的结果;室外场景见补充资料图11。表1示出了针对室内和室外场景的54个场景的τ= 5◦的Nτ的平均值,即,图中曲线的值5和图11,误差阈值τ=5◦。它可以用作图的总结5和图11个国家。我们可以作以下观察。首先,图像增强剂的总体比较表明如下:i)在增强和匹配之前使用标准RIP将RAW格式图像转换为8位RGB图像不如直接使用RAW格式图像。这表明标准RIP不能利用存储在RAW信号的低位中的信息这一事实构成了我们数据集的基础。接下来,图像匹配方法的总体比较产生以下结果:ii)SP及其变体明显优于其他方法。例如,SP和GIFT在所有情况下都优于RS和R2D2。这可能在某种程度上与 先 前 的 报 告 [9 , 27] 相 矛 盾 , 即 虽 然 SP 在 使 用HPatches数据集的基于单应性的评估中优于SIFT此外,iii)SP+SG在许多情况下表现最好。然而,与其他方法的差距在室内和室外场景之间有很大不同。对于室外场景,与第二最佳方法的差距往往很大,而对于室内场景,差距并没有那么大。基于标准相机流水线的增强器内的比较指示以下内容。iv)标准RIP(没有任何增强)的结果是最差的。比较RIP-HistEq和RIP-MIRNet,前者与后者相当甚至更好。这与Jenicek和Chum [25]最近研究中报告的结果一致,其中作者使用8位RGB图像输出标准RIP。最后,使用RAW格式图像的增强子内的比较示出以下内容。v)对于户外场景,四种增强剂在许多情况下表现出相似的性能。当与SP+SG一起使用时,BM 3D和SID的性能均优于Direct-HistEq和Direct-CLAHE;两者表现出最好的性能。对于室内场景,虽然也有类似的趋势,但SID只有在与SP+SG一起使用时才显示出与其他场景的良好结合。值得注意的是,SG的优越性取决于所选择的图像增强器,无论它们是应用于室内还是室外场景;这种趋势不能从SP的性能中精确地预测。我们得出结论,如果我们使用SG,我们应该选择SID作为图像增强器,它实现了最佳性能;如果我们不这样做,我们应该使用BM 3D,因为它总体上实现了良好的性能该结论不同于基于标准相机流水线的增强器(即,(iv))这是所提出的数据集提供了在仅提供低位深度图像的先前数据集中不可用的内容的图6示出了室内场景的几个匹配结果的可视化。6. 总结和讨论本文提出了一个数据集创建用于评估低光场景图像的图像匹配方法它包含各种低光场景的立体图像(54个室内和54个室外场景)。它们是在48种不同的曝光设置下拍摄的,包括从轻度到严重曝光不足的设置。该数据集提供地面实况相机姿态,以根据估计的相机姿态的准确性来评估图像匹配方法。我们已经报告了我们进行的实验,以测试现有的图像增强方法和图像匹配方法的多种组合。结果可以总结-6036表1.每种方法产生的结果优于误差阈值= 5◦的54个曝光设置场景的平均数N τ。摘自Fig.5和图11在补充。Indo或超越 或RIPR-HistEqR-CLAHER-MIRNetD-HistEqD-CLAHED-BM3DSidRIPR-HistEqR-CLAHER-MIRNetD-HistEqD-CLAHED-BM3DSidSP0.2230.4210.2750.3810.5480.5400.5960.5830.2330.3790.2690.3520.4600.4750.5020.500RSP0.1900.3790.2770.3650.5230.5230.5810.5770.2150.3630.2770.3350.4350.4480.4940.477礼物0.2380.4270.3380.3900.5520.5500.6020.5830.2540.3750.3210.3580.4750.4770.5060.492SP + SG0.2190.4000.2920.4040.5480.5440.5850.6190.3020.4190.3650.4100.5250.5270.5770.575R2d20.1130.3170.1920.2290.3880.3830.4830.4210.1040.2400.1630.1880.2670.2770.3730.321RF0.1380.1540.1520.1920.2560.2750.3460.3580.1600.1460.1830.2020.2250.2440.3230.325L20.0270.3230.0770.2270.4420.4150.4440.3940.0520.3310.0960.2580.4100.4230.4270.406SOS0.0290.3330.0770.2290.4380.4290.4400.3920.0540.3250.0960.2560.4170.4130.4230.402Rs0.0250.3170.0710.2100.4230.4040.4100.3690.0460.3170.0940.2420.4100.4130.4040.406RS + NG0.0230.2880.0730.2020.4040.3980.3880.3630.0480.2960.1020.2290.3880.3920.3960.375ORB0.0290.2100.0560.1250.2670.2380.2960.2380.0690.2130.0940.1440.2650.2330.2770.217RIP RIP-MIRNet直接-HistEq SIDSP + SGSPRsSP + SGSPRs图6.54个室内场景之一的匹配结果的可视化判定为内点的点对应性以绿线示出将三种匹配方法和四种图像增强方法的组合应用于具有不同曝光水平的两个图像对(即,‘Easy’ and具体如下。• RAW格式图像的直接使用显示出明显优于标准RIP的优势。使用标准RIP只产生次优性能,因为它不能利用存储在RAW格式信号的低位的信息。此外,当使用标准RIP时,使用经典直方图均衡或最先进的基于CNN的图像增强方法不会产生很大的差异,如[25]中所报告的。• SuperPoint及其变体始终比RootSIFT更好。• SID是使用Super- Point+SuperGlue时最好的图像增强器。否则,BM3D和SID表现得同样好,并且比单独使用直方图均衡化更好。虽然以上是我们关于当前可用方法的组合的结论,但我们认为仍有很大的改进空间。例如,我们手动选择14位RAW信号的范围,并将其转换为8位图像,并对其应用Superpoint。 可以观察到,手动方法产生的结果明显优于本文测试的图像增强器,这表明没有一种测试方法可以在14位RAW信号中选择用于图像匹配的最佳范围;参见第二节。有关详情,请参阅补充资料B。标准图像增强器被设计成产生看起来最自然的图像,其应当不同于用于图像匹配的最佳图像。我们将在未来的研究中探索这种可能性。鸣谢:本 工 作 部 分 得 到 了 JSPSKAKENHI资助号20H05952和JP19H01110的支持。硬容易6037引用[1] H. Aanæs,A. L. Dahl和K. S.佩德森。有趣的地方。IJCV,97(1):18-35,2012. 二、三[2] P. F. Alcantarilla和T.解决方案非线性尺度空间中加速特征的快速显式扩散IEEE Trans.模式分析马赫内特尔,34(7):1281-1298,2011。1[3] R. Arandjelovic和A.齐瑟曼。每个人都应该知道的三件事,以提高对象检索。在Proc. CVPR,2012。四、六[4] V. Balntas Silda:用于评估视觉本地化的多任务数据集,2018年。https://research.scape的网站。伊奥/希尔达/2[5] V. Balntas,E.约翰斯湖Tang和K.米科莱奇克Pn-net:用于学习局部图像描述符的联合三重深度网络。arXiv:1601.05030,2016。二、六[6] V. Balntas , K. Lenc , A. Vedaldi 和 K. 米 科 莱 奇 克Hpatches:手工制作和学习的本地描述符的基准和评估。在Proc. CVPR,2017中。2[7] A. Barroso-Laguna,E. Riba,D. Ponsa和K. 米科莱奇克钥匙net:通过手工制作和学习cnn过滤器进行关键点检测InProc. ICCV,2019. 2[8] H. Bay,T. Tuytelaars和L.范古尔Surf:加速健壮的功能。《欧洲法院民事诉讼程序》,2006年。2[9] A. Bhowmik,S.甘霍尔德角Rother和E. 布拉赫人。强化特征点:为高级任务优化特征检测和描述。在Proc.CVPR,2020中。https://github.com/aritra0593/Reinforced-Feature-Points. 六、七[10] J. Bian,W.Lin,Y.Matsushita,S.Yeung,T.阮,和M.程Gms:基于网格的运动统计,用于快速、超鲁棒的特征对应。在Proc. CVPR,2017中。3[11] J. 卞,Y.Wu,J.Zhao,Y.柳湖,加-地Zhang,M.成和I. 里德用于基本矩阵估计的特征匹配器的评估。arXiv预印本arXiv:1908.09474,2019。4[12] E. Brachmann和C.罗瑟神经引导的ransac:学习在哪里采 样 模 型 假 设 。在 procICCV , 2019 。https://github.com/vislearn/ngransac网站。二、四、六[13] C.陈角,澳-地Chen,M. N.做,和V. Koltun。在黑暗中看到运动。InProc. ICCV,2019. 二、三[14] C.陈角,澳-地Chen,J. Xu,and V.科尔顿。学会在黑暗 中 看 东 西 。在 procCVPR , 2018 年 。https://github.com/cchen156/Learning-to-See-in-the-Dark. 一、二、三、四、五[15] A. Crivellaro,M.Rad,Y.Verdie,K.Moo Yi,P.Fua和V.Lepetit。使用稳定部件从单目图像进行鲁棒3d目标跟踪。IEEE传输模式分析马赫内特尔,40(6):1465-1479,2017. 3[16] K.达博夫河Foi,V.Katkovnik,and K.埃吉亚扎利安人稀疏三维变换域协同滤波图像去噪。 IEEE Trans. 图像处理。,16(8):2080二、五[17] D. DeTone,T. Malisiewicz和A.拉比诺维奇。超点:自监督兴趣点检测和描述。在Proc. CVPRW,2018中。https://github.com/magicleap/SuperPointPretrainedNetwork。二、6[18] X. Dong,G.Wang,Y.庞,W。Li,J.温,W.和Y.陆一种快速有效的低光照视频增强算法。在Proc.ICME,2011中。3[19] M. 杜 斯 马 努 岛 Rocco , T. Pajdla , M. Pollefeys , J.Sivic,A. Torii和T.萨特勒D2-net:一个可训练的CNN,用于联合检测和描述局部特征。在Proc. CVPR,2019中。2[20] M. A. Fischler和R. C.波尔斯随机样本同意:一个范例模型 拟 合 与 应 用 程 序 的 图 像 分 析 和 自 动 制 图 。Communications of the ACM,24(6):381-395,1981.2[21] A. Geiger,P. Lenz,和R.盖革,等.乌塔松我们准备好了吗?Kitti Vision基准套件。在procCVPR,2012年。2[22] X. Guo,Y.Li和H.凌Lime:通过照明图估计的低光图像IEEE传输图像处理。,26(2):982-993,2016. 3[23] X.汉,T.梁,Y.贾河,巴西-地Sukthankar和A. C.伯格。Matchnet:统一特征和度量学习用于基于补丁的匹配。在Proc.CVPR,2015中。二、六[24] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社,2003年。1[25] T. Jenicek和O.好朋友不怕黑暗:在不同光照条件下的图像 在proc ICCV,2019。二七八[26] R
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功