直接边缘稀疏视觉里程计的像素选择策略

131 浏览量更新于2023-12-09 收藏 2.06MB PDF 举报

技术部分

图像选择

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

图形和视觉计算6（2022）200051技术部分一种结合边缘和直线检测的直接稀疏视觉里程计点选择策略苗银明，山口东京工业大学，横滨，神奈川226-8503，日本ar t i cl e i nf o文章历史记录：收到2021年收到修订版，2022年4月26日接受，2022年2022年5月27日网上发售关键词：直接SLAM边缘检测点选取a b st ra ct在大多数基于特征的视觉同时定位与地图构建系统中，当前图像中的像素与先前图像中的相关像素进行比较，像素坐标的差异表示相机的运动。与基于特征的系统不同，直接方法直接对图像强度进行操作。可以利用图像上的每个像素或具有足够强度梯度的选定像素。然而，图像中的噪声可能会影响这些算法的性能，因为像素没有被充分选择。在这项工作中，我们提出了一个新的像素选择方法的直接视觉里程计系统，专注于边缘像素。边缘像素通常比正常像素更稳定和可重复。我们采用传统的边缘检测方法，自适应参数，得到粗糙的边缘结果。然后通过梯度和形状分离边缘。我们使用直线度、平滑度、长度和梯度幅度来选择有意义的边缘。我们用 Loop Closure代替Direct Sparse Odometry和 Direct SparseOdometry的像素选择步骤来呈现开放数据集上的评估。实验结果表明，我们的方法改善了现有的直接视觉里程计系统在人造场景中的性能，但不适合纯自然场景。版权所有©2022作者。爱思唯尔有限公司出版这是CC BY-NC-ND下的开放获取文章许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍视觉里程计（VO）和同步定位与地图构建（SLAM）是目前研究和生产中的热点.除了单目相机或立体相机之外，还有许多类型的传感器，如RGB-D相机和激光器，可以提高里程计系统的性能。尽管如此，考虑到成本和尺寸，单目相机仍然是使用最广泛的传感器之一。在这项工作中，我们专注于基于单目相机的VO方法。传统的VO和SLAM系统有几种。基于特征点的VO：使用特征点提取和匹配来获得图像之间的对应关系[1，2]。在估计中，最小化重新投影几何误差的相机姿态被认为是最佳姿态。ORB [1]和SIFT [3]通常用作特征点。这些方法对光照变化具有较强的鲁棒性，且特征点可用于环路闭合检测。然而，这些方法是弱的低纹理区域，没有足够的特征点。此外，创建的地图是稀疏的，这不利于描述观察场景的整体结构这篇文章是由S.佐尔曼*通讯作者。电子邮件地址：miao. ilooktech.com（Y. Miao）。https://doi.org/10.1016/j.gvc.2022.200051直接VO：直接方法[4 - 7 ]不需要一对一的匹配，并且更全面地处理数据关联。直接方法关注图像强度。只要当前图像中先前像素的投影残差足够小，则认为投影成功。无需特征点的提取和匹配，可以减少直接方法的时间开销。这适用于没有强大计算机能力的应用在低纹理区域，直接方法比基于特征点的方法更鲁棒。此外，直接方法可以建立稠密或半稠密映射。边或线VO：近年来，也有一些关于VO利用图像中的边或直线的研究[8边缘在低纹理环境中是鲁棒的和可跟踪的。边缘通常显示对象的边界，因此重建图适用于进一步的导航任务。一些里程计方法结合点和线来提高鲁棒性。边缘检测方法在计算机视觉中得到了很好的发展然而，给出边的描述子和对应关系并不容易.带边的方法不如基于特征点的方法或直接方法成熟总的来说，对于大多数视觉里程计算法来说，所选像素的稳定性和可重复性是重要的。有几个因素可能会影响像素选择的质量，例如图像噪声、照明变化和移动对象。在一些数据集中，即使几乎没有行人或移动的汽车，2666-6294/©2022作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表图形与视觉计算期刊首页：www.elsevier.com/locate/gvcY. Miao和M. 山口图形和视觉计算6（2022）2000512树上的叶子还在随风摇摆。视觉测距技术通常用于城市环境和工厂。使用场景通常包含许多人造对象，例如道路、汽车、建筑物、家具和机械设备。这些对象通常具有明显且稳定的边缘。使用边缘像素的另一个优点是重建的云点具有比使用分散的特征点更清晰的结构。为了充分利用人造物体的边缘信息，提出了一种基于边缘检测的直接稀疏化方法。由于自然物体的边缘通常是不规则的，我们的方法侧重于直线和光滑的边缘。在该方法中，我们得到粗糙的边缘结果，通过传统的边缘检测方法与自适应参数和分离的边缘成几个字符串。直线度、平滑度、长度和梯度幅值用于选择有意义的边。最后，当边缘像素具有高优先级时，选择点进行测距在实验中，我们替换了DSO（直接稀疏里程计）[4]和LDSO（直接稀疏里程计与闭环）[5]的选点步骤来评估我们的方法。2. 相关工作2.1. 直接VO直接方法在图像像素的全部或部分中定义基于强度的函数，而无需特征提取和映射。密集跟踪和映射（DTAM）[6]是一个依赖于图像中每个像素的系统在GPU的支持下，DTAM可以实现实时摄像机跟踪和密集地图重建。还有几种半稠密直接方法可以降低计算成本。 Engel 等人提出了大规模直接单目 SLAM （ LSDSLAM）[7]，这是一种直接SLAM流水线，仅对图像的高梯度部分中的像素进行操作，并创建半密集地图。通过使用逆深度参数化[13]，用随机值DSO [4]是一种直接稀疏视觉里程计，集成了曝光时间、镜头渐晕和响应函数的估计因此，它对自动曝光相机是鲁棒的。该算法首先将图像分成若干块，然后选取每个块中梯度秩较高的像素。LDSO [5]是DSO的一种扩展。在DSO中加入了闭环检测和姿态图优化，以创建一个完整的SLAM系统。为了实现环闭合检测，LDSO采用DSO的点选择策略，以支持可重复的角点特征。选择Shi-Tomasi评分[14]来定义哪些角特征用于环路闭合检测。仅基于梯度幅值的像素选择速度快，但对强噪声鲁棒性差。2.2. 基于边缘的VOEade和Drummond定义了一种称为edgelet的边缘特征，以增强粒子滤波SLAM系统[9]。Klein和Murray [8]提出了一种利用边波来提高并行跟踪和映射（PTAM）[2]在快速相机运动中的性能的方法。基于线的光束法平差需要大量的计算机资源。Tarrio和Pedre[10]在经典的基于特征的视觉里程计和半密集直接方法之间提出了一种基于边缘的VO。它们试图在重投影后最小化最近边的距离。Yang和Scherer [11]提出了一种直接方法，该方法结合了点和线，以受益于直接方法和基于特征的方法的优点。分析基于边缘的正则化的发展，以加快和提高立体匹配精度。Pumarola等人。[15]提出了一种具有点和线的单眼视觉 SLAM 。他们的方法是基于特征的ORBSLAM的扩展[1]。直线特征结合ORB点特征进行跟踪和映射。尽管边缘通常具有更多的信息并且比分散的点更稳定，但是图像上提取的边缘经常由于照明和相机方向的变化而变化。2.3. 边缘和直线提取Canny边缘检测器[16]是一种广泛使用的边缘检测器。Akinlar和Topal [17]提出了EDLines，这是一种来自边缘片段的线段检测器。线段检测器LSD [18]直接从图像中产生，它结合了梯度方向和自适应控制错误检测的数量CannyLines [19]基于通过在输入图像上应用无参数Canny检测器获得的边缘图最后通过对边缘段的拟合、延伸、合并和验证得到最终的直线段。近年来，基于CNN的方法一直是热门话题，如DeepContour [20]和DeepEdge [21]。然而，时间成本是视觉里程计中的重要因素。大多数基于深度学习的边缘检测方法不适合实时导航系统。由于SLAM系统中关于边缘的描述符和对应关系并不完善，因此，在所提出的方法中，我们仅使用边缘检测结果来扩展像素选择。DSO和LDSO的步骤，但没有提出一个全新的SLAM系统的边缘。我们倾向于选择属于人造对象的边。与现有的边缘检测方法不同，该方法中的边缘检测步骤的目的不是从输入图像中提取所有的边缘。采用传统的参数自适应的边缘检测方法我们选择有意义的边缘从粗糙的边缘检测结果与直线度，平滑度，长度和梯度的大小。3. 算法该算法主要包括两个步骤，边缘检测步骤和点选择步骤。3.1. 边缘检测所提出的边缘检测方法的过程的流程图如图所示。1.一、在边缘检测阶段，采用Canny边缘检测方法，对提取的边缘进行梯度方向分割。然后，我们应用第一选择过程，短边被丢弃，长而光滑的边被标记为有意义的边。然后我们将其他边按形状分段。在第二选择步骤中，极端短的边缘被放弃，并且具有低梯度的短对于左边，计算平滑度和直线度。我们保持这些边缘的光滑度或直线度得分很高3.1.1. Canny算子Canny边缘检测器中使用了两个阈值[16]。具有高于高阈值的梯度的像素将被标记为强边缘像素，而具有低于低阈值的梯度的像素将被抑制。其他像素被标记为弱边缘像素。如果弱边缘像素具有相邻的强边缘像素，它也将被标记为强边缘像素。称为Canny PF [19] 的无参数 Canny 算子定义了一种基于虚警数（NFA）的策略，以自适应地计算Canny边缘检测器的两个阈值对于大多数边缘检测算法，边缘在图像中的分布并不是判断的标准然而，在视觉里程计系统中，由于摄像机的移动是Y. Miao和M. 山口图形和视觉计算6（2022）2000513=√××图1.一、所提出的边缘检测方法的过程流程图。不可预测的，选择地图点的策略通常期望所选择的点均匀地分布在整个图像中以提高鲁棒性。在这一步中，我们将我喜欢在低对比度区域保留比Canny更多的边缘像素低阈值和高阈值的计算与CannyPF相同，但乘以比率k。在我们的实验中，k0。7.视觉里程计是一个持续的过程，并且输入图像与先前的图像相关联。我们假设在大多数情况下，光环境是平滑变化的，因此在视觉里程测量期间，两个阈值不应该有突然的变化。在许多SLAM系统中，提取的像素数量影响处理的速度和结果的准确性因此，经常在程序中手动设置用于控制所选像素数的所需数量我们还在程序中添加了一个想要的数字来控制拾取的边缘像素数。我们将Canny算子中的两个参数定义为：Gmaxnow=RGmaxpre<$Npre/Nwanted+（1−R）kCmax（1）Gminnow=RG minpreNpre/N wanted+（1−R）kC min（2）这里Cmax和Cmin是来自Canny PF的高阈值和低阈值。N_pre是图像中最终选择的像素的数量，分辨率对于分辨率为640 × 480的图像，lmin约为5.49，而对于分辨率为1920 ×1080的图像，lmin约为6.32.最后一步中长度小于lmin的分离字符串将被丢弃。3.1.4. 平滑度计算因为我们希望保留人造物体的边缘，这些物体通常由光滑的曲线或直线组成我们需要定义边的光滑度。对于一条边上的每一点，我们计算该点到该点后第三个点的方向作为切线方向。如果两个相邻点的切线方向变化太大，则标记一个突然的方向变化。方向突变的次数与边缘长度的比值被用来定义一个分数用于平滑度描述。包含很少突然方向变化并且长度大于lmin的两倍的边被认为是有意义的边。其他边标记为未确定边。3.1.5. 带形状的一些待定边用几条直线或光滑线连接。这些优势可能是有价值的，以前的形象。N所需的选定边数不符合以前的规则。他们需要被分开点G想要的变成更简单的形状对于每条边，我们做一条线，minpre 和Gmaxpre 是在先前图像中使用的阈值。Gmaxnow 和Gminnow是将在当前图像中使用的阈值。R是范围[0，1]中的常数值。R越高，阈值变化越慢。当相机的曝光时间固定或变化缓慢时，我们更喜欢选择较高的R。在实验中，R被设置为0.3。3.1.2. 梯度方向边缘分割与Canny PF类似，我们使用基于内核的Hough变换（KHF）投票方案[22]的链接过程将边缘像素分割成字符串。我们选择具有最大梯度幅度的像素作为种子像素，这是字符串的起点。然后，程序搜索所选种子像素的相邻区域中的8个像素。当相邻像素是边缘像素并且具有与种子像素相似的梯度方向时，将相邻像素添加到串。然后添加的像素成为下一个种子像素。直到没有新的合格的邻居像素可以添加，字符串到达结束像素。创建字符串后，程序选择具有最大梯度幅度的未使用像素作为种子像素并继续处理。在实验中，梯度方向差的阈值被设置为π/83.1.3. 最小有意义长度最小有意义的边长度被定义为以下函数：Imin=log（N）（3）其中N是图像的像素数。我们假设最小可识别线的长度随着时间的推移而缓慢增长边的起点和终点。边缘上离直线最远的点标记为分割点。如果分割点到直线的距离大于阈值，则在分割点上将边缘分割为2部分。我们继续这个过程，直到没有边需要被分割。在该分割之后，具有比lmin短的长度的分离的边缘被丢弃。在一个串中的每个像素的平均梯度幅度梯度水平小于Canny高阈值Gmaxnow的字符串，（1）的长度小于lmin的两倍也被放弃。其他字符串将在下一步中处理3.1.6. 直线度计算在最后一次分裂之后，由于数字图像像素的离散性如果我们使用3.1.4中的平滑度分数作为过滤器，其中一些字符串将被放弃。因此，我们为下一个选择步骤定义直线度分数。对于最后一次分裂后的每个字符串，我们应用最小二乘拟合函数来获得边缘的线函数。然后计算边缘上每个像素到直线的距离。与线有较大距离的像素被标记为离群值。离群像素和边缘长度的比率给出了描述边缘的平直度的分数。最后，我们保留具有高平直度分数或高平滑度分数的边缘图图2和图3示出了所提出的方法的边缘检测结果和Canny、LSD的线检测结果、KITTI数据集[23]和EuRoC数据集[24]上的CannyLines这两个数据集通常用于视觉里程计相关的研究。由于我们的目标是提高视觉里程计的性能，我们没有选择Y. Miao和M. 山口图形和视觉计算6（2022）2000514图二. KITTI数据集上的边缘或直线检测结果的样本Canny与不同的阈值，LSD，CannyLines，和所提出的方法。边缘检测实验数据集。在实验中，我们可以看到，Canny检测结果强烈影响的阈值。LSD、CannyLines和我们的方法比Canny检测器具有更好的光照适应性。我们的方法在同一图像上有暗区和亮区时表现得更好。为了在图像上提取稳定的边缘，我们的方法具有直线检测方法的优点，可以得到直线。同时，我们的方法可以提取光滑的曲线，如图2中的汽车上的边缘和图2中的具有特殊图案的地面上的面板上的边缘。3 .第三章。然而，我们的方法未能提取约一半的棋盘上的线条在第二个样本图像图。三是LSD成功提取。3.2. 点选择在DSO中，我们假设提取的边缘上的每个像素是候选点。边缘像素的数量通常大于DSO和LDSO程序中所需的选定点的数量在DSO中，我们采用相同的思想从大量的候选点中选择点生成具有与输入图像相同大小的随机映射。将来自[0，1]的随机值分配给贴图中的每个像素。对于一个边缘像素，如果随机图中同一位置的像素值小于所需数目与边缘点数目的比值，则LDSO中的环闭合需要具有强特征的角点Shi-Tomasi评分[14]用于选择角点。我们修改了LDSO中的点选择策略，使其对边缘点更敏感。LDSO中使用的每个阈值扩展为一个低阈值和一个高阈值。边缘上的像素被应用低阈值，而其他像素被应用高阈值。在实验中，低阈值是原始阈值的0.8倍，高阈值是原始阈值的2倍。图三. 在EuRoC MAV数据集上使用不同阈值、LSD、CannyLines和所提出的方法进行边缘或线检测的结果样本。图图4和图5显示了在KITTI数据集和EuRoC数据集上，DSO、LDSO中的点选择的性能，没有和使用我们提出的方法所提出的方法在图中的道路和树木上拾取较少的像素。二、在EuRoC MAV数据集中（图 3）场景中主要包含人造目标，采用该方法前后的DSO效果差异不明显。特别是，在LDSO程序中，不使用图像的板区域。我们也保持这个过程中的LDSO与所提出的方法。4. 实验我们在KITTI数据集、EuRoC MAV数据集和TUM Mono数据集上评估了我们的方法在视觉上的表现[25]。在实验中，来自左相机的图像被用作输入图像。我们将选点步骤在DSO和LDSO的开源代码中。我们确保所提出的方法和相关作品在我们的实验中具有相同的设置，但参数设置可能与已发表的作品中的实验由于DSO和LDSO有一些随机设置，每次的结果可能不同，我们使用不同的种子运行每个序列十次，以减少随机数的影响。种子由计算机系统的本地时间定义。绝对轨迹误差（ATE）通过执行Sim（3）对准地面实况来计算。对于每个序列，通过10个实验比较了该方法和相关工作的性能。Y. Miao和M. 山口图形和视觉计算6（2022）2000515表1KITTI序列00-10上DSO的 ATE（m）粗体数字表示最佳结果。Seq.DSO我们LSDCannyCannyLines00120.22115.63121.06122.37115.740132.1711.9712.0419.0429.6802125.33114.46127.37130.7397.48032.392.372.332.101.92040.900.890.910.740.840550.5945.1152.7751.4842.490665.0458.6666.3668.8159.140718.4316.7617.5821.4216.8008123.94112.26123.95130.59102.060974.8471.8675.1976.1366.881016.4414.7916.0018.7412.91表2EurRoC MAV数据集上DSO的 ATE（m）粗体数字表示最佳结果。Seq.DSO我们LSDCannyCannyLinesmh010.05760.05330.06260.05970.0630mh020.04420.04510.04360.04740.0486mh030.19770.18860.19770.19620.2091MH040.47130.16510.40140.37410.2728mh050.10330.11490.12690.11490.2175V1010.13580.13370.20900.14560.1598v1020.45010.36720.58190.70340.6106图四、DSO、LDSO中KITTI数据集上的点选择结果样本，V1030.92380.70941.03331.20880.9206和我们提出的方法。红点显示用于V2010.07260.07100.07360.07140.0665LDSO中的环路闭合（为了解释本图中对颜色的引用，v2020.10850.10940.12120.08570.1246图例，请读者参阅本文的网络版v2031.42681.43041.47461.46511.5472图五. EuRoC MAV数据集在DSO，LDSO没有和我们提出的方法的点选择结果的样本。红点显示用于LDSO中循环闭合的角点。(For对本图图例中所指颜色的解释，读者可参考本文的网络版4.1. DSO实验我们取代DSO的点选择步骤，通过选择点的边缘或线的检测结果，所提出的方法， LSD ， Canny 检测器与固定阈值，和CannyLines。的在Canny检测器中，低阈值被设置为30，而高阈值被设置为90。在KITTI里程计数据集上进行测试：KITTI数据集是一个众所周知的里程计基准。立体图像和地面实况提供了在城市环境中捕获的几个序列。此数据集中的图像通常包含建筑物、树木、汽车和道路。在每个序列期间，曝光时间不是固定的，但是曝光时间的变化是平滑的。我们比较DSO与和没有基于边缘的点选择方法从序列00到序列10。由于每个序列具有不同的特征，并且这些序列之间的ATE可能存在很大差异。例如，DSO的ATE为0.90 而在KITTI数据集上的序列08中它是123.94。对于每种方法，我们列出每个序列的结果，而不是它们的平均值。表1显示了每种方法在序列00至序列10上的平均ATE。实验结果表明，该方法在所有11个序列上都取得了比DSO更好的结果。然而，使用CannyLines的点选择方法在11个序列中具有最多的最佳结果在EuRoC MAV数据集上进行测试EuRoC MAV数据集提供了11个序列，包括立体图像、同步IMU（惯性测量单元）读数和地面实况相机轨迹。数据是在室内环境中采集的。相机的曝光时间在某些场景中变化很大。此外，由于相机安装在无人机上，一些场景表现出非常动态的运动，这导致图像中的运动模糊表2显示了EuRoC MAV数据集所有序列的平均ATE。所提出的方法在该数据集中获得最大同时，该方法在11个序列中的7个序列上得到了比DSO更好的结果在TUM Mono数据集上进行测试：TUM Mono数据集是用于评估单眼视觉里程计和SLAM方法的跟踪精度的数据集。它提供了50个序列。我们分别对包含室内场景的前十个序列和包含室外场景的数据集的最后十个序列进行了测试Y. Miao和M. 山口图形和视觉计算6（2022）2000516×表3TUM Mono数据集上DSO的 ATE（m）粗体数字表示最佳结果。Seq.DSO我们LSDCannyCannyLines10.46830.38080.47380.38300.531420.58460.34740.30380.78690.531730.16020.09650.16680.08040.171840.39780.31640.48910.35200.349450.60680.47720.57000.51520.483260.44960.51790.43720.42610.829870.37610.47700.39150.49310.508780.46860.46630.44190.37220.794590.51160.40980.50710.41550.5447100.13450.07740.10870.08930.1886410.17690.16020.17760.12500.1696420.16960.14030.18960.18820.1415430.26570.35260.38200.25170.3982440.40680.37180.49880.19540.3510450.12290.12910.12220.12240.1296460.19540.16700.13320.20570.1831470.05470.05680.05350.04260.0566480.09000.08930.09010.09010.0893490.07770.08900.09220.07680.0892500.16550.20370.19390.18420.2061表4基于边或线检测的DSO和点选择策略的时间成本。 Seq.DSO Ours LSD CannyCannyLinesKITTI120.3毫秒156.9毫秒141.0毫秒125.2毫秒159.1毫秒EuRoC52.7毫秒60.0 ms57.6毫秒54.9ms64.8毫秒TUM41.9毫秒46.0毫秒43.4毫秒40.9毫秒47.6毫秒表3显示了每种方法在TUM Mono数据集的1-10和41-50序列上的平均ATE。所提出的方法和Canny算子的方法表现出更好的性能。该方法在20个序列中的13个序列上取得了比DSO更好的结果。在1-在包含41-50个序列的室外场景中这可能是由于某些户外场景没有长线段造成的。然而，在大多数情况下，所提出的方法的结果优于CannyLines。表4显示了三个数据集上每种方法每帧的平均时间成本。时间的单位是毫秒。该算法被应用在具有Intel Core i7-6700 CPU（3.40 GHz 8）和8 Gb RAM的计算机上。在EuRoC MAV数据集中，在序列v203中存在一些实验失败的次数，在没有该序列的情况下计算平均时间成本原始DSO具有最快的性能。4.2. LDSO实验我们还应用实验与LDSO。表5、表6和表7分别显示了KITTI、EuRoC MAV和TUM Mono数据集上每种方法的平均ATE该方法在42个序列中得到了21个最佳结果。同时，该方法在42个序列中的30个序列上取得了比LDSO更好的结果。表8显示了时间成本。在KITTI数据集的某些序列中，场景主要包含中间的道路和两侧的树木。在其他一些场景中，汽车正在转弯，车上的摄像机靠近树木，大部分捕获的图像都充满了树木。该方法倾向于从道路和建筑物中拾取像素，这降低了系统在这些条件下的准确性。在TUM Mono Dataset中，包含在41-50个序列中的一些户外场景包含大面积的草地和灌木。树木上几乎没有直线和长长的平滑曲线，表5KITTI序列00-10上LDSO的 ATE（m）粗体数字表示最佳结果。Seq.LDSO我们LSDCannyCannyLines009.799.5910.669.7530.650114.439.6910.6510.4847.060230.0521.9322.5722.1122.07033.373.263.263.422.88041.071.031.161.031.07058.364.197.046.214.070613.3112.2112.6913.4112.99077.816.527.157.946.5608135.19132.85138.53135.21131.010978.6174.8378.8279.1577.871019.2517.7618.3019.2516.29表6EuRoC MAV数据集上LDSO的 ATE（m）粗体数字表示最佳结果。Seq.LDSO我们LSDCannyCannyLinesmh010.04660.04330.04340.05000.0451mh020.07190.04330.04450.04400.0451mh030.09370.10190.11650.09310.1043MH040.17510.16930.17600.19380.1789mh050.13630.13460.13930.10250.1909V10109780.09750.10250.10250.1195v1020.52310.57820.55520.36010.2008V1030.88180.80691.03200.82171.0252V2010.06950.06530.06770.06590.0685v2020.83630.07790.08720.63280.0819v2031.05561.24321.28131.38841.2715表7TUM Mono数据集上LDSO的 ATE（m）粗体数字表示最佳结果。Seq.LDSO我们LSDCannyCannyLines10.86040.46270.58560.72400.638220.32730.24140.15810.29230.284330.50320.20100.22920.40610.151641.00470.60700.66660.87570.733351.02650.84290.90620.93930.853560.24870.35420.57520.53660.564470.61030.75070.64810.56890.530381.02981.00961.48661.11201.275090.55800.47550.39510.52290.5214100.08650.08550.11770.07650.0866410.11610.15790.18920.17830.1887420.19210.19960.18640.19480.1989430.06180.21140.22680.10170.2417440.11160.01450.09930.01770.0173450.07650.11700.12610.08180.1119460.04180.03040.12220.05660.0357470.03830.04780.05610.03650.0582480.01990.02830.06620.01340.0589490.05160.02400.02990.06470.0209500.17420.19260.18670.18430.2049表8LDSO的时间开销和基于边或线检测的点选择策略Seq.LDSO我们LSDCannyCannyLinesKITTI189.1毫秒226.9毫秒198.2毫秒191.8毫秒231.5毫秒EuRoC84.6毫秒94.3毫秒89.6毫秒86.3毫秒98.4毫秒TUM72.3毫秒82.0毫秒75.8毫秒73.7毫秒85.8毫秒草一些有效的像素将被忽略，因为他们不是在提取的边缘所提出的方法。因此，所提出的方法对于自然场景是弱的。然而，与DSO 情况类似，所提出的方法的结果在 7/10 序列中优于CannyLines。在EuRoC MAV数据集中，大多数场景都包含许多具有清晰边界和角点的人造物体.即使我们不使用边缘作为附加信息，我们仍然可以选择具有强特征的点。少数场景包含强烈的运动模糊，这导致拖影现象。一分在现实中Y. Miao和M. 山口图形和视觉计算6（2022）2000517见图7。用DSO、LDSO对KITTI数据集的02序列进行了部分三维重建。表9在KITTI数据集上重复实验10次中ATE的最大值、最小值、标准差和平均值。最右一栏列出了最不发达国家组织文件中提供的数据，以供参考。Seq.MaxMinSD是说LDSO纸0012.696.731.689.799.320136.209.358.4214.4311.680287.6020.4719.5130.0531.98033.873.020.213.372.85041.411.000.121.071.220540.763.4210.868.365.100617.3210.061.6713.3113.550714.556.322.317.812.9608137.02132.211.52135.19129.020979.4575.291.1678.6121.641019.8617.770.5719.2517.36见图6。三个数据集的完整评估结果。我们对每个序列进行十次实验。每个正方形对应于每个测试的ATE（颜色编码）。水平轴表示序列的名称。纵轴表示循环的索引在这种情况下，世界会被拉长成一条线这不利于基于边缘的点选取方法。表5中显示的一些ATE明显比之前LDSO论文[5]中发表的结果更差。我们在KITTI数据集上进行了10次LDSO实验平均ATE见表5的LDSO列。表9显示了KITTI数据集上十次实验中ATE的统计分析。根据随机数的产生，观察到大的波动此外，程序参数和随机种子的微小差异可能会导致循环闭合检测在我们的实验中失败。例如，在我们的实验中，LDSO对序列09的结果比LDSO论文中的结果差得多，但相似DSO的结果。与已发表的LDSO论文结果不同的另一个原因被认为如下。单目视觉里程计没有真实的尺度信息。初始化步骤在某些情况下是不稳定的，例如KITTI数据集的序列01。在一些实验中，初始化在比其他实验中更多的帧它可能会影响Sim（3）对齐的性能。对于给定的序列，用于评估的第一帧由所提出的方法和相关方法的整个实验中的最慢初始化定义。这种操作可能会使我们的DSO和LDSO结果与出版物不同。图6用彩色图显示所有误差结果失败的序列用颜色条的最大值着色Y. Miao和M. 山口图形和视觉计算6（2022）2000518见图8。利用 DSO、LDSO对EuRoC数据集上的MH01序列进行了部分三维重建，并与我们提出的方法进行了比较。由于所提出的方法侧重于边缘点，重建的云点图通常具有比原始DSO和LDSO更清晰的结构图 7和图8示出了重建的云点图的示例。基于Shi-Tomasi分数选择LDSO系统中用于环路闭合的特征点。在所提出的方法中，我们还选择了具有高Shi-Tomasi分数的循环闭合特征点，即使这些点不在边缘上因此，重建的地图LDSO与没有所提出的方法有更多的分散点比DSO。重建后的地图结构清晰，有利于云点的分割和识别。5. 结论在本文中，我们提出了一种新的VO技术，使用边缘检测方法来提取图像中具有不同特征的像素。提出的边缘检测方法侧重于直线和长的光滑曲线。在边缘检测结果的基础上，提出了一种DSO和LDSO的关键点选取方法。边缘区域的描述避免了选择噪声或一部分不稳定的对象，如移动的树叶的树木作为关键点。在开放数据集上的实验结果表明，当场景中同时包含人造物体和自然物体时，该方法提高了DSO和LDSO的精度。时间成本的增加是一个不利因素。在未来的工作中，我们希望通过优化代码和在真实环境中测试算法来减少时间消耗竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作引用[1]Mur-Artal R，Tardos JD. orb-slam 2：一个用于单眼、立体和rgb-d相机的开源slam系统。IEEE Trans Robot 2017;33（5）：1255 - 62.[2]放大图片作者：Klein G，Murray D.小型AR机器人的并行跟踪和映射。2007年：第六届IEEE和ACM国际混合和增强现实研讨会。IEEE; 2007，p.225比34[3]劳从尺度不变的关键点中提取独特的图像特征。 Int JComput Vis2004;60（2）：91-110.[4]放大图片 Engel J ， Koltun V ， Cremers D. 直接稀疏测程法。IEEE TransPatternAnal Mach Intell2017;40（3）：611-25.[5][10]高X，王R，Demmel N，Cremers D. LDSO：直接稀疏里程与闭环。2018IEEE/RSJ智能机器人与系统国际会议（IROS）IEEE; 2018，p.2198-204。[6]Newcombe RA， Lovegrove SJ， Davison AJ. DTAM：实时密集跟踪和映射。2011年国际计算机视觉会议。IEEE; 2011，p. 2320-7[7][104]杨伟，王伟. LSD-SLAM：大规模直接单眼SLAM。在：欧洲计算机视觉会议。 Springer; 2014p. 834-49[8]放大图片作者：Klein G，Murray D.提高基于关键帧的SLAM的灵活性。在：欧洲计算机视觉会议。Springer; 2008，p. 802-15[9]放大图片作者：J.单眼SLAM中的边缘地标。Image VisComput2009;27（5）：588-96.[10]Tarrio JJ，Pedre S.单目摄像机的实时基于边缘的视觉里程计。在：IEEE计算机视觉国际会议论文集; 2015年，第101页。702-10[11]Yang S，Scherer S.使用点和线的直接单目测距法。2017IEEE InternationalConference on Robotics and Automation（ICRA）IEEE; 2017，p. 3871-7[12]Maity S，Saha A，Bhowmick B.边缘猛击：基于边缘点的单目视觉猛击。在：IEEE计算机视觉研讨会国际会议论文集; 2017年，p.2408-17[13]放大图片Civera J，Davison AJ，Montiel JM.用于单目SLAM的逆深度参数化。IEEE Trans

下载后可阅读完整内容，剩余1页未读，立即下载