视觉-惯性目标检测和映射

169 浏览量更新于2023-10-13 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉-惯性目标检测和映射费孝瀚与斯特凡诺·索亚托加州大学洛杉矶分校视觉实验室{feixh，soatto} @ cs.ucla.edu抽象。我们提出了一种方法来填充一个未知的环境与模型，以前看到的对象，放置在一个欧氏参考系，推断因果关系和在线使用单目视频以及惯性传感器。我们实现的系统返回一个稀疏的点云的场景，是可见的，但没有被识别为以前看到的对象的区域，以及一个详细的对象模型和它的姿势在欧几里德框架，否则。该系统包括自下而上和自上而下的组件，由此被训练用于检测的深度网络提供由非线性滤波器提供的对象假设的似然分数，该非线性滤波器的状态用作记忆。额外的网络提供边缘的似然性得分，这补充了被训练为对小变形不变的检测网络我们在现有的数据集上测试我们的算法，并介绍了VISMA数据集，该数据集提供地面实况姿态，点云地图和对象模型，以及时间戳惯性测量。1介绍我们的目标是在三维（3D）场景中检测，识别和定位对象。我们假设，以前的意见的对象是足以构建一个密集的模型，其形状，在一个封闭的和水密的表面，其外观（纹理图）的形式。因此，一旦从单目图像中检测到对象，并将其定位在场景中，则可以使用对象模型映射相应的空间区域，包括当前图像中不可见的部分（图2）。第4和第 5段）。虽然单目图像提供了场景中物体的证据-以其存在，形状和姿势的可能性得分的形式-但它们不应用于做出决定。相反，证据应随时间积累，并且每个时刻的可能性组合成概率和概率的后验估计。这被称为“图像映射”，其使用深度传感器（RGB-D图像）的早期实例在[ 1]中给出。我们的方法针对相同的目标，但使用单目相机和惯性传感器，而不是范围传感器。惯性传感器越来越经常地存在于从汽车到电话、平板电脑和无人机的具有单眼相机的传感器套件中。它们在一个信息丰富但价格低廉的传感器包中自然地补充了视觉。与RGB-D不同，2X. Fei和S. Soatto可在室外操作;与立体声不同，它们在远距离有效;与激光雷达不同的是，它们便宜、轻便，并提供更丰富的光度特征。惯性传感器提供了一个全球一致的方向参考（重力），并按比例放大到一些漂移。这允许将姿势空间减少到四维而不是六维。我们利用视觉-惯性传感器融合的最新发展及其在语义映射中的应用，其中的早期实例在[2]中给出，其中对象由3D中的边界框表示。我们的方法将这项工作扩展到更丰富的对象模型，允许计算细粒度的可见性和估计准确的姿势。贡献我们专注于应用（室内和室外）导航，其中许多感兴趣的对象是刚性和静态的：停放的汽车，建筑物，家具。我们的贡献是一种方法和系统，产生相机的姿势和点云地图的环境，填充三维形状和外观模型的对象识别。它是语义的，在这个意义上，我们有识别的每个对象实例的身份。此外，所有的几何和拓扑关系（接近度，可见性）都被这个地图捕获。我们通过采用文献中的一些工具，即视觉-惯性融合，并利用基于深度学习的对象检测的最新发展，为对象及其姿态制作一个新的似然模型来实现这一点系统以因果关系和增量方式更新其状态（内存），仅处理当前图像而不是存储批次。另一个贡献是引入了一个数据集，用于测试基于视觉惯性的语义映射和3D对象检测。使用惯性是微妙的，因为需要精确的时间戳，校准和偏差估计到目前为止，我们还不知道任何带有惯性的物体检测数据集我们不解决类内可变性。话虽如此，该方法对模型中的适度变化具有一定的鲁棒性。例如，如果我们有一个模型Aeron椅子（图。2）有了扶手，我们仍然可以检测和定位一个没有扶手的Aeron椅子，或者把扶手抬高或放低。组内组织2，我们描述了我们的方法，其中包括自上而下（过滤器）和自下而上（可能性/建议）组件。特别是，Sect.2.4描述了我们引入的新的似然模型，使用检测和边缘评分网络。节3描述了我们的实施，这是测试节。4，其中描述了VISMA数据集。我们讨论的特点和局限性，我们的方法在节。5、关于以前的相关工作。2方法为了便于在3D中的语义分析，我们试图重建一个模型的场景足以提供一个欧几里德参考放置对象模型。这不能用单个单目相机来完成。而不是使用li-dar（昂贵，笨重），结构光（在户外失败）或立体声（在视觉-惯性目标检测和映射3=g我们在许多现代传感器平台（包括手机和平板电脑，以及汽车和无人机）中利用惯性传感器，这些惯性传感器经常与摄像头协同定位惯性传感器提供了一个全球性的和持久的方向参考重力，估计规模，足以让我们减少欧几里得运动到一个四维组。在下一节中，我们将描述我们的视觉-惯性同时定位和映射（SLAM）系统。2.1重力参考和比例映射我们希望估计p（Zt，Xt|y t）传感器状态的关节后部.Nt平台Xt和场景中的对象Zt={z}t，给定数据y={y0，y1，···，yt}由视觉（图像It）和惯性（线性加速度αt和旋转）组成.速度ωt）测量，即，yt={It，αt，ωt}.后部可以是分解为p（Z t，X t|y t）∝p（Z t|X t，y t）p（X t|y t）（1）其中p（X t|y（t）通常近似为高斯分布，其密度在视觉-惯性传感器融合文献[4，5]中用EKF [ 3]递归地估计。在收敛时，其中密度p（X t|yt）集中在模型Xt处，该节点可以通过使用Xt的点估计值来实现。视觉惯性SLAM已被[2]用于目标检测，其注释为：我们在这里跟随。描述了视觉-惯性传感器平台的状态作为.⊤⊤⊤⊤⊤⊤X t=[Ω，T ，Ω，T ，v，α，ω，γ，τ]伊卜伊卜.BCBC偏置偏置其中gib（t）=（Ωib，Tib）∈SE（3）是体坐标系到.惯性系，gbc（t）=（kbc，Tbc）∈SE（3）是摄像机-机身对准，v∈R3是线性空间，αbias，ωbias∈R3分别是空间的随机和空间的随机，γ∈R3是引力方向，τ∈R是时间偏离。设置在视觉和惯性测量之间。从相机坐标系到惯性坐标系由Gic表示。ibgbc.实现细节的视觉惯性SLAM系统采用的是在节。3.第三章。接下来，我们关注对象。2.2语义映射对于场景中的每个物体zt∈Zt，我们同时估计其位姿g∈SE（3），并识别随时间变化的形状SR3我们事先构建了一个3D模型的数据库，它涵盖了场景中感兴趣的对象。因此，估计对象的形状的任务被转换为确定对象的形状标签k∈{1， 2，...，K}的任务一旦估计了形状标签k，就可以简单地从数据库中读出其形状S（k）。此外，给出重力方向γ的精确估计，从视觉惯性SLAM，可以减少6DoF（自由度）对象姿态以实现四个不同的分组g=。（t，θ）：在t∈R3上的i处为T r，在i处为r r，围绕重力（方位角）θ∈ [0，2 π）.4X. Fei和S. SoattoΣΣΣ^^其中reγ是gravity的方向，并且该操作构造了一个偏斜。我们将语义映射问题公式化为估计后验p（zt={k，g}t|X_t，I_t）在模型X_t上进行约束，可在假设检验框架中进行构造，其中假设空间是形状标签和姿态的笛卡尔积{k}× {g}。为了便于计算和避免计算不确定性，我们将Xtb置于一个辅助离散随机变量的约束条件下：范畴c∈ {1，2，···，C}。p（{k，g}t|I（t）=p（{k，g，c}t|It）（2）Ct∝p（It|{k，g，c}t）∫p（{k，g，c}t|{k，g，c}t−1）dP（{k，g，c}t−1|It−1）（3）Ct其中对所有可能的类别执行边缘化注意到类别ct是形状标签k t的确定性函数，即p（ct|k t）= δ（c t−c（kt）），posteri或p（{k，g}t|可以如下实现这些方案：δ（ct−c（kt））p（It|{k，g，c}t）∫p（{k，g}t|{k，g}t−1）dP（{k，g}t−1|It−1）（4）Ct其中，求和中的第一项是可能性（Sect.二、4）和第二项可以近似的加权粒子的数值积分（3）第三章。2.3参数化和动力学每个对象被局部参数化并且在时间tr处被附接到具有姿态gic（tr）的参考相机帧，并且对象姿态的平移部分由相机坐标中的方位向量[x c，yc] ∈R2和对数深度ρc∈R来参数化，其中rezc=exp（ρc）∈R+。日志记录依赖于它所保证的积极性和手性。逆深度[6]虽然经常被SLAM社区使用，但具有奇异性，并且不在我们的系统中使用。然后，对象质心在参考相机坐标系中为T ω=exp（ρ c）·[x c，y c，1]，并且在惯性坐标系中为T ω=g ic（t r）T ω。对于方位角θ，我们将其参数化为整数形式，并获得了用于mu la的RixviaRodrigues'处的位置：Rio（θ）=I+sinθγ+（1−cosθ）γ^2从向量得到对称矩阵。因此，惯性系中的物体姿态为g 10=[R 10|Tio] ∈SE（3）。虽然姿态参数是未知常数而不是时变量，但我们将它们视为随机过程，并将三个变量作为一个共同的实际问题：[xc，yc，ρc，θ]=[nx，ny，nρ，nθ]其中nx，ny，nρ和nθ是具有小方差的零均值高斯噪声。2.4测量过程.在此选择中，我们将我们的应用程序应用于对数线性逻辑L（{k，g，c}t|It）=l ogp（It|{k，g，c}t）。在p（{k，g } t − 1）上的p{k，g }t−1}上，|It−1），视觉-惯性目标检测和映射5ICICIC假设集{k，g}t可以通过围绕先验分布的扩散过程来构造。{k，g}t−1。为了验证这个问题，我们使用一个对数线性函数，它由两项组成：L（{k，g，c}t|It）=α·ΦCN N（{k，g，c}t|It）+β·Φedg e（{k，g}t|It）（5）其中α和β是调谐参数。对数似然中的第一项是卷积神经网络，其测量图像区域包含特定对象的似然性第二项对图像中的边缘的可能性进行评分。我们按顺序描述它们。在参考帧中给定假设{k，g}t，我们首先通过应用相对变换将其带到当前相机帧，然后经由渲染过程将其投影到当前图像平面找到投影的最小封闭边界框，然后将其馈送到对象检测网络中。假设的得分只是从网络输出中读取出来①的人。ΦCN N（k，g，c;I）=Sc或e。我|b=π。g−1（t）gio（tr）S（k）Σ，cΣ（6）其中π（·）d表示找到最小封闭边界框b的对象的节点的对应于我们的映射的过程; gio（tr）是将对象从时间tr处的局部参考系带到惯性系的变换，并且g-1（t）是将对象从当前相机帧的局部参考系带到的变换形式。分类网络或检测网络都可以用作我们的评分机制。然而，由于每个时刻的假设集的大小，然后将其映射到位于相同支持上的边界框，因此使用检测网络更有效，其中卷积特征通过ROI池化由对象提议共享：一旦预测完成，所有框坐标都将作为单个镜头中的对象建议馈送到Faster R-CNN的第二阶段，其中仅执行一次向前传递。边缘似然性对象检测网络被训练为对视点变化和类内可变性不变，这使得它不适合姿态估计和形状识别。为此，我们训练了一个网络来测量边缘对应的可能性：Φedg e（k，g;I）=h。π。g−1（t）gio（tr）S（k）Σ，EdgeNet（I）Σ（7）其中h（·，·）是一个近似函数，其中h是由通过渲染从姿态和形状假设构建的边缘图（h的第一参数）和从图像提取的边缘图（h的第二参数）的近似。邻近函数h的流行选择是一维搜索[7，8，9]，我们采用（参见Sup.Mat.以取得详细数据）。这样的方法是几何的并且6X. Fei和S. Soatto比基于外观的方法更鲁棒，所述基于外观的方法是光度测定的并且经受照明变化。然而，由于其局部性的性质，该方法对背景杂波也是敏感的，并且可能被纹理丰富的图像区域分散注意力。实际上，新的分类器由ΦC NN构成，Φ CNN具有大的感受野并且在语义上进行训练。此外，代替使用Canny [10]或其他非基于学习的边缘特征，我们设计了边缘检测网络（Sect. 3）语义相关的训练集。图5示出了说明背景分心的示例。3实现细节系统概述系统的概述如系统流程图所示（图1）。①的人。我们通过随着时间的推移交错自下而上（绿色路径）和自上而下（蓝色路径）处理来执行贝叶斯推理，这两者都依赖于CNN。更快的R-CNN作为自下而上的提议生成机制获取输入图像It并生成用于初始化新对象的提议在自上而下的假设验证过程中，使用几何（边缘网络，takes 〇b_jec_t〇 n〇r （S ）和输出似然度Φ e_d_g_e ）和d_semanc（F为tR-CNN，采用预测的边界框b和类别标签c并输出似然度ΦC_N_N）cue。FasterR-CNNcons 是一个 regionppoposnetwork （ RPN ）和一个 Fast R-CNN，它们在早期卷积层共享权重。RPN仅在自底向上阶段激活，以提供Fast R-CNN对象建议回归其边界框坐标并预测类别标签。在自顶向下阶段期间，Fast R-CNN所需的建议通过从p（z）上的优先级分布中的第一采样来生成 |y_t-1）通过y_a_f_u_s_i_f 图图1b示出了评分过程。语义过滤器（黄色框）是bootstrap算法[11]的变体，并且递归地估计后验p（z|y t）作为一组加权粒子。重力γ和相机姿态g的点估计来自SLAM模块。Faster R-CNNFasterR-CNN评分语义过滤器(a) 系统流程图(b) 评分过程Φ图1：左侧系统流程图。绿色通道：更快的R-CNN作为自底向上的建议生成机制。蓝色通道：自上而下的假设验证过程。粉色框：更快的R-CNN。黄色框：语义过滤器。右CNN作为评分机制。虚线路径（提案生成）在假设检验期间不活动。参见第节的系统概述。3详情RPN初始化共享权重FastR-CNNc、bΦ边缘网络Φede 更新（）下一页{，}SLAM预测,z态（z|y）RPN共享权重FastR-CNN边界框b类别标签c视觉-惯性目标检测和映射7SLAM和网络模块我们使用C++和OpenGL Shading Language（GLSL，用于渲染）实现系统，并遵循模块化设计原则：每个主要模块运行在自己的进程中，并通过一个pub-lish/subscribe消息传输系统进行通信，这使得未来的可扩展性和可能的并行性。视觉惯性SLAM基于[5]，其产生语义映射模块所需的重力参考和缩放的相机姿态估计。一个现成的Faster R-CNN实现[12]，其权重在Microsoft COCO上预先训练，变成了一个在后台不断运行的服务。注意我们采用最通用的对象检测器因为它不需要对特定对象实例进行微调，这与其它对象实例检测系统不同好处是可扩展性：当发现新的对象实例时，不需要额外的训练。对于弱语义感知的边缘检测网络，我们将SegNet [13]用于边缘检测任务：SegNet的最后一层被修改为预测每个像素是边缘像素的概率。在ImageNet上预训练的权重在BSDS上进行微调[14]。图4显示了我们的边缘检测网络的示例结果。遮挡和多个对象由于遮挡的组合性质，我们转向一些启发式方法来处理遮挡。幸运的是，这不是一个问题，因为我们显式地对对象的形状进行建模，其中可以构建场景的Z缓冲区，其中每个对象被表示为其在预期姿势下最可能的形状（图11）。第4和第5段）。只有边缘图的可见部分用于测量边缘可能性，而Faster R-CNN仍然在整个图像上运行，因为对象检测器应该在训练阶段看到足够的遮挡样本，因此对遮挡具有鲁棒性。如果来自F的投影掩模与预测的投影掩模重叠大的裕度，则R-CNN的投影掩模被标记为“扩展”。对于那些“未扩展”的粒子，我们通过产生一组新的粒子来将对象绑定到当前帧。对于每个粒子：方位向量[x c，y c]被初始化为具有高斯扰动的从光学中心到边界框中心的方向。日志深度被初始化为具有添加的高斯噪声的标称深度值。方位角和形状标签都是从均匀先验中采样的由数据驱动的方法实现的更多信息先验被留给未来的研究。语义过滤器我们总结了我们的联合姿态估计和形状识别算法在Alg。1，这是一个混合自举滤波器[11]，具有用于动态的高斯核和用于形状识别的离散建议分布：形状标签以高概率保持相同，并且同样可能地跳到其他标签以避免粒子贫化。每个组件的计算成本明细可参见附录。Mat.4实验我们彻底评估我们的系统在映射和对象检测方面。虽然每个领域都有几个基准，但很少有基准允许同时测量定位和重建精度以及3D对象检测。8X. Fei和S. Soattotr不不算法1语义过滤器1. 初始化当在时间t=tr处发现未解释的自下而上的提议，样本{k，g}⑴p（{k，g}t，r）并且将对象附接到相机帧t，r。（第3款，初始化）2. 重要抽样Attimet≥tr，sample{k，g}（i） q（k（i））|k（i））N（g（i）;g（i），Σt−1）和commpute.tΣtt−1t t−1weightsw（i）=exp3. 重采样α·ΦCNN+β·Φedge。（Sect. 二、四、R是一个简单的部件{k，g}（i），其中R是一个简单的部件{k，g }（i），其中R是一个简单的部件{k，g}（i）。t t为了获得等式，通常需要将所述数据块{k，g}（i）。4. 遮挡处理在平均状态下构建Z-Buffer来解释自底向上的对象提议。（第3节，闭塞）设置t←t+1并转到步骤1。特别地，[15，16]对于基准测试RGB-D SLAM是流行的：一个是真的另一个是合成的KITTI [17]能够对SLAM以及对象检测和光流进行基准测试。两个最近的视觉惯性SLAM基准是[18]和[19]。不幸的是，我们发现这些数据集不适合评估我们系统的性能：数据集中的对象要么很少[15，16，18，19]，要么有很多，但没有可用的地面实况形状注释[17]。另一方面，对象检测数据集[20，21，22]关注作为图像平面区域的对象，而不是3D场景。[23，24]是3D中少数探索对象属性的方法之一，但基于单幅图像。我们的方法不仅利用视频图像，但它需要一个欧几里得参考，在我们的情况下，由惯性传感器提供，使单图像基准不合适。因此，为了测量我们的方法的性能，我们必须构建一个新的数据集，旨在测量视觉惯性语义映射的性能。我们称之为VISMA集，它将在匿名审查过程完成后公开提供，以及我们的方法的实现。VISMA包含8个具有多个对象的多个办公室场景的丰富注释的视频，以及带有时间戳的惯性测量。我们还提供了几个对象（主要是家具，如椅子，沙发和桌子）的地面实况注释（节。4.第一章2）的情况。随着时间的推移，我们将增加数据集与其他扫描对象，包括移动的，和户外城市场景。首先选择室内的原因是因为我们可以使用RGB-D传感器进行跨模态验证，为我们提供伪地面实况。然而，为了证明我们的系统的户外适用性，我们在图中提供了户外场景的说明性结果。3 .第三章。我们还寻找RGB-D基准和数据集，在那里我们可以将我们的表现与独立量化的地面实况进行比较。SceneNN [25]是最近发布的RGB-D数据集，适合至少测试语义视觉-惯性目标检测和映射9映射模块，即使最初是为深度学习设计第4.3节描述了在SceneNN上进行的实验。4.1VISMA数据集定制的传感器平台用于数据采集：惯性测量单元（IMU）安装在配备有广角镜头的相机顶部。IMU产生100 Hz的带时间戳的线性加速度和旋转速度相机以30Hz的频率拍摄500× 960的彩色图像。我们在不同的办公室环境中收集了8个序列，其轨迹长度覆盖200m，总共由10K帧为了构建3D模型的数据库，我们依赖于现成的硬件和软件，特别是iPad上的枕骨结构传感器1，以使用内置的3D扫描仪应用程序重建办公室场景中的家具对象这是一种结构光传感器，其充当RGB-D相机以产生防水表面和纹理图。我们将3D网格放置在以对象为中心的规范框架中，并使用MeshLab2通过二次边折叠抽取来简化网格。图的顶行2显示了我们数据库中的样本虽然数据库最终将由许多形状填充，但我们在实验中使用一个小的对象字典，遵循[1]的设置。对于较大的字典，可以采用可选的形状检索[26]过程，但这超出了本文的范围，并且在给定当前模型库的情况下没有必要。图2：VISMA数据集中的Top Sample对象。每个网格有5000个面，并放置在以对象为中心的规范框架中，经过简化和纹理贴图。机器人（伪）地面真相从不同的观点与最后一个面板显示增强视图与模型对齐到原始场景。4.2评价比较密集表面重建是不平凡的，并且已经提出了用于RGB-D SLAM的若干方法：Sturm等人[15]使用姿势误差（RPE）1http://www.structure.io2http://www.meshlab.net10X. Fei和S. Soatto2GTGT和绝对轨迹误差（ATE）来评估RGB-D里程计。为了缓解地面实况采集的困难，Handa et al.[16]合成了一个真实的RGB-D数据集，用于对姿态估计和表面重建进行基准测试，根据该数据集，现有技术的RGB-DSLAM系统具有典型的ATE 1。1分22秒。0cm，平均面形误差为0. 7分2秒8 cm [27]，这使得RGB-D SLAM成为我们的（伪）地面实况的强候选者，用于评估视觉-惯性-语义SLAM系统。为了获得实验场景的（伪）地面真实重建，我们在使用Kinect传感器收集的数据上运行了RGB-D SLAM中最先进的ElasticFusion [27]如果由于ElasticFusion失败而导致感兴趣对象的部分再现可用，我们将通过以下过程将数据库中的网格与底层场景对齐：首先通过计算从重建中手动选择的地平面的法线来找到重力方向。然后，通过粗略的手动初始化，然后是方向约束的ICP [28]，其中仅允许围绕重力的旋转，来图2的底行示出了来自不同视点的重构场景，其中最后一个面板示出了增强视图。度量和结果我们采用[16]提出的表面误差度量进行定量评估。首先，通过根据最可能的形状标签从数据库检索3D模型来组装场景网格，姿态估计被应用于该然后，从场景网格中密集采样点云，并通过ICP将其与来自RGB-D SLAM的地面实况重建对齐，因为我们重建的场景和地面实况场景都要进行任意刚体变换。最后，对于对准的场景网格中的每个点，定位地面实况场景网格中的最近三角形，并且记录该点与最近三角形之间的法向距离。按照[16]，在场景网格中所有点的距离上计算四个标准统计量：平均值、中位数、标准差和最大值（表1）。除了表面误差之外，表1还包括由平移和旋转部分组成的姿态估计误差图4显示了常见故障已经通过存储器（语义过滤器的状态）和在全局一致的空间框架中的推断来解决基于图像的对象检测器的问题。表1：在来自VISMA数据集的4个序列上测量的表面误差和姿态误差可以在上面找到关于具有粗略注释的其他 4 个序列的定性结果。MAT 。TranslationalerrreadsTgt−T2androtationalerrreads其中log：SO（3）→ s O（3）and∨：so（3）→R3. （R，T）和（R，T）GT分别是地面实况和估计的对象姿态误差度量杂波1杂波2闭塞1阻塞2中位数（cm）1 .一、371 .一、111 .一、30二、01表面平均值（cm）1 .一、991 .一、391 .一、73二、79STD.（cm）1 .一、961 .一、121 .一、45二、54最大值（cm）十七岁69 .第九条。88十四岁3十七岁9构成平均转换（cm）4.392.423.9413.64平均旋转（度）6.164.664.869.12视觉-惯性目标检测和映射11图3：示例性室外结果。（5×时颜色最佳）在每个面板中，顶部插图显示（从左到右）：边缘图、Z缓冲区、投影掩模;底部示出了具有预测的平均对象边界和CNN检测的输入RGB。最右边的面板显示了我们的（顶部）与图的视觉比较。1 [2]（底部），在那里我们更好地捕捉到了汽车的边界。虽然在这些示例中仅使用ShapeNet的通用模型，但姿势估计对形状变化相当稳健4.3场景神经网络数据集对于独立验证，我们转向最近的RGB-D场景理解数据集，至少测试我们系统的语义映射部分。虽然共置的单目和惯性传感器是普遍存在的，因此我们选择传感器套件，但只要提供可靠的度量尺度和重力估计，任何SLAM替代方案都可以在我们的系统中用作骨干定位子系统。这使得SceneNN适合于测试我们的系统的语义映射部分，虽然最初是为RGB-D场景理解而设计的。它在重力对准的参考系中提供地面实况相机轨迹。在SceneNN中提供了从多个对象丰富的真实世界场景重建的原始RGB-D流和地面实况网格。为了测试SceneNN上的语义映射模块，我们将地面实况相机轨迹和彩色图像作为输入。请注意，我们的实验中通过从地面实况场景网格手动选择和裁剪对象网格来构建数据库。选择具有各种椅子的场景NN的子集场景用于我们的实验。除了相机轨迹和重力来自地面实况而不是我们的视觉惯性SLAM之外，其余的实验设置与我们自己的数据集上的实验相同。表2显示了我们在SceneNN上的语义映射的表面误差的统计。典型的平均表面误差约为3cm。图5示出了场景NN上的一些定性结果。表2：在场景NN数据集的子集上测量的表面误差序列005025032036043047073078080082084096273522249中位数（cm）1.84 0.726 3.08 2.25 3.66 3.10 2.59 3.04 2.82 2.35 1.29 0.569 2.06 1.31 0.240平均值（cm）3.47 0.756 6.28 4.10 4.24 4.11 3.04 3.51 3.15 3.32 1.70 0.684 2.15 1.69 0.299STD.（cm）3.48 0.509 6.95 5.10 3.11 3.52 2.17 2.60 2.09 2.99 1.51 0.518 1.24 1.39 0.217最大值（cm）13.73.0736.3 34.3 11.9 18.5 8.72 17.4 13.9 22.7 8.334.415.75 5.601.275讨论我们的方法利用单目图像和时间戳惯性测量来构建环境的点云模型，由对象模型填充12X. Fei和S. Soatto杂波2阻塞1阻塞2图4：定性结果。（最佳颜色为5×）每列显示（从上到下）：具有置信度> 0的CNN边界框建议的输入视频的一帧。8、提取边缘图;覆盖有根据Z缓冲区着色的预测实例遮罩的帧-较暗表示较近;用相机轨迹（橙色点）增强的背景重建和来自我们的视觉-惯性-语义SLAM的语义重建;地面实况密集重建。由于严重遮挡而错过检测-在全局一致的空间框架中，通过记忆和推理来分辨图像（中间列）和不可区分的背景（右列）。视觉-惯性目标检测和映射13025（运动模糊）043（分心）036（漏检）096（重复）图5：SceneNN上的定性结果。（最佳颜色为5×）每个面板具有与图相同的含义。4.第一章最后一行显示了覆盖在地面实况网格（灰色）上的估计形状姿势（绿色）。由于SceneNN提供的模型损坏而导致的部分投影。第一列：中等运动模糊不影响边缘提取。第二列：由于注入到低级边缘特征中的整体和语义知识，背景分散不会影响形状姿势推断第3列：由于存储器解决的截断而错过的检测。第4列：消除了Faster R-CNN的重复检测通过记忆和推理在一个一致的空间框架。以及摄像机在欧几里德坐标系中的轨迹。我们针对室内和室外移动场景，由于基准的可用性，我们专注于室内进行评估。然而，没有一个基准具有惯性和语义基础事实，因此我们引入了VISMA。我们相信在不久的将来大多数映射和导航方法将利用这种模态，因为它是普遍存在的（例如，在每个智能手机或汽车中，甚至在一些真空吸尘器中）。然而，目前，我们的方法之一，利用惯性语义映射的文献。我们的方法有几个限制：它仅限于刚性物体和静态场景;它易受诸如检测或边缘网络之类的低级处理模块的故障的影响。它适用于对象实例，但不能处理类内的可变性。它目前还没有实时运行，尽管它有潜力。这项工作的未来扩展包括VISMA数据集的扩展，添加具有丰富地面实况的合成场景扩展到独立移动对象和变形对象，也是一个开放的研究领域。14X. Fei和S. Soatto已经做出了许多努力来将语义结合到SLAM中，反之亦然。早期的尝试[29，30]依赖于特征匹配来将3D对象配准到点云，点云对照明和视点变化敏感，最重要的是，不能处理无纹理对象。这些问题通过在我们的方法中考虑语义和几何线索来解决（图1）。第4和第5段）。在[31]中，通过在体素网格上融合稀疏重建和像素级语义分割与CRF模型来实现体素级语义标记[32，33，34]采用了相同的方案，其探索不同的传感器以获得更好的重建。虽然这些方法在体素水平上产生视觉上令人愉悦的语义标记，但是在没有将潜在过度分割的体素分组在一起的附加步骤的情况下，缺少对象水平的语义理解我们的方法将场景中的对象视为一等公民，并将对象直接放置在场景中，无需后处理。与我们最接近的作品是基于RGB-D的SLAM++ [1]和基于视觉惯性的[2]和[35]，其中前者将对象建模为通用平行六面体，后者专注于数据关联问题，仅估计对象的平移，而我们估计精确的对象形状和6DoF姿态。这项工作涉及更广泛意义上的视觉-惯性传感器融合[4]和仅视觉单目SLAM [36]虽然经典的SLAM输出附加描述符的点云用于定位，但我们的SLAM还填充场景中的对象以实现增强现实（AR）和机器人任务。这项工作，就其性质而言，也涉及对象检测的最新进展，无论是在两个阶段[37，38，39]中，其由建议生成和回归/分类步骤组成，还是在单次拍摄[40，41]中，其中使用预定义的锚点虽然单次方法通常比两阶段方法更快，但后者中架构的明确分离更适合我们的假设检验框架（图11）。①的人。基于图像的对象检测器已经吸引了许多应用，然而它们不足以完全描述对象的3D属性。使2D检测器能够进行6DoF姿态估计的努力包括[23，24]，其基于单个图像并且不欣赏全局一致的空间参考系，其中可以随着时间的推移积累证据，正如我们在我们的系统中所做的那样。使用边缘作为估计对象姿态的可能性的想法可以追溯到RAPiD算法[8]，然后是[9，42]。 [43]是最近对基于模型的跟踪的调查，这是我们系统的特殊和简单的情况：在基于模型的跟踪中，选择被跟踪的3D模型并且手动地初始化其姿态，而在我们的设置中，通过算法找到这样的量。基于模型的跟踪的另一条工作线[44，45]依赖于水平集和外观建模，我们不采用这一点，因为外观受到照明和视点变化的影响，而边缘是几何形状的并且更鲁棒。致谢研究由ONR N 00014 -17-1-2072和ARO W 911 NF-17-1-0304支持。视觉-惯性目标检测和映射15引用1. Salas-Moreno ， R.F. ， Newcombe ， R.A. ， Strasdat ， H. ，凯利， P. H.Davison，A.J.：SLAM++：在对象级别同时定位和映射。计算机视觉和模式识别（CVPR），2013年。2. 董，J.，Fei，X.，Soatto，S.：用于三维目标检测的视觉-惯性-语义场景表示。在：计算机视觉和模式识别（CVPR），2017年。3. Jazwinski，A.：随机过程与过滤理论。北京大学出版社（1970）4. Mourikis，A.，Roumeliotis，S.：视觉辅助惯性导航的多状态约束卡尔曼滤波器。在：机器人和自动化国际会议（ICRA），2007年。5. Tsotsos，K.，Chiuso，A.，Soatto，S.：视觉-惯性传感器融合的鲁棒推理。2015年国际机器人与自动化会议（ICRA）6. Civera，J.，Davison，A.J.，Montiel，J.M.：单块体的反深度参数化IEEETransactions on Robotics，2008。7. Blake，A.，Isard，M.：凝聚算法-条件密度传播及其在视觉跟踪中的应用神经信息处理系统进展（NIPS），1997年。8. Drummond，T.Cipolla，R.：复杂结构的实时视觉跟踪IEEE Transactionson Pattern Analysis and Machine Intelligence（PAMI），2002年。9. 克莱因，G.，Murray，D.W.：用粒子滤波器进行全三维边缘跟踪。英国机器视觉会议（BMVC），2006年。10. 坎尼，J：边缘检测的计算方法。在：计算机V中的读数。Elsevierr（1987）18411. 新泽西州戈登萨尔蒙德，DJ史密斯，A.F.：非线性/非高斯贝叶斯状态估计新方法。在：IEE Proceedings F（Radar and SignalProcess ing）中。卷140.，IET（1993）10712. Gir shi ck，R.， RADOSA VV VVIC，I.， G.，G.，做吧，P He，K. ：Detectron.https：//github.com/facebookresearch/detectron（2018）13. Badrinarayanan，V. Kendall，A.，Cipolla，R.：Segnet：用于图像分割的深度卷积编码器-解码器架构IEEE Transactions on Pattern Analysis andMachine Intelligence（PAMI），2017年。14. 马丁，D.，福克斯角Tal，D.，Malik，J.：人类分割自然图像数据库2001年国际计算机视觉会议（ICCV）。15. Sturm，J.，Engelhard，N.Endres，F.，Burgard，W.Cremers，D.：评估rgb-d sam 系统的基准智能机器人与系统国际会议（ InternationalConference on Intelligent Robots and Systems，IROS），2012年16. Handa，A.，Whelan，T.McDonald，J.，Davison，A.J.：rgb-d视觉里程计、3d重建与slam之基准2014年国际机器人与自动化会议（ICRA）17. Geiger，A.，Lenz，P.斯蒂勒角乌尔塔松河：视觉与机器人技术的结合：Kitti数据集。International Journal of Robotics Research（IJRR），2013年。18. Burri，M.，Nikolic，J. Gohl，P.，Schneider，T.，Rehder，J.，Omari，S. ， Achtelik ， M.W. ，西格瓦特河：欧洲微型飞行器数据集。International Journal of Robotics Research（IJCV），2016年。19. Pfrommer，B.，Sanket，N. Daniilidis，K.，克利夫兰，J.：Penncosyvio：具有挑战性的视觉惯性里程计基准。2017年国际机器人与自动化会议（ICRA）16X. Fei和S. Soatto20. Everingham，M.凡古尔湖威廉姆斯，C.K.I.，Winn，J.，齐瑟曼，A.：pascal视觉对象类（voc）的挑战。国际计算机视觉杂志（IJCV），2010年。21. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A. Bernstein，M. Berg，A.C.，李菲菲：ImageNet 大规模视觉识别挑战。 International Journal of Computer Vision（IJCV），2015年。22. 林，T. 是的，我是M Belongie，S.，嗨，J.， Perona，P.， Ramanan，D. ，Dolla'r，P.，Zitnick，C.L.：Microsoft coco：上下文中的公共对象In：European Conference Computer Vision（ECCV），2014.23. Xiang，Y.，中国科学

下载后可阅读完整内容，剩余1页未读，立即下载