没有合适的资源?快使用搜索试试~ 我知道了~
5865EM-Fusion:具有概率数据关联的Michael Streck e和J?gStu? ckler马克斯·普朗克智能系统研究所(Max Planck Institute for Intelligent Systems){michael.strecke,joerg.stueckler}@ tue.mpg.de摘要用于利用RGB-D相机获取密集3D环境地图的大多数方法假设静态环境或拒绝将移动对象作为异常值。然而,移动对象的表示和跟踪对于机器人或增强现实中的应用具有重要的潜力在本文中,我们提出了一种新的方法,动态SLAM与密集的对象级表示。我们在局部体积符号距离函数(SDF)图中表示刚性对象,并将多对象跟踪公式化为RGB-D图像与SDF表示的直接对齐。我们的主要新颖性是一个概率公式,自然导致数据关联和遮挡处理的策略我们分析了我们的方法在实验中,并表明,我们的方法相比favori- ably与国家的最先进的方法在鲁棒性和准确性。1. 介绍RGB-D相机是用于密集视觉3D场景采集的流行设备利用RGB-D相机的同时本地化和映射(SLAM)的大多数方法仅映射环境的静态部分并且在该地图内定位虽然一些方法将动态对象作为离群值从测量中过滤,但是到目前为止,多个移动对象的SLAM仅引起很少的关注。然而,在机器人和增强现实(AR)的许多应用中,智能体与环境交互,因此环境状态是动态的。因此,同时跟踪多个移动对象的方法在机器人和AR应用中具有丰富的潜力。在本文中,我们提出了一种新的方法来动态SLAM的地图和跟踪场景中的对象。我们通过对图像的实例分割来检测对象,然后对静态背景和对象进行跟踪和映射。在以前的方法[15,16,27]中,通过基于图像的实例分割或通过地图中的光线投射来我们建议在概率期望最大化(EM [3])公式中确定像素与对象的未知关联,该公式从我们的地图表示中的测量的可能性估计软关联可能性。概率关联提供了额外的几何线索,并隐式地处理对象分割、跟踪和映射的遮挡(见图11)。①的人。我们用体积有符号距离函数(SDF)表示目标图。我们增加了SDF从深度的最大似然积分,将其关联可能性。概率数据关联促进深度图与SDF对象图的直接对准。这避免了ICP算法所需的通过光线投射的投影数据关联。在我们的实验中,我们在几个数据集上评估了我们的方法,并展示了优于最先进方法的性能。我们的研究结果表明,适当的概率处理数据关联是一个关键因素,鲁棒对象级SLAM在动态场景。总之,我们在工作中作出了以下贡献:• 我们提出了一个概率EM制定动态对象级SLAM,自然导致数据关联和遮挡处理策略。• 基于我们的EM公式,我们将多目标跟踪作为RGB-D im的直接对准。年龄与SDF对象表示,并评估这种跟踪方法的密集动态SLAM。• 我们的方法在几个数据集上实现了最先进的性能,用于动态对象级SLAM。2. 相关工作静态SLAM:在RGB-D传感器在市场上广泛可用之后,使用RGB-D传感器的同时定位和映射(SLAM)已经迅速取得了巨大的进展。KinectFusion [13]是一种突出的方法,它增量跟踪相机运动,并在体积符号距离函数(SDF)网格中密集地映射环境已经提出了几种其他RGB-D SLAM方法,其在跟踪方法上有所不同,例如ICP [13]、直接图像对准[10]或SDF5866i=0时i=0时图1.具有概率数据关联的动态对象级SLAM。我们推断的关联可能性的像素与对象的期望最大化的框架。概率数据关联提高了跟踪和映射的准确性和鲁棒性。它隐式地处理遮挡。E步骤基于给定最新对象映射和姿态的当前图像的数据似然来估计关联似然。在M步中,根据关联似然性用测量值更新姿态和地图。关联可能性针对背景(顶部)、火车(中间)和飞机(底部)进行可视化。移动的火车遮挡了桌子和飞机,这是很好地恢复了联想似然。在没有关联可能性的情况下,由于错误的数据关联,伪影被集成到地图中。[4]和地图表示,如曲面[9]或关键帧[10]。广泛的研究已经将方法扩展到大型环境[25,14]或支持闭环[10,26]以减少漂移。一些方法还考虑创建对象级映射[17,12],但假设对象保持静态。动态SLAM:对诸如人体部位[23,24]或机器人[18,6]等铰接对象的跟踪和reproc- tion的研究与动态SLAM有关。最近,已经提出了一些RGB-D SLAM方法来表示和跟踪移动的刚性对象。早期的方法将基于关 键 帧 的 RGB-D SLAM 扩 展 到 对 象 级 动 态 SLAM[20]。该方法分割RGB-D帧之间的移动对象[21],并为关键帧中的相关运动段Co-Fusion [15]扩展了移动对象的基于曲面的表示。它结合了几何和运动分割来检测运动目标。跟踪相机相对于场景背景和对象的运动是基于使用几何和颜色线索的ICP对准。MaskFu-sion [16]不使用运动分割,而是将几何与基于深度学习的实例分割(Mask R-CNN [7])融合。MID-Fusion [27]遵循类似的方法,但使用八叉树在体积SDF中表示3D图。我们还使用SDF表示对象,但使用有效但准确的直接SDF对齐来制定跟踪[4]。我们还提出了新的策略来处理闭塞和不闭塞。3. 该方法我们的动态SLAM方法执行对象和静态背景的增量跟踪和映射。我们提出了一个概率公式的跟踪和多个对象的映射,这自然导致用于数据关联和遮挡处理的原则方法。我们表示三维形状的物体和背景的体积SDF表示,我们估计从深度图像。新对象实例最初使用基于语义外观的深度学习方法(Mask R-CNN[7])进行检测和分割。3.1. 概率动态跟踪和映射我们将SLAM公式化为摄像机轨迹和来自视觉观测zt(深度图像)的地图的最大似然 该地图由七个组成-arate TSDF卷m:={mi}N为背景(m0)和N个对象。在时间t处的每个相机帧中,我们跟踪关于具有不同姿态的对象和背景的相机姿态,i∈SE(3)。我们选择增量跟踪和映射,优化当前帧中的地图和相机姿态的联合后验似然,给定到目前为止的所有图像argmax p(m,t)|z 1:t)=m,targmax p(zt|m,t)p(m |z1:t−1)p(t). ( 一)m,t我们首先针对相机姿势,然后针对地图分别优化后验。根据因果关系,每个像素测量只能归因于其中一个对象或背景,因此我们还需要找到每个像素u对应于对象之一 这种关联是一个潜在变量ct={ct,u},ct,u∈ {0,. . . .,N},我们在跟踪和映射期间推断的概率模型中。5867FGFGFG3.2. 期望最大化框架期望最大化(EM)是一个自然的框架,我们的问题,找到潜在的数据与地图和相机姿态估计。在EM中,我们将地图和相机姿态视为要优化的参数θ。在E步骤中,我们从先前的EM迭代中恢复给定当前参数估计的关联似然的变分近似,Σq(ct)←arg maxq(ct)lnp(zt,c t)|θ)。(二)q(ct)ct当q(ct)=p(ct)时达到最大值|zt,θ)。对于M步,我们在近似关联似然Σθ← arg maxq(ct)ln p(zt,ct|θ)+ln p(θ).(三)θct注意p(θ)= p(m |z1:t−1)p(t).在我们的例子中,E步骤可以通过评估p(z t|ct,θ)p(ct|θ )体积SDF通过在三维网格的体素离散化。栅格内某点处的SDF值通过三线性插值找到。我们维护多个SDF卷:一个背景体积(分辨率5123)和几个较小的SDF体积,每个检测到的对象一个(初始化为64 3的大小并根据需要调整大小, S.第3.5节)。3.5.实例检测和分割例如,我们主要遵循[12]的检测和分割,但该方法适用于动态场景。与[12]一样,我们使用Mask R-CNN[7]来检测和分割对象实例。Mask R-CNN检测器以比剩余SLAM流水线更低的处理速率(每30帧顺序地)运行,因此,我们仅具有可用于帧的子集的如果检测结果可用,我们将检测结果与地图中的当前对象进行匹配,并为不匹配的检测创建新对象。类似于[12],我们递归地估计前景概率pfg(p|i)=点p的Fgi(p)/(Fgi(p)+Bgi(p))通过对应体素中的计数。的前景和背景计数Fgi(v)和Bgi(v),p(ct|zt,θ)= θp(z| θ)。|θ).(四)每个体素v使用相关的段来更新′不Fgi(v)←Fgi(v)+pMRCNN(v)由于我们随机处理数据和关联可能性与像素之间无关,关联可能性可以Bgi(v)←Bgi(v)+.1−pMRCNN(v)Σ(6)对于每个像素单独地确定。假设一致的先验关联可能性,我们得到将体素投影到图像中以确定相关联的seg中的分割似然pMRCNN(v)p(ztp(ct|zt,θ)=θ| ct, θ).(五)来自Mask R-CNN的消息。在可视化的光线投射过程中-模型掩模的提取和生成,从对象的点p′p(zt|c′,θ)ctt通过考虑像素与对象的关联可能性,针对每个对象单独求解M步。我们首先优化先前地图中的相机姿态,然后使用新的姿态估计将测量结果集成到地图中在下文中,我们详细介绍了我们的流水线中实现EM算法的步骤。3.3. 图像预处理和投影我们在原始深度图像上应用双边滤波器来平滑深度量化伪影。从经滤波的深度图D,我们计算3D点坐标p =π−1(u,D(u))∈R3,在每个像素u∈R2处,其中我们fine π−1(u,D(u)):=D(u)C−1(ux,uy,1)π,C是校准针孔相机的相机本征矩阵。3.4. 地图表示我们用体SDF表示背景图和目标图。SDF(p):R3→R产生点p到最近曲面的有符号距离,色葡萄DF. 物体表面由零水平集决定 p∈R3:n(p)=0的SDF。我们实行C不不不5868Rii仅在pfg(p)|i)>0。5、没有别的沿着具有较短光线距离的光线建模以考虑对于可能的遮挡,我们仅在未遮挡的区域中执行(6)中的更新,即,其中对象体积的投影掩模适合来自所有对象的融合分割。对于与对象的匹配检测,我们使用光线投射在当前图像内的地图中找到对象的重投影分割。我们确定重叠的重投影分割与检测到的片段的交集超过工会(IoU)措施。段如果他们的IoU是最大的并且高于阈值(0. 2在我们的实验)。 与[12]类似,不匹配的片段用于通过计算从由片段掩蔽的深度图像生成的点云的第10和第90个像素来创建新对象,并使用它们来确定体积中心ci和大小si(详细信息参见[12])。 我们选择填充因子2。0,并且沿着每个轴将初始体积分辨率ri设置为64,从而产生vi= si的体素大小。 如果与现有模型匹配的新检测落在现有体积之外,则通过确定适合新检测所需的增加的ri并且将ci移位vi的倍数以使得其仍然在体积的中心来调整其大小。5869以及统一分量pU,其对离群值测量和尚未检测到且在多对象图中缺失的对象进行建模。如果像素不在对象ct的映射体积内,则我们将其数据似然性设置为零。因此,协会可能性为p(ctp(u|ct,θ)′p(u|c′,θ)ctt遮挡由我们的数据协会隐式处理的方法。如果一个对象被地图中的另一个对象遮挡,则在遮挡对象内的关联可能性将更高。这导致用于跟踪和地图整合的被遮挡对象中的测量的较低权重。图2示出了用于沿着壁向上移动的时钟的这种壳体。图2.像素关联可能性。我们EM方法的E步骤确定关联可能性(黑色:0,白色:1)用于背景(第三行)和所有对象(第四行:时钟)。根据给定当前姿态和地图估计的所有对象中的像素的数据似然性来确定关联似然性(第二行,由颜色覆盖的对象段)。在时钟开始移动之前,关联权重在背景和时钟模型之间相等地分配。当时钟向上移动时,时钟上方的背景变得被遮挡,并且时钟测量与对象图的关联比与背景的关联更强仅当新体积的中心ci在距相机5 m内并且具有任何其他体积的体积IoU低于0时,才初始化新体积。五、由于Mask R-CNN可以提供错误检测,我们遵循[12]并保持存 在概率pex (i )=Ex (i ) / ( Ex (i )+NonEx(i)),其中对于具有Mask R-CNN分割的每个帧,如果对象与片段匹配,则Ex(i)递增,否则NonEx(i)递增。我 们 删除pex(i)<0的对象。1.一、3.6. 数据关联3.7. 跟踪大多数现有的动态多对象SLAM方法采用迭代最近点(ICP [2])算法的变体来跟踪相机姿态。这需要从现有的TSDF体积中提取点云,并且在该点云和深度图像之间找到关联SDF贴图表示的典型方法是应用光线投射来确定沿像素视线的零交叉。使用非线性最小二乘技术对齐点云在这种方法中,深度测量与零级表面投影相关。相反,我们遵循[4]中的方法,并将深度测量与表面上最近的点相关联。这是通过最小化测量点到表面的有符号距离来实现的,该有符号距离由点处的SDF函数直接给出。这种策略的主要优点是,像素与隐式曲面的正确部分相关联,在算法的每次迭代中每个像素仅使用一次三线性插值查找。在ICP中,投影关联仅执行一次,并且每个像素需要多次查找,直到找到表面。对于等式中的M步,(3),我们通过最小化1Σ我们将当前帧中的像素u根据Eq.(五)、设pi:=T(i)π−1(u,D(u))是局部的E(λ)=2 u∈Ωq(cu)|(T(|δ,(8)像素u在ob--1.⊤Σ⊤其中p(u):=π (u,D(u))和q(cu)是关联对象i,其中我们表示p:= p,1。我们对数据进行建模落在ob的标测图体积内的像素的可能性用混合分布喷射CT对象/背景的像素u的似然性。我们使用具有阈值δ的Huber范数来实现关于离群值的鲁棒性1p(u |ct,θ)=α 2σexp.− |T型Σ(p、c、t)|σPFG(pct| ct)+我们优化方程。(8)采用迭代加权非线性最小二乘(IRLS)算法。由于相机(1−α)pU (pct),(7)姿势在SE(3)中,我们优化Eq.(8)通过重新定义它与局部参数化使用李代数se(3)。其中,是对象的SDF。混合物由拉普拉斯分布组成,该分布解释了测量-为此,我们在每次迭代中将局部增量δ ε∈se(3)应用于我们线性化的当前解| u,θ)= θ.5870法该跟踪优化首先在背景TSDF上运行,以在重新计算关联概率并在每个对象TSDF上运行相同的算法以更新各个对象姿态之前估计更新的相机姿态。图3示出了使用关联似然进行跟踪的有效性。我们将我们的方法与只使用前景概率而不使用几何线索的方法进行了比较,将q(cu)替换为pfg(pcu|cu)在Eq.(九)、虽然前景概率也提供了一个分段,由于Mask R-CNN的实例分割不准确,因此不足以进行鲁棒跟踪。3.8. 映射一旦估计出新的相机 姿态,我们就实现M步(等式10)。(3))通过将深度图集成到背景和对象体积中。根据[5],我们使用递归积分找到SDF作为深度图像的最大似然(v)←W(v)W(v)+q(cu)W(v)←min(Wmax,W(v)+q(cu)),(十)图3.跟踪关联可能性。概率数据关联有助于克服几何线索实例分割的不准确性,使跟踪更加鲁棒。从上到下:RGB图像,我们的3D重建与重新投影对象分割,关联可能性的手/马对象,我们的总像素权重跟踪的手/马对象,3D重建与前景概率而不是关联可能性,总跟踪权重与前景概率而不是关联可能性。在δ θ=0时。因此,Eq.(8)成为其中,d(v)是体素与集成深度图像之间的测量深度差为了实现等式中的M步骤(3),我们结合穿过体素的像素u的关联似然q(cu)来计算更新权重。W(v)上的上限防止模型在SDF估计中变得过于自信,并允许在动态对象的不准确或缺失分割的情况下更快地自适应。非移动对象最初也被集成在背景图中,直到移动对象图更好地拟合测量。我们认为回溯这些插入的代价太高。人们可以用wu重新加权累积权重W(v),以获得更快的地图更新,但这会增加漂移。4. 实验我们在包含动态场景的数据集上定性和定量地评估了我们的方法的性能1 ΣE(δ)=2 u∈Ω q(cu)wu((T()T(δ)p(u)2、(9)[15][22][23][24][25][25]][26][27]我们采用[1]的Mask R-CNN实现。在我们的实验中,截断距离选择为其中权重wu在每次迭代中被适配为im。补充Huber规范。 我们还通过映射置信度W(π−1(u,D(u)/maxu′∈NW(π−1(u′,D(u′)对(9)中的和中的单独项进行加权,其中W(p)是累积积分权重(见3.8节)。它量化了我们对模型中表面估计的确定 当大型物体从图像边界进入帧时,这增强了跟踪。优化是使用Levenberg-Marquardt每个TSDF体积的体素大小和(8)中的参数δ是体素大小的两倍。在(7)中,我们设置σ=0。02,α=0。8,且pU(pct)=1。0的情况。Mask R-CNN检测仅在它们足够大(至少40 × 40像素)并且对象被分类为不可见(跟踪和映射不存在)时才被接受。可靠),并且如果它们在距图像边界20个像素的区域内的投影掩模面积低于该阈值,则将其删除。为了避免使用包含静态对象的大体积来扰乱场景,Mask R-CNN通常5871产生非常不准确的掩码,我们排除这些对象类的列表(例如,桌子、床、冰箱等)从用于实例化新对象体积的检测中虽然可以实现用于背景TSDF的滑动窗口版本[25],但我们发现在我们的实验中,体积大小为5。12米与相机定位在中心的一个侧面的体积通常工作得很好。此策略的唯一例外是场景Room4,我们将体积大小增加到7。68m,并将初始相机姿势进一步移动到体积内,以将场景保持在体积边界内。4.1. 定量评价跟踪动态对象。 我们对Co-Fusion作者提供的合成场景进行动态对象跟踪的定量评估[15]。备注─KT EF CF MFOurs静态Bg0.10 0.59 0.61 20.60 0.95汽车1--7.78 1.530.77汽车2 - 1.44 0.580.18静态Bg0.16 1.22 0.93 1.41 1.37飞艇-0.91/13.62/0.56/1.01 2.29/1.41/3.46 0.75汽车-0.292.66 2.10马-5.80-3.57表 1. 来 自 Co-Fusion 的 合 成 序 列 的 估 计 轨 迹 的 AT-RMSE(cm)[15]。飞艇轨迹被分成多个部分,由于单独的几何段和检测,重叠太少,无法分配。我们的方法实现了竞争力的结果与静态SLAM系统(EF)的静态背景和优于其他动态SLAM approaches(CF,MF)的对象。巧妙地,虽然场景中存在的许多对象不是包含在COCO数据集中[11],Mask R-CNN管理生成大多数移动对象的检测。我们将我们的方法与Kintinuous( KT , [25] ) , Elastic- Fusion ( EF , [26] ) , Co-Fusion(CF,[15])和MaskFusion(MF,[16])进行比较。KT和EF是将动态对象视为异常值的静态SLAM系统。CF对动态对象使用几何和运动分割,而MF将几何分割与基于Mask R-CNN的实例相我们的评估结果如表1所示。可以看出,我们的方法取得了有竞争力的结果。特别是对于动态对象,我们的方法优于竞争的动态对象级SLAM方法CF和MF。ToyCar3场景中MF的静态背景(静态Bg)的大相机跟踪误差是由移动汽车之一的非常晚的检测引起的,(b)相对位姿(RP)RMSE(cm/s)表2.鲁棒摄像机跟踪与wrt的比较。动态场景中的静态背景处理方法不同。我们的方法提供了最先进的结果,并在大多数序列中优于以前的方法。无关联无地图确认我们在轨迹的开始处产生显著的漂移。这结果表明,在MF中没有鲁棒范数的ICP跟踪对丢失检测敏感。然而,我们使用直接SDF对准和Huber范数的鲁棒跟踪设法保持低的轨迹误差。强大的摄像头跟踪功能。与MaskFusion [16]和MID-Fusion [27]中执行的实验类似,我们可以使用具有某些标签的Mask R-CNN检测(例如,per- son)以从重建和跟踪中排除这些标签。在我们的方法中,关联似然性已经防止投影到对象体积的前景部分中的深度图的部分被集成到用于相机跟踪的因此,我们保持- tain检测到的人的对象体积,但不呈现他们在光线投射可视化。协会静态Bg 1.421.37 1.37飞艇0.49/0.73/0.56/1.13/1.47/1.41/1.240.75 0.75汽车2.012.11 2.10马9.12 8.383.57表3.对合成场景Room4进行烧蚀研究。我们将RMSE用于我们的方法,不使用关联似然,也不使用地图置信度权重进行跟踪。然后,可能性倾向于将甚至非刚性移动的人与对象体积而不是背景相关联,使得我们能够鲁棒地跟踪相机WRT。背景我们将我们的方法与表2中的五种最先进的其中两个,联合视觉ToyCar3客房4VO-SFSFCFMF中频我们f3s静态2.91.31.12.11.00.9f3s xyz11.14.02.73.16.23.7f3s半球面18.04.03.65.23.13.2f3w静态32.71.455.13.52.31.4f3w xyz87.412.769.610.46.86.6f3w半球73.939.180.310.63.85.1(a)绝对轨迹(AT)RMSE(cm)客房4细分对于公开可用的VO-SFCFSFMF我们MF我们调整了所需的最小像素数f3s静态2.41.11.11.70.9用于实例化新的对象模型以在SE上良好地工作f3s xyz5.72.72.84.62.6序列我们使用了与我们方法相同的阈值f3s半球面f3w静态7.510.13.022.43.01.34.13.93.01.2但MF仍然无法实例化f3w xyz27.732.912.19.76.0《四号房间》里的摇摆木马f3w半球33.540.020.79.35.15872图4.对Co-Fusion发布的真实世界数据集进行定性评价[15]。我们证明了我们可以处理快速移动(第一个数据集的第二个和第三个图像只有25帧),以及具有相对较弱的几何线索的对象,例如第二个数据集中的时钟。请注意,在最后一个数据集中没有检测到左臂交出泰迪熊。虽然它最初被集成到背景中,但在它移出视图后不久,它很快就被实际背景深度所覆盖里程计和场景流(VO-SF,[8])和静态融合(SF,[19])被设计用于重建静态背景,而忽略动态部分。[15]第15话:“你是我的,我是你的,我是你的。签署了多目标重建。后两种方法与我们的方法一样,使用Mask R-CNN [7]检测来实例化对象。可以看出,我们的方法在大多数情况下都能获得有竞争力的结果,尤其是与MF [16]和MID-F [27]相比。像所有这些方法一样,如果大的未检测到的物体覆盖了图像的主要部分,我们的方法可能会失败。我们的研究结果表明,鲁棒跟踪和我们的数据关联策略的组合提高了这些序列的鲁棒性表行是按场景难度排序的,因此后面的行显示了带有严重阻塞的大动态部分。f3s代表弗莱堡3坐着,而f3w代表弗莱堡3走着。MID-F未报告RP-RMSE,因此未在表2(b)中显示。我们进一步比较现场的MF [16]f3长办公户的基准[22]。出口─使用泰迪熊和相机的相对轨迹,我们可以将对象轨迹与地面实况相机轨迹进行比较,如[16]中所做的那样。虽然我们在泰迪熊轨迹上获得的结果略差(3.5cm,而MF达到2.2 cm),但我们的相机轨迹更准确(5.0 cm,而MF为8.9 cm)。请注意,虽然MF改进了他们的相机轨迹wrt。当不跟踪泰迪熊时,背景为7.2cm AT-RMSE,我们不期望在我们的方法中对于这种情况有显著的变化,因为泰迪熊是在背景中利用部分关联似然性隐式地重建的,并且如果它开始移动,则将被解除关联并从它移除。在表3中,我们进行了消融研究,以评估我们方法的不同部分的贡献由于大多数对象仅观察到其局部拓扑的微小变化(在空中自由移动的飞艇、在地面上行驶的汽车然而,摇摆5873一些对象,如第一序列中的垃圾桶,不包含在Mask R-CNN训练的类集合中。因此,由于存在概率pex低,垃圾桶对于大量帧未被检测到并且被删除。时钟序列中的瓶子在被分类为“不可见”后被删除,我们在图5中展示了如何将前景概率增量集成到对象体积中来改进对象掩码最后,对于关联可能性的效果的定性评估,我们参考图1,其中移动对象留下可见的痕迹,因为它们的深度值被集成到背景中,图3显示,如果Mask R-CNN分割不符合实际对象形状,则它们有助于通过包括几何线索来提高跟踪质量。车架240车架270车架300图5.增量掩模集成。从上到下:面具RGB帧,面具集成前的泰迪熊模型输出和关联似然,面具集成后的模型输出和关联似然。可以看出,关联似然性为泰迪熊对象的体积内的移动几何结构提供了软几何分割。一旦Mask R-CNN确认这些像素属于该对象,则实际属于该对象的像素会变得更强注意,首先在帧240中检测到泰迪熊,因此在该帧中还不具有关联可能性。由于墙和地板以不同的角度与体积相交,因此马在其周围会受到拓扑变化的影响我们在Tab中观察到这个对象的显著改进3.第三章。计算性能。当我们的执行者-还没有针对运行时性能对动作进行调整(例如,平行处理对象),CF数据集[15]上每帧的平均运行时间范围从106 ms到257 ms,使用Nvidia GTX 1080 Ti GPU,11 GB内存和Intel Xeon Silver 4112 CPU,4核,2.6GHz。在补充材料中可以找到分离检测帧运行时间的更详细分析以及关于不同检测频率如何影响轨迹覆盖范围和准确性4.2. 定性评价图4显示了对Co-Fusion发布的真实世界数据集的定性评价可以看到,如果Mask R-CNN检测到这些场景中的动态和静态对象,我们可以设法重建它们注意5. 结论在本文中,我们提出了一种新的概率公式,-灰动态对象级SLAM与RGB-D相机。我们推断潜在的数据关联的像素与ob-objectives在地图中的相机姿态和地图的最大似然估计同时。这些图表示为体积有符号距离函数。对于跟踪,我们的概率公式有利于直接对齐的深度图像与SDF表示。我们的结果表明,适当的概率处理数据关联是一个关键因素,强大的跟踪和映射在动态场景。据我们所知,我们的方法是第一个考虑使用RGB-D相机进行动态对象级SLAM的EM的方法。请注意,我们的方法将检测到的对象模型始终视为动态的。虽然我们的实验已经表明,他们的姿态是稳定的,在大多数设置为静态对象,在未来的工作中,一个额外的分类到静态和动态对象可能会被开发,以防止漂移的静态对象,并通过跟踪它相对于静态对象体积细化相机姿态。这可能证明是有益的,因为对象体积通常表现出更高的相对分辨率。在未来的工作中,我们计划进一步整合RGB图像的信息进行跟踪,以进一步提高该方法在平面表面上的准确性和鲁棒性。此外,更有效的数据结构和全局图优化是进一步扩展我们方法的有趣方向。最后,我们计划研究如何将我们的方法用于移动操作平台上的对象的交互感知。鸣 谢 。 我 们 感 谢 BMBF 通 过 Tuebingen AI 中 心(FKZ:01IS18039B)和Cyber Valley。作者感谢在-国际马克斯·普朗克智能系统研究学院(IMPRS-IS)为迈克尔·斯特雷克提供支持。5874引用[1] 瓦利德·阿卜杜拉Mask R-CNN用于keras和tensorflow上的对象检测和实例分割https://github.com/matterport/Mask_RCNN,2017年。[2] Paul J. Besl和Neil D.麦凯一种三维形状配准方法。IEEETransactions on Pattern Analysis and Machine Intelligence(PAMI),14(2):239[3] Christopher M.主教模式识别与机器学习(信息科学与统计)。施普林格出版社,柏林,海德堡,2006年。[4] ErikBylow,JürgenSturm,ChristianKerl,FredrikKahl,andDaniel Cremers.实时摄像机跟踪和3D重建使用有符号距离函数。机器人:科学与系统(RSS),柏林,德国,2013年6月。[5] Brian Curless和Marc Levoy。从距离图像建立复杂模型的体积法。在Proceedings of the 23rd Annual Conferenceon Computer Graphics and Interactive Techniques ,SIGGRAPHACM。[6] 克里斯特·加西亚·西富恩特斯、扬·伊萨克、曼努埃尔·维特里希、斯特凡·沙尔和珍妮特·博格。机器人操作的概率 关 节 式 实 时 跟 踪 。 IEEE Robotics and AutomationLetters(RA-L),2(2):577[7] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克 . 面 罩 R-CNN 。 在 IEEE 国 际 计 算 机 视 觉 会 议(ICCV),第2980-2988页[8] Mariano Jaimez 、 Christian Kerl 、 Javier Gonzalez-Jimenez和Daniel Cremers。基于几何聚类的RGB-D相机的快速里程计和场景流。在IEEE机器人与自动化国际会议(ICRA)中,第3992-3999页[9] Maik Keller , Damien Lefloch , Martin Lambers ,Shahram Izadi,Tim Weyrich,and Andreas Kolb.使用基于点的融合的动态场景中的实时3D在3D视觉国际会议(3DV)中,第1[10] ChristianKerl,JürgenSturm,andDanielCremers. 用于RGB-D相机的密集视觉在IEEE/RSJ智能机器人和系统国际会议(IROS),第2100-2106页[11] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C. 劳伦斯·齐特尼克。Microsoft COCO:上下文中的公用对象。在David Fleet、Tomas Pajdla、Bernt Schiele和TinneTuyte- laars编辑的Computer Vision-ECCV施普林格国际出版社.[12] John McCormac 、 Ronald Clark 、 Michael Bloesch 、Andrew J. Davison和Stefan Leutenegger。Fusion++:体积对象级SLAM。在3D可视化国际会议(3DV),第32-41页,Sep. 2018年。[13] Richard A Newcombe、Shahram Izadi、Otmar Hilliges、David Molyneaux 、 David Kim 、 Andrew J Davison 、Pushmeet Kohi、Jamie Shotton、Steve Hodges和AndrewFitzgibbon。KinectFusion:实时密集表面映射和跟踪。第10届IEEE混合与增强现实国际研讨会(ISMAR),第127-136页[14] Mat thiasNießner , MichaelZoll höfer , ShahramIzadi ,andMarc Stamminger.使用体素散列进行实时3D重建。ACM Transactions on Graphics(TOG),2013年。[15] 在鲁恩茨和卢尔德,我很高兴。Co-Fusion:实时分割,跟踪和融合多个对象。IEEE机器人与自动化国际会议,第4471-4478页,2017年5月[16] 马 丁 · 鲁恩茨、 莫 德 · 布 菲 耶 和 卢 尔 德 · 阿 加 皮 托 。MaskFusion:实时识别、跟踪和重建多个移动物体。在IEEE混合和增强现实国际研讨会(ISMAR),第10[17] 雷纳托·F理查德·萨拉斯-莫雷诺放大图片作者:Paul H.J.Kelly,and Andrew J.戴维森SLAM++:在观测站级别同时进行定位和绘图。在IEEE计算机视觉和模式识别会议(CVPR),第1352-1359页[18] 坦纳·施密特理查德·纽科姆和迪特尔·福克斯。DART:使用 消费 者深 度相 机进 行密集 铰接 式实 时跟 踪。Autonomous Robots,39(3):239-258,Oct 2015.[19] Raluca Scona , Mariano Jaimez , Yvan R Petillot ,Maurice Fallon,and Daniel Cremers. StaticFusion:动态环境下密集RGB-D SLAM的背景重建。在IEEE机器人与自动化国际会议(ICRA),第1-9页[20] J?rgS tu?ckler和S v enBehn k e. rgb-d视频中基于运动线索的分层对象检测和密集建模在第二十三届国际人工智能联合会议的会议记录中,IJCAI中国科学院出版社,2013年。[21] J?rgS tu?ckler和S v enBehn k e. rgb-d视频中有效密集刚体运动分割与估计国际计算机视觉杂志(IJCV),113(3):233[22] JürgenSturm , NikolasEngelhard , FelixEndres ,WolframBurgard , and Daniel Cremers.RGB-D SLAM 系统评估的基准。在IEEE/RSJ智能机器人和系统国际会议(IROS),第573-580页[23] 乔纳森·泰勒、卢卡斯·波尔多、托马斯·现金男、鲍勃·科里什、杰姆·凯斯金、托比·夏普、爱德华多·索托、大卫·斯威尼、朱利安·瓦伦丁、本杰明·勒夫、阿兰·托帕利安、埃罗尔·伍德、萨迈赫·哈米斯、普什梅特·科利、沙赫拉姆·伊扎迪、理查德·班克斯、安德鲁·菲茨吉尔和杰米·肖特顿。通过姿态和对应关系的联合、持续优化实现高效、精确的交互式手部跟踪。ACM事务处理图表,35(4):143:1[24] Dimitrios Tzionas和Juergen Gall。从RGB-D视频中重建关 节 操 纵 模 型 。 在 Gang Hua 和 Herve 'Je'gou 编 辑 的ComputerVision-施普林格国际出版社.[25] 放 大 图 片 作 者 : Thomas Whelan , Michael Kaess ,Maurice F.放大图片作者:John J. Leonard,and John B.麦当劳Kintinuous:空间扩展的KinectFusion。在RSS工作-5875在RGB-D上购物:使用深度相机的高级推理,悉尼,澳大利亚,2012年7月。[26] Thomas Whelan 、 Stefan Leutenegger 、 Renato SalasMoreno、BenGlocker和AndrewDavison。ElasticFusion : 没 有 姿 态 图 的 密 集 SLAM 。 在Proceedings of Robotics:科学与系统(RSS),罗马,意大利,2015年7月。[27] Binbin Xu,Wenbin Li,Dimos Tzoumanikas,MichaelBloesch , Andrew Davison , and Stefan Leutenegger.MID-融合:基于八叉树的对象级多实例动态SLAM。IEEE机器人与自动化国际会议(ICRA),2019年。出现
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功