室内RGBD扫描的时间模型及实例分割算法

23 浏览量更新于2023-10-13 收藏 2.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2541重新扫描：用于室内RGBD扫描的Maciej Halber Yifei Shi Kai Xu Thomas Funkhouser普林斯顿大学图1：所提出的方法从以稀疏时间间隔捕获的一系列场景观察Si估计持久的时间感知场景模型MiMi-1用于估计每个新观测Si中的对象的布置。所估计的布置被用于估计Si的实例分割，其然后被用于更新模型Mi。摘要在从家庭机器人到AR/VR的深度感测应用中，通常以稀疏的时间间隔（例如，时间间隔）重复地获取内部空间的3D扫描。作为日常使用的一部分）。我们提出了一种算法，分析这些我们的算法通过使用从过去的观察结果产生的时间模型来推断新扫描的实例分割，然后将其用于更新时间模型来进行归纳操作。该模型包含跨时间的对象实例关联，因此可以用于跟踪单个对象，即使只有稀疏的观察。在一个新的基准的新任务的实验，我们的算法优于替代方法的基础上，国家的最先进的网络语义实例分割。1. 介绍随着RGBD相机的普及，3D数据现在比以往任何时候都更广泛[10，25，8]。随着深度捕捉设备变得更小、更实惠，并且随着它们在日常应用（AR/VR、家庭机器人、自主导航等）中操作，可以合理地预期，大多数环境的3D扫描将在每天的基础上被我们可以预期，在不同时间访问并捕获的许多空间的3D重建不同的视角，在未来将是可用的，就像今天的照片一样。在本文中，我们研究如何重复，不频繁的扫描与手持RGBD相机捕获可以用来建立一个时空模型的内部环境，完成对象实例语义和关联跨时间。面临的挑战是：1）每个RGBD扫描从不同视点捕获环境，可能具有噪声数据;和2）由长时间间隔分开的扫描（每天一次、每周二等）由于对象的运动、进入或移除而可能具有因此，针对每次扫描单独地执行对象检测和/或简单地在空间-时间中聚类对象检测和姿态的简单算法将不能解决问题。此外，由于大型训练集不可用于此任务，因此训练神经网络来解决它是不切实际的。我们提出了一个归纳算法，推断信息-关于从S的先前观测获得的时间模型Mi-1对场景Si的新RGBD捕获的问题（图1）。算法的输入是模型Mi−1，表示-所有先前的扫描和新的场景扫描S1。输出是描述出现在场景中的对象O的集合以及在每个时间步长（包括最近的时间步长）处的那些对象的布置A的更新模型Mi。在每一迭代中，我们的算法优化的对象在Si的安排Ai，然后使用Ai推断语义实例分割的Si。然后使用S1的分割来更新对象集合0（参见图2）。2542图2：所提出的方法的单个归纳步骤。给定一个新的场景观察Si和一个来自过去Mi−1的模型，我们的目标是创建一个更新的模型Mi。我们首先执行Pose Proposal，在其中我们为Mi−1中的每个对象搜索一组潜在位置。然后，我们执行排列优化，在这里我们搜索选择和最小化目标函数的对象的排列然后，我们执行分割转移，其中Si使用来自Mi−1的语义实例标签进行注释。最后，将Si中线段的几何与Mi−1融合，以创建更新的模型Mi。为了评估我们的算法，我们提出了一个新的基准数据集，其中包含时间上一致的地面实况se-mantic实例标签，描述每个场景内跨时间的对象关联该基准测试的实验表明，我们提出的优化策略优于基于深度学习的替代方法，用于语义和实例分割任务。总的来说，本文的贡献有三个方面：• 一种用于构建用于在多媒体系统中使用的时空模型的系统，从手持RGBD相机获取的不频繁扫描的室内环境• 一种归纳算法，物的关系，以及物的关系。通过利用来自过去扫描的数据，• 一个基准数据集，在总共45个时间步处获取了13个场景的重新扫描，以及对象实例和关联穿越时空2. 相关工作计算机视觉中关于动态场景的RGBD扫描的大多数工作都集中在跟踪 [43] 和重构 [36] 上。例如，Newcombe et al.[36]展示了一个系统，其中变形对象的多个观察被融合到单个一致的重建中。Yan等人。[48]通过跟踪部件随着时间的推移而变形来扫描移动的铰接形状。这些方法与我们的方法不同，因为它们需要在运动发生时进行观察对于稀疏的时间观测，机器人技术的早期工作集中在分析从1D激光测距传感器创建的2D地图[3，5，19]。例如，Biswas [5]使用1D激光数据来检测场景中的对象，并将它们与时间相关联。然而，他们的方法依赖于2D算法，并假设对象实例不能跨时间重叠，这使得它在我们的设置中不适用。最近，提出了用于稀疏观测的基于图像的技术- Shin [42]将SfM扩展到也预测移动对象的姿态。其他工作旨在使用主动控制的传感器捕获的数据进行终身场景理解 [15 ， 29 ， 39 ， 49] 。例如，在STRANDS项目[23]中提出的几种算法处理从一组重复的视图[2，6，41]中观察到的场景。其他人专注于控制相机轨迹以获取用于对象建模[13，15]和/或变化检测[1]的最佳视图。这些问题与我们的问题不同，因为我们专注于分析先前在没有专门定制的机器人平台和主动控制的情况下捕获的RGBD数据计算机视觉中的一些工作集中在RGBD扫描中动态对象的变化检测和分割[16，31，47]。例如，Fehr etal.[16]展示了一种使用多个场景观察将表面元素分类为动态或静态的系统。Wang等人[46]检测移动对象，使得它们可以从SLAM优化中移除。Lee等人。[31]提出了一种概率模型来隔离随时间变化的表面块，以改善相机定位。虽然操作RGBD从手持设备捕获，这些方法不产生实例级的语义分割，也不产生对象之间的关联跨时间。最近的工作集中在跨空间和时间将3D点自动聚类成簇[17，24]。例如，Herbst等人[24]使用联合MRF公式联合分割多个Finman等人[17]从成对场景差分中检测点的簇，并将新的检测与先前的观察相关联。虽然在精神上类似于我们的公式，这些方法2543KK一我仅在没有语义的点簇上操作，因此不适合于需要对对象如何跨时空移动的语义理解的应用。形式上，该阶段的输入是一组对象0和扫描S1。输出是评分姿态列表的集合PPK ={p0，. . . .，p x}。得分姿势K K最后，许多项目都考虑了时态模型-pl是元组{Tl，sl}，其中Tl是建议的硬性规定-KKKK在特定的应用领域中的环境为并且Sl是几何匹配分数例如，土木工程中的几个系统跟踪变化描述如何很好地将T1将Gk与通过与3D对齐，转换为建筑信息模型（BIM）以稀疏时间间隔采集的扫描[20，26，37，45]。S岛查找对齐曲面A和B的变换是一个它们通常从特定的建筑设计模型[22]，施工进度[44]和/或对象级CAD模型[7]开始，因此不像我们的方法那样通用Scene Chronology项目[35]和其他项目[34，40]从图像集合中构建城市的时间模型-3. 算法3.1. 场景表现我们的系统用包括元组{0，A}的时间模型Mi来表示时间ti处的场景，其中0 = 0，A。{o0，. . . ，〇 n}是具有 a p - n 的n个对象实例的列表。对于j ∈ [0，i ]，在此或任何先前观测 Sj 内，且A={A0，. . . ，Ai}是针对每个观测Sj估计的对象布置的列表。每个对象实例〇k由{uk，Gk，ck}表示，其中uk是唯一的实例id，Gk是对象每个布置A1是姿态列表{a0，. . . ，a m}，其中计算机图形学和视觉的长期问题[38]。在我们的设置中，我们希望找到与表面B具有良好对准的表面A的一组姿态，其中A=〇k并且B=Si。先前的工作通常试图通过采用基于特征的方法来解决类似的问题。这样的方法对两个表面进行子采样以获得一组有意义的使用点对特征匹配[12]）。然而，正如在其他领域中所指出的那样，关键点可能会限制方法考虑的信息量，而密集匹配方法会导致更少的失败[14]。根据这种直觉，我们提出了一种密集匹配过程，其中我们在场景中滑动每个对象，在每个离散位置处执行ICP优化，并基于传统的点到平面距离度量计算匹配分数[32]。这种方法可能看起来是反直觉的，因为这种网格搜索的幼稚实现将导致禁止的运行时性能。然而，我们发现，这种方法可以被可接受地快速实现，同时导致我我j={u j，Tj，s j}。u j是第j个对象的唯一id，函数Ω（u j）将索引k返回到O。 Tj是将几何体G k移动到场景S1.最后，Sj是量化TjGk与S1的几何形状匹配的程度的匹配分数。3.2. 概述我们的算法更新的时间模型在一个归纳的方式。给定先前的模型Mi−1和新的扫描Si，我们通过exe预测新的模型Mi（见图2）切割四个连续步骤。第一个提出了O（sec.3.3）。第二个执行组合优化以找到最大化联合考虑几何拟合和时间相干性的新目标函数的布置A1 （参见第10节）。第3.4段）。第三步骤使用0和A1来推断S1的实例级语义分段。第四步通过聚合其各自的段来更新每个对象∈Ai的几何形状Gk在Si。以下四个小节提供了如何执行这些步骤。3.3. 对象姿势建议我们的流水线的第一步是为每个对象〇k∈ 0找到一组潜在的放置，为布置优化阶段创建搜索空间（第二节）。第3.4段）。更好地恢复正确的姿势。为了加快我们的方法的运行时性能，我们使用的多分辨率的方法。我们为输入点云（几何体Gk）计算一个四层分层结构，其中任意两点之间的最小距离等于到{0. 01m，0. 02m、0. 04m，0. 08m}。为了计算该表示，我们遵循描述的算法[9]。多分辨率表示允许我们仅在层次结构的最粗糙级别上执行密集搜索，并返回具有足够高分数的姿势子集以在更高级别上进行验证，从而导致显著的性能增益。此外，我们做了一个简化但合理的假设，即场景中的物体在地平面上移动并围绕重力方向旋转。通过这种方法，我们能够为O中的每个对象ok产生姿态列表Pk的集合P。这种密集网格搜索方法的优点是它可以生成一组姿势包含大部分真实候选位置的位置，即使Si的局部几何形状可能由于重构误差而不同于Gk我们在图3中展示了与基于关键点的方法[12，4]的比较。3.4. 布置优化在第二步中，我们的算法从前一步中选择姿势的子集以形成对象排列。2544我我我我我我我我我我2σ我我Σ2σ我我可以用A ′中的某个对象来解释。Oc（Si，A′）将场景Si和候选者Ar作为输入距离A′。为了计算Oc（Si，A′），我们vo xelize两者我我场景Si和A’中的对象，产生两个3D网格VS和VA 。Oc（Si，A′）计算为两个格网中相等的像元数除以像元数在VS-Oc（Si，A′）=|Vs（j）∧VA（j）|. F或该公式为我|V s（j）|图3：我们数据库中所有场景的精确度/召回率得分比较，将PPF匹配[4]与我们的方法进行比较。在我们的实验中，如果物体中心之间的距离小于0，则物体的姿态被认为是真阳性。2m和对象是的。输入是对象集合 O 、姿态列表集合 P={P0，. . . ，Pk}，并且扫描Si. 输出是描述全局配置的布置A1使目标最大化的对象的配置。该问题陈述导致离散的组合优化。选择这种方法的第一个原因是准确，但我们需要确保只进行体素化场景S1的动态部分。因此，我们停用VS中属于场景的静态部分（如墙壁和地板）的任何单元，其可以容易地用如RANSAC [18]的方法检测到。上面的插图示出了网格VS（蓝色单元）和VA（白色单元）的可视化。如图所示，VS仅覆盖场景的非静态部分，导致Oc是覆盖的良好估计几何项是场景Si与候选布置A '中的对象之间的几何一致性的度量。我们包括这个术语来指导对象ive函数选择与在特定地点的场景。该值仅为com-场景Si内的对象的数量是未知的作为来自所述过程的分数Sl的平均值。KJ先验的一个组合的方法允许我们提出在第3.3节中描述。O（S，A′）=kg（ai），其中g（aj）可变长度的布置Ai，这将适应于gii|我|iSi的含量。第二个原因是，找到最优需要全局优化此外，由于缺乏训练数据以及所提出的目标函数的非线性，深度学习很难应用于这种情况。3.4.1目标函数为了量化候选布置A’的质量，我们使用目标函数，该目标函数是以下四个术语：O（Si，A′，A）=wcOc（Si，A′）CoverTerm返回适合对象oj的放置的几何分数。相交项旨在估计布置A’中的一对对象穿透多少。直观地说，这样的互-穿透意味着两个物体占据相同的物理位置。cal位置，这意味着不可能的配置。在我们的方法中，我们计算这一项的粗略近似。首先，我们计算每个G k的协方差矩阵Σk。每个对象的协方差允许我们计算对称马氏距离SD M之间对象来大致量化它们与对方. SD M（0 r，0 j）= 0。5（DM（mij，Tici，Σi）++wgO g（Si，A′）几何定理D （米），Tc，τ c）），其中Tc，Tc转化iMijj jji i j j+wiOr（A′）相交定理+whOh（A′，A）滞后TermGi，Gk的质心，它们之间的中点是mij，并且函数DM是马氏距离。关于SDM对于所有对象对o计算，值O（A′）−SD2（o0，o1）克里−SD2（on−1，on）为1-||{x xxp（M2），. . .，exp（M（2）}||∞。每个项O x产生一个标量值∈ [0，1]，它描述了A′w的质量。r. t. that具体术语。我们使用网格搜索来找到权重w ={2}的良好值。0，0。三一0，1。8）、它表示每个术语的相对重要性。Coverage项测量A’中的对象覆盖的场景的百分比。这个词背后的直觉场景的每一部分都应该使用无穷大范数的基本原理是生成-如果只有一对对象表现出低得分的互穿，则给予高惩罚。上面的插图显示了两个相交对象的SDM的可视化。我们评估SDM的点用红色标记，在其中存在任一个或两个对象的区域中展示高值还清楚的是，如果对象互穿更多，则SDM2545我K我我KKK我我KKi滞后项告知当前排列估计A′与先前观察到的排列的拟合程度。集合A中的元素。此外，它表达了我们对最小关系运动的偏好。A’中的每个对象都被分配一个分数，其值基于英国是否是一个新的例子，或者在过去已经观察到。在前一种情况下，我们分配一个新的对象常数得分h =0。4（已找到手册-盟友）。在后者中，得分是h+（1- 1）。h）exp（ −||T（ck ，i） −T（ck ，j ） ||2）的情况。T（c，j）分割转移，因为我们具有与O中的每个对象相关联的语义类ck和实例iduk。使用估计的姿态pl对于Ai中的每个对象〇k，我们将其几何形状Gk变换为与Si对齐。然后，我们执行最近邻查找（具有最大阈值d=5cm，以考虑离群值），并使用关联将实例和语义标签从Ai中的对象复制到Si。由于不能保证Si中的所有点都将具有阈值d内的邻居，因此我们使用基于多标签图切割的标签平滑来跟踪查找[11]。3.6.几何融合2σ2l是一个应用适当的在时间tj处变换到质心cl。因此，新奇的物品总是更受在这种情况下，我们希望Oh表示新的对象出现具有类似的概率。Oh（Ai，A）的值被计算为上述的平均值。成绩.上面的插图说明了在ti−1时的排列和在ti时的两种可能的排列估计。Oh（A′，A）的形式鼓励选择中间的ar-因为它不包含沙发的显著运动还有椅子3.4.2优化为了找到排列Ai=argmaxA′O（Si，A′，A），我们算法的最后一步是更新对象几何Gk为O中的对象。为了针对每个对象〇k∈Ai这样做，我们从Si中提取在前一步骤中被分配实例标签uk的子点云，并且然后我们将它们与Gk连接以生成新的点云G′。在理想化的情况下，两个表面将是相同的，因为它们表示相同的对象。但由于对于部分观测、重建和对准误差，我们在实践中不能期望这样。因此，我们求解一个使用泊松曲面重构[27]，最小化到G ′中所有点的距离的平均曲面G ~ k。后在这个过程中，我们在结果表面G~k上均匀地采样点，以获得G~k的新估计，当需要处理新场景Si+1时，该估计将用于4. 评价对所提出的算法的评估并不直接-我我病房，因为有很少或没有直接解决以前的工作使用贪婪初始化和模拟的组合退火我们开始贪婪地选择一个对象ok实例分割在3D扫描之间转移。以pl这最大程度地改善了目标。这数据集：为了评估所提出的方法，我们有cre-加法的过程一直持续到目标函数开始减少。在此阶段之后，我们执行模拟退火优化。我们运行模拟退火25k次迭代，使用具有随机重启（0.5%的概率返回到最佳得分状态）。为了探索搜索空间，我们对随机选择的对象ok使用以下操作：• 添加对象-我们以随机姿态pl将〇 k添加到A’。• RemoveObject-从A ′中删除Weremov eok。• 移动对象-我们从A’中选择〇k，并为其分配新的姿势p_m。• 交换对象-我们交换o k和ol的位置，ok和ol是同一语义类的另一个随机选择的对象3.5.分段转移算法的第三步骤将语义和实例标签从Ai转移到扫描Si。来自前一步骤的估计的布置可以用于执行绘制了随时间变化的场景的数据集。我们的数据集包含13个不同的场景，总共有45个单独的重建。每个场景包含3到5次扫描，其中每个catpure中的对象被移动以模拟长时间内发生的变化。除了捕获的数据，我们还为每个场景中的每个对象提供手动策划的语义类别和实例标签实例标签在整个时间内是稳定的，提供不同扫描中的对象实例之间的关联，我们可以使用它此外，我们为每个场景提供了实例分配的排列，以解决对象运动不明确和多个排列可以被认为是正确的情况有关数据集的更多详细信息包含在补充材料中。指标：我们使用三个指标来评估我们的方法。第一个是语义标签指标，用于衡量类别标签的正确性2546图4：归纳实例分割结果。给定在时间t0的分割，我们的方法能够迭代地将实例标签转移到未来的时间，即使场景中的对象的数量发生变化。基准[10]，并报告为平均类IoU。第二个是语义实例度量，它衡量对象实例分离方法语义标签语义实例实例转移来自ScanNet基准[10]，报告为平均精度（IoU=0.5）。第三，我们提出了一个新的实例转移度量，它特别要求SparseConvNet 0.2032000 - 2001两年期MASC（微调）实例索引在时间上的一致性此度量是报告为平均IoU，其中我们对共享等效实例id的地面实况和预测中的点数进行计数。实例转移度量更具挑战性，因为它需要在不同扫描中将对象与特定实例ID相关联。基线：鉴于最近深度模型的成功对于场景理解（如[10]的排行榜上所示），将我们的Al-出租M的结果与基于深度神经网络的最佳可用方法进行比较是有趣的。用于3D实例分割的最佳可用方法之一是MASC[33]，其基于SparseConvNet [21]的语义分割。为了在我们的任务上测试这些方法，我们在ScanNet的训练集上预训练了SparseC-onvNet和MASC模型。我们进行了微调的MASC与地面实况标签的第一次观察（时间t0），在我们的数据库中的每个场景S0此微调模型提供实例分割，可与匈牙利方法[30]以估计跨时间的实例关联。这一系列步骤提供了一个非常强大的基线，结合了最先进的方法，例如分割与既定的分配算法。4.1. 定量结果评价和比较：由于我们解决了一个归纳任务（预测t i时的答案，给定t i−1时的答案），因此如何为我们的实验初始化系统并不明显。条款。由于我们的目标是单独评估归纳步骤，因此我们选择使用正确的实例seg初始化时间t0重新扫描0.859 0.837零点六五表1：我们的方法与SparseConvNet [21]和MASC [33]的比较SparseConvNet不生成实例标签，因此我们省略了对语义实例和实例传输任务的报告，只对MASC进行微调。心理状态该选择避免了在t0处的从头实例分割与实验的主要我们让实验中的每个算法将实例分割从t0转移到t1，然后将结果转移到t2，依此类推。我们在与基线的直接比较中为我们的方法运行该实验所有三个评价指标的结果示于表1中。他们表明，我们的算法显着优于竞争的方法。正如预期的那样，我们看到在ScanNet训练集[10]上训练的深度神经网络在没有微调的情况下对我们的数据表现不佳在对S0中的数据进行微调之后，它们做得更好。微调允许公平的比较，因为他们和我们的方法都可以访问来自S0的相同信息来预测S1的标签;i >0。尽管如此，后面的时间步长上的实例分割仍然比我们的算法执行得更差，并且跨时间的实例关联很差。我们将差异归因于这样一个事实，即我们的方法是以实例为中心的，其中分割是从估计的对象的排列推断的。这与MASC等方法完全相反，在MASC中，从语义分割推断实例。消融研究：其次，我们介绍了ABLA的结果-2547图5：语义分割任务的定性比较。所提出的方法是能够提供高质量的语义标签作为实例分割转移的结果与竞争对手的方法相比，我们能够产生更好的每个对象的标签，不混淆对象类。在特定任务中，如表2所示，到目前为止，我们提出的目标中最重要的术语是覆盖术语。如果没有它，则不鼓励目标函数添加更多对象。优化简单地以添加到场景的单个对象完成-因为添加任何更多将导致其他方面的减少。第二个最重要的项，特别是对于实例传输任务，是滞后项。直观的是，缺少该项，目标函数不被鼓励找到将与先前对象配置一致的布置。我们注意到，当省略这个术语时，语义分割任务实现了稍微好一点的结果。原因在于，为了防止添加多余的对象，新对象被分配相对低的分数（第2节）。3.4.1）。在没有滞后项的情况下，所提出的目标可以自由地插入额外的对象，但是它们的配置通常不正确，导致其他两个任务的分数较低。这一结果表明，存在一个更好的制定滞后功能-一个有趣的方向，为今后的研究。交集项的存在对于语义实例和实例转移任务是重要的。直观地，语义分割分数不受影响，因为通常情况是相交对象共享语义类。几何项对结果的影响最小。这并不奇怪，因为在姿势建议阶段幸存下来的姿势（见第二节）。3.3）为高分组。语义语义例如方法标签例如转移无承保期限0.0610.0580.048无几何术语0.8530.8250.617无交集项0.8590.7810.584无滞后项0.8700.8180.226完整方法0.8590.8370.650表2：消融研究显示了客观功能项对每个建议任务的影响。4.2. 定性结果诱导分割转移：我们使用图4中的方法展示了实例转移任务的定性结果。同样，在此任务中，我们使用用户在t0时提供的地面实况分割，并将其顺序地传输到所有其他观测。这种分段转移的结果提供了稳定且良好局部化的实例。即使在多个时间步，我们的方法是能够跟踪对象的身份，为我们提供他们的位置和运动的信息此外，由于目标函数更喜欢最小的变化，我们能够处理具有挑战性的配置。例如，在4a中，我们的方法能够在时间t3正确地恢复三个咖啡桌，尽管它们接近并且视觉相似。语义分割：图5展示了定性2548图6：模型完成结果。左列示出了具有移动对象的场景的两个扫描右列显示了我们使用来自时间模型M的对象和位置对场景的重建。我们的方法和基于DNN的方法之间的比较[33，21]。如果不进行微调，细分问题就很明显。学习方法混淆了沙发和椅子等标签，这解释了表1中的低分数。微调有助于减少这些影响-但是我们也看到一些过拟合错误。我们的方法能够恢复高质量的语义分割，由于我们的方法是以实例为中心的，单个实例不能有超过一个语义类。然而，我们的方法当许多新的物体出现时，滞后项可能会阻止所有这些物体的加入，因为它的目的是产生与先前观察到的物体相似的排列（图1）。（见第5a段）。模型完成结果：我们的方法，从多个时间步长的移动物体的观测聚合允许它产生更完整的表面重建比否则将是可能的。许多其他系统在创建表面模型之前会移除移动的对象（以避免重影）[28]。我们的方法使用的估计对象分割和转换aggre门点与每个对象ok，形成一个Gk，一般是更完整的比可以从任何一个扫描。使用每个对象布置Ai中的变换Tk来组成聚合的Gk提供了模型完成结果（图1）。（六）。失败：我们确定了我们的方法的三个主要失败模式（图1）。（七）.第一个问题是由于我们的方法的几何聚焦性质而产生的。如果对象仅被部分扫描，则姿势提议阶段将不能恢复高得分姿势。因此，这些对象将简单地不被添加到优化可以从中选择二是小物体对场景贡献有限造成的图7：所提出的方法的失效模式（a）部分扫描防止姿势提议阶段生成合理姿势。(b)小物体对覆盖项的贡献很小。如果这样的物体经历了显著的运动，我们的算法可能会错过它们。(c)当考虑类似的部分扫描对象时，我们的方法可能不会产生正确的排列。覆盖率得分。如果在显著运动下结合使用较小的“滞后项”值，则目标函数可能不希望添加这些对象。最后，在类似于图7c中的情况下，对象的不正确排列可能具有比地面真实值更高的客观值。这种效果是几何项为视觉上相似的对象（如桌子周围的椅子）的部分扫描提供噪声分数，以及它们的相对空间接近度的组合，这使得滞后项成为一个差的参数。5. 结论本文提出了一种算法，估计se-mantic实例分割的RGBD扫描的室内环境。所提出的算法是归纳的-我们的实验表明，与强基线相比，新的基准数据集具有更好的性能。未来工作的兴趣方向包括推断t0时的分割，研究RNN架构（当更大的数据集可用时），以及用学习的替代品替换目标函数的术语。致谢感谢天使X。Chang和Manolis Savva进行了富有洞察力的讨论。我们还要感谢格雷厄姆等人。[21] Liu etal.[33]对于比较代码，以及Dai et al.对于ScanNet数据[10]。该项目部分得到了NSF的资助（CRI 1729971和VEC 1539014/1539099）。2549引用[1] Rares Ambrus，Johan Ekekrantz，John Folkesson，andPatric Jensfelt.长期自治场景中对象时空模型的无监督学习。在Intelligent Robots and Systems （IROS），2015IEEE/RSJ International Conference on，第 5678-5685页中。IEEE，2015年。2[2] R. Ambru，N. Bore，J. Folkesson，and P. Jensfelt Meta房间：在动态世界中建立和维护长期的空间模型。在2014年IEEE/RSJ智能机器人和系统，第18542014年9月。2[3] Dragomir Anguelov ， Rahul Biswas ， Daphne Koller ，Benson Limketkai，and Sebastian Thrun.用移动机器人学习非静止环境的分层对象地图。在第十八届人工智能不确定性会议的会议记录中，第10-17页。摩根·考夫曼出版公司2002. 2[4] T. Birdal和S.伊利克基于点对特征的目标检测和姿态估计。2015年3D视觉国际会议，第527-535页，2015年10月。三、四[5] Rahul Biswas ， Benson Limketkai ， Scott Sanner ， andSebastian Thrun.面向移动机器人的非静止环境中的对象映射。智能机器人与系统，2002年。IEEE/RSJ国际会议，第1卷，第1014-1019页。IEEE，2002年。2[6] Nils Bore，Johan Ekekrantz，Patric Jensfelt，and JohnFolkesson.大型三维地图中一般可移动目标的检测与跟踪。arXiv预印本arXiv：1712.08409，2017。2[7] Frederic Bosche，Carl T Haas，and Burcu Akinci.现场激光扫描中三维cad对象的自动识别，用于项目三维状态可视化和性能控制。 Journal of Computing in CivilEngineering，23（6）：311-318，2009. 3[8] Angel Chang，Angela Dai，Thomas Funkhouser，MaciejHalber ， Matthias Niessner ， Manolis Savva ， ShuranSong，Andy Zeng，and Yinda Zhang. Matterport3D：从室内环境中的RGB-D数据学习。2017年3D视觉国际会议（3DV）。1[9] M. Corsini、P.Cignoni和R.斯科皮尼奥高效灵活的采样，具有三角网格的蓝噪声特性。IEEE Transactions onVisualization and Computer Graphics，18（6 ）：914-924，June 2012. 3[10] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在proc 计算机视觉与模式识别（CVPR）IEEE，2017年。一、六、八[11] 放大图片作者： Andrew Delong ， Anton Osokin ，Hossam N. Isack和Yuri Boykov。快速近似能量最小化标签成本。International Journal of Computer Vision，96（1）：1- 27，Jan 2012. 5[12] B. Drost，M. Ulrich，N. Navab和S.伊利克全局建模，局部匹配：高效而稳健的三维物体识别。 2010年IEEE计算机协会计算机视觉和模式识别会议，第9983[13] Johan Ekekrantz 、 Nils Bore 、 Rares Ambrus 、 JohnFolkesson和Patric Jensfelt。面向终身对象建模的自适应系统。 ICRA 研讨会： AI for Long-term Auton-omy ，2016。2[14] J. Engel，T. Scho ¨ ps和D. 克莱姆斯LSD-SLAM：大规模直接单眼SLAM。欧洲计算机视觉会议（ECCV），2014年9月。3[15] ThomasF？ulhammer，Rares ？Ambrus ？，ChrisBurbridge，Michael Zillich，John Folkesson，NickHawes，Patric Jens- felt，and Markus Escherze.移动机器人的物体模型自主学习。IEEE Robotics and AutomationLetters，2（1）：26-33，2017。2[16] Mari usFehr ， FadriFurrer ， Iv anDryano vski ， JürgenSturm ， Igor Gilitschenski ， Roland Siegwart ， andCesar Cadena.基于tsdf的变化检测，用于一致的长期密集重建和动态对象发现。在机器人与自动化（ICRA），2017年IEEE国际会议，第5237-5244页中。IEEE，2017年。2[17] Ross Finman，Thomas Whelan，Liam Paull，and John JLeonard.密集rgb- d地图中用于地点识别的物理词。在ICRA关于变化环境中的视觉位置识别的研讨会上，2014年。2[18] Martin A. Fischler和Robert C.波尔斯随机样本一致性：模型拟合的范例，应用于图像分析和自动制图。Commun. ACM，24（6）：381-395，June 1981. 4[19] Garratt Gallagher ， Siddhartha S Srinivasa ， J AndrewBagnell，and Dave Ferguson.Gatmo：一种跟踪可移动物体的通用方法。机器人与自动化，2009年。ICRA'09。IEEE国际会议，第2043- 2048页。IEEE，2009年。2[20] Mani Golparvar-Fard 、 Feniosky Pena-Mora 和 SilvioSavarese。利用无序的每日施工照片和基于ifc的建筑信息模型进行自动进度监控。Journal of Computing inCivil Engineering，29（1）：04014025，2012. 3[21] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。CVPR，2018年。六、八[22] 凯文·韩和马尼·戈帕尔瓦-法德通过每日现场图像和bim，分析和可视化施工进度偏差。在Congress onComputing in Civil Engineering ，Proceedings，第2015卷，第596-603页，2015年6月。3[23] N. 霍斯角 Burbridge ， F. 约万湖昆泽湾拉塞尔达湖Mudrova，J.Young，J.Wyatt，D.Hebesberger，T.科特纳河 Ambrus ， N.Bore ， J.Folkesson ， P. 延斯费尔特湖Beyer ， A. 她的男人， B 。 Leibe ， A. Aldoma ， T.Faulhammer，M.齐利希峰Vincze，E. Chinellato，M. Al-Omari，P. Duckworth，Y. Gat-soulis、黑腹拟步行虫D.C. Hogg，A. G.科恩角Dondrup，J. Pulido Fentanes，T.Krajnik，J.M. Santos，T.Duckett和M.汉海德Strands项目：日常环境中的长期自主性。 IEEE RoboticsAutomation Magazine，24（3）：146- 156，Sep. 2017. 2[24] 埃文·赫布斯特彼得·亨利和迪特尔·福克斯面向在线三维物体分割与映射。在机器人与自动化（ICRA），2014IEEE国际会议上，第3193-3200页。IEEE，2014。22550[25] Binh-SonHua 、 Quang-HieuPham 、 DucThanhNguyen 、 Minh-Khoi Tran 、 Lap-Fai Yu 和 Sai-KitYeung。Scenenn：带有注释的场景网格数据集。2016年国际3D视觉会议（3DV）。1[26] Kevin Karsch，Mani Golparvar-Fard，and David Forsyth.结构：通过照片和建筑模型分析和可视化建筑工地。ACM Transactions on Graphics（TOG），33（6）：176，2014. 3[27] Michael Kazhdan，Matthew Bolitho，and Hugues Hoppe.泊松曲面重建第四届欧洲图形学几何处理研讨会论文集，SGP’06，第61-70页，瑞士，瑞士，欧洲制图协会。5[28] Maik Keller ， Damien Lefloch ， Martin Lambers ，Shahram Izadi，Tim Weyrich，and Andreas Kolb.基于点融合的动态场景实时三维重建。在Joint 3DIM/3DPVTConference（3DV）的Proceedings，第8页，2013年6月。8[29] Toma'sˇKrajn'ık， JaimePFentanes ， JoaoMSantos ， andTomDuckett.弗雷曼人：频率图增强，用于在不断变化的环境中长期移动机器人自主性IEEE Transactions on Robotics ， 33 （ 4 ）： 964-977 ，2017。2[30] 哈罗德·库恩。指派问题的匈牙利方法。海军研究后勤季刊，2（1-2）：83-97，1955年。6[31] Minhaeng Lee和Charless C.福克斯时空局部化和映射。在IEEE国际计算机视觉会议（

下载后可阅读完整内容，剩余1页未读，立即下载