没有合适的资源?快使用搜索试试~ 我知道了~
RIO:室内环境中的3D物体实例重新定位
76580RIO:在变化的室内环境中的3D物体实例重新定位0Johanna Wald 1 Armen Avetisyan 1 Nassir Navab 1 Federico Tombari 1 , 2 , � Matthias Nießner 1 , �01 慕尼黑工业大学 2 谷歌0图1:3D物体实例重新定位基准:我们希望从分割的源扫描到稍后时间点拍摄的目标扫描中鲁棒地估计改变的刚性物体实例的6DoF姿态(T1,T2,...Tn)。0摘要0在这项工作中,我们引入了3D物体实例重新定位(RIO)的任务:给定一个或多个物体在RGB-D扫描中,我们希望估计它们在同一环境的稍后时间点拍摄的另一个3D扫描中的相应的6DoF姿态。我们认为RIO是3D视觉中一项特别重要的任务,因为它可以实现广泛的实际应用,包括要求AI助手或机器人在3D场景中找到特定物体。为了解决这个问题,我们首先引入了3RScan,这是一个新的数据集和基准,它包含了1482个跨多个时间步骤的478个环境的RGB-D扫描。每个场景包括几个物体,它们的位置随时间变化,以及物体实例的地面真值注释和它们在重新扫描中的相应的6DoF映射。自动找到6DoF物体姿态导致了一个特别具有挑战性的特征匹配任务,因为存在不同的部分观测和周围环境的变化。为此,我们引入了一种新的数据驱动方法,使用在多个空间尺度上操作的全卷积3D对应网络高效地找到匹配特征。结合6DoF姿态优化,我们的方法在我们新建立的基准上优于现有的基线方法,达到了30.58%的准确率。0*作者共享高级作者资格。01. 引言0室内环境的3D扫描和理解是计算机视觉中的一个基础研究方向,为从室内机器人到增强和虚拟现实等各种应用奠定了基础。特别是,RGB-D扫描系统的快速进展[17, 18, 31,6]使得可以仅使用低成本的扫描设备(如微软Kinect、英特尔RealSense或谷歌Tango)获得室内场景的3D重建。随着捕捉3D地图的能力,研究人员对使用这些表示进行3D场景理解表现出了显著的兴趣,并发展了一系列快速发展的研究,专注于诸如3D语义分割[4, 19,26]或3D实例分割[10]等任务。然而,这些工作之间的共同之处在于它们只考虑静态场景环境。在这项工作中,我们关注的是随时间变化的环境。具体而言,我们引入了物体实例重新定位(RIO)的任务:给定一个或多个物体在RGB-D扫描中,我们希望估计它们在同一环境的另一个不同时间点拍摄的3D扫描中的相应的6DoF姿态。因此,捕获的重建自然涵盖了各种时间变化;见图1。我们认为这对于许多室内应用来说是一个关键任务,例如,对于机器人或虚拟助手来在其周围环境中找到特定物体。RIO中的主要挑战-找到每个物体的6DoF-在于建立重扫描之间的良好对应关系,这是一个非常困难的问题,因为不同的扫描模式和不断变化的几何上下文。0https://waldjohannau.github.io/RIO/76590图2:3RScan数据集中3D场景对的示例。它提供:e)校准的RGB-D序列,a),b)对齐的纹理3D重建,c)密集的实例级语义分割以及d)对称感知的局部变化对齐。0这些模式和不断变化的几何上下文使得使用手工设计的几何描述符(如FPFH [22]或SHOT[27])效果较差。同样,学习的3D特征匹配方法(如3DMatch [32,7])由于是在静态3D场景上进行自我监督对应训练的,因此很容易受到几何变化的影响,不能轻易利用。使用数据驱动方法进行物体实例定位的一个主要限制是缺乏受监督的训练数据。虽然现有的RGB-D数据集(如ScanNet [4]或SUNRGB-D[25])为数百个场景提供了语义分割,但它们缺乏跨场景变化的时间注释。为了解决这个缺点,我们引入了3RScan,这是一个由1482个RGB-D序列组成的新数据集。该数据集的一个重要创新之处在于为每个环境提供了多个重新扫描。数据集不仅包括密集的地面真值语义实例注释(对于每个扫描),还包括在重新扫描之间外观和/或位置发生变化的物体。除了使用3RScan来训练特征描述符之外,我们还引入了一个新的物体实例定位基准。为了从这些数据中学习,我们提出了一种全卷积多尺度网络,能够以自我监督的方式学习动态环境中的几何特征。该网络使用在两个不同空间尺度上提取的移动物体的相应TSDF(截断有符号距离函数)补丁进行训练。结果,我们获得了具有变化不变性的局部特征,优于在对应匹配和我们新创建的物体实例重新定位基准上的现有基线方法。总之,我们探索了在变化环境中的3D物体实例重新定位任务,并做出了以下贡献:0•3RScan,一个大规模的室内RGB-D数据集,包含多次扫描的变化环境。我们提供密集语义实例标签和变化对象关联的真实标注。0地面真实注释密集语义实例标签和变化对象关联。0•一种新的数据驱动的对象实例重新定位方法,该方法基于几何多尺度神经网络学习变化的3D上下文中的稳健特征。02. 相关工作03D对象定位和关键点匹配3D对象定位和姿态估计通过关键点匹配是计算机视觉中长期感兴趣的领域。直到最近,使用3D手工制作的描述符[27,22]来定位遮挡和杂乱环境中的对象,通过确定点对点的3D对应关系。然而,随着机器学习的成功,兴趣转向了能够嵌入3D数据(如网格或点云)的深度学习3D特征描述符,使其具有辨别性的潜在空间[32,19,7]。尽管这些方法在诸如对应关系匹配和配准等任务上显示出令人印象深刻的结果,但它们仅限于静态环境。在这项工作中,我们进一步研究了动态任务;具体而言,我们的目标是在包含常见几何和外观变化的杂乱目标扫描中定位给定的3D对象。0RGB-D场景理解基于RGB-D数据的场景理解方法通常依赖于体素或surfel-basedSLAM来重建场景的3D几何,同时融合通过RandomForests [29,30]或CNNs[13,15]提取的语义分割。其他作品,如SLAM++[24]或Fusion++[12],在对象级别上操作,并为SLAM和循环闭合创建语义场景图。相反,非增量场景理解方法直接处理3D扫描以获得语义、实例或部分分割[19,20,21,5,10]。无论采用哪种方法,所有这些方法都依赖于以下假设:76600表1:用于3D场景理解的RGB-D室内数据集:我们列出了合成数据集和真实数据集,并将它们的大小以及其他属性进行了比较,例如场景变化的可用性。0数据集大小真实数据采集/生成基准变化0NYUv2 [16] 464个场景 � 使用Kinect深度和语义进行录制 �0SUN RGB-D [25] 10k帧 � 使用4种不同的传感器进行录制 3D对象检测 �0SUN-CG [26] 45K个房间,500K张图像 � 渲染的,布局手工设计的 场景补全 �0ScanNet [4] 1513个扫描,2.5M张图像 � 使用Structure Sensor进行录制 语义体素标注 �0Fehr等人 [8] 23个场景的扫描 � 使用Tango进行录制 变化检测 �0Matterport3D [3] 90个建筑物,�200k张图像 � 使用Matterport进行录制 几个�0SceneNet RGB-D [14] 15K个轨迹,5M张图像 � 逼真的,随机的场景 SLAM �0InteriorNet [11] 数百万个/未知 � 逼真的,布局手工设计的 SLAM �0RGB Reloc [28] 4个场景,12个房间 � 使用Kinect相机重新定位 �03RScan(我们的)1482个扫描,478个场景 � 使用Tango进行录制 对象实例重新定位 �0对象是静态的,场景结构不会随时间改变。0RGB-D数据集由于对场景理解应用的极大兴趣,最近提出了几个基于RGB-D数据的大规模数据集[9]。我们在表1中总结了最重要的努力,以及它们的主要特点(例如,场景数量,采集平均值)。大多数数据集不包括场景布局和其中的对象的变化,并假设每个场景在时间上是静态的。这是ScanNet[4]的情况,目前是室内场景理解的最大真实数据集,包含约1500个扫描的约750个唯一场景。值得注意的是,只有最近的几个提案开始探索收集场景变化的想法,以实现长期的场景理解。InteriorNet[11]是一个大规模的合成数据集,其中应用了基于物理的随机家具重排和照明变化,以生成室内场景通常经历的外观和几何变化。该基准测试了几种最先进的稀疏和稠密SLAM方法。尽管规模庞大且无可争议地有用,但我们认为,由于真实和合成图像之间的领域差异,真实序列的可用性对于长期场景理解的发展仍然至关重要。据我们所知,唯一一个包含场景变化的真实数据集是Fehr等人发布的数据集[8],其中包括3个不同房间的23个序列,用于从可移动家具中分割场景结构,尽管缺乏训练和测试当前学习方法所需的注释和大小。03. 3RScan数据集0我们提出了3RScan,一个大规模的真实世界数据集,其中包含多个(2-12)自然变化的室内环境的3D快照(重新扫描),旨在用于评估长期SLAM等新兴任务。0场景变化检测[8]和相机或对象实例重新定位。在本节中,我们描述了在动态布局和移动对象下进行场景扫描的获取,以及在对象姿态和语义分割方面的注释。03.1. 概述0记录的序列可以是a)受控的,其中成对的扫描在仅几分钟的时间范围内获取,已知场景发生变化,或者b)不受控的,其中未知的变化是通过场景-用户交互在一段时间内(长达几个月)自然发生的。所有1482个序列都是使用Tango移动应用程序录制的,以便未经训练的用户可以轻松使用。每个序列都经过离线处理,以获得具有闭环和纹理映射的3D重建的束调整相机姿态。为了确保高变异性,45多个不同的人在13多个不同的国家记录了数据。每个序列都带有对齐的语义注释的3D数据和相应的2D帧(总共约363k),详细包括:0• 带有可变n个RGB图像Ri和深度图像Di的校准RGB-D序列。0• 纹理化的3D网格0• 相机姿态Pi和校准参数K。0• 同一场景中扫描之间的全局对齐,作为全局变换 T。0•密集的实例级语义分割,其中每个实例具有固定的ID,在同一环境的不同序列中保持一致。0• 对象对齐,即每个变化的对象的真实变换 T GT = R GT+ t GT,以及其对称性属性。76610•引用中模糊实例的类内变换A,以恢复重新扫描中的所有有效对象姿态(见图3)。03.2. 场景变化0由于对室内交互环境进行重复记录,我们的数据自然捕捉到了大量的时间场景变化。这些变化主要是刚性的,包括a)物体的移动(从几厘米到几米)或b)物体的移除或添加到场景中。此外,非刚性物体(如窗帘或毯子)和光照变化的存在创建了额外的挑战场景。03.3. 标注0该数据集附带丰富的注释,包括扫描到场景的映射和3D变换(第3.3.2节),以及密集的实例分割(第3.3.1节)。有关注释的更多详细信息和统计数据,请参阅补充材料。03.3.1 语义分割0与ScanNet[4]类似,实例级语义注释是通过直接在分割的3D表面上进行标记来获得的。为此,每个参考扫描都使用ScanNet公开可用的注释框架的修改版本进行了注释。为了减少注释时间,我们使用全局对齐T和扫描到场景映射以基于段的方式将注释从参考扫描传播到每个重新扫描。这为我们提供了对重新扫描的非常好的注释估计,假设大部分场景的部分保持静态。图4展示了在存在噪声和场景变化的情况下,从手动注释的场景自动传播标签的示例。语义分割由人工专家使用基于Web的众包界面进行注释,并由作者进行验证。整个数据集的语义分割的平均注释覆盖率为98.5%。03.3.2 实例变化0为了获得实例级别的3D变换,我们基于CAD对齐工具开发了一个基于关键点的3D注释和验证界面,该工具在[2]中使用。通过在参考扫描中的对象和重新扫描中的对应对象上手动注释的3D关键点对应关系应用Procrustes,获得一个3D变换(见图5)。除了这个3D变换,还为每个实例分配了对称属性。03.4. 基准测试0基于这些数据,我们在变化的室内环境中建立了一个公共基准测试,用于3D实例级别的对象重新定位。给定一个或多个对象在一个分割的源场景中,我们希望在在不同时间点拍摄的同一环境中的目标扫描中估计相应的6DoF姿态。即,需要检测给定m个实例中A(左图1)到B(右图)的转换T1 = R1+ t1,...,Tm,其中t1,..tm是平移,R1,...,Rm是旋转。预测与注释的3D变换进行评估。如果与给定的地面真值变换的平移和旋转误差在一个小范围内,则认为6DoF姿态估计是成功的。在我们的实验中,我们将这些阈值设置为t ≤ 10 cm和r ≤ 10°以及t ≤ 20cm和r ≤20°。为了避免对称对象的错位,考虑到相应的对称属性。我们公开发布了我们的数据集,其中包括标准化的测试、验证和训练集(见表2)以及所有提到的注释。为了公平比较不同方法,我们还发布了一个隐藏的测试集,以及一个自动的服务器端测试脚本。0表2:3RScan测试集、训练集和验证集的统计数据。0测试 训练 验证 总计0#场景 46 385 47 478 #重新扫描 101 793110 1004 #扫描 147 1178 157 148204. 3D对象实例重新定位0为了解决RIO的任务,我们提出了一种新的数据驱动方法,使用3D对应网络在变化的3D扫描中找到匹配特征。我们的网络在多个空间尺度上操作,以编码围绕对象和场景的不变性邻域信息。通过将学习到的对应关系与RANSAC和6DoF对象姿态优化相结合,重新定位对象实例。04.1. 数据表示0我们网络的输入是TSDF补丁。对于源对象或目标场景上的每个3D关键点,提取其周围的3D体积,分别在两个不同的尺度上进行。它们被选择为包含空间分辨率为(1 . 2m)3和(0 . 6m)3的TSDF值的32×32×32体素网格。它们对应的体素尺寸分别为1 . 875 cm和3 . 75 cm。04.2. 网络架构0RIO的网络架构如图6所示。由于没有填充的卷积和两个池化层,N�i=1N�||f ai − f pi ||22 − ||f ai − f ni ||22 + α�(2)76620图3:在场景变化的情况下的实例模糊性:由于实例映射未知,存在多个可能的解决方案,我们在数据集中提供了用户注释指示所有可能性。0输入体积被减少为一个512维的特征向量。它由两个单尺度编码器(SSE)和一个后续的多尺度编码器(MSE)组成。两个不同的输入分辨率捕捉到不同细节级别的邻域。由于两个单尺度编码器分支是相同的,它们的网络响应在输入MSE之前被连接起来,如图6所示。这种多尺度架构有助于同时捕捉细粒度的几何细节和周围环境的高级语义。我们展示了我们的多分辨率网络产生了更丰富的特征,因此在处理每个尺度独立的单尺度架构方面取得了很大的优势。还请注意,两个网络分支不共享权重,因为它们提供的是不同的特征。0图4:从参考(左)到重新扫描(中)的传播结果和手动清理(右)。请注意,在场景变化存在的情况下的错误传播:这里橙色扶手椅被移动,因此其标签被错误传播。0图5:基于对应关系的3D实例对齐示例(右)。通过手动注释对象(左,绿色)和场景(中间,红色)上的对应关键点来计算3D变换。0访问不同上下文的几何形状。为了在对象表面附近获得强梯度,原始TSDF在网络的第一层中被反转,使得0ˆ TSDF = 1 - |TSDF| . (1)04.3. 训练0在训练过程中,使用三元组网络架构和三元组损失(公式2)。它最大化负补丁的L2距离,并最小化正补丁的L2距离。我们选择边界α为1。优化时,使用Adam优化器,初始学习率为0.001。04.4. 训练数据:从静态到动态0我们最初使用从我们的数据集的RGB-D序列中提取的静态TSDF补丁对我们的网络进行完全自监督的训练。为了能够处理由不同扫描模式引起的部分重建,我们处理两个不重叠的帧集以产生同一场景的两个不同的TSDF体积。然后,在一个体积上提取第一次哈里斯3D关键点,然后通过在每个提取的关键点周围的哈里斯响应的非极大值抑制在另一个体积上对这些相同位置进行了改进。如果两个体积上的对应关键点超过一定的阈值,我们认为它们是合适的补丁对,并将其用于我们网络的预训练。我们的方法的目标是产生一个局部特征编码,将3D关键点周围的对象的局部邻域映射到一个向量,同时对感兴趣对象周围的局部变化具有不变性。我们通过使用对象对齐并从我们提出的3RScan数据集中采样动态补丁来学习这种变化不变描述符。因此,一旦收敛,我们使用围绕移动对象上的感兴趣点特定生成的动态3D补丁对静态网络进行微调。为了仅学习更高级的特征,在微调过程中,我们冻结第一层,只训练多尺度编码器分支。(R, t) =arg minR∈SO(d),t∈R376630图6:我们的多尺度三元组网络架构:在训练过程中,每个锚点(蓝色)与一个正样本(绿色)和一个负样本(红色)配对。网络通过在两个分支中分别处理两个尺度,最小化正样本距离并最大化负样本距离。同一大小的每个SSE块和MSE中共享权重。0我们的网络中的对应关系对是通过自监督的方式生成的,同时使用训练集中的地面真实姿态注释,在每个源3D关键点周围的相同小半径内找到高关键点响应。每个三元组的负对应关系是从另一个训练场景中随机选择的,但也包括已移除对象的TSDF补丁。随机旋转增强用于扩大我们的训练数据。04.5. 6DoF姿态对齐0为了重新定位对象实例,我们首先计算源对象和整个目标场景上关键点的特征。然后,在场景中的点的特征编码的潜在空间中通过k最近邻搜索找到模型关键点的对应关系。在使用RANSAC过滤异常值后,剩余的对应关系作为6DoF姿态优化的输入。给定源对象O = p1, p2, ...pn ∈R3和目标场景S = q1, q2, ...qn ∈R3上的两组剩余对应关系,我们希望找到一个最优的刚性变换来对齐这两组关系。具体来说,我们希望找到一个旋转R和一个平移t,使得0i = 1 || (Rp i + t) - qi || 2 . (3)0我们使用奇异值分解(SVD)来解决这个优化问题。得到的6自由度变换给出了将模型与场景对齐的姿态。我们在我们的3RScan数据集的一些扫描中展示了我们的对齐方法的定性结果和相应的地面真值对齐,如图7所示。05. 评估0接下来,我们通过在我们新创建的3RScan数据集上进行评估,展示了我们方法的定量实验结果。在第一部分中,我们比较了不同方法在标注的变化对象周围的关键点上匹配动态补丁的能力。然后,我们对我们提出的多尺度网络在新创建的对象实例重新定位基准测试上进行了评估。05.1. 对应匹配0在变化环境中进行准确的6D姿态估计,鲁棒的对应匹配至关重要。不同网络架构的特征匹配准确率报告如表3所示。每个网络都是使用静态样本进行预训练(标记为static),然后在训练的动态补丁上进行微调(标记为dynamic)。列出了F1得分、准确率、精确率、误报率(FPR)和错误率(ER)在95%召回率下的值,并进行可视化。76640图7:我们学习的多尺度方法在不同变化环境中的3D刚性对象实例重新定位(RIO)的定性结果。来自参考扫描的不同实例以不同颜色显示在重新扫描之上。0表3:在3RScan中动态3D TSDF补丁的关键点匹配评估,以95%召回率报告的结果。0方法(训练)F1准确率精确率FPR ER Top-1 Top-3 Top-5 Top-100RIO-单尺度 60cm(静态)71.54 62.21 57.37 70.60 75.59 2.17 4.12 5.96 17.560RIO-单尺度 120cm(静态)74.17 66.92 60.83 61.18 66.16 3.94 4.58 8.21 20.380RIO-单尺度 120cm(动态)78.71 74.29 67.17 46.43 51.41 6.26 7.26 9.58 27.820RIO-多尺度(静态)85.58 83.98 77.82 27.09 32.04 30.73 53.48 69.61 89.030RIO-多尺度(动态)94.37 94.33 93.61 6.50 11.35 64.10 86.20 93.40 98.300它们在图8中显示了各自的PRC图。除了1:1匹配准确率外,我们还使用了一个top-1指标:在给定50个随机选择的负样本的情况下,正样本的top-1放置百分比。这样的指标更好地表示了对象实例重新定位的真实测试情况,其中将几个负样本与一个正关键点进行比较。可以看出,我们的多尺度网络架构 - 即使只是使用静态数据进行训练 -在很大程度上优于所有单尺度架构,并且如果再使用动态数据进行训练,进一步提高到94.37的F1得分。05.2. 对象实例重新定位0接下来我们讨论在我们新创建的基准测试上的结果,该测试是在带有数据的3RScan测试集上进行的。我们将我们的方法与PCL [23]中的手工特征(如SHOT [27]和FPFH [22,1])进行评估。每个对象实例的变换是通过以下步骤分别计算的:(1)采样关键点,(2)提取每个关键点处的描述符,然后进行(3)对应匹配和(4)基于RANSAC的过滤。我们评估的学习基准是3DMatch [32]。FPFH [22]2.617.250.06458.3610.570.0776SHOT [27]6.795.350.026812.278.180.03933DMatch (dynamic)5.485.810.054213.057.300.0708RIO-multiscale (static)9.924.330.042517.756.390.0545RIO-multiscale (dynamic)15.144.750.043723.766.080.0547Figure 8: Precision-Recall Curves (PRC) of the dynamic keypointmatching task, corresponding to the different methods evaluatedand listed in Table 3.Table 5: Matching accuracy of the different methods for differentinstance categories at <0.2m, 20◦ and our method trained on static(RIO-S) and dynamic data (RIO-D). See supplementary for detailedclass description.classFPFHSHOT3DMatchRIO-SRIO-Dseating5.0812.716.7814.4121.19table9.335.3321.3325.3329.33items5.0613.927.5911.3916.46bed / sofa56.5221.7434.7834.7847.83cushion0.0015.528.628.6210.34appliances11.1116.6733.3344.4455.56structure0.000.008.3316.6733.33avg.12.4412.2717.2522.2330.58It computes a feature given a patch around a keypoint. Wetrained 3DMatch on 30×30×30 static positive and negativepatches of 30 cm size generated with our dataset as describedin the original paper. We evaluate the predicted rotationRp and translation tp against the ground truth annotationRGT and tGT according to equation 5 and 4. An instancehas successfully been aligned if the alignment error for thetranslation t∆ and rotation R∆ are lower than t ≤ 10 cm,r ≤ 10◦ or t ≤ 20 cm, r ≤ 20◦. Please note that respectivesymmetry are considered in the error computation:t∆ = tp − tGT(4)R∆ = R−1p RGT → axis angle(5)Evaluation results for all object instances are listed in Ta-ble 4 and Table 5. While classical hand-crafted methods stillperform reasonable well – especially for more descriptiveobjects such as sofas and beds – our method outperformsthem with a large margin. Qualitative results are shown inFigure 7.6. ConclusionIn this work, we release the first large-scale dataset of real-world sequences with temporal discontinuity that consists ofmultiple scans of the same environment. We believe that thenew task of object instance re-localization (RIO) in changingindoor environments is a very challenging and particularlyimportant task, yet to be further explored. Besides 6D ob-ject instance alignments in those changing environments,3RScan comes with a large variety of annotations designedfor multiple benchmark tasks including – but not limitedto – persistent dense and sparse SLAM, change detection orcamera re-localization. We believe that 3RScan helps thedevelopment and evaluation of these new algorithms and weare excited to see more work in this domain to, in the end,accomplish persistent, long-term understanding of indoorenvironments.AcknowledgmentWe would like to thank the volunteers who helped with3D scanning, all expert annotators, as well as J¨urgen Sturm,Tom Funkhouser and Maciej Halber for fruitful discussions.This work was funded by the Bavarian State Ministry ofEducation, Science and the Arts in the framework of theCentre Digitisation.Bavaria (ZD.B), the ERC Starting GrantScan2CAD (804724), TUM-IAS for the Rudolf M¨oßbauerFellowship, and a Google Research and Faculty award.76650表4:对象实例重新定位的性能。以平均正确旋转和平移预测的百分比表示。MTE(中位数平移误差)以米为单位,而MRE(中位数旋转误差)以度为单位。0方法(训练)召回率<0.1m,10° MRE [deg] MTE [m] 召回率<0.2m,20° MRE [deg] MTE [m]References[1] Aitor Aldoma, Markus Vincze, Nico Blodow, David Gos-sow, Suat Gedikli, Radu Bogdan Rusu, and Gary Bradski.CAD-model recognition and 6DOF pose estimation using3D cues. In International Conference on Computer Vision(ICCV), 2011.[2] Armen Avetisyan, Manuel Dahnert, Angela Dai, ManolisSavva, Angel Xuan Chang, and Matthias Nießner. Scan2CAD:Learning CAD model alignment in RGB-D scans. In Confer-ence on Computer Vision and Pattern Recognition (CVPR),2019.[3] Angel Xuan Chang, Angela Dai, Thomas Funkhouser, MaciejHalber, Matthias Nießner, Manolis Savva, Shuran Song, AndyZeng, and Yinda Zhang. Matterport3D: Learning from RGB-D data in indoor environments. In International Conferenceon 3D Vision (3DV), 2017.[4] Angela Dai, Angel Xuan Chang, Manolis Savva, MaciejHalber, Tom Funkhouser, and Matthias Nießner. ScanNet:Richly-annotated 3D reconstructions of indoor scenes. InInternational Conference on Computer Vision and PatternRecognition (CVPR), 2017.[5] Angela Dai and Matthias Nießner. 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. InEuropean Conference on Computer Vision (ECCV), 2018.[6] Angela Dai, Matthias Nießner, Michael Zoll¨ofer, ShahramIzadi, and Christian Theobalt. BundleFusion: Real-time Glob-ally Consistent 3D Reconstruction using On-the-fly SurfaceRe-integration. In ACM Transactions on Graphics (TOG),2017.[7] Haowen Deng, Tolga Birdal, and Slobodan Ilic. PPF-FoldNet:Unsupervised Learning of Rotation Invariant 3D Local De-scriptors.In European Conference on Computer Vision(ECCV), 2018.[8] Marius Fehr, Fadri Furrer, Dryanovski Ivan, J¨urgen Sturm,Igor Gilitschenski, Roland Siegwart, and Cesar Cadena.TSDF-based change detection for consistent long-term densereconstruction and dynamic object discovery. In InternationalConference on Robotics and Automation (ICRA), 2017.[9] Michael Firman. RGBD Datasets: Past, Present and Future.In Conference on Computer Vision and Pattern RecognitionWorkshops (CVPR), 2016.[10] Ji Hou, Angela Dai, and Matthias Nießner.3D-SIS: 3DSemantic Instance Segmentation of RGB-D Scans. In Confer-ence on Computer Vision and Pattern Recognition (CVPR),2019.[11] Wenbin Li, Sajad Saeedi, John McCormac, Ronald Clark, Di-mos Tzoumanikas, Qing Ye, Yuzhong Huang, Rui Tang, andStefan Leutenegger. InteriorNet: Mega-scale Multi-sensorPhoto-realistic Indoor Scenes Dataset. In British MachineVision Conference (BMVC), 2018.[12] John McCormac, Ronald Clark, Michael Bloesch, AndrewDavison, and Stefan Leutenegger. Fusion++: VolumetricObject-Level SLAM. In International Conference on 3DVision (3DV), 2018.[13] John McCormac, Ankur Handa, Andrew Davison, and StefanLeutenegger. SemanticFusion: Dense 3D Semantic Map-76660[14] John McCormac、Ankur Handa、StefanLeutenegger和Andrew Davison。SceneNetRGB-D:500万个合成图像能否在室内分割上击败通用的ImageNet预训练?在2017年的国际计算机视觉大会(ICCV)中。[15]Yoshikatsu Nakajima、Keisuke Tateno、FedericoTombari和HideoSaito。通过基于几何的增量分割实现快速准确的语义映射。在2018年的智能机器人和系统国际会议(IROS)中。[16] PushmeetKohli Nathan Silberman、De
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功