ODAM：使用RGB视频的三维对象检测、关联和映射

84 浏览量更新于2023-10-13 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5998ODAM：使用RGB视频的对象检测、关联和映射Kejie Li1、2、Daniel DeTone2、Steven Chen2、Minh Vo2、Ian Reid1、Hamid Rezatofighi3、ChrisSweeney2、Julian Straub2和Richard Newcombe21阿德莱德大学，2Facebook现实实验室研究，3莫纳什大学摘要在三维场景中定位物体并估计其范围是实现高层次三维场景理解的重要一步我们提出了Odam，一个系统的3D对象检测，Asociation，和映射使用构成的RGB视频。所提出的系统依赖于深度学习前端来检测来自给定RGB帧的3D对象，并使用图神经网络（GNN）将它们关联到基于全局对象的地图基于这些帧到模型的关联，我们的后端优化对象包围体，表示为超二次曲面，在多视图几何输入：设定的RGB图像输出量：基于超二次曲面的对象映射约束和对象缩放先验。我们在ScanNet上验证了所提出的系统，在那里我们显示了对现有的仅RGB方法的显着改进。1. 介绍赋予机器感知以推断基于3D对象的地图的能力，使AI系统更接近于对世界的语义理解该任务需要构建场景的一致的基于3D对象的图我们专注于类别级语义重建[29]和具有可渲染密集对象模型[27，45]的基于对象的地图作为图像中使用2D边界框（BB）的类比，3D边界体呈现位置和空间的有价值的抽象，例如，实现机器人的对象级规划[13，15]，学习对象的场景级先验[55]，或锚定对象实例的信息。推断场景中各个对象的包围体和关联视图的鲁棒方式是使用诸如NeRF[32]和GRAF [47]的先进的最先进的方法来重建、嵌入和描述对象的垫脚石，这些方法通常假设观察对象或场景的一部分的一组关联帧，其可以被重构、嵌入和描述。图 1 ： ODAM 概述。给定一个构成的 RGB 视频，ODAM估计由场景中的超二次曲面表示的对象的定向3D包围体可以从所提出的重建系统中获得。然而，使用仅RGB视频在3D中定位对象并估计其范围的任务提出了许多挑战。首先，尽管用于2D对象检测器的深度学习方法取得了令人印象深刻的成功[7，16，43]，但最近将3D对象映射公式化为单视图3D检测问题[5，24，33]的努力4.2）。第二，与在SfM和SLAM [6，14，22，34，53]中广泛研究的来自多个2D观测的3D点的估计不同，关于如何利用3D包围体位置和范围的多视图约束的工作和共识很少[35，60]。具体来说，三维体积的表示和如何制定一个合适的能量函数仍然是悬而未决的问题。第三，在多视图优化之前需要解决的关键问题是来自不同视点的个体3D对象实例的检测的关联，其中不像SfM或SLAM的不正确关联显著地偏置...59993D物体定位。然而，对于杂乱的室内环境，这个问题还未被充分研究，在杂乱的室内环境中，特定的问题例如具有多个具有近似相同的视觉外观的对象和严重的遮挡（例如，多把椅子紧密地排列在一个房间里，如图所示。（6）平凡。深度模糊和部分观测使数据关联问题复杂化。我们提出了ODAM，这是一个新的框架，它包含了深度学习前端和多视图优化后端，以解决从构成的RGB 视频映射3D对象。使用仅RGB-only 优于使用RGB-D的优点是功耗显著降低我们假设图像的姿态是已知的;这些对于现代移动/AR设备是容易获得的。前端首先检测感兴趣的对象，并预测每个对象的2D属性（2D BB，对象类），以及由给定单个RGB帧的6自由度（DoF）刚性姿势和3DoF比例参数化的其3DBB，如图1B所示。二、用于每个检测的3D属性的主要用途是促进新帧与当前全局3D地图之间的数据关联。具体地，我们开发了一个图形神经网络（GNN），它将当前帧检测的2D和3D属性作为输入，并将它们与地图中现有的对象实例进行匹配。的前端可以在现代GPU上在杂乱场景（如ScanNet中的场景）上平均运行6 fps [10]。ODAM的后端是多视图优化，其优化由给定多个相关联的2D边界框（BB）观察的超二次曲面表示的每个对象先前的对象级SLAM框架已经采用长方体[60]或椭圆体[18，35]作为它们的对象表示，但是它们通常不是如图1B中所描绘的通用对象的范围的良好模型。3.第三章。超二次曲面-虽然超二次曲面已被用于拟合点云数据[39，40，49]或最近使用深度网络[38]从单个图像解析对象形状，但我们提出了第一种方法来优化超二次曲面，根据我们所知，给出了多个2D BB观察结果。除了表示之外，我们认识到，由对象检测器给出的2D BB由于在杂乱的室内环境中的遮挡而不是无误差的我们将类别条件先验的优化目标，以提高鲁棒性。贡献我们的贡献有三个方面：（1）我们提出了一种新的在线3D基于对象的映射系统，它集成了一个以6 fps运行的深度学习前端和一个基于几何的后端。ODAM是目前性能最好的三维检测和映射RGB-只有复杂的室内场景的ScanNet [10]系统（2）提出了一种新的将单视点检测与目标级相关联的方法。我们的协会采用了一种新的基于注意力的GNN，将检测的2D和3D属性作为输入;（3）分析了多视图优化中常用的三维包围体表示方法的局限性，提出了一种基于超二次曲面的多视图优化方法，该方法在对象尺度先验下比以前的方法有明显的改进。2. 相关工作基于3D对象的映射。基于3D对象的映射方法可以大致分为两类：基于学习和基于几何。第一类主要扩展了现有的2D检测器，以便也从单个图像输出3D边界框[23，26，28，33，54，58]。如果视频序列可用，则可以使用过滤器或LSTM融合单视图3D估计，以创建场景的一致映射[5，20，24]。然而，融合的3D检测可能不满足多视图几何约束。虽然我们所提出的系统的前端受到这些基于学习的方法的启发，但我们注意到单视图3D推理是不准确的，因为2D图像中的固有尺度和深度模糊性，并通过后端多视图优化解决了这个问题。第二类别集中于以与SfM和SLAM中使用的重投影误差类似的方式估计给定来自多个视图的2D检测的3D对象的包围体。[9，44]通过最小化投影椭圆体和检测到的2D边界框之间的差异来估计表示对象的边界体的3D椭圆体。QuadricSLAM [35]将对象表示为要使用新的几何误差进行优化的对偶二次曲面，并将其扩展到完整的SLAM系统。CubeSLAM [60]在优化中使用3D长方体，并在3D长方体的顶点上实施再现误差。我们提出的多视图优化使用超二次曲面-一种包含具有3D形状估计的基于对象的映射。前 -倾向于超越3D定向的边界框，几个作品专注于通过形状嵌入[45]或CAD模型检索[27]估计密集对象形状，给出了RGB视频。RfD-Net [36]通过首先检测3D边界框，然后从3D点云中检测每个检测到的对象的形状完成网络来探索完整的对象尽管这些方法估计高分辨率对象映射，但是它们需要已知的3D形状先验。我们不假设CAD模型的先验知识，而是专注于实例不可知的姿态估计。跨视频帧的关联检测。已经在不同的上下文中研究了跨多个帧关联相同3D对象实例的对象检测，并且6000Mnn nn无无无无无无无在多目标跟踪（MOT）的上下文中最为突出。MOT专注于跟踪动态对象（例如汽车和行人），并且通常通过大量利用对象的区别性视觉外观特征来遵循帧到帧范例[20，52]。直到最近的端到端跟踪方法[4，30，51]，大多数方法依赖于简单的运动连续性先验[11，31，57]来链接实例。与ODAM关系更密切的是Wengetal. [56]它使用GNN来学习给定点云和RGB图像的匹配成本我们提出的框架需要输入的RGB图像，因此解决了一个更困难，但普遍存在的问题。此外，我们并没有将人或汽车与有区别的视觉外观相关联，而是专注于室内静态对象映射，在该映射中，我们将来自完全不同的视图（例如，椅子的前部和后部）。用于室内环境的现有方法采用通过IoU [24]或SLAM特征点匹配[18，60]的手工匹配，而我们使用GNN学习匹配。从2.5D和3D输入进行3D检测。有几种使用3D输入[42，48，61]或单个RGBD图像[8，50]进行3D检测给定3D输入的分割[17，19，59]等方法也能够产生3D边界框。由于深度信息直接解决了观察对象的尺度模糊性，因此这些方法解决了严格更容易的问题。3. 方法ODAM的目标是在3D给定的仅RGB图像序列中精确定位对象并估计其包围体。如图2、鉴于在RGB帧中，前端首先检测对象并在相机坐标帧中预测它们的2D和3D属性（第2节）。第3.1节）。这些检测与地图中的现有对象实例相关联，或者通过使用GNN解决分配问题而成为新的对象实例（第12节）。3.2）。给定来自前端的关联，我们的后端系统优化来自多个相关联的2D BB检测的每个对象（第二节）3.3）。3.1. 单视图2D和3D目标检测ODAM首先检测给定新RGB帧的感兴趣对象我们的检测器是单视图3D检测器，其不仅估计2D属性-具体来说，我们通过预测图像上的深度和2D中心来估计tco。Rco被公式化为三个欧拉角的分类。3.2. 检测与基于对象的地图使用基于注意力的GNN将来自单视图检测器的检测与地图中的现有对象实例匹配，而不是现有技术中使用的手工数据关联算法[24，27]。使用的好处用于数据关联的GNN是双重的。首先，不同的贡献（例如，2D BB、3D BB、对象类）可以采取作为网络的联合输入，以提取更多的区别特征用于匹配。其次，GNN中的注意力机制不是仅考虑手工数据关联方法中的成对关系，而是聚合来自图中其他节点的信息以进行更鲁棒的匹配。因此，我们的GNN可以从场景中的全部对象集合推断对象检测的关联，如图1B所示。二、我们的关联图被实现为GNN，其中每个节点是包括对象检测的2D和3D信息的特征描述符，并且边缘连接（1）对象融合中的对象的先前关联检测之间;（2）对其他检测的新检测和对其他对象特征向量的融合对象特征向量，用于自注意;二、该图预测一组输入检测与地图中的现有对象之间的匹配。对于地图中的每个对象，我们使用自注意GNN层从所有相关视图中融合其描述符这些融合的描述符使用自我和交叉注意GNN层与新检测到的对象的描述符相匹配。输入检测功能。帧t处的第m个新检测由特征描述符dt∈R16表示，该特征描述符包括帧ID、检测到的2DBB、对象类、描述检测分数、6DoF对象姿态和由单目检测器给出的3DoF对象尺度。第n个对象实例由先前帧{d t0，dt1，…其中，dtl是帧tl处的第n个对象实例的先前关联检测。到为了便于将新RGB帧中的检测与映射的对象相关联，d_t_l中的检测到的2D BB和6D 〇 F对象姿态被从估计的3D包围体到当前帧坐标的投影替换物体融合。我们首先融合所有相关的检测- 使用自注意GNN将映射的对象转换为单个特征描述符向量：o n= f d（{d t0，d t1，… （1）其中fd（·）是将对象实例的一组先前相关联的检测作为输入的自注意GNN，并且〇n∈R256是用于数据关联的对象实例的融合特征向量此步骤允许信息跨在匹配到当前帧处的新检测之前，来自不同视点的相同对象的观察被聚合。6001交叉注意自注意检测融合2D bbox和类帧ID3自由度标度6自由度姿态融合特征, ,对象尺度先验预计边界框检测边界框检测对象重投影误差为可能性数据关联GNN多视图优化：优化、和使用重投影误差和对象尺度先验协会结果对象0 1n二维边界框3D包围盒新RGB帧图2：ODAM管道。给定新的RGB帧，单视图检测器（Sec.3.1）检测当前帧处的对象GNN将新的检测和地图中的现有对象作为输入来预测分配矩阵（第二节）。3.2）。与系统的前端（即检测和关联），每个对象的位置和范围由超二次曲面表示，其使用相关联的2D BB和类别条件尺度先验（Sec.3.3）。框架到模型关联。在融合步骤之后，帧到模型数据关联变成二分匹配问题，其中两个不相交子集分别是m个现有对象和当前帧t处的η个新检测的融合向量。该匹配问题由GNN的第二部分解决，该部分包含一堆交替的自注意层，其聚集子集内的信息，并且交叉注意层聚集子集内的信息。选通来自另一子集的信息。分配矩阵M∈Rm×n计算为：M= f m（{〇〇，〇1，… ，{dt，dt，...， dt}），（二）长方体是足够灵活的近似凸包一般对象。例如，虽然椭圆体适用于圆形对象，但当表示如图1B所示的盒状对象时，它引入了固有的不一致性。3.第三章。超二次曲面通过使用族中最适合的形状基元来缓解此问题。虽然密集对象形状表示（例如形状代码[37]或CAD模型[27]不会受到投影不一致的影响，它们需要实例级对象形状的知识。超二次公式我们表示一个对象的包围体在3D的超二次曲面。超二次曲面的正则隐函数具有以下形式[3]：其中，f，m（·）是GNN的第二部分，将其作为输入〇b。不. . Σ2Σ2Σ ε2.Σ2ϵ1n和新的请参阅至Sec。3.4和补充材料，以了解更多的网络和培训细节。f（x）=xϵ2α1+yϵ2α2z+α3ϵ1、（3）3.3. 多视图优化代替依赖于单视图3D检测器来解决不适定的单目3D检测问题，我们提出了用于精确的3D对象映射的多视图优化，给定从先前步骤获得的多个相关联的2D BB（第12节）。3.2）。优化的关键是经由超二次曲面来表示包围体，其中认识到现有技术中使用的椭圆体和长方体都仅适用于对象形状的子集。具体地，给定多个2D BB，估计的3D包围体是由所有平截头体的相交区域界定的凸集。随着视点数目的增加，凸集收敛到凸壳（即，对象形状的最紧凸集）。然而，椭圆体或其中x=[x，y，z]是3D点，α=[α1，α2，α3]控制三个轴上的比例（即对象从椭球体到立方体的形状过渡由1和2控制，如图所示。4.第一章超二次曲面上的点x可以通过一个6自由度的刚体变换矩阵Two∈SE（3）从标准坐标变换到世界坐标。因此，在世界坐标系中的超二次曲面是pa-由θ∈R11表示，包括Two（6 DoF表示刚体变换）和超二次曲面的5个参数α和ε1，ε2。优化目标检测到的2D BB不可避免地是不准确的和有噪声的。虽然现有的方法使用多视图约束用于3D对象映射[18，27，28]，但是，单目检测器CNN6002我我我图3：来自2D BB观察的多视图优化中的对象表示的限制。椭球体和长方体只适用于对象的一个子集。密集表示需要实例级模型。图4：超二次曲面可视化。Dif-ferent1，2值包括长方体、椭圆体和圆柱体（图信贷[1]）。35，60]仅考虑重投影误差，我们观察到关于对象的3D尺度的先验知识可以提高估计的鲁棒性。为了结合关于对象尺度的先验知识，我们将基于对象的映射公式化为每个对象的超二次参数θ的最大后验（MAP）估计带着重新-投影似然P（b i|θ）和类别条件尺度先验P（θ），则MAP问题为：MAP估计。虽然有一些方法可以训练CNN来产生不确定性估计 [21] ，但我们发现我们可以简单地使用Scan2CAD [ 2 ]中每个对象类别的尺度分布的方差Σ 0作为代理。直观地说，由于检测器是在此分布上训练的，Σ0是方差的保守上限-经过良好训练的3D BB检测器应该做得更好。argmax P（θ|B）= arg max P（θ）YP（b i|（4）3.4. 执行θθi检测器训练。我们的探测器是建立在DETR [7]，一个最先进的2D物体探测器，可将物体预测为其中B={b0，…b N}是N个相关联的2D de的集合。被保护的BBbi是所描述的在帧i处检测到的2D BB其四个角点[xmin，xmax，ymin，ymax]。假设2D BB检测角上存在零均值高斯噪声，则重投影似然为P（b |θ）= N（b |b（，σ2），（5）其中σ是假设的图像噪声，并且b^i是超二次曲面计算如下：bi=Box（π（TcwTwoXo））（6）Box（X）=[最小X，最大X，最小X，最大X]。（七）x x y y变换Tcw Two在使用透视投影函数π将超二次曲面的采样表面点投影到图像中之前，将标准坐标中的超二次曲面的采样表面点Xo=S（α，ε1，ε2）带入相机坐标中。我们使用超二次曲面的等距离采样技术获得Xo[41]。我们将每个对象类别的先验对象尺度分布建模为P（θ）=N（α|µ0，Σ0），使用多变量高斯分布。理想地，该先验将捕获av的不确定性平均检测器预测的3D BBµ0，用于正确的贝叶斯视图侧顶部顶部顶部顶部表示-椭球长方体超二次曲面密集物体形状（形状代码/CAD模型）Boxy对象（例如椅子）✘✓✓✓圆形对象（例如圆桌会议）✓✘✓✓需要实例级模型-没有没有没有是的1.10.90.70.50.30.10.10.30.50.70.91.16003设置而不进行后处理。我们在DETR中增加了三个额外的头，每个头包括三个512维全连接层，分别用于对象深度，3D维度，3D BB方向我们使用ScanNet图像和Scan2CAD注释从MSCOCO数据集[25]上的预训练网络权重微调我们的检测器虽然我们在这项工作中使用了 DETR ，但也可以采用其他检测器，如MaskRCNN [16]。图神经网络详细信息。 3层MLP编码器用于将输入映射到256D特征向量。检测融合块包含四个自关注层，产生256D融合特征。用于融合特征和帧检测的匹配网络类似于Su- perGlue [46]，除了我们使用六个交替的交叉和自注意层。优化细节。使用相关联的单视图3D预测的平均值来初始化超二次曲面的除了被初始化为1的ε1、ε2之外的为了优化，我们在超二次曲面上采样1000个点，并且发现σ2=20的2D BB检测器的假设图像方差工作良好。我们使用Pytorch中的Adam optimizer来优化Eq.（4）对于每50个相关联的2D观测器进行20次迭代6004Prec./建议/ F1IoU> 0。25浴缸书架内阁椅子显示沙发表垃圾桶avg.Vid2CAD [27]45.5/30.0/36.118.0/12.7/14.946.3/34.6/39.6 70.1/78.6/74.144.1/42.8/43.540.8/45.1/42.846.6/50/2/48.360.2/37.9/46.556.1/54.5/55.2MOLTR [24]67.5/41.6/51.542.8/21.3/28.462.7/22.8/33.558.7/77.4/68.617.7/34.5/23.469.4/52.2/59.563.5/57.4/60.349.0/42.6/45.654.2/55.8/55.0ODAM（我们的）58.6/34.2/43.252.0/25.1/33.763.0/26.4/37.268.3/78.7/73.137.5/37.5/37.575.9/53.1/62.565.5/58.9/6267.8/60.8/64.164.7/58.6/61.5IoU> 0。5Vid2CAD [27]2.5/1.6/2.00.0/0.0/0.07.7/5.7/6.629.2/32.8/30.90.0/0.0/0.00.8/0.8/0.86.7/7.2/6.923.2/14.6/17.916.8/16.3/16.5MOLTR [24]10.3/6.6/8.18.6/4.7/6.119.6/8.1/11.520.0/28.4/23.51.8/4.1/2.520.0/15.9/17.712.1/11.7/11.913.0/12.9/12.915.2/17.1/16.0ODAM（我们的）14.3/8.3/10.511.5/5.7/7.625.9/10.9/15.339.0/44.8/41.77.7/7.7/7.739.2/27.4/32.326.0/23.3/24.631.6/28.0/29.531.2/28.3/29.7表1：定量ScanNet评估。 ODAM在IoU>0的四个类别中优于MOLTR [24]和Vid2CAD [27]。25所有类的IoU>0。5的比例。vations之后是在序列结束时的200次迭代的最终优化4. 实验我们使用ScanNet [10]和Scan2CAD [2]上的精确度和召回率指标来因为原始注释不提供非模态3D BB，所以遵循现有技术[24，27]，我们使用来自Scan2CAD的非模态3D BB注释作为地面实况。精度被定义为估计的超二次曲面与注释的地面实况3D BB足够接近的年龄百分比。召回是由估计的超二次曲面覆盖的地面实况3D BB的年龄百分比。具体地，如果超二次曲面的最小包围3D定向3D BB与相同对象类中的地面实况BB之间的交并（IoU）高于预定义阈值，则超二次曲面被认为是真正的。我们使用0。25和0。5在我们的实验中地面实况BB只能匹配一次以惩罚重复的对象。注意，我们不使用通常用于对象检测的平均精度（mAP），因为所提出的系统输出一组无序的3D包围体而没有置信度得分。4.1. 与仅RGB方法我们在Scan-Net上将ODAM与两种先前的RGB视频方法Vid 2CAD [27]和MOLTR [24]进行这些方法使用的是手工制作的数据关联（MOLTR和Vid2CAD中的3D GIoU使用2D IoU和视觉外观的组合）。MOLTR不使用多视图几何结构，而是通过3D中的滤波器融合单眼3D预测，并且Vid2CAD中的多视图优化缺乏我们的尺度先验以减轻不准确的2D观察的影响相比之下，我们使用基于注意力的GNN进行关联，然后进行多视图优化。选项卡. 1显示了在IoU阈值为0时每个类的精确度、召回率和F1得分比较。25和0。五、总体而言，在IoU > 0时，0DAM优于Vid2CAD和M0LTR约6%。25，在IoU>0时约为14%。五、如图6、由于数据关联失败，我们可以在MOLTR和Vid2CAD中看到重复的对象。值得注意的是，我们的多视图优化估计准确的定向边界，表2：对ODAM的学习数据关联组件的消融研究。使用GNN、单目3D检测和帧到模型（F2M）关联的完整模型实现了最佳结果。大物体的体积（例如，表），其中MOLTR和Vid2CAD经常产生不一致的结果。4.2. 消融研究我们使用三项消融研究验证了ODAM所有关键部件的设计选择数据关联。我们在本消融研究中考虑的关键方面是：（1）GNN与手工成对成本，(2)单视图3D属性估计与数据关联中的仅2D属性，（3）帧到模型关联与帧到帧关联。当不使用GNN时，我们使用3D BB IoU作为Li等人的匹配成本。[24]第10段。为了验证GNN中检测融合块的重要性（即帧到模型关联），我们将其与基线GNN进行比较，该基线GNN仅将现有对象实例的最新观察作为输入，其可以被认为是帧到帧关联。除了最终的3D映射结果，我们还使用匹配精度作为数据关联算法的直接度量。选项卡. 图2显示了所有三个关键组件对性能增益的贡献。图图5可视化了注意力分数如何在GNN中的不同层上变化。形状表示。选项卡. 3显示用超二次曲面表示进行优化比长方体和椭圆体好2。5%和9%。长方体优于椭圆体，因为在评估的对象类中有相当数量的对象是长方体状进一步的定性比较可以在补充中找到。优化. 选项卡. 图3示出了后端多视图优化和目标函数中的尺度先验项的效果。“无优化”结果是通过在没有任何多视图优化的情况下取相关联的单眼3D预测的平均值来获得的方法GNN组件单眼3D F2M关联匹配精度✓ ✓ ✗0.86基线✓ ✗ ✓✗ ✓ ✓0.840.85ODAM（我们的）✓✓✓0.886005帧检测模型对象交叉atten。层0交叉atten。层1交叉atten。第2层交叉装饰层3图5：GNN注意力的可视化。跨各个层示出了来自当前帧检测（绿色）和模型对象（红色）更高的注意力分数对应于更不透明的红色BB。交叉注意力的扩散缩小并集中在GNN的更深层中的正确分配上。开关元件结果（精确/建议/F1）形状表示椭球三维长方体21.9/19.6/20.728.5/26.1/27.2优化无优化wo/规模优先25.2/22.8/23.922.9/21.3/22.1ODAM（我们的）31.2/28.3/29.7表3：不同形状表示和多视图优化的消融研究。超二次曲面表示和尺度先验在多视图优化中的结合导致了最佳性能。组中最差的。这表明单视图单独的3D检测器不足以用于基于对象的映射。仅使用2D边界框观察用于多视图优化也是次优的，给出较小的1。8%的恶化。我们的完整方法（联合使用2D bbox和先验）比“无优化”基线好5。百分之八为了更好地展示2D BB中的误差如何影响优化，我们示出了随着2D BB中的误差在补充中的增加，优化w/和wo/先验项之间的性能差距如何改变。4.3. 与RGB D方法的比较这种比较是为了确定RGB和RGB-D方法之间的当前差距。我们与VoteNet [42]进行比较，VoteNet是一种使用彩色点云的最先进的3D对象检测网络与仅RGB相比，在3D对象检测之前融合到点云中的附加深度信息显著简化了任务。3D结构被显式地表示，并且成为3D对象检测系统的输入，并且不必由系统推断。然而，仅RGB的方法是有价值的，因为深度传感器消耗额外的功率，并且大多数消费级设备具有有限的范围。我们使用原始的ScanNet注释来训练我们的检测器和GNN，以与VoteNet保持一致。我们选择在VoteNet的分数阈值，导致最好的F1分数。如Tab.所示。4、我们实现可比甚至在某些对象类中性能优于VoteNet（例如，床、桌子、书桌、冰箱、卫生间和浴室）。这是因为这些对象通常与同一个类中的其他对象实例相距较远，从而使数据关联更容易。另一方面，我们的方法与薄对象（诸如门、窗、图片和窗帘）作斗争，因为小的定位误差导致3D IoU的显著下降，从而导致更差的F1分数。4.4. 运行时间分析所有实验均在Nvidia GeForce GTX 1070 GPU上运行单目检测器可以以约10fps运行。尽管GNN的推理时间随着地图中对象的数量线性增长，但在所有ScanNet验证序列中，GNN平均以15 fps运行。总体而言，Odam的前端可以达到6 fps左右。使用Pytorch Adam优化器的简单后端优化需要0。2秒，20次迭代。这种后端优化不是时间关键的，并且可以在并行线程中运行。它也可以使用二阶方法显著加速，例如在GTSAM[12]中实现的方法。5. 结论我们提出了ODAM，一个系统，以本地化和推断3D定向包围体的对象构成的RGB-只有视频。ODAM的关键是（1）基于注意力的GNN，用于鲁棒的检测到地图数据关联，以及（2）基于超二次曲面的多视图优化，用于根据相关联的2D BB和类观察进行准确的对象包围体估计。ODAM是基于对象的映射中性能最好的仅RGB方法。所提出的仅RGB方法可以在对象类别的子集中缩小与RGB-D方法的准确度差距的事实是令人鼓舞的，并且指向深度相机对于3D场景理解是不必要的未来。感谢KL和IR感谢ARC通过卓越中心对以下方面6006[27]第24话第27话第28话第29话第29话图6：ScanNet序列的定性比较。3D BB的颜色表示不同的类别。由于数据关联失败，Vid2CAD和MOLTR都受到复制对象的影响由于我们强大的多视图优化，我们的方法的3D边界框更接近F1橱柜床椅沙发表门窗口书架图片计数器书桌窗帘冰箱淋浴马桶浴缸别人VoteNet [42]40.9 88.1 85.2 79.860.053.040.750.012.552.362.250.047.450.590.7 53.991.5ODAM（我们的）22.1 87.7 74.9 61.865.612.512.840.57.49.365.013.148.741.2 93.1表4：与VoteNet的比较[42]。VoteNet依赖于彩色3D点云，大大简化了3D对象定位。ODAM在大多数类别中的表现类似，但在门、窗和窗帘等薄物体上表现不佳机器人视觉CE140100016。引用[1] 超二次曲面介绍网址：http：//superquadrics.com/检索日期： 2011-02-20。60075[2] Armen Avetisyan ， Manuel Dahnert ， Angela Dai ，Manolis Savva，Angel X Chang，and Matthias Nießner.Scan 2cad ：学习 rgb-d 扫描中的 cad 模型对齐。在IEEE/CVF计算机视觉和模式识别会议上，第2614-2623页，2019年。五、六[3] 艾伦·H·巴尔超二次曲面和保角变换。IEEE ComputerGraphics and Applications，1（1）：11-23，1981. 4[16] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页一、五[17] 何通，沈春华，安东·范登亨格尔. Dyco3d：通过动态卷积对3D点云进行健壮的实例分割。arXiv预印本arXiv：2011.13328，2020。3[18] Mehdi Hosseinzadeh，Kejie Li，Yasir Latif，and Ian Reid.[4] 吉勒姆·布拉斯奥和劳拉·里尔-泰克斯。学习新-实时单目对象模型感知稀疏slam。在用于多个对象跟踪的ral求解器 InProceedings ofIEEE/CVF计算机视觉和模式识别会议，第6247-6257页，2020年。3[5] Garrick Brazil，Gerard Pons-Moll，Xiaoming Liu，andBernt Schiele.单目视频中的运动三维目标检测。在欧洲计算机视觉会议上，第135- 139152. Springer，2020年。一、二[6] 塞萨尔·卡德纳，卢卡·卡隆，亨利·卡里略，亚西尔·拉蒂夫2019年国际机器人与自动化会议（ICRA），第7123-7129页。IEEE，2019。二三五[19] Ji Hou ， Angela Dai ， and Matthias Nießner.3D-SIS ：RGB-D 扫描的 3D 在 proc 计算机视觉与模式识别（CVPR），IEEE，2019。3[20] Hou-Ning Hu，Qi-Zhi Cai，Dequan Wang，Ji Lin，MinSun，Philipp Krahenbuhl，Trevor Darrell，and Fisher Yu.联合单目3d车辆检测与跟踪。法律程序Davide Scaramuzza，Jose'内拉伊恩·里德约翰JIEEE/CVF国际计算机会议莱纳德同时本地化的过去、现在和未来-操作和映射：走向强健感知时代。IEEE Transactions onrobotics，32（6）：1309-1332，2016。1[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中，第213Springer，2020年。一、五[8] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页3[9] 马可·克罗科、科西莫·鲁比诺和阿莱西奥·德尔·布埃。物体运动的结构。在IEEE计算机视觉和模式识别会议论文集，第4141-4149页，2016年。2[10] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集，第5828-5839页，2017年。二、六[11] Afshin Dehghan ， Shayan Modiri Assari ， and MubarakShah.Gmmcp跟踪器：多目标跟踪的全局最优广义最大多团问题。在IEEE计算机视觉和模式识别会议的论文集，第4091-4099页，2015年。3[12] 弗兰克·德拉尔特因子图和gtsam：动手介绍。技术报告，佐治亚理工学院，2012年。7[13] 斯塔凡·埃克瓦尔和丹妮卡·克拉吉奇。机器人从演示中学习：任务级规划方法。 International Journal ofAdvanced Robotic Systems，5（3）：33，2008. 1[14] Jakob Engel，Vladlen Koltun，and Daniel Cremers.直接稀疏测距法。IEEE Transactions on Pattern Analysis andMachine Intelligence，40（3）：611-625，2017。1[15] Kensuke Harada 、 Tokuo Tsuji 、 Kazuyuki Nagata 、Natsuki Yamanobe和Hiromu Onda。验证机器人拾取和放置任务的对象放置规划器。Robotics and AutonomousSystems，62（10）：1463-1477，2014。1第5390-5399页，2019年。二、三[21] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？ arXiv 预印本 arXiv ：1703.04977，2017。5[22] Georg Klein和David Murray。小型AR工作空间的并行跟踪和映射。在2007年第6届IEEE和ACM国际研讨会上混合和增强现实，第225-234页。IEEE，2007年。1[23] Chi Li，Jin Bai，and Gregory D Hager.多视角多类别目标姿态估计的统一框架。在欧洲计算机视觉会议（ECCV）的Proceedings中，第254-269页，2018年。2[24] Kejie Li，Hamid Rezatofighi，and Ian Reid. Mo-ltr：来自单眼rgb视频的多对象定位、跟踪和重建。arXiv预印本arXiv：2012.05360，2020。一二三六八[25] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 5[26] Siddharth Mahendran，Haider Ali，和Rene Vidal.一种用于从二维图像估计三维姿态的混合分类-回归框架。arXiv预印本arXiv：1805.03225，2018。2[27] Kevis-KokitsiManinis ， StefanPopov ， MatthiasNießner，and Vittorio Ferrari.Vid2cad：使用视频中的多视图约束的CAD模型对齐Arxiv，2020年。一二三四五六八[28] 弗朗西斯科·马萨、雷诺·马莱和马修·奥布里。制作一个多任务 cnn 的观点估计。 arXiv 预印本 arXiv ：1609.03894，2016。2[29] 约翰·麦科马克，安库尔·汉达，安德鲁·戴维森，和斯特凡·卢滕格.语义融合：用卷积神经网络实现密集三维语义映射。在 2017 年 IEEE机器人和自动化国际会议（ICRA）上，第4628-4635页。IEEE，2017年。1[30] Tim Meinhardt、Alexander Kirillov、Laura Leal-Taixe和Christoph Feichtenhofer。Trackformer：多目标跟踪

下载后可阅读完整内容，剩余1页未读，立即下载