没有合适的资源?快使用搜索试试~ 我知道了~
稳健的有向边界框检测的局部规范坐标回归方法
11930规范投票:面向3D场景中稳健的有向边界框检测0杨友,叶泽林,楼玉静,李成坤,李永路,马立庄,王伟明*,卢策吾*,上海交通大学,中国{qq456cvb,hero,louyujing,sjtulck,yongluli,ma-lz,wangweiming,lucewu}@sjtu.edu.cn0摘要0由于传感器和点云的深度学习方法的进步,3D物体检测引起了广泛关注。当前最先进的方法如VoteNet使用额外的多层感知机网络对直接偏移和边界框方向进行回归。由于旋转分类的基本困难,它们的偏移和方向预测都不准确。在这项工作中,我们将直接偏移分解为局部规范坐标(LCC),边界框尺度和边界框方向。只有LCC和边界框尺度进行回归,而边界框方向由规范投票方案生成。最后,我们使用LCC感知的反投影验证算法从生成的投票图中迭代地剪切出边界框,消除误报。我们的模型在三个标准真实世界基准测试中达到了最先进的性能:ScanNet,SceneNN和SUNRGB-D。我们的代码可在https://github.com/qq456cvb/CanonicalVoting上找到。01. 引言0随着深度相机和激光雷达传感器的使用,3D物体检测对于真实世界场景理解变得越来越重要。最近,随着点云深度网络的进步,一些方法[16, 20, 22,26]展示了最先进的3D检测结果。其中,最近提出的VoteNet[16]在3D有向边界框检测(围绕重力轴旋转)方面显示出了显著的改进。VoteNet将输入点云通过主干网络传递,然后对一组种子点进行采样,生成中心投票。这些投票是偏移的,目标是到达物体中心。之后,通过学习模块聚合投票簇以生成边界框方向和0* Cewu Lu和Weiming Wang为通讯作者。CewuLu是清远研究院和人工智能教育部重点实验室的成员,上海交通大学AI研究院和上海启智研究院。0图1.我们提出了一种从方向中解耦的局部规范坐标回归方法。我们利用规范投票模块找到可能的方向和物体中心。利用反投影验证进一步消除误报。0VoteNet与传统的Hough投票相似,即在这些投票峰值中提出了边界框中心。然而,我们发现,对于大多数点,甚至使用现代的3D稀疏卷积技术[3],点预测的偏移和边界框方向的绝对误差在许多情况下甚至不如随机猜测,如表1所示。虽然VoteNet提出了一个两阶段的流程,并在后期对中心和方向进行了改进,但累积误差无法消除。为了解决这个问题,我们将直接偏移转化为以下三个部分:局部规范坐标(LCC),边界框尺度和边界框方向。首先,我们估计局部规范坐标(LCC)和边界框尺度,而不是回归方向。11940偏移误差 方向误差0直接回归 0.197 0.806 随机猜测 0.228 0.8010表1.在ScanNet上评估的点预测偏移和方向的平均绝对误差。我们可以看到,直接回归在偏移预测上仅略好于随机猜测,在方向预测上更差。0在LCC中,所有对象都被一致地对齐和居中。与像voteNet这样的传统方向回归相比,LCC的回归通常更容易,因为属于对象同一部分的点被映射到相似的LCC,无论对象如何旋转。基于此,我们的模型只需要解决一个类似于部分分割的任务,而在近年来的研究中,我们已经取得了巨大的成功[11, 18,25]。实验证明,我们的LCC预测比直接偏移要准确得多。因此,这些规范化的投票可以直接使用,无需像聚类那样进行后处理。之前的方法(如NOCS[24])也探索了回归局部坐标的类似思想。然而,它需要额外的Mask-RCNN进行实例分割,然后找到平移、旋转和缩放的闭合解。据我们所知,如果存在多个实例,则不存在全局闭合解。为了解决这个问题,我们设计了一种规范化投票算法,在欧几里得空间中找到可能的物体方向和中心。通过查看具有高投票的位置来提出物体边界框。然而,会有一些投票会意外地累积为误报。为了消除它们,将提议的物体坐标投影回规范化空间,并与LCC预测进行比较是至关重要的。我们将这一步骤称为LCC检查与反投影。我们在两个具有挑战性的大规模3D扫描数据集ScanNet [4]和SceneNN[9]以及一个较小的室内RGB-D数据集SUN RGB-D[21]上评估了我们的方法。我们的方法在ScanNet和SceneNN上实现了最先进的性能,分别提升了9.6和5.1个mAP。它在SUNRGB-D基准测试中也表现出优越的性能。此外,我们的实验表明,与直接偏移和方向回归相比,LCC回归和规范化投票在检测遮挡物体方面更加稳健。总结起来,我们的贡献有:0• 通过局部规范化坐标和规范化投票绕过方向回归困难。0• 设计了一个反投影验证模块来消除误报,实现了较高的平均精度。0• 在三个3D边界框检测基准测试中实现了最先进的性能。02. 相关工作02.1. 3D物体检测0有许多先前的方法可以预测物体的3D边界框。COG[19]提出通过捕捉类别和布局之间的上下文关系来检测物体。PointPillars [13]利用PointNets[18]学习以垂直列(柱)组织的点云的表示。PointRCNN[20]利用两个阶段进行自下而上的3D提案生成,并进一步优化这些提案。Frustum PointNet[17]首先在图像中检测2D边界框,然后将其反投影到3D空间中以获取3D边界框。VoteNet [16]和ImVoteNet[15]都使用聚类和投票方案,尽管它们的直接偏移预测不准确,需要使用另一个MLP网络进行进一步的优化。PointFusion[26]预测多个3D框假设及其置信度,使用输入的3D点作为空间锚点。GSPN[28]通过从场景中的噪声观测中重建形状来生成提案。还有一些基于实例分割的方法 [6, 12, 27]可以预测没有方向边界框的实例。02.2. 投票方法0最近,有几种方法将深度学习和HoughVoting过程结合起来,用于各种任务。VoteNet[16]和ImVoteNet [15]使用PointNet++[18]作为主干网络,并为每个种子点生成投票。然后,在欧几里得空间中对这些投票进行聚类,形成提案,将其输入到另一个MLP网络中以得到最终的检测结果。PVNet[14]回归指向预定义关键点的像素单位向量,并解决RGB图像中姿态估计的透视n点(PnP)问题。赵等人[30]使用斜率和偏置参数化线段,并执行Hough变换将深度表示转换为参数域,以便在2D图像中检测语义线段。此外,还有几种基于点对特征的方法 [5, 7]可以对物体的6D姿态进行一般的Hough变换。它们需要采样二次数量的点对,使得在大场景中运行速度极慢。03. 方法03.1. 概述0图2展示了我们的检测流程。它可以分为三个阶段:首先,我们回归每个场景点的局部规范坐标、尺度和物体性质,并解释了与传统的直接偏移回归[16]相比的优势;然后,提出了一种规范投票算法,在3D网格上生成投票图;最后,利用LCC反投影检查模块来逐步消除误报并生成边界框。为了更容易理解,我们首先描述单类物体预测的过程,然后讨论如何扩展到多类物体。=,)11950图2.我们的模型流程。我们首先回归每个点的局部规范坐标(LCC)、边界框尺度和物体性质;然后进行基于物体性质加权的规范投票算法,在3D网格上生成投票;最后,利用LCC检查模块和反投影验证逐步生成边界框,如鸟瞰图所示。0受NOCS[24]的启发,我们提出回归局部规范坐标。局部规范坐标(LCC),与NOCS类似,被定义为一个包含在单位立方体内的3D空间,即{x,y,z}∈[−1,1]。在LCC中,所有模型都是一致对齐和居中的。图3展示了两个椅子的LCC示例。对于每个物体边界框,LCC通过边界框参数与世界坐标相连:03.2. 回归局部规范坐标0= diag(s) ∙ Ry(α) ∙ ˜p + t0p = Ψs,α,t(˜p)0� 0 0 0 s y 0 z0� ∙0�0� ∙ ˜p +0�0� t x t yt z0� ,0�0其中,p∈R3是世界坐标,˜p∈R3是局部规范坐标(LCC)。s=[sx,sy,sz]T是边界框的尺度,α是绕重力轴的边界框的朝向角,我们的坐标系中的重力轴是y轴。我们遵循之前的工作[16],只考虑绕重力轴的朝向角。然而,我们的模型可以应用于完整的3D旋转,对当前的6D姿态估计基准具有更多细节的改进。0在我们的补充材料中。t=[tx,ty,tz]T是边界框的中心。Ry(∙)是一个给定朝向角绕y轴生成旋转矩阵的运算符。每个物体在世界坐标中的点可以通过方程1唯一地转换为LCC。在接下来的章节中,我们将将方程1表示为p=Ψs,α,t(˜p)。然后,我们为每个物体上的每个点回归LCC和边界框尺度。具体来说,给定点云{pi}Ni=1,我们通过以下损失逐点预测si、˜pi:0Lreg =0|{Bj}| 0j =10i =1 ( ∥ s�j − si ∥ + ∥Ψ−1s�j,α�j,t�j(pi) −˜pi ∥ )0∙ 1 (pi on object j’s surface), (2)0其中,s�j、α�j、t�j分别是边界框Bj的真实尺度、朝向角和平移参数。pi在物体j的表面上表示点pi是否在物体j的边界框Bj的表面上。值得一提的是,我们的LCC表示在旋转下是不变的,而直接偏移是不变的。我们不预测旋转角αi和物体中心ti,因为这两个参数将从下一节中描述的规范投票阶段生成。0为什么使用局部规范坐标?乍一看,LCCs看起来是间接的且难以预测的。然而,事实并非如此。以图 4 中旋转的 2D图像为例,假设我们想要使用 2D 卷积网络为每个像素输出直接偏移量/LCCs。在图 4的左侧,我们可以看到直接偏移量是如何工作的:图像旋转时,鸭子的不同部分被映射到相同的输出偏移量(由相同的颜色表示),因为直接偏移量不随旋转而“变化”。这使得基于这种不同的输入模式来识别不同的偏移量变得困难。相比之下,我们可以从图 4 的右侧看到 LCC回归的工作原理:无论图像如何旋转,属于同一部分(例如喙)的模式始终被映射到规范姿态下的相同LCC。这使得更容易学习输入和输出之间的关系。网络只需要对物体的不同部分(带有一些旋转版本)进行分类,以输出相应的 LCC。13: end for14: Normalize rotation and scale by element-wise division:Grot = GrotGobj , Gscale =11960偏移回归的工作原理:每个局部模式都被映射到其相应的方向。当图像旋转时,鸭子的不同部分被映射到相同的输出偏移量(由相同的颜色表示),因为直接偏移量不随旋转而“变化”。这使得基于这种不同的输入模式来识别不同的偏移量变得困难。相比之下,我们可以从图 4 的右侧看到 LCC回归的工作原理:无论图像如何旋转,属于同一部分(例如喙)的模式始终被映射到规范姿态下的相同LCC。这使得更容易学习输入和输出之间的关系。网络只需要对物体的不同部分(带有一些旋转版本)进行分类,以输出相应的 LCC。0图 3. 局部规范坐标(LCC)空间。RGB 颜色表示 LCC 中的 (x, y, z)位置。0物体对称性:我们的 LCC表示对于对称物体(例如桌子、垃圾箱)会产生较大的误差,因为它只定义了单一的朝向。为了解决这个问题,我们采用了常见的做法[8, 23,24],使用了一种变种的损失函数。我们计算所有对称反射物体的损失 L reg,并选择其中最小的值。03.3. 使用物体性质进行规范化投票0接下来,我们提出了一种规范化投票算法,该算法产生一个投票图,指示任何物体存在的可能性。为了过滤掉不属于任何物体的点的投票,每个点还预测了一个额外的物体性质得分 o i ∈ [0, 1],通过交叉熵损失函数与真实物体性质 o � i∈ {0, 1} 进行优化。如果点位于任何实例上,则 o � i =1;否则,o � i = 0。一旦我们有了 s i、˜ p i 和 oi,每个点都会根据其对应的边界框中心以及每个可能的朝向进行投票。为了累积投票,我们将连续的欧几里得空间离散化为网格 G obj ∈ R H × D × W,其中 H、D、W取决于预定义的网格间隔 τ和输入点云的范围。我们还利用了两个额外的网格 G rot ∈R H × D × W 和 G scale ∈ R H × D × W ×3,分别用于捕捉投票的朝向角和边界框尺度。详细信息请参见算法 1,并且该步骤在图 5 中进行了可视化。在算法 1的第 4行,我们生成了相对于物体中心的可能点偏移量,而不考虑旋转。由于每个物体都被认为沿重力方向旋转,我们在第 6行中为每个可能的旋转旋转了偏移量。0算法 1 规范化投票过程。01: 输入:对于每个点 i = 1, ..., N,给定缩放因子 s i,LCC˜ p i,物体性质 o i,世界坐标 p i。02: 输出:物体性质 G obj、旋转 G rot 和尺度 G scale的累积投票。03: 对于 i = 1, ..., N,执行以下操作:4: v i = s i � ˜ pi,其中 � 表示逐元素相乘。05: 对于 j = 1, ..., K,执行以下操作:06: 找到可能的朝向 r j = j K � 2 π。08: 找到 ¯ p i 的 2^3 = 8 个离散网格邻域 N。09: 使用三线性插值将 o i 添加到 G obj 上的 N 中。010: 使用三线性插值将 o i ∙ r j 添加到 G rot 上的 N 中。011: 使用三线性插值将 o i ∙ s i 添加到 G scale 上的 N 中。012: 结束循环0G obj。0直到预定义的分辨率K。在第7行,通过反转方程1找到可能的物体中心。然后通过三线性插值在预定义的网格中累积投票。最后,在第14行通过物体性加权了投票的航向角图和尺度图。每个点测试了120个可能的旋转角度,该算法高度并行化并在GPU上实现。这一步在点数上是线性的,通常在30ms内运行。0每个点都是一等公民。在我们的模型中,每个点都参与了规范投票过程。因此,我们的模型在检测遮挡物体方面比以前的方法更加鲁棒,因为每个点都会产生一个投票。相比之下,以前的两阶段方法(如VoteNet)通过聚类或子采样生成提议,遮挡物体更容易被忽视。03.4. 迭代边界框生成0通过反投影进行LCC检查。由于规范投票过程中进行了详尽的方向搜索,所以在生成的投票图Gobj中会有一些错误的峰值,如图6所示。为了消除它们,我们利用了带有反投影的LCC检查过程。具体来说,我们首先根据G obj、G rot和Gscale的峰值生成一个边界框候选。然后,我们根据当前候选边界框将原始点反投影到局部规范坐标˜p'中。最后,我们检查投影的LCCs˜p'是否与网络的密集LCC预测˜p一致。如果候选框放置错误,则其方向将不准确,投影的LCC将与网络预测的LCC不一致。这在算法2中描述。11970图4.LCC为什么比直接偏移回归效果更好的示例。左:直接偏移回归将物体的不同部分映射到相同的输出偏移量。右:LCC回归将相同的部分映射到规范姿态下的相同LCC,而不考虑旋转。因此,网络通过执行部分分割任务更容易回归LCC。图像来自Clipart Library。0图5.俯视图中的规范投票过程。对于每个点,我们估计其LCC˜p和边界框尺度s。然后对于每个可能的边界框方向r1,r2,r3,r4,...,我们通过从其世界坐标p中减去旋转后的s*˜p来生成对边界框中心p的投票。最后,通过三线性插值将这些投票累积在预定义的3D网格中。0在算法2中,从第4行到第6行,从Gobj中贪婪地提议边界框中心,直到投票计数低于某个阈值δ为止。然后,读取G scale和Grot相应位置处的尺度和航向角,并通过将离散网格索引转换为连续坐标来检索边界框中心的世界坐标。0接下来,我们将所有点反投影回LCCs˜p'中。0根据第13行中的当前候选边界框。如果˜p'在提议的边界框内,则在Gobj中将其投票计数设置为0,以便它永远不会再次被检测到。然后,利用两个附加的验证步骤来过滤掉那些错误的正例。第一个是检查边界框内是否有足够数量的正点(概率为β),另一个是检查反投影的LCCs˜p'是否与网络LCC预测一致。0算法2:带有LCC反投影检查的边界框生成。01:输入:物体性G obj,旋转G rot和尺度Gscale的累积投票;对于i = 1,...,N,尺度s i,LCC˜pi,物体性o i,点p i。02:输出:预测的边界框集合B。3:初始化B = {}。04:当True时执行5:[ h, d, w ]T= argmax(Gobj)。06:如果Gobj[ h, d, w ] < δ,则07:跳出循环09:将网格索引[ h, d, w ]T转换为世界坐标t。010:s := Gscale[ h, d, w ],α := Grot[ h, d, w ]。011:err := 0,pos := 0,cnt := 0,osum := 0。012:对i = 1,...,N进行循环013:令˜p′i = Ψ−1s,α,t(pi)。014:如果−1 < ˜p′i < 1,则015:cnt := cnt + 1。016:将世界坐标pi转换为网格索引[ hi, di, wi ]T。017:Gobj[hi,di,wi] := 0。018:如果oi > 0.3,则019:pos := pos + 1。020:osum := osum + oi。021:err := err + oi ∙ ∥˜pi − ˜p′i∥2。022:结束如果023:结束如果024:结束循环025:如果pos > β ∙ cnt并且errosum < γ,则026:将边界框{ s, α, t }添加到B中。027:结束如果028:结束循环0在第21行更新˜p。该过程在图6中可视化。03.5. 扩展到多类别0扩展到多类别非常简单。除了尺度si,LCC˜pi和物体性oi外,还预测每个点的类别得分ci,并使用交叉熵损失进行训练。11980图6.带有背投影模块的LCC检查。LCC坐标以RGB颜色进行可视化。在第3次迭代中,为(部分)椅子生成了三个真阳性(绿色)边界框。当它们的坐标被反投影到LCC时,它们与网络预测一致。在第4次迭代中,由于规范化投票过程中的详尽方向搜索,存在一个误报边界框(红色)。通过比较候选框反投影的LCC和网络预测的LCC来消除它。0生成边界框的算法与算法2几乎相同,只是我们通过在边界框内的点的多数投票来确定类别。04. 实验04.1. 实验设置0数据集ScanNet是室内场景的3D重建网格的丰富注释数据集。由于原始ScanNet没有提供非模态或定向边界框注释,我们使用Scan2CAD提供的定向边界框标签,其中他们为ScanNet中的所有1506个场景注释了14K+定向物体边界框。Scan2CAD包含9个常见类别的旋转对齐模型。SceneNN[9]是一个由100个场景组成的RGB-D场景数据集。我们按照[10]的方法在76个带有定向边界框注释的场景上进行评估。我们直接将在ScanNet上训练的模型转移到SceneNN以观察其泛化能力。报告在SceneNN和ScanNet中都出现的类别。SUN RGB-D[21]是一个用于场景理解的单视图RGB-D数据集。它包含了5K个带有定向3D边界框注释的RGB-D训练图像,涵盖了37个物体类别。我们遵循标准评估协议,并报告前10个最常见类别的性能。0与3D边界框估计的一些先前方法进行比较:PointFusion[26],GSPN [28],F-PointNet [17],VoteNet[16],H3DNet [29]和BRNet[2]。请注意,PointFusion和F-PointNet都需要额外的2D对应图像,这些图像在SceneNN上没有由[10]进行注释。因此,只报告了SceneNN上的GSPN,VoteNet和H3DNet结果。DSS [22]和COG [19]也在SUN RGB-D上报告。0评估指标评估指标是在不同阈值下的3D边界框IoU的平均精度。我们还发现,当每个类别分别训练时,我们的网络表现更好,这是由于每个类别内的LCC的相似性。因此,我们报告了两种设置下的结果:每个类别分别训练和所有类别联合训练。0实现细节我们的检测流程以RGB点云作为输入。为了增加数据,我们遵循与[1]相同的策略,使点云围绕重力方向旋转四次(90度增量,20度随机抖动)。我们按照常规做法将点云离散化为网格大小为0.03的体素,并采用具有类似ResNet34结构的3D Minkowski卷积网络。输出大小为7NC +1,包括3NC个尺度,3NC个LCC坐标,NC +1个类别分数,包括背景。我们使用Adam优化器从头开始训练网络,批量大小为3,初始学习率为0.001。我们在算法2中设置β = 0.2,γ = 0.3,δ =60,并使用方向角度(cos(α),sin(α))而不是原始方向角度α。我们对生成的边界框进行了阈值为0.3的非最大抑制。SUNRGB-D数据集没有提供分割标签,但提供了每个单独对象的边界框。为了训练物体性得分,我们认为稍微扩大(即1.2倍)的边界框中的所有点都属于该对象。此外,由于数据有限(即与ScanNet中的多视角重建场景相比,只有单个RGB-D帧),生成的投票图不够准确。为了解决这个问题,我们不使用确定性的边界框生成过程,而是根据投票图的概率采样多个边界框候选,然后利用一个细化模块进一步细化这些边界框。有关此架构的更多细节,请参阅补充材料。04.2. 在ScanNet和SceneNN上的评估0我们首先报告了我们的模型在ScanNet验证集上在两种训练设置下的性能:每个类别分别训练和所有类别联合训练。结果列在表2中。我们的模型在Scan2CAD基准测试中在两种训练设置下都优于之前的方法。在训练时,当我们的模型训练时,mAP提高了3.3。PointFusion [26]4.5/-6.2/-4.6/-5.3/-25.1/-0.6/-3.8/-3.1/-6.6/-6.6/-GSPN [28]0.9/-5.4/-0.0/-0.5/-16.8/-0.2/-14.2/-5.1/-0.1/-4.8/-F-PointNet [17]0.0/2.37.9/9.23.8/6.912.8/14.739.3/34.10.0/1.216.9/15.69.9/11.74.4/6.610.6/11.4VoteNet [16]2.3/5.27.4/9.80.0/0.11.9/4.452.1/71.01.4/0.12.5/0.517.0/10.28.5/6.410.3/11.9H3DNet [29]2.4/1.510.5/3.21.1/0.59.8/4.423.7/28.70.2/0.023.7/3.231.5/5.86.0/3.612.1/5.7BRNet [2]0.9/0.11.4/0.00.2/0.01.8/0.148.5/10.30.0/0.01.5/0.210.5/3.410.1/2.78.3/1.9Table & DeskChairCabinetSofaDisplaymAP50GSPN [28]8.4/-34.6/-0.2/-9.8/-0.0/-10.6/-VoteNet [16]24.8/27.365.2/78.01.5/1.015.4/2.40.7/0.021.5/21.7H3DNet [29]12.1/7.429.4/38.20.8/0.710.5/14.80.0/0.010.6/12.2BRNet [2]17.3/5.258.3/13.30.4/0.00.8/0.10.0/0.015.4/3.711990垃圾桶 浴缸 书架 橱柜 椅子 展示 沙发 桌子和台子 其他 mAP 500我们的 0.5/ 32.6 0.5/6.9 14.2 / 8.9 17.0 / 15.2 57.6 / 75.5 0.1/0.0 39.5 / 31.3 3.2/ 23.9 6.4/0.3 15.4 / 21.70表2.在ScanNet验证集上使用Scan2CAD标签进行的3D定向实例边界框检测结果,报告了联合训练和分别训练两种设置下的结果,用斜杠分隔。0我们的 11.9/ 43.4 68.1 / 79.6 2.5 / 2.2 22.8 /8.8 0.0/0.0 21.1/ 26.80表3. 在SceneNN上的3D定向实例边界框检测结果。我们的模型在mAP50上达到最高水平。0联合训练时为 9.8 mAP,单独训练每个类别时为 9.8mAP。我们的模型在Trashbin上的AP比基准方法高出28.1,Sofa上高出15.8,这是一个很大的差距。我们的模型在单独训练时表现得更好,因为它可以从每个类别中相似且一致的局部规范化坐标定义中受益(图3)。相反,以前的方法在单独训练时没有获得太多或者甚至表现更差。然后,我们通过直接在ScanNet上训练的网络对SceneNN数据集进行评估。结果列在表3中。我们的方法具有很高的mAP和良好的泛化能力。在杂乱的场景中展示了一些定性结果,如图8所示。04.3. SUN RGB-D上的评估0接下来,我们在SUNRGB-D数据集上进行评估,该数据集包含单个RGB-D帧而不是完整的3D扫描。定量结果列在表4中,我们的方法也实现了最先进的性能。所有比较的方法都是联合训练和评估的。借助我们提出的规范化投票模块的帮助,我们能够获得更高的mAP50。这表明,从我们的投票图中采样的投票中心比简单的最远点采样(FPS)模块的投票中心更准确。04.4. 详细分析0对于遮挡/部分物体的鲁棒性正如我们在第3.3节中解释的那样,每个单独的点都是一等公民,这在检测遮挡或部分物体方面比以前的方法具有优势,因为这些物体通常0图7.LCC回归比直接偏移回归更好地累积投票。LCC/偏移预测以RGB颜色元组的形式可视化。在顶部,我们可以看到使用LCC预测时,物体中心以良好的局部性聚集。相反,直接偏移在xz平面(垂直于重力轴)上不可区分,物体中心无法通过投票进行累积。0图8. ScanNet和SceneNN上的定性结果。0包含的点较少,任何聚类或子采样步骤都可能错过它们。为了定量说明这一点,mAP25mAP5012000DSS [22] 42.1 - COG [19] 47.6 -F-PointNet [17] 54.0 - VoteNet[16] 57.7 32.9 H3DNet [29] 60.139.0 BRNet [2] 61.1 43.70我们的结果为61.3 44.30表4. SUN RGB-D上的定量比较。0我们将部分索引定义为物体上的点数,除以其边界框体积进行归一化。直观上,当一个物体的部分索引较小时,由于可见点较少,它更有可能被遮挡。我们将这些部分索引量化为从1到10的整数,并绘制每个离散索引的平均召回率,如图9所示。我们的方法在严重遮挡的物体上具有更高的AR 50。0图9.部分遮挡物体的平均召回率50比较。我们的方法在这些部分/遮挡物体上更好。0LCC + Canonical Voting vs. Direct Offset + Voting我们将我们的方法与实现直接偏移预测和朴素投票算法的基准方法进行比较。定性结果在图7中展示。我们的模型准确地预测了LCCs,并且这些LCCs可以直接用于在欧几里得空间中进行投票。相反,直接偏移预测不准确,并且无法在欧几里得空间中累积。定量结果列在表5中。0背投影验证如何帮助在表5中,我们展示了我们的带有背投影的LCC检查模块的有效性。没有背投影,mAP在ScanNet和SceneNN数据集上都会大幅下降。0Objectness的效果Objectness在第一阶段过滤掉了许多不太可能的投票。在这里,我们与一个基准方法进行比较0每个点都以权重为1进行投票的算法。0ScanNet SceneNN0我们的(直接投票)0.0 0.0我们的(无反投影检查)8.1 10.0我们的(无目标性)12.2 21.40我们的(最终)21.7 26.80表5. 通过mAP 50评估的消融研究结果,使用单独的模型。结果报告在ScanNet上。0解耦的旋转/平移误差和运行时间所有比较方法的运行时间和解耦的旋转/平移误差列在表6中。我们的方法在方向误差方面大幅优于以前的方法。0方向误差(◦)平移误差(m)处理时间(s)mAP 500PointFusion [26] 77.3 0.07 0.23 6.6 F-PointNet [17] 62.5 0.09 0.46 10.6VoteNet [16] 76.2 0.05 0.43 10.3 H3DNet [29] 65.4 0.03 0.78 12.1 BRNet [2]79.1 0.05 0.47 8.30我们的 10.8 0.05 0.32 15.40表6. 在ScanNet上使用联合模型进行解耦的旋转/平移误差(对于mAP50 )和运行时间分析。运行时间报告在i9-7900X CPU和1080TiGPU上。05. 结论0在这项工作中,我们提出了一种在大规模3D场景中进行稳健定向边界框检测的新方法。我们回归局部规范坐标(LCC)而不是直接偏移量。边界框的方向由规范投票生成。利用LCC检查和反投影来消除误报。结果表明,我们的模型达到了最先进的性能。06. 致谢0本研究得到了中国国家重点研发计划(编号2021ZD0110700),中国国家自然科学基金(编号51975350),上海市科技重大项目(2021SHZDZX0102),上海奇智研究院和SHEITC(2018-RGZN-02046)的支持。本研究还得到了上海人工智能发展项目(2020-RGZN-02006)和上海交通大学“跨学科医学研究基金”的支持(zh2018qnb17,zh2018qna37,YG2022ZD018)。[8] Tomas Hodan, Daniel Barath, and Jiri Matas. Epos: estimat-ing 6d pose of objects with symmetries. In Proceedings ofthe IEEE/CVF conference on computer vision and patternrecognition, pages 11703–11712, 2020. 4[9] Binh-Son Hua, Quang-Hieu Pham, Duc Thanh Nguyen, Minh-Khoi Tran, Lap-Fai Yu, and Sai-Kit Yeung. Scenenn: A scenemeshes dataset with annotations. In 2016 Fourth InternationalConference on 3D Vision (3DV), pages 92–101. IEEE, 2016.2, 6[10] Binh-Son Hua, Minh-Khoi Tran, and Sai-Kit Yeung. Point-wise convolutional neural networks. In Proceedings of theIEEE Conference on Computer Vision and Pattern Recogni-tion, pages 984–993, 2018. 6[11] Qiangui Huang, Weiyue Wang, and Ulrich Neumann. Recur-rent slice networks for 3d segmentation of point clouds. InProceedings of the IEEE Conference on Computer Vision andPattern Recognition, pages 2626–2635, 2018. 2[12] Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, and Jiaya Jia. Pointgroup: Dual-set point group-ing for 3d instance segmentation.In Proceedings of theIEEE/CVF Conference on Computer Vision and PatternRecognition, pages 4867–4876, 2020. 2[13] Alex H Lang, Sourabh Vora, Holger Caesar, Lubing Zhou,Jiong Yang, and Oscar Beijbom. Pointpillars: Fast encodersfor object detection from point clouds. In Proceedings of theIEEE Conference on Computer Vision and Pattern Recogni-tion, pages 12697–12705, 2019. 2[14] Sida Peng, Yuan Liu, Qixing Huang, Xiaowei Zhou, and Hu-jun Bao. Pvnet: Pixel-wise voting network for 6dof poseestimation. In Proceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition, pages 4561–4570, 2019.2[15] Charles R Qi, Xinlei Chen, Or Litany, and Leonidas J Guibas.Imvotenet: Boosting 3d object detection in point clouds withimage votes. In Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition, pages 4404–4413,2020. 2[16] Charles R Qi, Or Litany, Kaiming He, and Leonidas J Guibas.Deep hough voting for 3d object detection in point clouds. InProceedings of the IEEE International Conference on Com-puter Vision, pages 9277–9286, 2019. 1, 2, 3, 6, 7, 8[17] Charles R Qi, Wei Liu, Chenxia Wu, Hao Su, and Leonidas JGuibas. Frustum pointnets for 3d object detection from rgb-ddata. In Proceedings of the IEEE conference on computervision and pattern recognition, pages 918–927, 2018. 2, 6, 7,8[18] Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas.Pointnet: Deep learning on point sets for 3d classificationand segmentation. In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition, pages 652–660,2017. 2[19] Zhile Ren and Erik B Sudderth. Three-dimens
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功