没有合适的资源?快使用搜索试试~ 我知道了~
增量稀疏卷积:在线3D分割的准确语义和实例分割方法
189750INS-Conv:用于在线3D分割的增量稀疏卷积0Leyao Liu* 1,Tian Zheng* 1,Yun-Jou Lin 2,Kai Ni 3和Lu Fang 1 �01. 清华大学电子工程系 2. OPPO美国研究中心 3. HoloMatic Technology(北京)有限公司0第400帧完整场景0第1000帧0在线语义地图 在线实例地图0图1.我们提出了INS-Conv,一种增量稀疏卷积网络,可以实现在线准确的3D语义和实例分割。我们在3D重建过程中生成语义和实例标签,这对于交互式AR/VR和机器人应用非常有价值。0摘要0我们提出了INS-Conv,一种增量稀疏卷积网络,可以实现在线准确的3D语义和实例分割。由于RGB-D重建的增量性质,我们只需要更新连续帧的重建场景之间的残差,这些残差通常是稀疏的。对于层设计,我们为稀疏卷积操作定义了新的残差传播规则,实现了对标准稀疏卷积的近似。对于网络架构,我们提出了一个不确定性项,用于自适应选择要更新的残差,进一步提高推理准确性和效率。基于INS-Conv,我们提出了一个在线联合3D语义和实例分割流程,在GPU上的推理速度达到15 FPS,在CPU上的推理速度达到10FPS。在ScanNetv2和SceneNN数据集上的实验证明,我们的方法的准确性大大超过了以前的在线方法,并且与最先进的离线方法相当。在便携设备上的实时演示进一步展示了INS-Conv的卓越性能。0* 相等贡献。�通讯作者。邮箱:fanglu@tsinghua.edu.cn。致谢:本工作部分得到中国自然科学基金(NSFC)的支持,合同号为62125106、61860206003和62088102,部分得到中国国家重点研发计划(2021ZD0109901)的支持,部分得到北京国家信息科学技术研究中心(BNRist)的支持,授予号为BNR2020RC01002。01. 引言03D语义和实例分割旨在检测3D场景中的对象并同时提供每个点的语义预测,这对于机器人或AR/VR应用至关重要。最近的方法[4, 8, 12, 13, 16,26]专注于离线3D分割,在分割准确性方面取得了巨大的改进,其中稀疏卷积网络被广泛用作提取3D特征的骨干网络[8, 12,16]。尽管这些离线方法实现了领先的准确性,但它们可能需要几秒钟才能进行一次更新,因为它们的骨干网络通常需要全局几何作为输入,这无法满足在线分割的目的,例如AR代理与周围环境的实时交互。0对于在线3D分割任务,一种常见的解决方案是2D到3D的方法,即在RGBD帧上执行2D卷积,然后通过将2D预测投影到3D空间并通过概率模型与先前结果融合来实现。这些方法仅利用2D信息,导致分割准确性较低。尽管最近的方法通过使用3D点卷积处理2D特征来取得改进,但问题仍未解决,因为无论是2D特征还是局部3D卷积都无法感知3D场景的全局信息。因此,它们仍然受到低准确性的影响。此外,大多数在线3D分割方法仅提供语义预测,没有实例级别的理解。如何实现高精度的3D语义实例分割并实现在线推理仍然是一个开放的问题。我们提出了INS-Conv,一种增量稀疏卷积网络,可以实现在线准确的3D语义和实例分割。由于RGB-D重建的增量性质,我们只需要更新连续帧的重建场景之间的残差,这些残差通常是稀疏的。对于层设计,我们为稀疏卷积操作定义了新的残差传播规则,实现了对标准稀疏卷积的近似。对于网络架构,我们提出了一个不确定性项,用于自适应选择要更新的残差,进一步提高推理准确性和效率。基于INS-Conv,我们提出了一个在线联合3D语义和实例分割流程,在GPU上的推理速度达到15FPS,在CPU上的推理速度达到10FPS。在ScanNetv2和SceneNN数据集上的实验证明,我们的方法的准确性大大超过了以前的在线方法,并且与最先进的离线方法相当。在便携设备上的实时演示进一步展示了INS-Conv的卓越性能。189760如何在实现在线推理的同时实现高精度的3D语义实例分割仍然是一个未解决的问题。我们提出了INS-Conv,一种增量稀疏卷积网络,可以实现在线准确的3D语义和实例分割。我们观察到,在在线RGB-D重建中,每个时间步的重建场景形成一个逐渐增长的3D几何序列,连续两个3D帧之间的残差通常是稀疏的。因此,通过对连续帧的残差进行增量推理,可以节省大量冗余计算。具体而言,对于层设计,我们为稀疏卷积操作定义了新的残差传播规则。通过用我们的INS-Conv层替换标准稀疏卷积网络的层,我们可以在最小损失准确性的情况下实现高效的增量推理。对于网络架构,我们提出了一个不确定性项,通过忽略已经具有非常自信预测的点的不必要更新,同时合并可能在未来发生状态变化的点,进一步提高推理准确性和效率。基于INS-Conv,我们提出了一个在线联合3D语义和实例分割流程。在每个时间步中,通过INS-Conv骨干网络提取3D特征后,我们使用聚类在更新的点上生成实例预测,然后将其融合到先前的结果中,使用实例融合阶段得到最终的实例分割结果。总之,我们的贡献包括:0•一种增量稀疏卷积网络,INS-Conv。通过新颖的残差传播策略,以及通过不确定性预测进行自适应残差选择,它实现了3D卷积网络的快速准确推理。0•基于INS-Conv实现的在线3D联合语义和实例分割流水线。它在在线方法中实现了最先进的分割准确性,与离线方法相当。0•INS-Conv在便携设备上本地运行的实时演示。INS-Conv在准确性和效率方面的卓越性能使其特别适用于AR/VR或机器人应用。0•代码可在以下网址获取:https://github.com/THU-luvision/INS-Conv02. 相关工作0离线场景分割3D场景语义和实例分割是计算机视觉中广泛研究的主题。对于语义分割任务,最近的大多数基于深度学习的方法可分为两类0卷积类型:基于点的[11, 24-27]和基于体素的[2, 4,12]。我们的工作主要关注基于体素的方法。它们将体素化的点云作为输入,然后在体素网格上应用3D卷积。早期的工作采用密集的3D卷积[10,31]。然而,由于高维数据的高计算成本,它们无法处理大规模的体素网格。后来出现了稀疏卷积[2,4],解决了这个关键限制,它利用了3D点云的固有稀疏性,展示了最先进的分割准确性。Hu等人[12]后来提出了联合训练2D和3D网络,实现了最佳性能。例如分割,稀疏卷积网络也被广泛使用[8, 16,17]。Lahoud等人[17]提出了一种学习-聚类方法,基于使用稀疏卷积网络提取的每个点特征执行均值漂移聚类。Jiang等人[16]提出在移动坐标和原始坐标上进行聚类,并使用额外的3D网络预测生成的提议的分数。Han等人[8]引入了占用信号来指导聚类阶段。我们采用类似的基于聚类的方法,添加融合阶段来融合多帧的预测。0在线场景分割在线场景分割在AR/VR和机器人领域有广泛的应用。该任务是在实时的3D重建系统中预测语义或实例标签。早期的工作使用2D-3D方法来解决这个问题,即使用2DCNN为每个RGBD帧预测2D语义概率,然后投影回3D空间,接着进行概率融合步骤[18]。NaritaG等人[20]首先在2D上执行实例分割,然后将结果融合到3D中,实现在线全景分割。Zhang等人[29]提出通过对局部邻域进行3D点卷积来融合2D特征,从而提高准确性。然而,为了保持在线速度,它只能处理很少的点。Huang等人[15]采用类似的范式,在超体素上进行3D点卷积来融合2D特征,从而提高速度,并实现领先的在线语义分割准确性。然而,这些方法高度依赖于2D特征,无法捕捉全局3D信息,导致离线和在线方法之间存在差距。相反,我们采用离线方法中广泛使用的基于体素的方法,并进行增量推理以实现在线性能。0增量CNN有几项研究研究了对2D卷积网络的增量推理,主要针对高效的视频序列处理。Cavigelli等人[1]提出了一种基于变化的卷积层,它根据输入特征的变化执行条件更新。O'Connora和Welling[21]通过对输入特征的量化时间残差进行卷积来实现推理加速。Habibian等人[5]进一步……189770实例标签0Xt0Xt-10Yt0Yt-10INS-Conv骨干网络0Δ0语义标签0当前语义0当前实例0t0图2.我们增量式3D语义和实例分割流程的概述。给定一个逐渐增长的输入几何序列,使用INS-Conv骨干网络在残差上提取每个点的特征,然后通过聚类和融合阶段生成最终的语义和实例分割结果。详细信息请参阅第3节。0使用学习的门函数来决定哪个输入残差是重要的。Xu等人[28]提出通过可重用图像区域查找来重用相似帧的特征图。然而,这些方法仅处理密集的2D卷积,不直接适用于3D稀疏卷积。03. 方法0图2显示了我们增量式语义和实例分割流程的概述。核心是INS-Conv骨干网络,用于在一系列逐渐变化的输入几何的残差上进行增量特征提取。然后,聚类阶段和融合阶段用于生成时间上一致的语义和实例分割结果。本节按照以下方式组织。在第3.1节介绍INS-Conv的见解后,我们分别在第3.2节和第3.3节中描述INS-Conv的层设计和网络架构。最后,在第3.4节中描述在线3D语义实例分割流程。03.1. INS-Conv的见解0回顾线性映射是满足以下条件的函数f:0f(x+y)=f(x)+f(y), f(cx)=cf(x), (1)0线性映射的组合也是线性映射:0f(g(x+y))=f(g(x)+g(y))=f(g(x))+f(g(y)) . (2)0在神经网络中,许多模块都是线性映射,例如卷积层和线性层。一些高级模块,如批归一化和残差块,也通过忽略潜在的偏置项来满足上述方程,以简化问题。因此,基于方程2,由这些线性模块组成的神经网络也是线性映射(非线性层稍后在第3.2节中描述)。在我们的情况下,神经网络推断是在逐步重建的场景上执行的。我们将xt定义为时间t时已经构建的所有体素的颜色特征,将∆tx定义为xt和xt−1之间的残差(差异)。我们的神经网络f输入体素的颜色特征,0并输出每个体素的标签。对于当前时间t,网络的前向过程可以分为两部分:0f(xt)=f(xt−1+∆tx)=f(xt−1)+f(∆tx), (3)0其中f(xt−1)已经在之前计算过。因此,我们可以简单地使用缓存的结果并仅计算f(∆tx)。f(∆tx)的计算表明网络正在传播特征的残差,因为对于每个线性映射层l,l(∆x)=l(x+∆x)−l(x)=∆y,其中x和y表示该层的输入和输出特征。简而言之,我们展示了神经网络对输入序列的推断可以重新表述为传播输入特征的残差,从而实现增量预测。基于这样的见解,我们提出了INS-Conv,一种用于在线3D分割的快速准确的增量稀疏卷积网络,如下一小节所述。03.2. INS-Conv的层设计0稀疏卷积的回顾标准稀疏卷积的关键思想是忽略空位置,只存储和计算输入数据的非空位置上的卷积。为了避免非空位置的扩张,亚流形稀疏卷积(SSC)[4]仅计算输入的活跃位置的输出特征。形式上,亚流形稀疏卷积操作在每个位置u的ND空间邻域上执行:0xoutu 0i ∈ ND Wi xin u + i if u ∈A,(4)0其中N是预定义的卷积核大小,D表示空间空间的维度(对于3D卷积等于3),Wi是位置i处输入特征xinu +i的权重矩阵。A表示输入张量的非空站点集合。更多细节可以在[4]中找到。INS-SSC层我们定义了一个增量子流稀疏卷积(记为INS-SSC)层,对剩余部分进行子流稀疏卷积计算。回想一下,稀疏卷积是针对具有非空特征的输入站点计算的。我们将此站点集合表示为A,并且还维护一个包括具有非空剩余部分的输入站点的活跃剩余站点集合B。令当前帧的当前层的输入和输出特征分别为xt和yt。然后,t时刻输入的剩余部分变为∆tx = xt -xt-1,我们的目标是计算∆ty。INS-SSC层的传播规则定义如下:189780(a0of ��-1 (b)在Δ�上的SSC (c)在Δ�上的INS-SSC0(d)邻居传播0活跃特征0活跃的剩余部分0特征传播(在t之前更新)剩余传播(在t时更新)0预测的剩余部分 邻居传播0tt0图3.使用1-D稀疏卷积示例,卷积核大小为3的INS-SSC层的说明。在进行传播之后,如(a)所示,INS-SSC层在当前帧的剩余部分上执行,如(c)所示。(b)显示了标准的SSC规则可能导致剩余扩张,因此不适用于剩余传播。(d)显示了带有邻居传播的INS-SSC,其中未更改的站点的剩余部分是从其邻居估计得到的。详细信息请参见第3.2节。0作为A,并且另外维护一个包括具有非空剩余部分的输入站点的活跃剩余站点集合B。令当前帧t的当前层的输入和输出特征分别为xt和yt。然后,t时刻输入的剩余部分变为∆tx =xt -xt-1,我们的目标是计算∆ty。INS-SSC层的传播规则定义如下:0∆t yu =0�0i 0i Wi (∆txu + i + xt-1u + i) if u ∈Bt\At-1。(5)0图3以1-D稀疏卷积示例直观地说明了INS-SSC的使用,卷积核大小为3。与传统的SSC[4]相比,INS-SSC的不同之处在于:1)INS-SSC以剩余部分作为输入;2)INS-SSC在活跃剩余站点集合B上操作,而不是所有活跃特征集合A。由于B比A稀疏得多,INS-SSC更加高效;3)INS-SSC将输出的活跃剩余集合限制为与输入相同,而SSC在每一层之后会“扩张”活跃剩余集合,如图3(b)(c)所示。4)INS-SSC遵循不同的卷积规则。SSC中使用的规则在u是先前不活跃的新活跃站点的情况下可能产生错误的结果。具体来说,忽略不活跃站点的稀疏卷积规则会将先前的特征yt-1u设置为零,但当u在当前帧变为活跃时,yt-1u应该存在,我们将其表示为ˆyt-1u。可以通过将ˆyt-1u添加到传播的剩余部分来进行补偿,如公式5所述。邻居传播INS-SSC层的稀疏剩余传播规则确保活跃的剩余站点不会扩张,从而带来计算效益。不幸的是,丢弃Bt之外的预期剩余部分。0输出站点0#路径0单个站点 组合0活跃的剩余站点(已更新) 未更改的站点(未更新) 未更改的站点(未更新)0图4.解释了INS-SSC的剩余传播规则为什么能够实现低逼近误差。0(a)当前几何形状 (c)带有邻居属性 (b)没有邻居属性的错误0更新的点0图5.INS-Conv的近似误差可视化。误差是通过INS-Conv和'full'传播之间的输出语义概率的KL散度计算得到的。0使INS-SSC不再与SSC的'full'传播相同。为了分析近似误差,我们以1-D卷积网络为例,如图4所示。根据[19],一般来说,一个改变的输入特征对更深层的影响的分布类似于以改变的输入位点为中心的高斯分布,这大致由唯一传播路径的数量来衡量。由于我们的情况下活动残留位点在空间上是相邻的,所有活动残留位点的影响之和也类似于高斯分布(在图4中以橙色表示)。因此,截断残差传播在Bt之外的效果相对较小。注意,我们只关心活动残留位点上的误差,因为我们只计算这些位点的误差。如图5(b)所示的视觉化结果显示,误差图显示整体误差非常小,大部分分布在活动残留位点的边界上,这是由于邻域残差的截断。为了进一步减小边界上的近似误差,提出了一种邻域传播方法。我们的关键观察是对于空间上相邻的位点,它们的特征和残差也应该是相似的。这启示我们,对于未在INS-SSC中更新的不变输入位点m ∈ At \Bt,它们与输出活动残留位点直接相连,这些位点的残差可以通过它们的相邻活动残留位点的加权平均来近似:0∆txm =0n ∈Nm wmn∆txn,(6)0其中权重w mn由特征的相似性计算得到,189790特征,0w mn = e1n)) �0k ∈Nm exp(s(xt − 1m, xt −1k)),(7)0这里,s(xm, xn) = l(xm −xn)表示特征xm和xn的相似性,l是一个线性层。Nm表示位点m的邻域区域,并在实现中设置为围绕m的核大小。图3(d)说明了具有邻域传播的INS-SSC层。由于在不变位点处预测的残差,近似误差可以有效地减小,如图5(c)所示。INS卷积和反卷积层用于下采样/上采样特征图。INS卷积层的传播规则与INS-SSC相同,除了我们允许活动残留位点的膨胀。INS反卷积层只是INS卷积层的反向操作。INS非线性层非线性层通常不是线性映射,因此不能直接传播残差。形式上,对于非线性函数g,Δty不等于g(Δtx)。然而,我们可以使用残差的定义计算输出残差Δty:0∆tyu = g(∆txu + xt − 1u) − yt − 1u,(8)0x t − 1 u和y t − 1u在上一个时间步骤中被缓存。对于不在活动残留位点集中的位点,它们的残差定义为零。因此,在所有层中它们都被忽略。基于上述的层设计,INS-Conv只需要输入具有非零残差的体素。这些输入位点形成了第一层的活动残留位点集。03.3. INS-Conv的网络架构0我们使用了一个典型的UNet-like稀疏卷积网络作为骨干网络。在训练时,它的工作方式与标准的稀疏卷积网络相同。在推断时,我们用相应的INS-Conv层替换了这些层,以实现增量推断。为了完成与[8]类似的3D分割任务,我们为每个体素i学习了几种表示,包括(1)语义分割的语义概率si,(2)实例分割的实例嵌入ei。详细信息请参见补充材料。此外,下面详细说明了不确定性项和时间一致性约束。不确定性项在INS-Conv中,我们选择在当前时间具有更新的颜色特征的体素作为输入体素。虽然直观,但我们可以进一步使这个过程更加智能化。正如我们之前提到的,INS-Conv仅计算活动残留位点的特征变化,这些位点由于INS-SSC的无膨胀规则而由输入体素确定。如果我们知道哪个体素将0如果我们知道一个体素已经被很好地预测了,就没有必要再次将其放入输入中。这种选择机制可以通过为每个体素预测一个不确定性概率来实现。在这里,我们定义一个体素是不确定的,如果由于当前时间的不完整场景,它无法对该体素进行正确预测。体素越不确定,它在未来的状态变化可能性就越大。我们提出训练网络来检测不确定的体素。我们将其形式化为每个体素的二分类问题。不完整场景中的体素的不确定性定义为正值,如果:1)其语义预测与完整场景中的预测不同,或者2)其实例嵌入与完整场景中的嵌入之间的距离大于δ_d。这里δ_d设置为0.8。为了监督训练,我们为每个场景生成不同的完整度,并将每个场景与其部分场景放入同一批次中。然后,我们使用完整场景预测和部分场景预测生成不确定性项的真实标签。时间一致性约束在[8]中,利用判别损失函数来强制同一实例的体素嵌入在特征空间中接近。在我们的在线设置中,我们进一步添加了一个时间一致性损失,以使实例的嵌入在时间上也接近。这在我们的实例融合阶段中对匹配跨时间的实例非常有用,我们将在第3.4节中描述。由于我们的训练策略将完整场景与其部分场景放在同一批次中,时间一致性损失可以表示为:0L_con =10K0K0k = 101C0C0c = 101N_k_c0N_0i = 1 [ || u_c - e_k_i || - δ_v ]2 + . (9)0这里,K表示场景的部分场景数,C表示完整场景中的实例数,N_k_c表示部分场景k中第c个实例的体素数,u_c表示完整场景中实例c的平均嵌入,e_k_i表示部分场景k中实例c的第i个体素的预测嵌入。δ_v设置为0.1。简而言之,该项强制部分场景中的体素嵌入接近于其所属实例在完整场景中的平均嵌入。03.4. 在线语义和实例分割0对于每个时间步,我们首先计算每个存储在TSDF中的体素的颜色特征与前一帧的差异。SLAM系统将更新当前视锥体中的体素,因此残差体积中的非零点将呈锥形。我们利用不确定性Smax(i) = maxj∈Ig S(i, j), ˆj = argmaxj∈IgS(i, j)(10)189800几何 语义 GT 实例 GT 几何 语义 GT 实例 GT0我们的语义分割我们的实例分割0图6. 在ScanNetv2验证集上的在线语义和实例分割结果可视化。我们展示了每个场景在3个不同时间步的在线分割结果。0为了进一步选择作为输入的体素。具体来说,我们过滤掉视锥体中保存的先前不确定性小于 θ的体素。此外,我们还添加了视锥体周围不确定性大于 θ的体素,并将它们的残差视为零。在我们的情况下,θ被设置为0.4。需要注意的是,无论体素的残差值是否为零,输入中的体素都将被设置为活动残差点。由于INS-Conv的无扩张规则,我们只能获得输入中体素的更新预测结果,然后进行聚类和融合阶段,生成最终的语义和实例分割结果。0实例分割 我们采用基于聚类的实例分割方案。与离线方法[ 8 , 17]不同,我们仅对更新的体素执行实例聚类,以提高效率,使用预测的嵌入。然后,当前实例集合 I c 被融合到全局实例集合 I g 中。对于每个实例 i ∈ I c ,我们计算 i 与每个实例 j∈ I g 之间的相似度 S ( i, j ) 。之前的方法[ 20]仅使用位置重叠来匹配实例。然而,确定匹配的重叠比例很困难,并且它没有纠错能力。例如,如果两个实例被错误地认为是一个实例,它们将永远无法分离。由于我们的时序一致的实例嵌入,我们可以通过比较实例的平均嵌入来计算匹配关系,从而增加鲁棒性。具体而言,我们为每个实例 j ∈ I g 存储平均预测嵌入 u j 。计算 i 与 j 之间的距离 d ij如下:d ij = exp ( −|| u i − u j || 2 ) 。位置重叠也有助于衡量相似度。整体的 S ( i, j )公式如下:S ( i, j ) = (1 + O ( i,j )02 N i ) d ij , 其中 O ( i, j ) 表示实例 i 与全局实例 j重叠的体素数,N i 是实例 i 的体素数。0实例 i 与相应的全局实例 ˆ j 的最大相似度 S max ( i ) 为:0如果 S max ( i ) > α ,实例 i 将与全局实例 ˆ j匹配,否则将被分配一个新的实例标签。这里 α是一个超参数,在我们的实验中设置为0.65。语义分割我们不直接使用原始预测的语义概率,而是强制使同一实例i ∈ I c 中的所有点具有相同的语义标签,即 i的主要标签,以获得更具空间一致性的语义地图。此外,我们采用[ 20]中的融合方法将当前语义结果融合到全局结果中,使其具有时序一致性。04. 实验0INS-Conv的CPU版本和GPU版本都是基于[ 4 ]和[ 9]实现的。INS-Conv在每一帧上执行。每100帧,使用传统的稀疏卷积[ 4]在当前完整场景上进行网络前向传播,以更新网络的内部特征,以避免漂移误差。为了展示INS-Conv的效果,不计算此步骤的网络输出用于后续评估。测试了两种不同大小的模型,分别称为m32(较小)和m64(较大)。有关网络架构的详细信息,请参阅补充材料。04.1. 3D语义和实例分割0ScanNetv2 [ 3 ] 数据集ScanNetv2包括1513个室内场景,具有3D语义和实例标签用于训练189810表1.在ScanNetv2上的语义和实例分割结果。由于提交政策,我们仅报告m64模型的测试集结果。在线方法的FPS来自于它们的论文。0(a) 在ScanNetv2上的语义分割0方法类型 mIoU FPS0验证 测试 GPU CPU0Fs-A [ 29 ] 在线 67.2 63.0 10 - SVCNN [ 15 ] 在线68.3 63.5 20 -0SCN [ 4 ] 离线 69.3 72.5 - - MkNet [ 2 ] 离线 72.273.6 - -0我们的-m32 在线 71.5 - 15 10 我们的-m64 在线 72.471.7 10 80(b) 在ScanNetv2上的实例分割0方法类型 mAP@50 FPS0验证 测试 GPU CPU0PF [ 20 ] 在线 - 47.8 4.3 -0PointGroup [ 16 ] 离线 56.9 63.6 - - OccuSeg [ 8 ] 离线60.7 67.2 - -0Ours-m32 在线 57.4 - 15 10 Ours-m64 在线 61.465.7 10 80评估和隐藏的测试集包含100个场景,用于基准评估。对于验证集的结果,我们遵循与ScanNetv2[3]相同的测试/验证划分。在表1中,我们报告了语义分割的平均交并比(mIoU)和实例分割的0.5IoU下的平均精度(mAP@50),以及在线方法的每秒帧数(FPS)。对于那些代码不可访问的方法,我们报告了他们论文中的结果,因此由于不同的硬件和实验设置,FPS可能无法精确比较。对于语义分割,我们的两个模型在在线方法中均取得了最高的mIoU,比SVCNN[15]高出很多,尽管速度稍慢。与离线方法相比,我们与最先进的离线方法持平,同时对于在线分割目的来说速度显著更快。对于实例分割,PanopticFusion(PF)[20]是目前唯一提供实例预测的在线分割方法。我们实现了更高的mAP@50(17.9%),同时速度更快(请注意,PF需要两个GPU,而我们只需要一个)。与离线方法相比,我们实现了类似的mAP@50。值得注意的是,我们的方法不使用任何后处理技术,然而离线方法广泛使用后处理技术来提高准确性。图6展示了我们方法的语义和实例结果。SceneNN [14]数据集SceneNN提供了76个带有语义和实例注释的室内场景。对于语义分割,我们在ScanNetv2上训练模型,并在SceneNN上进行评估,以测试其泛化能力,遵循0表2.使用m64模型在SceneNN数据集上的结果;(a)与其他在线方法相比的语义平均mAcc(%);(b)与离线方法相比的实例mAP@50(%)。0(a)SceneNN上的语义方法(在线)mAcc0Fs-A [29] 71.5 SVCNN[15] 76.50我们的(在线) 79.50(b)SceneNN上的实例方法(离线)mAP@500MLS-CRF [23] 12.1Occuseg [8] 47.10我们的(在线) 57.60表3.我们流程的每个阶段的运行时间(毫秒),包括网络、实例聚类、实例融合和语义阶段。网络与其他阶段并行运行。0模型 网络 聚类 融合 语义 FPS0m32 61 32 33 2 15 Hz m64 99 30 35 2 10 Hz0与SVCNN[15]相同的设置。评估指标是平均准确率(mAcc)。如表2(a)所示,我们的方法优于所有先前的在线方法。对于实例分割,我们从头开始在SceneNN上进行训练,训练50个场景,测试20个场景,遵循与[8]相同的设置和划分。与现有的离线方法的比较如表2(b)所示。令人惊讶的是,我们在mAP@50方面取得了更好的结果,可能是因为我们的训练策略防止了过拟合。有关每个类别的结果,请参阅补充材料。运行时分析 与PF[20]相似,计算时间在ScanNetv2中的代表性大规模场景scene0645 01上进行评估。实验在配备Intel Corei7-6800K(3.4GHz)CPU和Titan XpGPU的计算机上进行。由于我们的3D分割流程包含四个阶段:1)网络,2)实例聚类,3)实例融合,4)语义分割,我们在表3中报告了每个阶段的平均时间。网络在GPU上运行,并与其他阶段并行。联合语义和实例分割的FPS分别为m32和m64模型的15Hz和10Hz。对于CPU版本,FPS分别为10Hz和8Hz。我们还使用m64模型测试了我们的基线方法,即每帧预测当前完整场景。平均而言,网络前向传播需要649毫秒,实例聚类需要1100毫秒。我们的INS-Conv在语义分割方面提高了6.5倍的速度,联合语义和实例分割提高了11倍的速度。通过与SLAM系统[6,7,30]集成,我们在便携设备上提供了INS-Conv的在线演示。请参阅补充材料。04.2. 消融研究0我们探索了我们方法中不同组件的有效性。消融实验在ScanNetv2的验证集上进行。所有模型大小与m64模型相同。××58.030.5✓×72.160.9✓✓72.261.2mAP@50189820表4.INS-Conv的消融研究。语义和实例结果表明它显著提高了准确性。与“完全”传播的比较显示了其近似能力。0INS-Conv 邻居传播 mIoU mAP@500完全传播 72.2 61.30表5. 相对于完全传播的近似误差(×10 − 3),通过最后一层特征的每帧均方误差的平均值计算。0均方误差0w/o 邻居传播 9.3 我们的5.00表6.时间一致性约束的消融研究。报告实例mAP@50结果。0w/o 一致性 59.6我们的 61.20INS-Conv的效果为了展示INS-Conv的有效性,我们将INS-Conv替换为标准稀疏卷积[4],并在相同的输入点上执行,即当前视锥中的点。表4的第一行和第二行显示了语义和实例结果的比较。没有INS-Conv,准确性显著下降。这是因为INS-Conv是对完整场景推理的近似,而朴素的方法只能“看到”当前视锥。这显示了在3D语义和实例分割中全局信息的重要性。邻居传播模块也进行了评估。它可以减少INS-Conv的近似误差。图5展示了近似误差减少的定性结果,我们还在表4和表5中提供了定量结果。通过使用邻居传播,最后一层特征的近似误差减少了约50%,与“完全”传播相比,实现了几乎相同的语义和实例结果。时间一致性约束的效果时间一致性嵌入有助于在实例融合阶段将当前实例与全局实例匹配。为了验证时间一致性约束的重要性,我们在没有一致性损失项的情况下训练网络。比较结果显示在表6中。我们可以看到实例mAP明显下降。这是因为在没有时间一致性嵌入的情况下,当前实例通常无法匹配到全局实例。这些实例将被分配给一个新的标签,导致过分分割。不确定性项的效果使用不确定性概率选择点作为输入使我们的INS-Conv更加智能。图7显示了不完整场景的预测不确定性图。我们可以看到,由于附近场景不完整,难以预测的点的不确定性很高,而已经预测的点的不确定性很低。0(a) 当前几何 (b) 不确定性 (c) 当前语义 (d) 完整语义0图7.预测的不确定性图的可视化。我们展示了高不确定性主要发生在由于场景不完整而被错误预测的点上。0表7.不确定性引导的输入选择方法的消融研究。我们在ScanNetv2验证集上报告语义和实例准确性结果。网络在仅CPU和GPU上运行的平均时间,以及每帧输入点的平均数量在scene064501上进行了测试。0mIoU mAP@50 平均时间 #点 CPU GPU0w/o uncert. 72.2 61.2 328 122 19990 我们的 72.4 61.4125 99 68200预测良好。为了给出定量结果,我们将我们的不确定性引导的输入选择方法与朴素方法进行比较,即选择当前视锥中的点作为输入。我们使用m64模型测试了在CPU和GPU上运行的网络的准确性和时间。如表7所示,通过使用不确定性,我们不仅减少了计算时间,还提高了准确性。每帧处理的点的平均数量减少了约66%。我们注意到,在CPU上运行时,时间的减少最为显著,这是因为CPU按顺序处理数据。通过使用不确定性选择输入,我们大大减少了要处理的数据量,从而实现了实时的仅CPU的3D分割。05.讨论和结论0在这项工作中,我们提出了INS-Conv,一种3D稀疏卷积网络,可以实现准确高效的增量推理。基于此,我们实现了在线3D语义实例分割。大量实验证明了卓越的在线分割准确性。我们的方法还有一些局限性。首先,我们的方法尚未认真研究部分场景分割问题。整合2D信息可能会有用。其次,我们仍然需要每100帧执行一次全局网络更新,以避免漂移误差。尽管它执行得稀疏,但研究如何避免这一步骤是有趣的。将来,我们将使用INS-Conv探索更多在线任务。[21] Peter O’Connor and Max Welling. Sigma delta quantizednetworks. ArXiv, abs/1611.02024, 2017. 2189830参考文献0[1] Lukas Cavigelli,Philippe Degen和LucaBenini。Cbinfer:基于变化的卷积神经网络对视频数据进行推理。第11届国际分布式智能摄像头会议论文集,2017年。20[2] Christopher Bongsoo Choy,JunYoung Gwak和SilvioSavarese。4D时空卷积网络:Minkowski卷积神经网络。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第3070-3079页,2019年。2,70[3] Angela Dai,Angel X. Chang,Manolis Savva,MaciejHalber,Thomas A. Funkhouser和MatthiasNießner。Scannet:室内场景的丰富注释的3D重建。2017年IEEE计算机视觉和模式识别会议(CVPR),第2432-2443页,2017年。6,70[4] Benjamin Graham,Martin Engelcke和Laurens van derMaaten。具有亚流形稀疏卷积网络的3D语义分割。2018年IEEE/CVF计算机视觉和模式识别会议,第9224-9232页,2018年。1,2,3,4,6,7,80[5] AmirHossein Habibian,Davide Abati,TacoCohen和Babak EhteshamiBejnordi。用于高效视频处理的跳过卷积。在CVPR,2021年。20[6] Lei Han和LuFang。Flashfusion:使用CPU计算的实时全局一致稠密3D重建。在机器人学:科学与系统中,卷1,第7页,2018年。70[7] Lei Han,Lan Xu,Dmytro Bobkov,EckehardSteinbach和Lu Fang。用于全局一致RGB-DSLAM的实时全局配准。IEEE机器人学交易,35(2):498-508,2019年。70[8] Lei Han,Tian Zheng,Lan Xu和LuFang。Oc-cuseg:基于占用的3D实例分割。2020年IEEE/CVF计算机视觉和模式识别会议(CVPR),第2937-2946页,2020年。1,2,5,6,70[9] Lei Han,Tian Zheng,Yinheng Zhu,Lan Xu和LuFang。用于沉浸式增强现实的实时语义3D感知。IEEE可视化和计算机图形学交易,26(5):2012-2022,2020年。60[10] Ji Hou,Angela Dai和MatthiasNießner。3D-SIS:RGB-D扫描的3D语义实例分割。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第4416-4425页,2019年。20[11] Qingyong Hu,Bo Yang,Linhai Xie,StefanoRosa,Yulan Guo,Zhihua Wang,AgathonikiTrigoni和AndrewMarkham。Randla-net:大规模点云的高效语义分割。2020年IEEE/CVF计算机视觉和模式识别会议(CVPR),第11105-11114页,2020年。20[12] Wenbo Hu,Hengshuang Zhao,Li Jiang,JiayaJia和Tien-TsinWong。用于跨维度场景理解的双向投影网络。2021年IEEE/CVF计算机视觉和模式识别会议(CVPR),第14368-14377页,2021年。1,20[13] Zeyu Hu,Mingmin Zhen,Xuyang Bai,HongboFu和Chiew-Lan Tai。Jsenet:联合语义分割和03D点云的边缘检测网络。在ECCV 2020中。10[14] Binh-Son Hua, Quang-Hieu Pham, Duc Thanh Nguyen,Minh-Khoi Tran, Lap
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功