没有合适的资源?快使用搜索试试~ 我知道了~
2940OccupSeg:占用感知的3D实例分割雷寒1,2,田铮1,蓝旭1,2,陆芳1,1清华大学2香港科技大学(a) 输入几何(b)结果(c)地面实况实例(d) 空间术语(e) 特征术语(f) 占用图1.给定输入彩色点云,对每个体素回归占用大小,预测其所属实例占用的体素数量一个自适应聚类方案联合考虑占用信息和嵌入距离进一步应用于三维实例分割。摘要3D实例分割在机器人和增强现实中具有各种应用,目前需求量很大与作为环境的投影观测的2D图像不同,3D模型提供场景的度量再现,而没有遮挡或尺度模糊。在本文中,我们定义“3D占用大小”,作为每个实例所占用的体素的数量。在此基础上,提出了一种基于占用感知的三维实例分割算法我们的多任务学习产生占用信号和嵌入表示,其中空间和特征嵌入的训练随着它们在尺度感知方面的差异而变化我们的聚类方案受益于预测占用大小和聚类占用大小之间的可靠比较,这鼓励硬样本被正确聚类,并避免过度分段。通讯作者。邮箱:fanglu@sz.tsinghua.edu.cn这项工作得到了中国自然科学基金(NSFC)的部分资助,合同号为。61722209和6181001011,并在清华大学进行。第该方法在3个真实数据集上实现了最先进的性能,即 :ScanNetV2 、 S3DIS 和 SceneNN , 同 时 保 持 高 效率。1. 介绍在过去的十年里,随着商业RGB-D深度传感器(如Kinect,Xtion等)的普及,实时3D重建技术[31,32,5,45,14]得到了快速发展给定重建的场景,对3D环境的实例级语义理解越来越受到关注。更具体地说,3D实例分割的目的是识别属于同一对象的点,同时推断其语义类,这是移动机器人以及增强/虚拟现实应用的基本技术尽管随着深度学习技术的发展,二维图像上的场景理解近年来取得了重大进展正如在以前的作品中所展示的那样[17],直接投影最先进的2D实例分割2941图割聚类特征项协方差超体素输入几何3D UNet最终graph空间术语最终结果初始图加权占用wi,j图2.建议的实例分割方案概述。对于输入点云,我们的方法以RGB特征作为输入,并采用3D UNet进行逐点特征学习。学习到的特征通过用于3D实例分割的全连接层被解码为各种表示。MaskRCNN [16]对3D空间的预测导致性能低下,这通过将3D几何信息引入网络设计来激发更好的解决方案。3D实例分割[26,41,21]的一种流行解决方案是将强大的3D特征提取器(空间稀疏卷积网络[13]或PointNet++ [37])与传统的2D图像实例分割技术[16,7,27]结合起来。这种现有的3D解决方案较少注意利用3D模型本身的固有属性,这提供了环境的度量重建而没有遮挡或尺度模糊。在本文中,我们提出了一个占用感知的三维物体分割方法,占用Seg。它将3D几何模型作为输入,并产生实例级语义信息的逐点预测,如图1所示。考虑到3D度量空间提供比3D场景的基于2D图像的投影观测更可靠的感知,我们特别引入这样的占用信号表示每个3D实例的固有和基本属性,显示出在3D设置下处理尺度、位置、纹理、照明和遮挡的模糊性的强大潜力。因此,我们将新的占用信号编码到传统的3D实例分割流水线中,即,学习阶段之后是聚类阶段。在我们的占用感知方法中,学习和聚类阶段都充分利用了占用信号的特征,从而在公共数据集上具有竞争力的性能。在mAP上的相当大的增益(大约12.3 in mAP)进一步证明了我们的占用感知方法具有在3D环境中保持实例的固有和基本性质的优越性。更具体地说,学习阶段将彩色3D场景作为输入,并利用空间稀疏卷积方法[12]为每个体素提取混合向量[26 , 25 , 21] 。 它 不 仅 学 习 经 典 的 嵌 入 , 如 空 间(图。1(d))和特征嵌入(图1(e)),但也产生占用信号(图。1(f)),这意味着对象级体积。为了充分利用语义和几何信息,我们的特征和空间嵌入是明确的监督不同的目标,并进一步结合特征和空间嵌入距离的对于聚类阶段,使用基于图形的分割算法[9],基于几何和外观约束将3D输入点云然后,利用自适应阈值评价嵌入距离和占用大小之间的相似性,将具有相似特征嵌入的超体素合并到同一借助于预测占用大小和聚类占用大小之间的可靠比较,我们的聚类鼓励硬样本被正确聚类,并消除了部分实例被识别为独立实例的误报。技术贡献概述如下。• 我们提出了一个占用感知的3D实例分割方案OccupSeg。它在三个公共数据集上实现了最先进的性能:ScanNetV2 [4],S3DIS [1]和SceneNN [18],在所有指标中排名第一,具有显著的边际,同时保持高效率,例如,12个。3在ScanNetV2基准测试中的mAP增益。• 特别地,本文提出了一种新的占用信号,其预测每个实例的被占用的体素的数量学习占用信号结合特征和空间嵌入,并用于指导3D实例分割的聚类阶段。2. 相关工作2D实例分割。2D例如分割方法通常分为两类:基于提案和无提案的方法。建议-2942基于方法[10,6,16,15,23,44]首先生成包含对象的区域建议(预定义的矩形),并进一步将每个建议内的像素分类为对象或背景。通过论证卷积算子是平移不变的,因此不能很好地区分不同位置的相似对象,Novotny等人。[33]提出基于每个像素坐标的半卷积算子,以更好地进行实例分割。另一方面,无命题方法[24,7,8,20,22]为每个像素学习嵌入向量,并在嵌入空间中应用聚类步骤作为后处理,例如分割。Brabandere等人[7]建议训练每像素嵌入向量,并采用区分成本来鼓励属于同一实例的像素尽可能接近,而不同实例的嵌入中心彼此远离。Liang等人[24]回归指向每个像素的对象中心的偏移矢量,并进一步使用预测的中心,例如从“投票”角度进行分割最近,Nevenet al. [30]引入可学习的聚类带宽,而不是使用手工制作的成本函数学习嵌入,从而实时实现准确的实例分割。虽然所有这些方法都在2D域中取得了有希望的结果,但扩展到3D域是不平凡的。如何充分利用三维实例的基本属性是一个具有挑战性的问题。3D实例分割。与具有规则像素网格的2D图像不同,3D点云在物理空间中的不规则分布为3D实例分割提出了新的挑战先锋作品[43,40,17]试图通过将输入点体素化为均匀体素,并应用3D卷积来直接将2D卷积神经网络扩展到3D空间。然而,大多数计算都浪费在不活动的空体素上。因此,最近的方法利用更可行的3D特征提取器来解决这个问题2D占用:2D占用:图3.在同一3D场景的不同视角下进行2D观察的玩具示例每个实例的占用像素/体素的数量(表示为占用)在2D图像上是不确定的,但是可以针对重建的3D模型鲁棒地预测。通过将从图像上的2D卷积提取的特征反向投影到3D空间来实现3D特征。它进一步将3D卷积应用于基于建议的3D实例分割的体积特征学习。对于无建议的3D实例分割,MASC [26]将SSCN架构与跨多个尺度的实例亲和度预测相结合。Liang等人。 [25]在 SSCN的优越性能之上应用嵌入学习[7] Lahoud等人[21]进一步将每个对象的方向信息与语义特征嵌入相结合。3. 方法回想一下,我们的目标是,我们将体素化的3D彩色场景作为输入,并为每个体素生成3D对象实例标签,其中属于同一对象的体素共享唯一的实例标签。检查上述方法,它们中很少明确地利用不同于2D图像观察的3D模型的固有性质:在度量空间中无遮挡或尺度模糊地重建环境。如图3、对于3D空间中的同一实例,其在2D图像上的观察结果可能差异很大。每个实例的占用像素/体素的数量(表示为占用)在2D图像上是不可预测的,但是可以从重建的3D模型中鲁棒地预测。问题.基于点的实例分割方法[41,46,48]直接消耗无序点云作为输入,并使用置换不变神经网络Point- Net [36,37]进行特征提取。而体 积 方 法 [26 , 25 , 21] 采 用 空 间 稀 疏 卷 积 网 络(SSCN)[12,2],使用稀疏卷积技术省略对非活动体素的计算。具体来说,SGPN [41]提出为所有点对学习一个相似性矩阵,基于该矩阵,相似点被合并以进行分割。3D BoNet [46]直接预测对象的边界框,以实现有效的实例分割。GSPN [48]引入了生成形状建议网络,并依赖于对象建议来识别3D点云中的实例VoteNet [35]预测种子点到相应对象中心的偏移向量,然后是聚类模块来生成对象建议。此外,3DSIS [17]联合学习2D和在占用信号的基础上,提出了一种基于占用感知的三维实例分割方案。管道如图所示。二、虽然它遵循经典的学习,然后聚类过程,学习阶段和聚类阶段不同于现有的方法。首先,以2cm的分辨率对输入的3D场景进行体素化,然后将其馈送到3D卷积神经网络(U-Net [38])中进行特征提取。然后,将学习的特征转发到任务特定的头,以学习每个输入体素的不同表示,包括语义分割,其目的是分配类别标签、特征和空间嵌入以及占用回归(第二节)。第3.1节)。最后,执行基于图的占用感知聚类方案,该方案利用预测的占用信息和来自前一阶段的特征嵌入(第二节)。3.2)。请注意,所有3D卷积都是使用子流形稀疏卷积网络实现的[13]2943++Nc以利用输入3D场景的稀疏性质该网络的详细情况见附录。3.1. 多任务学习为了联合利用来自3D场景的固有占用以及语义和空间信息,我们提出了一个多任务学习框架来学习任务,其中,方差项Lvar将当前嵌入拉向每个实例的均值嵌入,距离项Ldist将实例推离彼此,并且正则化项Lreg将所有实例拉向原点以保持激活有界。详细公式-选择如下。第i个输入体素的特定表示,包括(1)ci用于语义分割,其目的是分配Lvar=1摄氏度C1个NCNc[||uc− si||− δ v]2,(5)类标签;(2)si和di用于联合特征和空间c=11i=1联系我们嵌入,以及用于协方差预测以融合特征和空间信息的对应的bi;以及(3)用于占用回归的oi训练网络以最小化联合成本函数Ljoint:Ldist= C(C−1)1摄氏度cA=1cB =cA+1[2δd — ||ucA — ucB ||]2,(六)L接头= L c+ L e+ L o。(一)Lreg=Cc=1||.||.(七)这里Lc是se的传统交叉熵损失[11]芒裂 Le旨在学习嵌入向量-这里,uc=1 ΣNci=1 si表示平均特征嵌入-联合考虑特征和空间嵌入,实例分割(Sec. 3.1.1)。Lo用于每个体素的所属实例的占用大小的回归3.1.2)。3.1.1嵌入式学习第c个实例的丁。 预定义阈值δv和δd被设置为0.1和1.5,以确保实例内嵌入距离小于实例间距离。协方差项协方差项旨在为每个实例学习最佳聚类区域。令bi=(σi,σi)表示针对的预测特征/空间协方差与以前的方法[33]不同,和空间嵌入直接,我们建议将它们分开第c个实例中的第i个体素。通过对bi求平均,我们得到(σc,σc),即第c个实例的嵌入协方差明确并监督他们的学习过程,目标. 我们的主要观察结果是,虽然空间嵌入是尺度感知的,并且具有明确的物理解释,例如从当前体素到空间体素的偏移向量,但是空间嵌入的尺度感知可以被称为空间嵌入。然后,第i个体素属于第c个体实例,表示为pi,公式化为:p= exp(−(||si − uc||)2−(||µi + di − ec||(二)、(八)中心的所属实例,特征嵌入遭受从固有的模糊尺度,因此必须使用附加的成本函数来调节。 两个嵌入我其中eCs=1Nc(µCd+d)表示预测的使用协方差估计进一步正则化我们cNck=0k k用于嵌入Le的学习函数由三项组成,即,空间项Lsp、特征项Lse和协方差项Lcov,第c个实例的空间中心因为pi是大于0。对于属于第c个实例的体素,协方差项然后由二进制交叉熵损失公式化,Le=Lsp+Lse+ Lcov.(二)空间术语第i个体素的空间嵌入di是回归到对象中心的3维矢量1Lcov=−CΣC1Nc=1ΣNi=1[yi log(pi)+(1−yi)log(1−pi)],(九)其使用以下空间项来监督:其中yi= 1表示i属于c,否则yi= 01摄氏度Lsp=C1ΣNcN||d + µ − 1i iNΣNcµ i||、(3)σσ2944N表示输入点云中的点数。c=1ci=1ci=13.1.2职业回归其中C是输入3D场景中的实例的数量,Nc是第c个实例中的体素数量,µi表示第c个实例的第i个体素的3D位置特征术语。 特征嵌入si是使用判别损失函数[7]由三项组成:Lse=L var+L dist+L reg,(4)为了利用3D设置下的占用信息,对于第c个实例中的第i个体素,我们预测i的正值以指示当前实例占用的体素的数量。然后,oi的平均值将用作当前实例的预测占用大小。为了更稳健的预测,我们回归对数而不是2945我图4. ScanNetV2验证集上相对预测误差的累积分布函数[4]。原价值并制定以下占用期限,1摄氏度Lo=C1ΣNcN||、(10)||,(10)c=1ci=1其中Nc是第c个实例中的体素的数量。为了评估我们的占用预测策略的可行性,我们使用相对预测误差Rc来衡量第c个实例的占用预测性能,GT Ours Lahoudet al. [21日]|N −exp(1<$Nc o)|图5.OccupSeg和pre-seg之间的定性比较CRc=Nci=1iNc.(十一)[21]在ScanNetV2 [4]的验证集上的明显方法。OccupSeg生成更一致的实例标签和成功-我们特别在图1中画出Rc的累积分布函数4.第一章 在ScanNetV2数据集[4]的验证集中,超过4000个实例中,超过68%的实例被预测,相对误差小于0。3,这说明了我们的入住率回归的有效性,为以下聚类阶段。3.2. 实例聚类在本小节中,基于来自前一阶段的多表示学习,引入基于图的占用感知聚类方案来解决推理期间的3D物体分割问题具体而言,我们采用自下而上的策略,并使用有效的基于图形的分割方案将输入体素分组为超级体素[9]。与2D空间中的超像素表示[39,47]相比,超体素表示更好地分离不同的实例,其中由于几何连续性或局部凸性约束,3D空间中的实例边界更容易识别[3]。令Vi表示属于超体素Vi的所有体素的集合,我们将Vi的空间嵌入Di定义为,由于所提出的占用感知聚类方案,完全区分附近的小实例。使用占用率Ri来指导聚类步骤,O我r i=| Ω|-是的(十三)注意,ri>1指示在vi中存在太多的体素,例如分割,否则vi应当吸引更多的体素。给 定超 体素 表示 ,建 立 无向 图G= ( V , E ,W),其中顶点v是∈V表示所生成的超体素,ei,j=(vi,vj)∈E表示带权wi,j∈W.权重wi,j表示vi和vj 之 间 的 相 似 性 。这里,wi,j被公式化为:exp(−(||Si−Sj||)2 −(||Di−Dj||)2)wi,j=σsσd,(14)max(r,0. 第五章)其中σs、σd和r表示合并Vi和Vi两者的虚拟超体素的特征协方差、空间协方差和占用率。Di=|Ω i|Σ(dik∈Ωi+µi),(12)注意,较大的权重指示v i和v j属于相同实例的较高可能性。在计算合并权重时,我们的入住率哪里|Ωi|表示以Xmi为单位的体素数量。关于FEA-真嵌入Si,占位Oi和协方差σi,σi有助于惩罚过度分段的实例,并鼓励部分实例合并在一起,如图所示。五、SD基于类似的平均运算来计算,属于V1的所有体素。我们进一步定义如下-对于E中的所有边,我们选择边ei,j,最高权重wi,j和将vi,vj作为n_w_v_x,如果12946输入几何GT语义预测语义GT实例预测实例图6.公共数据集验证集上的代表性3D实例分割结果,包括ScanNetV2 [4]和S3DIS [1]。wi,j>T0,其中,将平均阈值T0设置为0。五、然后,在每次合并操作之后更新图G。迭代此过程,直到没有权重大于T0。最后,如果G中的剩余顶点的占用率r满足约束0,则将它们标记为实例。3R2来拒绝实例分割中的假阳性。<<3.3. 网络训练我们采用了一个简单的UNet结构[38],用于从具有颜色信息的输入点云中提取特征。网络详情见附录。为为了提高效率,采用了[19]中的基于块的稀疏卷积策略,比SCN [13]的原始实现快4倍该网络使用Adam优化器进行训练,初始学习率为1 e-3。对于所有数据集,包括ScanNetV2 [4],Stanford3D [1][18]如图中所示,4、我们使用相同的超参数,从头开始训练网络320个epoch。4. 实验在本节中,我们将在各种具有挑战性的场景中评估我们的方法。对于公共数据集上的实验,我们在配备NVIDIA TITAN Xp GPU的PC上运行我们的方法和英特尔至强E5-2650 CPU。对于现实世界的实验,我们的方法是在笔记本电脑Microsoft Surface Book 2上进行的,该笔记本电脑具有NVIDIA GTX 1060(移动)GPU和Intel Core i7- 8650 U CPU。使用实时3D重建方法FlashFusion [14]进行3D几何输入,我们在便携式设备上演示了在线3D实例分割。更多细节请参见补充视频。我们采用流行的3D实例分割基准ScanNetV2 [4],以及 广 泛 使 用 的 S3DIS [1] 和 SceneNN [18] 数 据 集 。ScanNetV2基准测试[4]包含1513个室内RGBD扫描和3D实例注释,而斯坦福大规模3D室内空间数据集(S3DIS)[1]包含6个覆盖6000m2的大型室内区域,具有13个对象类别。SceneNN [18]是一个较小的室内3D数据集,50次扫描作为训练集,26次扫描用于评估,用于在较少的训练数据下评估我们的性能。4.1. 定性评价公共数据集的验证集上的代表性3D实例分割结果如图所示。6,表明该方法在复杂环境下实现了鲁棒的实例分割结果。2947(1)(二)(三)(四)(五)图7.真实场景的3D实例分割结果。这里使用FlashFusion [14]系统重建3D几何模型,输入是来自消费级RGB-D相机的深度和颜色序列。我们的方案使用在公共数据集ScanNetV2上训练的网络在现实环境中生成强大的实例分割结果[4]。方法地图浴床德国广播公司驾驶室椅子 CntrCurt 书桌门奥弗恩pic 弗里格展示 水槽 沙发tabl 辛劳风3D-SIS [17]16.140.7 15.56.84.334.60.1 13.40.58.810.63.713.532.12.833.9 11.6 46.69.3[29]第二十九话21.425.0 33.027.5 10.3 22.80.0 34.52.48.820.3 18.6 16.736.712.5 22.1 11.2 66.6 16.23D-BoNet [46]25.351.9 32.425.1 13.7 34.53.1 41.96.916.213.15.220.233.814.7 30.1 30.3 65.1 17.8MTML [21]28.257.7 38.018.2 10.7 43.00.1 42.25.717.916.27.022.951.116.1 49.1 31.3 65.0 16.2枕骨-SCS32.067.9 35.233.4 22.9 43.62.5 41.25.816.124.08.526.249.618.7 46.7 32.8 77.5 23.1占领区44.385.2 56.038.0 24.9 67.99.7 34.5 18.6 29.833.923.1 41.380.734.5 50.6 42.4 97.2 29.1表1.在ScanNetV2 [4]基准上对18个班级的mAP得分进行定量比较。我们的方法在18个类中的17个中实现了最佳性能。请注意,ScanNetV2基准数据于2019年11月14日访问。mPrecMREC[28]第二十八话56.443.4ASIS [42]63.647.5[46]第四十六话65.647.6占领区72.860.3表2. ScanNetV2 [4]基准测试的定量结果,分别为mAP、mAP@0.5和mAP@0.25。我们的方法比以前的方法有很大的优势。ScanNetV2基准数据于2019年11月14日访问。为了进一步验证我们的方法在现实世界场景中的鲁棒性,我们基于实时3D重建方法FlashFusion [14]实现了我们的方法,用于在线3D实例分割。 如图七、 我们在ScanNetV2上预先训练的网络可以在真实世界的场景中稳健地生成3D物体分割结果。更多的现场结果将在补充视频中提供。4.2. 定量评价基于公开数据集,将本文的方法与一些有代表性的已有方法进行了定量比较。表 3. S3DIS 数 据 集 [1] 的 比 较 。 我 们 的 方 法 在 平 均 精 度(mPrec)和平均召回率(mRec)方面优于以前的方法,IoU阈值为0。五、ing 方 法 , 包 括 SGPN [41] , 3D-SIS [17] , Panop-ticFusion [29],3D-BoNet [46],MTML [21],ASIS [42]和JSIS3D [34].ScanNetV2 。 我 们 遵 循 基 准 [4] , 使 用 重 叠 0.25(mAP@0.25)、重叠0.5(mAP@0.5)和重叠范围[0.五比零九十五比零。05](mAP)作为评价指标。选项卡. 1和Tab。2分别总结每个类的mAP和整体性能。总体而言,我们的方法在所有三个指标上都取得了显着的优势,特别是最难的mAP指标,表明我们的方法对3D实例分割的有效性。S3DIS。遵循之前的方法[46,42],我们采用6折交叉验证并使用平均精密度例如几何地图mAP@0.5mAP@0.253D-SIS [17]16.138.255.8[46]第四十六话25.348.868.7MASC [26]25.444.761.5MTML [21]28.254.973.1枕骨-SCS32.051.268.8占领区44.363.473.92948方法mAP@0.5壁地板内阁床椅子沙发表书桌电视道具MT-PNet [34]8.513.127.30.015.021.20.00.70.06.02.0MLS-CRF [34]12.113.944.50.032.912.90.05.710.80.00.8占领区47.139.093.85.766.791.38.750.031.676.97.14表4. SceneNN [18]数据集上的定量结果,以每个类别的mAP@0.5评分表示。我们的方法实现了所有10个类的最佳性能。细节总SGPN [41]网络(GPU):650组合并(CPU):46562块合并(CPU):222149433ASIS [42]网络(GPU):650平均偏移(CPU):53886块合并(CPU):222156757GSPN [48]网络(GPU):500点采样(GPU):2995邻居搜索(CPU):46839633D-SIS [17]网络(GPU+CPU):3884138841[46]第四十六话网络(GPU):650SCN(GPU并行):208块合并(CPU):22212871占领区网络(GPU):59超级体素(CPU):375集群(GPU+CPU):160594表5. ScanNetV2 [4]验证集的处理时间(秒)。请注意,根据[46],所有其他方法均基于其发布的代码进行评价。地图mAP@0.5mAP@0.25无特征36.751.862.6不带空间42.858.569.7无占用40.955.767.4占领区44.260.771.9表6.消融研究的每个组成部分,我们的方法对 ScanNetV2验证划分为mAP、mAP@0.5和mAP@0.25。(mPrec)/平均召回率(mRec),IoU阈值为0.5,以评估我们在S3 DIS数据集中的方法。如Tab.所示。3,我们的计划优于所有以前的方法在mPrec和mRec方面的显着保证金,表明它能够精确地分割更多的实例。SceneNN. 与以前的工作类似[34],采用mAP@0.5度量来评估我们在SceneNN数据集中的方法如表所示。4,即使只使用50次扫描进行训练,我们的方法也比以前的方法[34]有显著的优势(mAP@0.5为35),这说明了我们的方法在小数据集下的有效性。4.3. 复杂性分析我们对ScanNetV2的验证分割中的312次室内环境扫描的处理时间进行了比较。基于建议的方法(3DSIS[17],GSPN [48]和3D-BoNet [46])和无建议的方法(SGPN [41] ASIS [42])都全流水线和主要阶段的处理时间分别为在Tab中报告。五、值得注意的是,我们的方法比现有的最有效的方法3D-BoNet快4倍以上[46]。4.4. 消融研究在这里,我们在ScanNetV2验证分割上评估我们方法的各个组件。让w/o feature和w/o spatial分别表示我们的方法在没有特征嵌入或空间特征嵌入的情况下的变化。为了评估新的占用率信号的影响,我们在学习阶段禁用占用率预测,并针对等式n中的所有顶点设置占用率r= 1。14,表示为w/o占用。我们的方法的所有变化的定量比较结果见表1。结果表明,所提出的占用感知方案有助于提高3D实例分割的整体质量。5. 讨论和结论提出了一种基于占用感知的三维场景实例分割方法OccupSeg。我们的学习阶段利用特征嵌入和空间嵌入,以及新的3D占用信号来暗示3D对象的固有属性占用信号进一步指导我们的基于图的聚类阶段正确地合并硬样本并禁止过度分割的聚类。大量的实验结果表明,我们的方法的有效性在未来的工作中,我们将改进我们的方法,将定制的设计部分重建的对象。此外,我们还打算研究子对象级3D实例分割和进一步的在将3D实例分割应用于混合现实或机器人应用时,保持高效率至关重要。与[46]中的评价类似,从而提高效率,使高质量的3D实例分割的实际使用在AR/VR、游戏和移动机器人中的巨大应用成为可能。2949引用[1] Iro Armeni,Ozan Sener,Amir R Zamir,Helen Jiang,Ioannis Brilakis,Martin Fischer,and Silvio Savarese.大规模室内空间的三维语义解析。在IEEE计算机视觉和模式识别会议集,第1534-1543页,2016年。二六七[2] Christopher Choy,JunYoung Gwak,Silvio Savarese.4D时空卷积:Minkowski卷积神经网络。arXiv预印本arXiv:1904.08755,2019。3[3] Simon Christoph Stein , Markus Schoeler , JeremiePapon,and Florentin Worgotter.使用局部凸性的对象划分在IEEE计算机视觉和模式识别会议论文集,第304-311页5[4] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet:室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集,第5828-5839页,2017年。二五六七八[5] AngelaDai , MatthiasNießner , MichaelZoll höfer ,ShahramIzadi,and Christian Theobalt.Bundlefusion:使用动态表面重新整合的实时全局一致3d重建。ACMTransactions on Graphics ( TOG ) , 36 ( 3 ) : 24 ,2017。1[6] Jifeng Dai ,Kaiming He ,Yi Li ,Shaoqing Ren ,andJian Sun.实例敏感的全卷积网络。Bastian Leibe、JiriMatas、Nicu Sebe和Max Welling,编辑,计算机视觉施普林格国际出版社. 3[7] Bert De Brabandere,Davy Neven,and Luc Van Gool.基于判别损失函数的语义实例分割。arXiv预印本arXiv:1708.02551,2017。二、三、四[8] Alireza Fathi、 Zbigniew Wojna 、 Vivek Rathod 、 PengWang、Hyun Oh Song、Sergio Guadarrama和Kevin P.墨菲基于深度度量学习的语义实例分割CoRR,abs/1703.10277,2017。3[9] Pedro F Felzenszwalb和Daniel P Huttenlocher。高效的基于图的图像分割。国际计算机视觉杂志,59(2):167-181,2004。二、五[10] 罗斯·格希克。快速R-CNN。在IEEE计算机视觉国际会议(ICCV)上,2015年12月。3[11] Ian Goodfellow Yoshua Bengio和Aaron Courville深度学习MIT Press,2016. 4[12] 本杰明·格雷厄姆。空间稀疏卷积神经网络。arXiv预印本arXiv:1409.6070,2014。二、三[13] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在IEEE计算机视觉和模式识别会议论文集,第9224-9232页二、三、六[14] 雷寒,陆方。闪融:使用中央处理器计算的实时全局一致密集三维重建。机器人:科学与系统,2018年。一、六、七[15] Zeeshan Hayder,Xuming He,and Mathieu Salzmann.边界感知实例分割。在IEEE计算机视觉和模式识别会议(CVPR),2017年7月。3[16] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页二、三[17] Ji Hou , Angela Dai , and Matthias Nießner. 3D-SIS :RGB-D扫描的3D扫描实例分割。在IEEE计算机视觉和模式识别会议论文集,第4421-4430页,2019年。一、三、七、八[18] Binh-SonHua 、 Quang-HieuPham 、 DucThanhNguyen 、 Minh-Khoi Tran 、 Lap-Fai Yu 和 Sai-KitYeung。Scenenn:带有注释的场景网格数据集在2016年第四届3D视觉国际会议(3DV)上,第92IEEE,2016. 二、六、八[19] 匿名(附在补充材料中)。沉浸式增强现实的实时语义3d 感 知 。 在 IEEE VR/TVCG 有 条 件 地 接 受 。 IEEE,2019。6[20] Shu Kong和Charless C.福克斯用于实例分组的循环像素嵌入在IEEE计算机视觉和模式识别会议上,2018年6月。3[21] Jean Lahoud , Bernard Ghanem , Marc Pollefeys , andMartin R Oswald.通过多任务度量学习的3d实例分割。arXiv预印本arXiv:1906.08650,2019。二三五七[22] Bastian Leibe,Ales Leonardis,Bernt Schiele。交叉分类和分割的鲁棒目标检测国际计算机视觉杂志,77(1-3):259-289,2008。3[23] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义分割。在IEEE计算机视觉和模式识别会议(CVPR),2017年7月。3[24] Xiaodan Liang , Liang Lin , Yunchao Wei , XiaohuiShen,Jianchao Yang,and Shuicheng Yan.用于实例级对象 分 割 的 无 建 议 网 络 。 IEEE transactions on patternanalysis and machine intelligence , 40 ( 12 ) : 2978-2991,2017。3[25] 梁志 东, 杨明 ,王 春香 基于结 构感 知损 失函 数的3darXiv预印本arXiv:1902.05247,2019。二、三[26] 陈柳和古川康孝。Masc:用于3d实例分割的稀疏卷积多尺度arXiv预印本arXiv:1902.04478,2019。二、三、七[27] Yiding Liu , Siyu Yang , Bin Li , Wengang Zhou ,Jizheng Xu,Houqiang Li,and Yan Lu.用于实例分割的亲 和 性 推 导 和 图 合 并 。 在 欧 洲 计 算 机 视 觉 会 议(ECCV)的会议中,第6862[28] Kaichun Mo , Shilin Zhu , Angel X Chang , Li Yi ,Subarna Tripathi , Leonidas J Guibas , and Hao Su.Partnet:一个用于细粒度和层次化部件级3D对象理解的大规模基准测试。在IEEE计算机视觉和模式识别会议论文集,第909-918页7[29] Gaku Narita , Takashi Seno , Tomoya Ishikawa , andYohsuke Kaji.全景融合:在线立体语义地图-2950在 物 质 和 事 物 的 层 面 上 。 arXiv 预 印 本 arXiv :1903.01177,2019。7[30] Davy Neven 、Bert De Brabandere、Marc Proesmans和Luc Van Gool。通过联合优化空间嵌入和集群带宽来实现实例分割。在IEEE计算机视觉和模式识别会议论文集,第8837-8845页,2019年。3[31] R. A.纽科姆,S。伊扎迪河希利格斯,D。莫利诺,D。Kim,A. J.戴维森,P.作者简介:王建民Hodges,和A.菲茨吉本运动融合:实时密集表面映射和跟踪。2011年第10届IEEE混合和增强现实国际研讨会,第127-136页,2011年。1[32] Matthi asNießner,MichaelZollh? fer,ShahramIzadi,andStamminger.利用体素散列法进行大规模实时三维重建 。 ACM Transactions on Graphics ( TOG ) , 32(6):169,2013。1[33] David Novotny , Samuel Albanie , Diane Larlus , andAndrea Vedaldi.半卷积算子,例如分割。在欧洲计算机视觉会议(ECCV)中,第86-102页,2018年。三、四[34] Quang-Hieu Pham , Thanh Nguyen , Binh-Son Hua ,Gemma Roig,and Sai-Kit Yeung. Jsis3d:3d点云与多任务逐点网络和多值条件随机场的联合语义实例分割。在IEEE计算机视觉和模式识别会议的论文集,第8827-8836页七、八[35] Charles R Qi,Or Litany,Kaiming He,and Leonidas JGuibas.点云数据中三维目标检测的深度霍夫投票。arXiv预印本arXiv:1904.09664,2019。3[36] Charles R Qi, Hao Su ,Kaichun Mo , and Leonidas JGuibas.Pointnet:对点集进行深度学习,用于3D分类和分割。在IEEE计算机视觉和模式识别会议论文集,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功