2D卷积网络驱动的高效3D形状分类：MLH表示与多视图融合

60 浏览量更新于2024-06-20 收藏 685KB PDF 举报

本文主要探讨了2D卷积网络在3D形状分类中的高效应用，针对传统的3D形状表示方法存在的挑战提出了创新解决方案。作者团队提出了一个多层高度图（MLH）的全局3D形状表示，它巧妙地利用2D卷积神经网络（CNN）的优势。MLH的特点在于每个网格位置储存多个实例的高度图，这样能够捕捉到隐藏在遮挡层后的细节，提高了对3D形状复杂性的处理能力。传统的体素表示方法在转化为适用于2D CNN时，会面临显著的内存和计算资源消耗问题，因为体素网格的尺寸随形状大小增加而呈指数级增长。相比之下，MLH通过分层和多实例存储策略，有效地降低了输入分辨率的需求，从而在内存效率上超越了基于体素的方法。这种方法在保持信息完整性的前提下，减轻了3D CNN设计时的资源压力。为了进一步提升性能，文章介绍了一种新的视图合并方法，用于整合来自不同视角的信息，这在3D形状分类中至关重要，因为它允许模型结合多角度观察以形成更全面的形状理解。这种视图合并策略与MLH描述符相结合，使得该方法在ModelNet数据集上实现了最先进的分类结果，这在当前3D形状识别任务中是一个重要突破。总结起来，本文的主要贡献在于： 1. 提出了一种基于2D CNN的高效3D形状表示——多层高度图（MLH），它在内存效率上优于体素表示。 2. 针对3D形状分类，开发了一种有效的视图合并方法，增强了模型对3D形状的理解。 3. 实现了最先进的分类结果，尤其是在ModelNet数据集上的性能，证明了该方法在实际应用中的有效性。这项工作对于推动3D计算机视觉领域的研究和实践具有重要意义，表明了将2D CNN的强大技术扩展到3D空间的潜力，以及如何通过创新方法克服传统3D表示方法的局限性。

Sarkar等人

图1：（左）具有沿Z的视图的形状的多层高度图描述符。（右）从

X、Y和Z的3个不同视图中显示

CNN在3D数据上的出色替代品。另一方面，OctNet使用基于体素的表

示的紧凑版本，其中仅将占用的网格存储在八叉树中，而不是整个体

素网格。它具有与基于体素的CNN类似的计算能力，同时具有极高的

存储效率，能够实现具有256

输入的3D CNN。我们表明，我们的一

个分辨率为256的视图描述符和一个简单的2D CNN在分类精度和内存

要求方面与OctNet相似。

无序点云和面片可以对3D形状进行采样到有限数量的3D点，并将它

们的XYZ坐标收集到1D矢量中。这种表示是紧凑的，但它没有与现实

世界一致的隐式空间排序。Achlioptas等人[1]在最近的提交中使用这

种表示来生成3D形状，并且在Model-Net 10中也实现了良好的精度。

PointNet [16]是另一个这样的网络，它以非结构化的3D点作为输入，

并通过使用最大池作为多层感知器在各个点上的输出的对称函数来获

得全局特征。我们的方法在概念上是不同的，因为它尊重在3D空间

中的点的实际空间排序。Sarkar等人[22，23]从无序3D片的数据集学

习，其使用四边形方法检测和定向。它们表示在面片级的空间排序，

但不像我们的方法那样在3D形状的全局上下文中。此外，我们的方

法不需要这样的先验四边形化步骤。

多层高度图描述符

MLH

描述

或

再现

图像，其具有来自描绘多个表面层的离散参考网格的

“height-map”的多个图。与体素占用网格结构（其中每个体素仓存储

模型占用

形式

）相比，我们在2D参考网格的每个仓中存储

个或多个空间

映射的列表

。这个想法是考虑形状的整个横截面的

个样本高度值，

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

2D卷积网络驱动的高效3D形状分类：MLH表示与多视图融合

卷积神经网络实现图像分类

62.卷积有多少种1

1D卷积神经网络和2D卷积神经网络的主要区别

3D卷积神经网络的应用

2D卷积神经网络示意图

3D卷积相比于2D卷积在处理极化SAR数据时有何优势？

keras用model.add添加2d卷积神经网络的语句

使用2d卷积技术进行时间序列预测

2d和1d卷积神经网络的区别

二维卷积网络和三维卷积网络

最新资源