2D卷积网络在3D形状分类中的高效性

76 浏览量更新于2023-10-13 收藏 685KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于2D卷积网络Kripasindhu Sarkar1，2，BasavarajHampiholi2，Kiran Varanasi1，and DidierStricker1，21DFKIKaiserrslautern2TechnisccheUniverrsitaütKaiserrslautern{kripasindhu.sarkar，basavaraj.hampiholi，kiran.varanasi，didier.stricker} @ dfki.de抽象。我们提出了一种新的3D形状的全局表示，适合于2DCNN的应用我们将3D形状表示为多层高度图（MLH），其中在每个网格位置处，我们存储高度图的多个实例，从而表示隐藏在几个遮挡层后面的3D形状细节。我们提供了一种新的视图合并方法，用于组合视图相关信息（例如，视图合并）。 MLH描述器）。由于使用2D CNN的能力，我们的方法在输入分辨率方面具有很高的存储效率，与基于体素的输入相比。结合 MLH 描述符和我们的多视图合并，我们在ModelNet数据集上实现了最先进的分类结果。关键词： CNN on 3D Shapes ， 3D Shape Representation ，ModelNet，Shape Classification，Shape Generation1介绍在过去的几年里，卷积神经网络（CNN）在解决2D图像中基于视觉的问题方面完全占据主导地位，在各个领域实现了最先进的结果[10，26，7，3，4，19，12，6，18，11，15]。这些方法是通过设计核心网络架构中的大量工作来激励的，例如GoogLeNet [29]、ResNet[7]、InceptionV 3/V4 [30]等。原因是a）易于在2D图像网格上执行卷积运算，以及b）大规模标记图像数据库（例如ImageNet [21]）的可用性然而，将这些强大的CNN的想法应用于3D形状并不简单，因为将形状转录为通用的参数化/描述是CNN应用的必要的第一步。最简单的描述符-体素占用网格-在理论上可以应用2D图像的类似3D网络（VGG、ResNet、Inception等）。到3D体素表示。在实践中，这是不可行的，因为存储器和计算器的增长与视频的存储器的存储相结合，使得难以在设计3D形状的核心网络中进行研究。因此，现有的基于体素的3D网络被限制于低输入分辨率（在三维空间上）。2Sarkar等人323）[14，32，28，2]。用于3D特定任务的其他方法是针对3D形状[20，16，9]的新几何表示或网络架构的发明，以及使用渲染图像的基于外观的方法的使用[25，8，28]。基于外观的方法在设计上不适合于基于几何的任务，例如形状生成、重构等。尽管它们对于诸如分类和检索之类的基于外观的任务是很好的选择在本文中，我们提出了一种新的几何中心描述符的三维形状，适用于2D CNN的应用我们将3D形状表示为多层高度图。在每个网格位置处，我们存储高度图的多个实例，从而表示隐藏在几个遮挡层后面的3D形状细节。使用这种直观且易于构建的参数化，我们使用2D卷积神经网络模型学习3D形状，并在ModelNet数据集上显示最先进的分类结果[32]。我们的描述符提供了以下优点：1）它是以几何为中心的，使得它适合于解决基于外观和几何的任务2）它使得能够在3D形状的上下文中使用经过充分研究的2D CNN，这在基于体素的表示和其他新的3D架构中是不可能的;以及利用使用大规模图像数据训练的预训练的2D CNN的能力。3) 因此，它为3D形状提供了一个高内存效率的CNN架构多层高度图（MLH）表示是通用的并且适合于任何3D形状，而不管形状表示中的拓扑和体积密度。它不需要预先估计三维网格结构，可以直接在点云上计算。我们的工作与更多的形状感知参数化相反，这些参数化需要形状的3D网格拓扑的知识，然后可以用于创建网格四边形，或者在网格拉普拉斯算子的特征空间中学习内在形状描述[13，23]。我们的MLH参数化适合于学习各种3D形状的在这个意义上，它与3D体素网格相当，但没有相关联的存储器开销。我们的贡献如下：– 我们提出了一种新的基于多层高度图（MLH）的3D形状的全局表示，适用于各种任务的2D CNN。– 我们提出了一种新的CNN多视图合并技术，涉及不同的输入分支，将来自多个实例源的信息合并到一个紧凑的描述符中。– 我们使用我们的多视图CNN和MLH描述符在ModelNet基准[32]上展示了最先进的分类结果。下一节介绍相关工作。第3节详细解释了用于3D形状的基于多层高度图的特征和用于分类问题的简单2D CNN。我们在第4节中介绍了我们的多视图CNN架构，用于沿不同视图组合全局特征。我们遵循实验部分评估不同的设计选择。用于3D形状处理的32相关工作核心2D卷积网络AlexNet[10]是第一个在GPU中训练的用于分类任务的深度CNN模型，并且仍然经常用作执行其他任务的基础模型或特征提取器。其他经常用作基本CNN的着名模型是VGG [26]，GoogLeNet[29]，ResNet [7]，InceptionV 3/V4 [30]。VGG是一个简单的网络，它使用一系列大小为3×3的小卷积滤波器，然后是全连接层。 GoogLeNet和InceptionV 3/V4模型提供了更深层次的网络，其计算效率在计算模型中无法实现。 ResNetontheetherhanandduesonly3×3convolution with residualconnections.我们使用16层VGG [26]作为我们的基础CNN模型，因为它很简单。体素网格上的3D卷积网络体素采样是其中3D形状被表示为3D体素网格中的二进制占用网格。Wu等人[32]使用深度3D CNN用于分辨率为303的体素化形状，并提供ModelNet40和ModelNet10的分类基准数据集。这项工作之后是VoxNet，它使用分辨率为323的体素[14]。最近，来自2D CNN的网络元素（如初始模块和剩余连接）已被集成到3DCNN中，这比传统的3D CNN带来了巨大的性能增益[2]。由于与3D网络相关联的内存开销的基本问题，输入大小被限制为323。在[17，24]中已经执行了特定于形状分类和3D CNN的细粒度分析，与体素网格相比，我们使用我们的多层描述符并使用2D CNN，在ModelNet基准测试中的形状分类任务中，在准确性和计算开销方面都表现得更好。基于图像视图的方法获取形状的某种虚拟快照（渲染或深度图像），然后设计一个2D CNN架构来解决分类任务。他们的贡献是基于渲染的新特征描述符的组合[25，8，28]，以及基于外观分类的网络架构的新变化如第3.1节和第5.4节中所解释的，与基于图像视图的方法相比，我们的1层表示对于分类任务执行类似。2DslicesGomez-Donosoetal.[5]通过“2D空间”来再现所述形状-沿着所述形状的横截面在固定高度处的潜在占用信息。然后开发多视图CNN架构以馈送3个这样的切片（跨3个典型轴）进行分类。与这项工作相反，（1）我们的MLH描述符具有来自参考网格的k个高度值（k≈5），因此即使对于单视图CNN，信息也足以用作描述符，（2）我们的描述符是生成的（可以生成完整的形状轮廓-第5.5节），并且有望解决其他以几何为中心的任务。最近，人们一直在努力寻找在3D数据中应用CNN的替代方法，例如OctNet [20]和Kd树网络[9]。Kd树网络使用Kd树作为底层数据结构，并学习用于解决各种任务的输入表示，4Sarkar等人X图1：（左）具有沿Z的视图的形状的多层高度图描述符。（右）从X、Y和Z的3个不同视图中显示kCNN在3D数据上的出色替代品。另一方面，OctNet使用基于体素的表示的紧凑版本，其中仅将占用的网格存储在八叉树中，而不是整个体素网格。它具有与基于体素的CNN类似的计算能力，同时具有极高的存储效率，能够实现具有2563输入的3D CNN。我们表明，我们的一个分辨率为256的视图描述符和一个简单的2D CNN在分类精度和内存要求方面与OctNet相似。无序点云和面片可以对3D形状进行采样到有限数量的3D点，并将它们的XYZ坐标收集到1D矢量中。这种表示是紧凑的，但它没有与现实世界一致的隐式空间排序。Achlioptas等人[1]在最近的提交中使用这种表示来生成3D形状，并且在Model-Net 10中也实现了良好的精度。PointNet [16]是另一个这样的网络，它以非结构化的3D点作为输入，并通过使用最大池作为多层感知器在各个点上的输出的对称函数来获得全局特征。我们的方法在概念上是不同的，因为它尊重在3D空间中的点的实际空间排序。Sarkar等人[22，23]从无序3D片的数据集学习，其使用四边形方法检测和定向。它们表示在面片级的空间排序，但不像我们的方法那样在3D形状的全局上下文中。此外，我们的方法不需要这样的先验四边形化步骤。3多层高度图描述符MLH描述或再现3D图像，其具有来自描绘多个表面层的离散参考网格的“height-map”的多个图。与体素占用网格结构（其中每个体素仓存储模型占用形式）相比，我们在2D参考网格的每个仓中存储k个或多个空间映射的列表。这个想法是考虑形状的整个横截面的k个样本高度值，ZY用于3D形状处理的5那么Ppq不为空当k>1时，M[p，q，i]←（（i-1）/（k-1）<$100）Ppq的第百分位数，对于每个i∈ {1，. . . ，k}否则，M[p，q，i]←第0百分位数Ppq（或Ppq的最小值）。8符号：A[i，j，k，. ]表示A的索引i，j，k，.处的元素。. .输入：shape-S，r eson-N，nuberes-k，diren（输出：维度（N×N×k）的MLH描述符M）M← full（Inf）1 OrientSusingandscaleitoconttaininunitb o ntundingox.2 对S中的点进行密集采样以获得点云C。3 放置N×N边界框的X-Y平面上的单位长度的正方形网格。4 在网格中投影C，并收集箱中的z坐标（高度值）5 对于每个bin（p，q）∈ {1，. . . ，N}做//令Ppq是落入bin（p，q）中的点的高度值的集合6如果7算法一：MLH描述符的计算2D网格的面元。为了实现这个想法，我们首先将形状转换为点云，并如算法1中所解释的那样对其进行处理。没有表面相交的空面元由略高于最大可能高度的值（Inf= 1.2，或具有无限高度的表面）表示，以将它们与有效高度值区分开。从形状中均匀且密集地采样点，使得当bin被占用时，我们在bin中获得至少k个点（步骤2）。我们采用不同层的百分位值（与其他层的百分位值相比较-例如，这保留了第1层和第k层分别作为底表面和顶表面的语义。它们之间的层表示从外部隐藏的中间形状信息。视图方向MLH表示取决于平面法线方向，其中该平面法线方向与基于视图的描述符一起计算。在后面的章节中，我们将此视图方向称为。更多关于视图方向选择的内容将在后续章节中介绍。3.1与其他形状表示的体素采样与3D体素占用网格相比，我们的表示存储在视图方向上与参考平面的距离，而不是二进制占用。由于连续距离比离散化占用箱更精确，因此我们的表示提供了沿视图方向的更多信息，前提是落在箱上的表面的数量小于k。对于k= 5的大多数情况，除了平行于（或接近平行于）观察方向的表面之外，这种情况已经得到满足因此，一般来说，MLH比具有良好选择方向的体素占用网格更具表达力，同时内存较少（N3vskN2）。6Sarkar等人在k= 1的情况下，我们的特征描述符减少到具有正交投影（而不是深度相机的透视投影）的形状的渲染图像即使渲染图像依赖于着色模型，几何3D特征（角和边缘）也会作为3D模型到图像的2D平面的透视投影的结果因此，k= 1的表示在性质上类似于正交投影的渲染图像。这一前提得到了我们在k= 1的ModelNet40中的分类准确性结果与使用渲染图像的MVCNN [28]的流行技术的相似性的支持。3.2分类网络由于MLH描述符是多通道2D网格的事实，我们可以直接应用任何具有分类损失的前馈2D CNN（例如，交叉熵损失或SVM损失）进行分类。在最简单的形式中，我们在MLH特征中使用一个一致方向的视图。为了合并不同的视图，我们可以将每个视图视为不同的训练实例，并在测试时取所有视图的总和。我们也可以单独处理视图，并使用来自不同视图的合并技术我们将在下一节详细讨论这一点这也使我们能够使用流行的2D CNN，如AlexNet，VGG，ResNet等（具有k个输入通道，而不是3个图像）用于3D形状相关的任务。这些流行的网络已经在由数百万张图像组成的ImageNet数据库上进行了训练。由于3D数据库中的实例数量远远少于2D数据库（ModelNet40中为12K，而ImageNet中为1.2M），因此我们继续对3D形状分类进行微调策略。这是有意义的，因为我们的特征类似于k通道图像（而不是真实图像的3）。由于在图像上训练的网络有意义地捕获各个级别的图像细节，因此我们期望它们在对“图像像”输入进行微调时提供良好的结果。在2D图像上训练的网络的权重可以用来初始化我们相应的网络进行微调，除了第一层，其中输入通道的数量（k = 5），因此卷积层的权重不匹配。在这种情况下，我们可以随机地初始化第一层（并且通过从预训练的网络正确初始化的其他层进行微调），或者复制第一层的部分权重。我们将基于图像的网络的权重复制到网络中权重的第1，第3和第5通道，用于MLH。对于剩余的2层，我们使用基于图像的网络的3个通道的权重的平均值，并将它们复制到MLH网络的权重。在所有使用ModelNet 40/10的实验中，这种初始化策略为我们提供了大约0.1%的测试准确性（相对于随机初始化的第一层）用于3D形状处理的74多视图架构MLH表示是一个依赖于视图的描述符，因此一个设计良好的网络应该考虑从多个视图计算的功能。因此，我们需要一个很好的选择视图的策略，以及一种技术来合并来自不同视图的信息，以获得单个描述符。本节讨论设计选择。4.1选择视图方向具有从形状的三个规范方向X、Y和Z计算的MLH使得所有表面具有至少一个不垂直于它们的方向。当3D数据没有轴对齐时，我们只使用三个规范轴作为视图方向，并通过MVCNN [28]之类的架构来组合三个视图。4.2查看对齐数据大部分在线存储库和在线数据库都是3D形状（ShapeNet、ModelNet等）。提供轴对齐的形状。例如，对于汽车，在ModelNet/ShapeNet数据集中，这一重要的元信息已被成功地用于各种任务隐式或显式[25，24，8，27]。在这种对齐数据的可用性中，我们的来自X、Y和Z方向的MLH特征具有更具体的含义。我们设计了一个多视图架构，专门利用这一信息。请注意，如果可以在其他数据集的上下文中选择形状感知轴，例如通过中轴计算，则可以通过选择它们作为视图方向来相应地调整我们MVCNN合并来自不同视图的信息在MVCNN [28]中解决，这是长期以来最先进的形状分类方法我们首先解释MVCNN，并讨论它的优点和缺点，然后提出我们自己的解决方案来合并不同的视图。在MVCNN中，给定的形状首先从几个一致的方向渲染每个渲染图像分别通过CNN分支。这部分网络中的所有分支共享相同的参数。为了合并来自不同分支的输出，采取跨不同激活体积的逐元素最大运算。然后是网络的第二部分，该部分由全连接（FC）层组成该设计的关键元素是1）所有分支的共享权重，以及2）用于合并来自不同视图的输出的逐元素最大池化。考虑到问题的性质，我们确定了该设计中的以下缺点。1. 逐元素最大合并操作使网络对输入视图中的一个给予更多的重要性，并丢弃其他视图的信息8Sarkar等人XYZ图2：我们的多视图架构中的视图合并操作的概述2. 元素式最大可交换操作使得合并的输出与输入视图的顺序无关，除了随机视图方向之外，这是不合理的。3. 分支中的权重共享使得网络对视图的语义网络在所有视图之间以相同的方式更新，即使它们的输入语义不同。对齐的3D数据集的存在使得分开处理不同视图并且明确区分来自不同视图的输出变得重要网络设计公式我们的多视图网络采用输入（X1，.，来自N个不同的观点。它们中的每一个通过N个CNN分支（cl，…c N），给出输出（B1，…B N）=（c1（X1），.，c N（X N））。然后，我们对分支的输出执行合并操作f以得到最终输出f（B1，…B N）。这之后是完全连接（FC）层，并且最终在训练期间是损失函数基于对MVCNN的分析，我们在网络中有以下设计选择。1. 独立视图分支每个视图的网络分支应相互独立也就是说，CNN分支ci（）具有不同的权重。2. 非交换合并操作为了在应用FC层之前显式区分合并的输出，我们使用非交换合并操作。也就是说，函数f：Bn→M是非交换的。4.3用于MLH描述符的我们的多视图网络从X，Y和Z方向获取3个MLH特征描述符作为输入CNN分支是简单的前馈2D卷积网络。我们使用在ImageNet上训练的一种流行的2D CNN架构，因为我们可以使用训练的权重来初始化我们的如上所述，3个分支不共享权重。MLH描述符CNN分支机构（长x宽x高）合并功能CNN1(3D x宽x高）（长x宽x高）Conv（3x3）FFCC美国有线（CAT）美国有线f（Bx，By，Bz）（损失）用于3D形状处理的9非交换操作的选择流行的合并操作，如max，mean和sum都是交换的，这使得输入的顺序不相关。操作级联是不可交换的，但是产生大尺寸的激活体积，使得添加后续FC层是不可行的（例如，从3个分支串联激活VGG 16的最后一个 Conv/Pool层，并将FC层结果添加到3*7*7*512*4096≈300 M参数）。我们选择了操作-卷积，然后是级联作为我们选择的非交换操作。这将级联输出的大小减小回初始值，并允许向网络添加后续FC层。具体地说，我们沿着深度轴将3个维度为D×W×H的分支的激活体积连接起来，得到一个3D×W×H的连接体积。然后，我们使用D滤波器进行3× 3卷积，以在应用后续FC层之前将体积恢复到D×W×H沿着整个级联体积的卷积滤波器的这些然而，网络可以基于学习期间的输入类型来学习使这些权重是非交换的或可交换的。该设计如图2所示。5实验5.1形状分类数据集我们使用[32]中流行的ModelNet40和ModelNet10数据集来评估我们的形状分类结果。ModelNet40包含来自40个类别的大约12k个形状，而ModelNet10是ModelNet40的子集，包含大约5k个不同的形状。这些数据集带有它们的训练和测试分割（ModelNet 40为≈10 k和2.5k形状; ModelNet 10为4k和1 k）。我们计算了维度为256 × 256 × 5的MLH特征描述符，并且没有进行数据增强。一般网络设置我们使用VGG16进行批量归一化[26]（没有FC层）作为单视图和3视图合并网络的基础模型最近的网络，如ResNet50 [7]和基于Inception的模型[30]，在测试分类准确性方面没有提供任何改进，可能是由于这些3D形状数据集中的训练样本数量较少。随着3D数据集在尺寸上变得更大，我们在最后一个FC层的末尾添加交叉熵损失，并进行端到端的分类训练。一般训练设置我们使用SGD优化器训练我们的网络20个epochs，批量大小为8初始学习率设置为0.01，并在10个epoch之后降低10倍我们的3视图网络需要大约2小时才能与GeForce GTX 1080 Ti GPU融合。5.2设计选择我们计算5层（k= 5）MLH特征，并训练单视图单分支CNN。我们在表1（左）中发布了ModelNet40的测试分类精度10Sarkar等人视图轴精度X86.91Y86.71Z86.91合并设置精度a）共享分支+最大合并91.25b）独立分支+最大合并91.29c）独立分支+cat merge93.11表1：具有（左）单视图和（右）多视图的ModelNet40上的分类准确性，其中具有差异化存储器查询。除了第5.2节中层数的实验外，本节中提供的所有实验均使用k= 5。即使是单视图和一个非常简单的网络架构，我们的分类精度是流行的基于体素的方法相媲美。下一节提供了与最先进方法的更详细的比较。视图合并我们将X、Y和Z的3个规范轴视为3个正交视图方向，并且使用以下分支合并操作进行实验a）MVCNN类型[28，17]网络，其具有共享CNN分支，然后是elt_max b）独立分支，然后是elt_max c）我们的独立分支的设计在最后一个设计中，我们将3个VGG16分支的最后一个卷积层的512×8× 8输出体积级联，得到1536×8× 8的输出体积。我们使用512个滤波器（#参数）进行3× 3卷积=（1536*3*3）*512），以使输出音量恢复到先前的量级-512×7×7（我们将维度从8减少到7，以正确初始化预训练的FC层）。该操作详见第4.3节。表1（右）报告了采用上述设计选择的ModelNet40的分类准确性。最好的结果是获得与我们提出的合并技术。微调的效果我们的MLH描述符的重要特征之一是，即使它是捕获3D形状的几何属性的基于几何的描述符，它也可以很容易地被基于预训练图像的2DCNN使用除非另有说明，否则我们所有的结果都是通过使用第3.2节中解释的初始化策略微调在ImageNet上预训练的VGG16的权重来获得的微调在测试准确性方面的结果有很大的不同。例如，我们的5层3视图模型达到了使用随机权重初始化时为89.63，而使用预训练权重初始化时为93.11，相对提高了 3.5%。层数图3显示了我们的多层表示中层数的影响。这里我们使用合并的3视图模型。请注意，即使是单层，由于我们的新合并技术，我们也实现了高于90.5%的准确度。我们的2层MLH描述符已经提供了一个很好的形状表示，因为它完全覆盖了外部的形状轮廓用于3D形状处理的11939291901 2 3 4 5层数浴缸床椅子书桌梳妆台监视器床头柜沙发桌座便器1.00.80.60.40.20.0图3：（左）不同层数下ModelNet40的分类精度。（右）ModelNet10的分类混淆矩阵沿观察方向（通过从网格中取最小和最大高度）。正如预期的那样，我们看到从第1层到第2层的准确性有了很大的跳跃，然后是缓慢的饱和，直到第5层。因此，我们在所有其他实验中使用5层描述符。5.3与最新方法的我们提供了一个简短的讨论不同的方法进行形状分类之前，提供我们的比较;以更好地理解现有技术和比较方法。基于图像视图的方法基于图像视图的方法对形状进行虚拟快照，然后设计2D CNN架构来解决分类任务。它们的核心是基于外观的方法，这些方法擅长于解决基于外观的任务-例如。形状分类和检索。它们本质上不是生成性的（能够在给定特征描述符的情况下生成形状或部分形状），并且因此通过设计不适合于基于几何的任务，诸如形状生成、重构、部件分割等。由于形状类是高度以外观为中心的，因此它们有助于形状分类排行榜的顶部。这些方法使用几何中心输入，诸如体素网格、点云等。并设计一个合适的CNN结构来解决分类任务。它们以几何图形为中心，可用于形状生成、零件分割等任务。表2示出了我们的方法与用于形状分类的其他现有技术方法的比较。与ModelNet10中的所有单模型方法相比，我们的性能最好，并且在ModelNet40中的所有基于几何的方法中表现最好ModelNet10的混淆矩阵如图3所示。大多数错误分类来自类似的类别对，如（桌子，书桌）和（床头柜，梳妆台）。我们的表现也优于所有基于外观的方法，除了Wang et al [27]，它执行了一个专门的基于视图的方法。00000000.01000100000000000.94 0.0100.01 0.01 0.02000000.9300.07000000001000000000.13000.030000.01 0.0100零点零二00000.15000.010000000000010.8400.960.840.990.9800000000.02 0分类精度浴缸床椅子书桌梳妆台监测沙发右支架表厕所12Sarkar等人ModelNet40 ModelNet10T收敛（ModelNet40）#视图a#8月研究所b数据Aug基于图像[25]第二十五话91.1290.7030分钟1aNWang等人[27]93.80-20小时12aN双[8]90.7092.80-12aNMVCNN [28]90.10--80aN基于几何Kd-Net深度10 [9]90.6093.305天10BYKd-Net深度15 [9]91.8094.0016小时10BYMVCNN- MultiRes [17]91.40--20aYVRN [2]91.3393.616天24BYVoxception [2]90.5693.286天24BY奥利翁[24]网站地图[16]-89.2093.80----1BYY[第14话]我们的- 3视图+猫83.0093.11-94.80-2小时12B3aYN表2：所有单模型方法在ModelNet 40和Mod-elNet 10数据集上的测试分类准确度比较。粗体数字是相应组中在所有方法中，下划线数字的准确率最高- 表示信息不可用。T收敛表示CNN在单个GPU中收敛所花费的时间。Y/N分别表示是和否。聚类的分类任务，并需要10倍以上的时间收敛比我们的算法。可以认为，我们的方法的结果可以通过更多基于视图的专业化，数据增强和其他细粒度分析（例如MLH特征的聚类而不是渲染图像）来改进，这不是我们的贡献或我们的主张。5.4与其他描述符的简化为基于图像的模型如第3.1节所述，我们用1层表示简化为用正交投影渲染的图像我们使用与MVCNN类似的合并设置进行k=l的实验，并在表3中提供我们的结果我们的结果的相似性验证了这一假设。我们的方法使用1层和MVCNN的合并设置的准确性稍低，可能是由于视图数量较少（3与80相比我们看到使用1层描述符的新合并方法提高了准确性。这提供了一个提示，即我们的合并方法可以被现有的基于图像的方法（如MVCNN）用于提高分类准确性。与基于体素的模型的比较我们比较了我们的单视图（X），5层模型的分类准确性和内存需求，以及OctNet论文[20]在ModelNet10数据集上提供的我们选择将我们的产品与这些工具进行比较，a ）使用“纯”3D几何图形用于3D形状处理的13算法精度ModelNet40MVCNN [28]（80 v）90.101 l + Shared + max（3v）89.781 l + Ind + max（3v）90.15算法精度ModelNet10约存储器[20]第二十话90.38 GB*DenseNet 64 [20]90.06 GB†DenseNet 256 [20]-60 GB（1次查看）90.978 GB‡表3：（左）使用我们的具有3个视图的1层描述符的ModelNet40上的分类准确性图例见表1。（右）我们的单视图模型与OctNet [20]的分类准确性和内存需求（batchsize = 32）的比较。b）它将存储器要求对精度的影响与其他网络设计因素隔离。类似地，我们使用VGG 16（一个简单的16层2D卷积网络-与OctNet 256中使用的14层3D Convnet相比）使用单视图网络对维度为256× 256× 5的MLH描述符进行分类。如表3（右）所示，我们使用单个视图的方法的结果与3D体素网格和OctNet上的基于纯3D卷积的方法相当，同时在OctNet的网络内存要求方面5.5基于MLH描述符的在这组实验中，我们使用MLH功能作为生成功能描述符，并表明它们可以应用于点云生成，使用DCGAN型网络。我们还提供了一种新的多视图GAN，同时和同步地生成多个视图。我们展示了所生成的形状的渲染点云的定性结果。我们在这里的主要目的是验证MLH描述符的2D网格（和相应的2D CNN）具有足够的几何信息，并有望应用于3D形状生成。我们设计了一个生成网络，它自动照顾的多个视图的同步，通过使用我们的合并技术的多视图鉴别器生成器将潜在噪声作为输入并将其馈送到由转置卷积组成的3个不同生成分支。生成分支都不共享任何权重。不共享任何权重的生成器和具有非交换合并操作的多视图鉴别器的设计在GAN的上下文中甚至比简单分类更重要*GeForce GTX 1080 Ti中批次大小为32时占用的内存以及从[20]中的图7（a）推断的近似值。t对于32的批量和从图7（a）[20]推断的近似值，表5中的网络的活化体积（细节在补充材料中）。单视图网络的激活量（详见补充资料）和GeForce GTX 1080 Ti在批量为32时占用的内存。14Sarkar等人图4：MVDCGAN-用于MLH描述符的多视图DCGAN（顶部）实验中使用的（底部）使用上述架构的3把椅子和2辆汽车的生成形状。（右下）为其中一把椅子生成的描述符的可视化。网络在GAN中，生成器必须产生3个不同的输出作为不同的视图，并且鉴别器必须区分视图。对于生成网络分支，我们使用5个转置卷积块来上采样。对于多个分支，我们使用5个卷积块来下采样。补充材料中提供了网络详细信息。我们使用2层表示来捕获外部的形状轮廓。多视图DCGAN模型连同所生成的形状在图4中示出我们看到生成的3D形状显示出特有的3D特征。在未来的工作中，他们可以探索形状合成应用。6结论和今后的工作在本文中，我们介绍了一种新的3D形状描述符的2D卷积神经网络和一个有效的合并技术，从同一个实例的不同视图的信息合并我们展示了它的优势，在分类精度和内存要求，相比，基于体素的方法。我们的方法是补充细粒度的分析，如视图聚类（例如。[27])以及对分类器进行集成，以进一步提高分类精度。我们的合并也可以用于涉及对齐数据实例的合并的各种现有工作中（例如：[17、28]）。我们还计划在MV-DCGAN上进行详细的工作，使用图像和MLH描述符。我们希望我们的MLH描述符将在未来提供一种替代的3D形状处理方式，并鼓励研究人员研究新的2D CNN来解决与3D数据相关的任务。致谢这项工作部分由BMBF项目EQUIPICS（01IW15003）资助。发生器鉴别器GCNN1DCNN1（重塑）GCNN2DCNNFFCC2GCNN3DCNN3潜变量真/假？用于3D形状处理的15引用1. Achlioptas，P.，迪亚曼蒂岛米利亚卡斯岛Guibas，L.J.：3d点云的表示CoRR abs/1707.02392（2017），http://arxiv.org/abs/1707.023922. Brock，A.，Lim，T.，Ritchie，J.M.，Weston，N.：使用卷积神经网络的生成和判别CoRRabs/1608.04236（2016），http://arxiv.org/abs/1608.042363. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的功能层次结构，准确的对象检测和语义分割. IEEE计算机视觉与模式识别会议（CVPR）（2014）4. Girshick ， R.B. ：快速 R-CNN 。 CoRR abs/1504.08083 （ 2015 ），http://arxiv.org/abs/1504.080835. Gomez-Donoso，F. Garcia-Garcia，A. Garcia-Rodriguez，J. Orts-Escolano，S.，Cazorla，M.：Lonchanet：一种基于切片的cnn架构，用于实时3d对象识别。2017年国际神经网络联合会议（IJCNN）。pp. 412http：//doi.org/10。1109/IJCNN. 2017年。79 658836. He ， K. ， G. ， G. ， Doll'ar ， P. ， Girshi ck ， R. ： Maskr-cnn 。 In ：ComputerVision（ICCV），2017年II nternatonalConferenceon. pp. 2980- 2988年。IEEE（2017）7. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习CoRRabs/1512.03385（2015），http://arxiv.org/abs/1512.033858. Johns，E.，Leutenegger，S.，Davison，A.J.：用于主动多视图识别的图像序列的成对分解。 In ： Computer Vision and Pattern Recog-nition（CVPR），2016IEEEConferenceon. pp. 3813-3822 IEEE（2016）9. 克洛科夫河，Lempitsky，V.：逃离细胞：用于识别3d点云模型的深度kd网络2017 IEEE International Conference on Computer Vision（ICCV）. pp. 863 -872 我的（2017）10. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类在：Pereira，F.，Burges，C.J.C.博图湖温伯格K. Q. （eds. AdvancesinNeuralIinformmationPr oces25，pp. 1097-1105柯兰联营公司（2012），http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf11. 莱迪格角泰斯湖胡萨尔，F.卡瓦列罗，J.， Aitken，A.P.， Tejani，A.，托茨，J.，王志，Shi，W.：使用生成对抗网络的照片逼真的单图像超分辨率。CoRRabs/1609.04802（2016），http://arxiv.org/abs/1609.0480212. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。在：IEEE计算机视觉和图像处理会议论文集中。pp. 343113. Masci，J.，Boscaini，D. Bronstein，M.M.，Vandergheynst，P.：黎曼流形上的测地卷积神经网络在：IEEE 3D Rep-reentaton and Re cognito n（3DR R）研讨会上。pp. 3714. Maturana，D.，Scherer，S.：VoxNet：一个用于实时物体识别的三维卷积神经网络。电影Iros（2015）15. P a th a k，D. ，Krahenbul，P.，别这样，杰，达瑞尔，T.， Efros，A. ：Contextencoders：Feature learning by inpainting（2016）16. Qi，C.R.，Su，H.，Mo K Guibas，L.J.：Pointnet：对点集进行深度学习，用于3D分类和分割。arXiv预印本arXiv：1612.00593（2016）17. Qi，C.R.，Su，H.，Nießner，M. Dai，A.，Yan，M.，Guibas，L.J.：用于三维数据对象分类的体积和多视图 cnn 。 In ： Proceedings of the IEEEconnferenceoncomputtervisionandpatter nrecognition. pp. 564816Sarkar等人18. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434（2015）19. Ren，S.，他，K.，Girshick，R.B.，孙杰：更快的R-CNN：朝向利用区域建议网络的实

下载后可阅读完整内容，剩余1页未读，立即下载