统一的形状表示：形状Unicode对3D形状进行统一编码与学习

195 浏览量更新于2023-10-18 收藏 2.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3790形状Unicode：统一的形状表示Sanjeev Muralikrishnan1公里弗拉基米尔·G 金1马修·费舍尔1悉达多·乔杜里Siddhartha Chaudhuri1，21Adobe Research2印度理工学院孟买摘要3D形状有不同的表示形式，从一组点到一组图像，每个图像都捕捉形状的不同方面我们提出了一个统一的代码为3D形状，被称为形状Unicode，吸收形状线索在这些代表到一个单一的代码，和一个新的框架来学习这样的代码空间的任何3D形状数据集。我们讨论了这个框架作为一个单一的去训练模型的任何输入表示，并证明了学习的代码空间的有效性，将其直接应用于常见的形状分析任务在这项工作中，我们使用三种常见的表示-请注意，虽然我们在训练时使用所有三种表示，但代码可以在测试期间从任何单一表示中导出。我们评估这个代码空间的形状检索，分割和correspondence，并表明，统一的代码比个人表示本身的性能更好。此外，该代码空间与这些任务中的特定于表示的最新技术我们还定性地讨论了在这个空间中的点之间的线性插值，从中间点合成。1. 介绍随着低成本传感设备和3D制作工具的进步，自然获得的和合成尺寸的3D形状的存储库已经稳步增长。这种3D形状数据的涌入带来了形状分析和合成的进步，并导致了存储和表示形状的几种有效方法，例如多边形网格、体素网格、点云、深度图、投影图像和隐式函数。每种表示都最适合特定的任务，但没有一种适合所有这些任务。作为形状数据结构，设计了不同的表示以优化任务，例如高效渲染、交互操作、细节层次检索和功能分析。深度学习的出现有利于通过神经网络进行分析和生成的*通讯作者：samk@adobe.com体素交叉熵倒角距离均方误差图1：我们的Shape Unicode架构概述不同的基本形状表示（底部）-我们表明，这段代码是一个丰富的信息输入，一系列统一的几何处理流水线--网络.此外，真实物体的3D感测增加了获取的容易性和信息的完整性，范围从物体的单个图像或深度图到捕获颜色和几何形状的所有方向的全扫描产品应用和学术研究已经选择了适合每个任务的形状表示，并围绕它们定制了框架。当应用于深度网络时，这已经产生了专门用于每个表示的模块，包括专门的卷积运算，架构，损失函数和训练过程（例如，[20]第23话，我的第一次，年龄[34]，八叉树[26，35]）。这些管道是特定的对于相关的表示和为一种表示开发的技术创新很少会延续到其他表示。因此，分析数据的设计成本在不同的D体素D点D视图二元交叉熵P（Car）=0.9UnicodeUnicodeUnicodeμ，σμ，σE体素E点μ，σE视图3791代表的数量与这种代表的数量成比例虽然表示之间的转换是可能的，但这本身就是一个难题。此外，一些代表只是不太适合给定的任务（例如，如果它们缺少对任务重要特定信息，例如高分辨率细节），则可能是可以获取形状的最自然的形式。在这项工作中，我们解决了这两个挑战-管道的多样性和差分性能-通过提出一个单一的，统一的，非类别特定的编码的3D形状，可以从任何一种基础表示。然后可以在这个公共代码空间上训练统一分析管道。我们表明，这种分析受益于在训练过程中注入代码的不同表示的集体优势：它们优于在单独表示上训练的流水线，并且不管输入表示如何都促进一致的性能。此外，编码是可逆的，并且可以用于翻译和生成。我们的工作受到Hegde等人的启发。[10]，他们训练了一个网络，该网络并行处理单个形状的两种表示（体素网格和多视图图像），并将最终的分类预测与附加层相结合。每个分支拾取在关联表示中最佳捕获的线索，从而提高整体集合的性能类似地，Su et al.[32]结合点云和RGB图像以更好地分割立面和形状。与这些工作相反，我们的方法不假设形状的多个表示在测试时可用：因此，这不是一个基于整体的方法。相反，形状可以以任何支持的表示形式出现，并且仍然可以准确地投影到公共代码空间。由于训练过程的原因，其他表征的强度在这个代码的识别中是我们通过联合训练不同表示的编码器来学习这样的代码空间，以收敛到相同的高维代码，然后由解码器对每个表示进行解码。解码输出上的翻译损失，以及代码上的直接相似性损失，确保了学习的代码从每个表示中吸收显著信息。然后，我们通过训练特定于任务但独立于表示的神经网络来执行形状分类，分割和密集对应虽然我们的方法可以用于任何表示，但在本文中，我们选择了三种常见的输入表示我们的主要贡献是从各种基本表示中学习到的3D形状的统一编码，我们证明了这种编码是：• 比一个人从一个单一的代表那里学到的信息更多，• 在测试时从单个表示计算，以及• 在诸如分类、检索、形状生成、分割和对应性估计的广泛应用中是有用的。这提供了一个表示不变的框架，即使在训练和测试时的表示不同，也能在不同的任务上始终如一地表现良好2. 相关工作我们概述了常见的表示用于形状分析，以及最近的方法，探索结合这些表示。用于3D学习的形状表示。与图像不同，3D形状表示（如网格）缺乏常见的参数化，这使得很难将2D深度学习方法直接早期的方法将输入形状转换为3D体素网格，其可以与2D卷积网络的自然扩展一起使用。现有方法解决分类[38]、分割[22]、注册[40]和生成[37]。由于形状表面通常占据体素的一小部分，因此各种扩展通过直接处理更有效的数据结构（如八叉树）来利用数据稀疏性[26，35，36]。虽然体素网格为学习卷积滤波器提供了域的自然参数化，但它们传统上难以捕捉更精细的细节。多视图形状分析技术表明，许多常见的问题可以通过使用3D模型的2D渲染或投影作为神经网络的输入来解决。这些代表为标准任务启用了新架构：形状分类[34，13]、分割[12]和对应性[11]。也可以使用表面参数化技术来代替投影，以将形状映射到图像[19，30，31，9]。基于图像的形状分析方法能够在更高分辨率的图像中捕获更精细的细节。然而，它们通常是存储器密集型的，因为需要捕获许多视点以用于整体形状理解，并且它们对于3D合成和设计任务不是理想的，因为原生3D形状必须从其图像集合中单独重构。已经提出了基于表面的模型来直接分析点云[23，25]、网格[17]和一般黎曼表面[6，20，2]。基于点的方法便于数据准备，并提供紧凑的表示。因此，它们是常见形状分析任务的热门选择[5，4]。然而，表示几何细节或学习卷积滤波器以检测更精细的特征通常难以使用现有的点架构。表示之间的转换是可能的：例如Girdhar等人[7]链编码器和解码器，以将图像映射到其对应的3D形状。Su等人。[33]使用3D形状相似性来构建嵌入空间，并学习将图像映射到该空间，从而实现跨域3792检索这些转换技术的局限性在于，它们的低维形状代码是从单个表示导出的，因此嵌入没有考虑在替代表示中可能可用的附加信息。混合表示法。有几种方法利用了各种表示的互补性质。例如，Atzmon et al.[1]将点函数映射到体函数以使学习卷积滤波器成为可能，然后将学习的信号投影回点。相反的情况也是可能的：可以使用粗体素网格细分大的点云，然后在每个体素内使用基于点的分析来学习体素CNN中使用的每个体素特征[21]。体积CNN可以通过学习沿着特定维度更粗略采样的各向异性探测内核来利用从图像中获得的特征可以用作基于点的架构的输入[39]。人们可以通过将颜色信息表示为高维空间中的稀疏样本来联合处理颜色信息和点坐标，这是一种使用稀疏双边卷积层进行有效分析的数据结构[32]。这些方法需要衍生新的网络层，并且通常仅适用于某些任务。更一般的元技术简单地聚合来自多个表示[10，29]或多个尺度[41，18]的特征。所有这些方法都要求在测试期间所有表示都可用。相反，我们可以将测试时可用的任何单个表示映射到丰富的信息代码，在该代码上可以训练判别或生成现有的混合技术也集中在一个任务，如基于图像的形状生成或分类。我们证明，我们的形状代码训练与交叉表示重建损失扩展到各种任务，如对应估计和分割，除了分类和生成。3. 方法我们的Shape Unicode模型基于自动编码器架构，其中为所有可能的表示定义了编码器和解码器（参见图1）。在高层次上，我们的方法是围绕两个中心原则设计的：• 每个表示• 在测试时，我们应该能够在没有其他表示的情况下从任何为了实现这些目标，我们增加了一个额外的损失函数，有利于从不同的表示获得的相同形状的代码是相同的。在训练中，我们通过三个可能的解码器中的每一个来馈送每个编码器的输出，迫使任何解码器重建形状，即使它是从不同的表示来编码的这两个损失确保了我们的原则得到满足，并且代码尽可能地提供信息以供参考。我们为所有形状类别训练了一个网络，因此为了支持它们在代码空间中的可分性，我们还构建了一个小层，将代码映射到类并添加分类损失。我们用三种常用的输入形状表示来测试我们的方法：体素二进制占用网格、点云和来自四个视图的多视图图像（在图1中，它们的分支分别为红色、绿色和蓝色）。我们将体素网格表示为323占用值，将点云表示为从对象表面采样的1024个XYZ点，并使用四个灰度128x128图像用于我们的多视图表示。在本节的其余部分中，我们提供了编码器和解码器的详细信息3.1），损失函数（第3.2）和培训程序（第3.3）。3.1. Unicode架构我们对单个编码器和解码器的设计是由变分自动编码器（VAE）方法[16]驱动的也就是说，对于每个表示，相应的编码器预测高斯分布的平均值和标准偏差，高斯分布描述映射到输入形状的代码的小邻域我们使用重新参数化技巧[16]从高斯中采样1024这种方法迫使解码器对小的代码扰动更加鲁棒，并且通常收敛和泛化得更好。然而，请注意，我们没有强加VAE的总体分布约束，因为我们发现它过度约束了我们的优化，并导致嵌入空间中的聚类在训练时，我们在所有输入/输出表示对之间进行转换。从每个表示导出的每个代码被馈送到每个解码器，提供九个编码器-解码器对（三个编码器和三个解码器的叉积）。每个代码都需要在其源表示中重建形状，并在每个输出表示中转换为形状的实例，从而鼓励代码在所有表示中捕获信息。见补充材料的详细描述的架构的编码器和解码器网络的每一个3.2. Unicode损失函数在这里，我们详细介绍了我们用来指导我们的联合Unicode网络的训练损失。设R表示可能的3793表示：R={体素，点云，多视图}。重建损失重建损失鼓励每个解码器输出以匹配每个表示的输入联合多视点云体素网格L重建=ΣΣx∈Ry∈Rwx→yDisty（Dy（Ex（Sx）），Sy），（1）其中对于每对输入（x）和目标（y）表示，形状S从其输入表示Ex（Sx）编码，然后经由Dy解码为目标表示。然后，我们将解码的形状与目标表示中的地面实况形状Sy进行比较。距离函数Disty用于比较重建的和真实的目标形状，因此必须针对每个表示进行不同的定义。我们对体素使用每体素交叉熵，对点云使用倒角距离[5]，对多视图图像使用均方差。其中x/=y的项也被称为平移损失。嵌入损失嵌入损失促使每个编码器生成的嵌入相似。每个编码器Ex的输出是平均值和标准差，我们通过L1损失来约束：独奏图2：上图：每个输入表示到Shape Unicode空间的投影的t-SNE图我们的联合代码空间，由成对代码差异驱动，将输入从多个表示映射到相似点。来自同一类的点具有相同的颜色。下图：用三个独立的自动编码器训练的代码缺乏类似的一致性。重，并保持他们固定的时代。我们特别ΣL嵌入=Σ|第一章（二）|1(2)挑选一个随机的小批量并计算权重wx→ys. t。x∈Ry∈（R\x）分类损失为了进一步帮助学习代码的区分任务，我们鼓励嵌入空间进行结构化，使得不同类别的形状映射到不同的，分离良好的聚类。这是通过添加一个共享的单个全连接层来实现的，该层使用从任何表示派生的代码作为输入。请注意，我们只为这个层使用一组权重，这是在所有表示中共享L分类是跨每个编码器的输出求和的结果交叉熵分类损失。总损失对于单个输入形状，总损失简单地是上述损失的加权和：Ltotal=Lreconstruct+Lembedding+Lclassification（3）然后在小批量形状上对该损失进行平均3.3. Unicode培训自适应损失加权对于用于计算L重建的每对表示，我们规定权重参数wx→y来缩放损失项。这样做是因为不同的表示损失（倒角距离，双零交叉熵和MSE）产生的值相差几个数量级。在每个时期的开始处（即，在整个数据集上运行），我们计算这些wx→y×Lx→y=Lmax，其中Lmax为最大损耗在这9项中的值。随机选择用于自适应加权的所选小批量在训练开始之前，并且在之后不变。我们的联合码空间是1024维的。我们饲料的所有3个代表每个形状在一批。我们使用一个小批量的16个形状，使用Adam opti- mizer [15]，学习率为0。在我们的联合训练和随后的任务级训练期间，除了使用0. 0001补充材料中说明了更多的体系结构和培训细节。4. 结果在本节中，我们提出了我们的形状表示的统一编码的不同评价。首先，我们描述了用于所有实验的训练数据集。然后，我们定性地研究了由三种表示编码器产生的嵌入，并证明了单个代码成功地可逆于任何源表示。我们还表明，代码形成一个合理的紧凑的空间，允许形状之间的插值，与合成的似是而非，新颖的中间体，无论输入表示。最后，我们提出了定量比较几个消融我们的方法，使用分类精度作为评价标准，3794Ric.我们还比较了使用多表示集成[10]和代码关联的替代架构。在下一节中，我们将在标准形状分析任务（分割、对应和检索）的应用背景下对我们的方法进行进一步评估，并表明联合训练的编码在所有这些任务中都有可衡量的改进。数据集。我们使用ShapeNet数据集[3]，使用35763个形状进行训练，5133用于验证，10265用于测试，遵循先前工作中使用的分割[34]。这些形状被分为55类，我们在分类损失中使用这些类别（代码不是特定于类别的）。原始模型存储为多边形网格，我们使用标准工具从每个网格中导出所有三种表示-嵌入相似性。拥有一个联合代码空间，其中多个表示映射到相同的代码，使我们能够为代码可能用于的所有应用程序提供统一的训练管道。给定一个公共的输出表示，我们在这个代码空间上训练的特定于应用程序的模型因此可以在表示中共享。此外，任何测试时表示现在都可以通过幻觉代码来解释缺失的表示。这消除了花费时间为任务搜索完美表示的需要。它还可以在地面实况出现在混合表示中时进行训练（例如，如果训练数据是从多个源编译的），或者如果测试时的表示不同于训练数据。图2显示了嵌入空间的t-SNE图，该嵌入空间是在ShapeNet Test数据集上计算的，该数据集包含10265个形状，针对三种输入表示中的每一种。图中的每个2D点根据55个类别指标之一进行着色我们观察到类级别的集群是格式良好的，并且与其他类分离，而嵌入对于所有三种表示（顶行，联合）保持相似。在相反，每个输入表示单独训练的代码（即：单独训练每个编码器/解码器对）不具有这种一致性（底行，solo）。翻译与重建通过在重建/平移设置中训练我们的模型，我们确保每个表示除了使代码空间丰富之外在信息中，我们训练的模型可以直接用于表示间翻译。虽然一些转换是简单的，例如3D到2D表示或精细到粗略表示，但我们的模型还提供了非平凡的体素→点云，多视图→点云和多视图→体素转换。图3显示了一些示例重建和转换结果（更多示例请参见参考资料）。我们观察到的一个趋势是，体素的平移略低源目标MVVoxPCMVVoxPC图3：三种测试形状的形状重建和所有三种表示之间的转换。VoxPCMV图4：形状生成：我们线性插值之间的源形状的代码（最左）和目标形状的代码（最右），并解码中间的新代码选择的表示。解码的其他两个代表性所示的补充材料。翻译质量优于其他表述;这是体素从联合训练中获益最多的事实的前兆，如后面的讨论所示。插值和生成。即使我们的模型只是变分自动编码器的一半-它没有施加全局分布约束-各种损失导致它学习一个相当紧凑的分布，但具有良好的分离类。因此，我们可以尝试在这个空间中的一些形状插值任务，通过线性插值之间的源和目标形状的代码，并解码中间代码到任何所需的representation。这是相当成功的：我们在图4中示出了三种不同表示的三个示例。在柔软的材料中，我们表明，图中的每个中间代码也可以成功地生成两个剩余的表示。我们观察到，这些新的代码顺利地影响几何和拓扑变化，如产生椅子的武器。3795消融术。我们表明，我们的联合训练模型的不同消融导致性能降低。作为这些消融的典型任务，我们选择将10265个测试形状分类为55个ShapeNet类。在训练编码器/解码器之后，我们冻结它们并在它们之上训练一个简单的分类器（大小为512，256和55的3个全连接层分类器在所有输入表示中共享权重，因为它在统一的代码空间上操作，除了下面的前两个消融，其中代码在表示中不期望是相似的，并且共享权重将是不公平的缺点。我们进行的消融术包括：Solo Training（单独训练）：每个输入表示的编码器/解码器对都是独立训练的，没有任何交叉表示损失。没有嵌入损失的联合训练：没有L1损失的联合训练迫使不同编码器为相同形状生成的代码相同。没有翻译损失：联合训练没有transla- tion损失（重建损失时，编码器和解码器是不同的表示）。无分类损失：联合训练无分类损失。（* 3个独立分类器）ShapeNet测试形状的每个输入表示（多视图、点云或体素网格）的结果见表1。可以观察到，具有所有损失的联合训练在此度量下产生最具信息量的代码，即使后者具有专用分类器，也优于独立训练的自动编码器此表中的一个关键要点是，Shape Unicode不成比例地提高了作为体素网格输入的形状分类，提高了1.72%。多视图和点云输入的性能然而，表现不佳的表示通过被迫模仿高性能表示的代码而获得免费提升值得注意的是，在测试时只给网络一个表示，所以用我们的方法可以从弱表示中得到更好的代码我们将在形状检索实验中看到这种模式代码融合替代方案。我们进一步测试现有的策略，使用合奏的多个表示。这些技术假设所有后者在测试时可用加权融合[10]通过采用分类概率的加权平均值和学习的权重来组合基于几种表示的预测。 Codeconcatenation[21，38，29]连接代码输出多视图点云体素形状Unicode83.3884.2382.48单人训练83.5384.0780.76无嵌入式81.6181.7781.11无翻译81.7282.3679.01W/O分类81.9182.2881.67表1：我们的方法与关闭不同损失项的消融的ShapeNet分类准确度。单独训练意味着所有的联合，交叉代表性的损失被关闭，个别的自动编码器被独立训练。在冻结代码后训练的简单分类器在所有三个输入表示除了在前两次消融中（标记为“0”），我们训练三个独立的分类器，以免不公平地歧视。利用他们。多-视图点云体素形状Unicode83.3884.2382.48加权融合81.54码级联81.53表2：在ShapeNet分类上与代码融合替代方案的比较。由于融合将所有3个表示组合为单个预测，因此仅为这些行计算一个值在组合代码的顶部。我们在上述集成策略中重用了我们的编码器/解码器架构，因此基本架构差异不是一个因素。ShapeNet分类结果见表2。我们的模型执行代码融合策略的一个显着的Margin，同时仍然采用一个单一的共享分类网络，而不需要在预测过程中的所有表示。我们发现，自适应损失加权在组合多个表示时起着重要作用，因为损失在幅度上是高度不对称的。5. 应用在本节中，我们将介绍基于Shape Unicode构建的统一管道，用于三个基本的形状分析任务：分割和标记、密集对应和检索。对于每个任务，我们构建一个框架来摄取从任何表示生成的代码，并以相同的方式处理它们。请注意，生成代码的编码器在执行这些任务时会被冻结，不会进一步调优：流水线在单个标准代码上操作。我们的目标是证明：1. 即使使用相对简单的编码器/解码器架构和粗略的输入表示（仅323vox），通过每个表示3796三重损失Q描述符P描述符N描述符共享权重共享权重描述符描述符网络网络网络-ve {x，y，z}×341Unicode+ve {x，y，z}×341Unicode查询{x，y，z}×341Unicode图5：形状分割架构。表示不可知的，每标签解码器将输入Unicode映射到形状部件的点云。与最新技术水平相当吻合，并且完全是不可知论的。2. 联合训练的代码在训练期间通过多个表示来丰富，使得统一的流水线能够优于为每个单独的表示单独开发的可比架构。3. 使用我们的通用代码可以均衡所有任务的输入表示的性能。5.1. 形状分割我们在ShapeNet上执行形状分割，并将其准确性与最先进的方法进行比较。地面实况标记为点云。现有方法已经找到了将体素、网格或多视图解决方案与这些点（例如，通过表面投影）。然而，使用ShapeUnicode，我们可以直接将任何未分割的输入表示映射到分割的点云，使用摄取公共代码的单个分割解码器。由于我们的形状代码描述了整个形状，因此我们需要从中导出每个点的标签。我们通过具有相同架构的L个部分解码器传递预先训练的形状代码（无论是哪个编码器产生的），其中L是形状类中的地面真实部分标签的数量（图5）。每个部分解码器是一系列完全连接的层，将代码映射到描述该部分的3025个点。我们用倒角距离损失[5] w.r.t.训练解码器地面实况片段。由于这些具有不同的基数，我们使用最近邻查找将输出映射到查询和以前的方法一样，我们在这个实验中为每个形状类别独立训练。平均分割精度WUNet [22]90.24[第12话]89.00联合86.7387.2686.79独奏85.7385.05–输入→点云体素多视图表3：总体ShapeNet分割精度。图6：形状对应训练设置。两个对应的点和一个不匹配的点，其坐标与它们的父形状的单节点相关联，通过网络独立地映射到描述符，随后是三重丢失。我们在表3中报告了分割精度。我们的结果（“联合”行）与最新技术水平相当吻合，并且一致性足以完全与输入表示无关。虽然我们毫无疑问地利用了形状的一致对齐，但我们没有花太多时间优化解码器或使用像CRF这样的专门层。作为一个消融，我们显示的结果从“独奏”的代码训练个人表示。对于点云，我们使用相同的设置。对于体素网格，我们不假设我们可以自由地将其转换为不同的表示。相反，我们使用的部分解码器，每个输出一个323体素网格的一部分。标记的体素质心与GT点云一致对于多视图，由于2D→3D投影是困难的，因此我们不能简单地计算每个点的精度：因此我们省略了它。我们的Unicode方法使得在一个单一的、一致的、训练和测试框架中容纳多视图等输入表示成为可能在两者都存在的情况下，联合训练的代码比单独的代码产生1-2%的改进。补充材料中提供了每类的准确度。5.2. 密集形状对应在这个实验中，我们使用形状代码来估计密集点对应。同样，由于我们的代码不能提供精确的每点信息，我们需要一个新的网络来进行对应评估。该网络摄取形状上一个点的x，y，z坐标（重复几次以修复维度不平衡），以及unicode，并输出16-D点描述符（图6）。这个点描述符可以稍后用于比较形状上的点，并在它们之间形成对应关系。我们使用两个对应点和一个非对应点的三元组学习点描述符[28]，使用半硬否定挖掘选择。我们对体素和点云输入这样做，因为地面实况是以点集的形式存在的。对于点云输入，x、y、z只是点坐标，而对于体素，它们是包含该点的网格单元的索引。我们使用ShapeNet上的非刚性对齐获得的近似对应来训练这个模型[11]。第一部分第二部分第三部分第L段Unicode3797自行车椅直升机飞机图 7 ：密集对应：在 BHCP 数据集上使用 ShapeUnicode、solo代码和LMVCNN的地面实况点（x轴）与准确度（y轴）的欧几里得距离[14]。请注意，LMVCNN是旋转不变的，并且不利用数据集对齐的事实。因此，它仅作为参考提供。我们在BHCP基准测试[14]上进行测试，其中包含100个形状，每个形状都有飞机，自行车，椅子和直升机，并带有手动注释的关键点。我们训练网络来独立地为每个类别提取点描述符。请注意，我们的训练数据不包括直升机，因此我们在这种情况下使用在飞机上训练的模型[11]。由于我们的Unicode模型是在对齐+归一化的ShapeNet数据集上训练的，并且为了评估我们的结果，我们使用标准标准，报告每个距离阈值处落在地面实况对应内的点的分数（图7）。请注意，当代码联合训练（红色）时，我们的方法在任何一种表示作为输入时都表现良好，而对于仅在一种表示（绿色）上训练的代码，结果会降低LMVCNN [11]的可比方法表现更差，但这是一个不公平的比较，仅供参考，因为LMVCNN是旋转不变的，而Shape Unicode不是。还请注意，我们的模型，如MVCNN，推广到看不见的直升机类。5.3. 形状检索我们使用我们的联合代码执行形状检索，并根据作为SHREC'17检索挑战的一部分提出的方法对其进行评估我们使用第4节中描述然后通过选择与查询形状相同的预测类的其他形状来对查询形状执行检索然后，该选择通过由输出类得分指示的类预测的置信度来我们使用基准测试软件[27]中实现的F1评分进行评估，并在表中列出结果4. 我们计算该指标的微观和宏观平均版本，前者占班级人口规模，后者没有任何权重。结果表4：形状恢复与SHREC'17中方法的比较在表4中，通过Micro F1进行排序，通过Macro F1解决关系。我们的方法（联合）实现可比的结果与其他方法，与任何输入表示。与其他情况一样，独立训练每个表示（Solo）会明显损害体素网格的性能。6. 结论我们已经提出了一个框架，用于生成一个联合潜在空间的3D形状，可以从任何输入表示编码，并解码到另一个representation或直接用于任务，如形状分类，检索，对应估计，或分割。我们证明，来自多个表示的代码未来的技术可以建立在我们的框架，以创造代表不变的方法。这将减少为任务寻找完美表示所花费的时间，当地面真值混合表示时（这通常发生在从多个来源借用时），这将有助于训练，并且当测试时的表示与训练数据不同时虽然我们在这项工作中只探索了体素，点云和多视图渲染，但很自然地使用诸如地图集[8]，基于块的八叉树[36]或表面[17]的广告表示来进一步增加潜在代码的表示能力和可推广性。我们的核心架构也是为编码整个形状而开发的。虽然我们提供了一种将其解码为更详细的逐点信号的方法，但创建用于导出表面特征的通用代码的工具将是有趣的，这些代码可以更好地捕获精细尺度的几何细节。关节形状UnicodeSolo表示码LMVCNN体素点云Micro F1宏F1RotationNet0.800.59礼物0.770.58ReVGG0.770.52MVCNN0.760.58PC接头0.730.50PC Solo0.730.49MV关节0.720.48MV Solo0.720.48dLAN0.710.51Vox关节0.710.48MV FusionNet0.690.48Vox Solo0.680.46CMCNN0.480.17ZFDR0.280.20体素网0.250.263798引用[1] M. Atzmon，H. Maron和Y.利普曼基于扩展算子的点卷积神经网络 ACM Trans. Graph. ，37（4）：71：1[2] D. Boscaini，J. Masci、E. Rodoi a`和M. 布朗斯坦用各向异性卷积神经网络学习形状对应。在NIPS，2016年。[3]A. X. 张氏T.A. 芬克豪泽湖J. 吉巴斯山口汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. 苏J. 肖湖，加-地Yi和F.Yu. ShapeNet：信息丰富的3D模型存储库。CoRR，abs/1512.03012，2015。[4] A. Dai ， A. X. 张， M 。 Savva ， M. Halber ， T.Funkhouser和M.尼斯纳ScanNet：室内场景的丰富注释的3D再现。在CVPR，2017年。[5] H.范，H. Su和L.吉巴斯一种从单幅图像重建三维物体的点集生成网络。在CVPR，2017年。[6] M.是的，J。E. Lenssen，F.Weichert和H.穆勒河SplineCNN：使用连续B样条内核的快速几何深度学习。在CVPR，2018年。[7] R. Girdhar，D. F. Fouhey，M. Rodriguez和A.古普塔。学习对象的可预测和生成矢量表示。在ECCV，2016年。[8] T. Groueix，M. 费希尔金湾，澳-地 C. 罗素和M. 奥布里Atlasnet：Apapier-m che´approachtolearning3dsurface generation.CVPR，2018年。[9] H. B. Hamu，H.马龙岛凯祖雷尔湾Avineri和Y.利普曼。多图表生成曲面建模。在SIG-GRAPH亚洲，2018年。[10] V. Hegde和R. B.扎德FusionNet：使用多种数据表示的3D对象分类。CoRR，abs/1607.05695，2016。[11] H. Huang，E. Kalogerakis，S. Chaudhuri，D. Ceylan，V.G. Kim和E.好极了利用多视图卷积网络从部分对应关系中ACM事务处理图表，37（1），2018.[12] E. Kalogerakis，M.Averkiou，S.Maji和S.Chaudhuri 使用投影卷积网络进行3D形状分割。在CVPR，2017年。[13] A. 金崎RotationNet：使用无监督视点估计学习对象分类。在CVPR，2018年。[14] V. G.金，W。Li，N. J. Mitra，S. Chaudhuri、S. DiVerdi和T.放克豪瑟从大量3D形状中学习基于零件的模板InSIGGRAPH，2013.[15] D. P. Kingma和J. BA. Adam：随机最佳化的方法。2015年，国际会议[16] D. P.Kingma和M.威林自动编码变分贝叶斯。见ICLR，2014年。[17] I. Kostrikov，Z. Jiang，中国粘蝇D. Panozzo，D. Zorin和J.布鲁娜地面网络。在CVPR，2018年。[18] J. Li，B. M. Chen和G.李熙SO-Net：用于点云分析的自组织网络。在CVPR，2018年。[19] H. Maron，M.Galun，N.Aigerman，M.特鲁普迪姆，E. Yumer，V. G. Kim和Y.利普曼通过无缝复曲面覆盖的曲面上的卷积神经网络。InSIG- GRAPH，2017.[20] J. Masci，D. Boscaini，M. Bronstein和P.范德海恩斯黎曼流形上的测地线卷积神经网络。在ICCV研讨会，2015年。[21] D. Maturana和S.谢勒VoxNet：用于实时对象识别的3D卷积神经网络。InIROS，2015.[22] S. Muralikrishnan，V.G. Kim和S.Chaudhuri Tags2Parts：从形状标签中发现语义区域。在CVPR，2018年。[23] C. R. Qi，H. Su，K. Mo和L.吉巴斯PointNet：用于3D分类和分割的点集在CVPR，2017年。[24] C. R. Qi，H.苏，M。尼斯纳A.戴，M.Yan和L.Guibas用于3D数据对象分类的体积和多视图CNN在CVPR，2016年。[25] C. R.齐湖，加-地Yi，H. Su和L.吉巴斯PointNet++：度量空间中点集的深度层次特征学习。在NIPS，2017年。[26] G. Riegler，A. O. Ulusoy和A.盖革OctNet：以高分辨率学习深度3D表示在CVPR，2017年。[27]M. Savva，F.Yu，H.Su，A.Kanezaki，T.富鲁亚河大渊，Z. 周河，巴西-地Yu，S.Bai，X.Bai，M.Aono，A.辰间S. Thermos，A.阿克塞诺普洛斯湾T. 帕帕多普洛斯山口达拉斯X.邓氏Z.利安湾，澳-地Li，H. Johan，Y. Lu和S. MK.ShapeNet Core55中的大规模三维形状检索。2017年，欧洲3D对象检索图形研讨会[28] F. Schroff，D. Kalenichenko和J.菲尔宾Facenet：用于人脸识别和聚类的统一嵌入。CoRR，2015年。[29] D.申角，澳-地C. Fowlkes和D.霍伊姆像素、体素和视图：单视图三维物体形状预测的形状表示研究。在CVPR，2018年。[30] A. Sinha，J. Bai，and K. Ramani使用几何图像深度学习3d形状表面。在CVPR，2016年。[31] A.辛哈A. Unmesh，Q. Huang和K. Ramani SurfNet：使用深度残差网络生成3D形状表面。在CVPR，2017年。[32] H. Su，V. Jampani，D.孙习Maji、E. Kalogerakis，M.-H. Yang和J.考茨SPLATNet：用于点云处理的稀疏网格网络。在CVPR，2018年。[33] H. Su，Y. Li，C. Qi，N. Fish，D. Cohen-Or和L. Guibas通过 CNN 图像纯化的形状和图像的联合嵌入。SIGGRAPHAsia，2015.[34] H. Su，S. Maji、E. Kalogerakis和E. G.学习米勒。用于3D形状识别的多视图卷积神经网络。在ICCV，2015年。[35] P. - S. Wang，Y.刘玉- X.郭角Y. Sun和X.童O-CNN：用于 3D 形状分析的基于八叉树的卷积神经网络。InSIGGRAPH，2017.[36] P. - S.王角Y.太阳，Y.刘，和X。童自适应O-CNN：3D形状的基于面片的深度表示。SIGGRAPHAsia，2018.[37] J.Wu，C. Zhang，T.薛，W. T. Freeman和J. B.特伦鲍姆。通过3D生成对抗建模学习对象形状的概率潜在空间。在NIPS，2016年。[38] Z. Wu，S. Song，中国黑杨A.科斯拉湖Zhang，X. Tang和J.萧3D ShapeNets：体积形状的深度表示CVPR，2015。3799[39] D. Xu，L. Anguelov和A.贾恩。PointFusion：用于3D包围盒估计的深度传感器融合。在CVPR，2018年。[40] A. Zeng，S. 宋，M。尼斯纳湾费舍尔，J.肖，和T. 放克豪瑟3DMatch：从RGB-D重建中学习局部几何在CVPR，2017年。[41] Z. Zhu，X. Wang，S.拜角，加-地么，还有X。柏使用自动编码器进行3D形状检索的深度学习表示。神经计算，204：41

下载后可阅读完整内容，剩余1页未读，立即下载