向量神经元：构建点云处理中的旋转不变性和等变性的通用框架

37 浏览量更新于2023-10-14 收藏 944KB PDF 举报

点云处理

网络架构

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12200向量神经元：SO（3）-等变网络的一般框架邓丛月1或连环画2岳起段1阿德里安·波伦纳德1安德烈·塔利亚萨奇3、4列奥尼达斯·吉巴斯11斯坦福大学2英伟达3谷歌研究4多伦多大学摘要旋转组的不变性和等变性在点云的3D深度学习社区中得到了广泛的讨论。然而，大多数提出的方法要么使用复杂的数学工具，可能会限制其可访问性，或绑定到特定的输入数据类型和网络体系结构。在本文中，我们介绍了一个通用的框架，建立在我们所谓的向量神经元表示创建SO（3）-等变神经网络的点云处理。将神经元从1D标量扩展到3D向量，我们的向量神经元实现了SO（3）动作到潜在空间的简单映射，从而提供了用于在常见神经操作中构建等方差的框架-由于它们的简单性，向量神经元是通用的，正如我们所展示的，可以被纳入不同的网络架构骨干，使他们能够处理任意姿势的几何输入尽管它的简单性，我们的方法在准确性和泛化方面与其他更复杂和特殊的最先进的方法在分类和分割任务上表现得相当好。我们还首次展示了一个旋转等价的重建网络。源代码可在https://github.com/FlyingGiraffe/vnn上获得。1. 介绍随着低成本深度传感器的普及，近年来在3D数据上的学习已经取得了快速进展。特别感兴趣的是点云网络，例如Point-Net [27]或ACNe [33]，它们通过引入顺序不变和/或顺序等变层完全尊重固有的集合对称性-点集不是有序的。然而，还有其他重要的对称性，在点云处理的上下文中没有得到很好的解决，3D旋转就是一个很好的例子。考虑一个场景，其中一个人使用他们的配备LIDAR的电话扫描对象以检索类似对象。显然，全局对象姿态不应影响查询结果。Point- Net使用空间Transformer层[16]，它只实现图1：通过将潜在表示从标量条目的向量提升到3D点的向量（即，矩阵），我们促进了允许实现完全等变点云网络的简单旋转等变工具箱的创建近似的姿态不变性，同时还需要在训练时进行大量的增强。为了避免使用所有可能的旋转进行穷举数据扩充，需要与阶和SO（3）对称性等变的网络层。最近，已经引入了两种方法来解决该设置：张量场网络[35]和SE（3）-变压器[14]。虽然通过构造来保证等方差，但两种框架都涉及复杂的公式并且难以并入现有管道中，因为它们受限于回旋并且依赖于相邻点的相对位置在这项工作中，我们通过提出一个简单，轻量级的框架来构建SO（3）等变和不变的点云网络来解决这些问题。在我们的框架中的一个核心成分是一个向量神经元（VN）表示，扩展- ING经典的标量神经元的3D向量。因此，而不是潜在的向量表示，可以被视为有序序列的标量，我们部署潜在的矩阵表示，可以被视为（有序）序列的3-向量。这样的表示支持直接映射-12201图2：线性层-我们扩展深度网络以允许将应用于输入点云的旋转ping到中间层。这与基于维格纳D矩阵的更复杂的解决方案形成对比[8]。VN表示的另一个吸引人的特性是它们通过构造保持与线性层等价。构建完全等变网络的挑战在于非线性激活。特别是，标准的神经元激活函数（如ReLU）不会与旋转操作交换。在这项工作中的一个关键贡献是一个3Dgeneralization的经典激活功能，通过实施他们通过一个学习的方向。例如，当应用于向量神经元时，标准的固定方向ReLU激活将简单地截断指向其相反方向的半平面。相反，以线性数据依赖的方式动态预测我们还提供了一个不变的池化操作以及规范化层，这使得我们的框架与各种点云网络骨干兼容为了证明其多功能性和效率，我们实现了两种流行架构的矢量神经元版本：PointNet和DGCNN，并在三个不同的下游任务上进行了测试：分类（置换不变和旋转不变）、分割（置换等变和旋转不变）和重构（编码器侧的旋转等变和解码器侧的旋转不变）。尽管它的简单性和轻量级的架构，在所有的任务，我们的VN实现了最高的性能测试时，随机 domly 旋转的形状相比，其他equivariant的architectures，并显着提高性能相比，增强诱导的等方差方法。总而言之，我们的主要贡献是：• 我们提出了一个新的通用框架，用于构建SO（3）-等变点云网络。• 我们的构建块是轻量级的学习参数的数量，伯方面，可以很容易地纳入现有的网络架构。• 我们支持各种学习任务，特别是我们是第一个展示用于3D重建的3D等变网络的人。• 当对分类和分割进行评估时，我们流行的非等变架构的VN版本实现了最先进的性能。2. 相关工作经典点云深度学习架构（如PointNet [27]，Point-Net++ [28] ， DGCNN [38] ， PCNN [2] ， PointCNN [21]（以及许多其他的）已经驱动了对旋转不变和等变设计的兴趣。近年来，用于几何处理的旋转不变和等变深度学习领域得到了快速发展。在下文中，我们简要回顾实现不变性和等变性的方法，包括经由姿态估计实现等变性的那些方法。旋转不变方法。旋转不变性是形状分类或分割等任务的理想属性。已经提出了许多旋转不变架构[22，26，6，43，45，19，46，29]来解决这些问题。问题.例如，[6，43，45，19]引入了巧妙设计的旋转不变运算。GC-Conv [45]依赖于基于PCA的多尺度参考帧。RI-框架[19]和LGR-Net [46]将局部不变信息与全局上下文配对，其中一些与LGR-Net[46]除点坐标外，还使用曲面法线。SFCNN [29]通过将输入点云映射到球体并在球体上执行操作，提出了一种类似于多视图的方法。其他作品，如[22，26]，依赖于更有原则的方法，从等价的深度学习中借用工具旋转等变方法。最近，已经出现了旋转等效结构整个工作都建立在SO（3）表示的理论上[35，17，12，39，1，32，14，25]-这些工作中的可操纵核基是在给定其输入参数的旋转的情况下在函数空间通过这些卷积计算的特征继承了这种等变行为。对象在欧几里德空间中的旋转引起特征空间中的特征的旋转我们称[18]对于可操纵内核的一般理论。其他作品如EMVnet[13]考虑了基于网格渲染的形状的基于多视图图像的表示。在点云网络的背景下，文献[11]研究了旋转等方差的普适性。经由姿势估计的等方差。Qi等人。[27]通过对象姿态估计分解出SO（3）变换来实现近似姿态等方差。文献中的大多数作品研究实例级姿态估计，其中3D CAD模型的地面实况规范姿态是基于实例12202∈∈∈···∈X {···} ∈--V {···} ∈i=1∈对应于输入点云的els可用[4]。最近Wang et al.[37]引入了类别级姿态估计，并且还提出了其对铰接对象的扩展[20]。虽然这两种方法[37，20]都需要明确的2D到3D监督，但通过借用变换自动编码器[15，30，40，10]的想法，可以放松监督。然而，虽然Sun et al.[34]以完全无监督的方式学习类别级以及多类别姿势估计，底层的等价主干[33]仅通过增强而等变。3. 方法我们介绍了向量神经元网络（VNN），这是对经典ReLU网络的直接扩展，通过构造提供SO（3）等方差。标准人工神经网络中的神经元是从标量z构建R.当堆叠到有序列表中时，这些神经元形成C（d）维潜在特征z=[z1，z2，· · ·，zC（d）]∈RC（d），其中（d）索引层深度1。但是，当处理嵌入在R3中的数据（如3D）时点云，实现应用于这些矢量隐藏层上的输入形状的SO（3）变换的效果并不明显。特别是，在这里，我们感兴趣的是构造旋转等变可学习层，即层与旋转组的动作交换。为此，我们提出这导致向量神经元（矩阵）的列表V=[v1，v2，v 3]。，vC]RC×3。类似于标准的潜在表示，这个矢量列表功能可以用于编码整个3D形状，它的一部分，或单个点。特别地，当表示N个点的（无顺序）集合时=x1，x2，，xN在点云中，我们可以考虑N个这样的向量列表特征的集合图3：非线性-我们的非线性通过作用于向量而不是标量输入来推广ReLU，并且相对于学习方向k是参数化的：（左）当输入特征q位于由k定义的半空间中时，特征保持不变;（右）当输入特征q位于由k定义的半空间中时，该半空间中的特征分量被裁剪。参见等式6。在标准点云网络架构中，我们通过线性映射（第3.1节）和每个神经元非线性（第3.2节）的组合，按照传统设计构建VN层。我们还引入了等价池（第3.3节）和归一化层（第3.4节）。利用这些构建块，我们能够等效地集成各种各样的复杂神经网络，包括最基本的VN多层感知器（VN-MLP）作为交替的线性和非线性层的序列3.1. 线性层我们首先将等式1中引入的映射f实现为线性算子-神经网络的基本模块。给定一个权重矩阵W∈RC′×C，我们定义一个作用于向量列表特征V∈V ∈RN×C×3的线性运算flin（·;W）如下：=V1，V2，，VNRN×C×3。类似于标准神经网络，潜在通道的数量C（d）可以V′=flin（V;W）=WV∈RC′×3.（三）通过映射在层之间改变：V（d+1）=f（V（d）;θ）：RN×C（d）×3→RN×C（d+1）×3，（1）其中θ表示可学习参数。使用这种表示，旋转的动作易于实现，因为它涉及标准旋转矩阵的应用严格地说，我们要求映射满足旋转等变性，即对于任何旋转矩阵R∈SO（3）：f（V;R;θ）=f（V;θ）R，（2）其中，我们将旋转矩阵对集合的应用解释为VR={ViR}N . 促进等变1为了便于标记，在下文中，每当从上下文中清楚时，我们将移除层索引d请记住，我们介绍的操作是逐层的。我们验证了旋转矩阵RSO（3）与该线性层交换：flin（VR;W）=WVR=flin（V;W）R=V′R，（4）从而产生期望的等方差特性。请注意，我们省略了一个偏差项，作为一个常数向量的添加，这将干扰等方差。此外，请注意，虽然这一层是SO（3）等变的，但我们可以通过将V以原点为中心来实现SE（3）最后，取决于设置，W可以或可以不跨V的元件V共享。3.2. 非线性层每个神经元的非线性是神经网络表示能力的关键。从最近的文献中可以明显看出，分割输入域的函数特别有用12203K ∈V ∈c=1∥ ∥∥ ∥∈⟨ ⟩ ⟨⟩--V图4：非线性层-分成两个半空间并将它们不同地映射（例如，ReLU、泄漏ReLU、ELU等）。在VN的情况下，需要这些非线性的3D版本V′=fReLU（V）然而，发送到固定帧（即，不依赖于输入姿态的姿态），如标准坐标系，将违反等方差。相反，我们建议从输入向量列表特征动态预测方向。然后，我们通过截断指向学习方向的负半空间的向量的部分来概括经典的ReLU。更正式地说，给定输入向量列表特征V∈RC×3，对于每个输出向量神经元v′∈V′，我们学习两个权重矩阵W∈R1×C和U∈R1×C，将输入特征V线性映射到特征q∈R1×3和方向k∈R1×3：q= W V， k= U V。（五）然后，我们将输出VN定义为：®图5：归一化(Top)经典标量神经元;（底部）向量神经元，批量归一化只能在向量范数上进行，因为批量内的特征来自不同的姿态。3.3. 池化层池化在聚合局部/全局邻域信息时被广泛使用，无论是在空间上（例如，在空间上）还是在空间上（例如，在空间上）。Point- Net++）或通过特征相似性（例如，DGCNN）。虽然平均池是一个线性操作，尊重旋转equivariance，我们还定义了一个VN最大池层作为一个计数器的一部分，经典的最大池标量。对于全局池，我们给出一组向量列表RN×C×3。我们学习数据依赖方向RN×C×3的元素信号。类似于3.2节，这些方向通过应用权重矩阵来获得W∈RC×C对每个Vn∈ V：v′=q¨∂if ∠q，k∠0（六）K={WVn}、（7）q q，kkKk否则，n=1然后计算V的元素，最好与得到输出向量列表：fReLU（V）=[v′]C2。K并选择它作为我们的全局功能：对于每个通道如图3所示，q可以分解为两个分量：q和q，分别与k平行和正交。类似于标准标量ReLU，我们通过以下方式沿方向k将非线性函数应用于q：c∈[C]，fMAX（V）[c]=Vn*[c]（8）其中n*（c）=arg max。（九）n将q削到零，同时保持q不变。其他大小写分离函数的类型（例如leaky-ReLU）直接遵循该定义。我们在补充材料中讨论这些和其他类型的非线性。很容易验证fReLU是旋转等变的。特别地，q和k都是V的线性映射，因此与（4）中讨论的旋转矩阵可交换。此外，第二种情况下的内积项将抵消正交矩阵qR，kR=q，k，从而得到k的标量乘法，这也是等变的。2在实践中，当计算单位方向向量k/k时，我们在分母中使用小余量ε来实现k/（k+ε），以避免在原点其中，Vn[c]表示矢量信道vcVn。类似地，我们可以在本地（local）聚合信息池化）通过将k个最近的邻居分组在其中并对每个组单独地执行上述池化3.4. 归一化层规范化通常会带来显著的性能改进。层[3]和实例归一化[36]是预采样完成的（后者也是每个通道），因此可以简单地推广到VN网络，其中分布相对于R3中的向量分布进行归一化。N12204b=1∈全局平均值V：=1nVn∈RC×3且运行B b=1b=1b bNb[c]批量归一化。与其他形式的正常-批量规范化聚合所有每个元素由c在 catenatiΣng它的特征Vn∈RC×3N批量样品。虽然技术上可行，但在上下文中在旋转等变网络中，对任意旋转的输入进行平均不一定是有意义的。例如，对在相反方向上旋转的两个输入特征求平均值将使它们归零，而不是以规范姿势产生该特征。相反，我们通过规范化向量列表特征的2-范数来将批量规范化应用于向量列表特征的不变给定一批 B 个向量列表特征 {Vb}B ，其中每个Vb∈RC×3，我们的批归一化定义为：Nb= ElementwiseNorm（Vb）∈RN×1（10）{N ′}B=批次标准。{Nb}BΣ（11）通过具有目标改变数目的向量神经元MLPnelC′=3：Tn：=VN-MLP（[Vn，V]）（14）最后，我们通过以下方式定义我们的不变层VN-In（Vn）：=VnTn。（十五）4. 网络架构我们现在展示了如何将向量神经元插入两种广泛使用的3D学习架构PointNet [27]和DGCNN [38]。这两个主干代表了点云网络的丰富性，因为PointNet没有卷积，DGCNN包含卷积，但消息传递是在动态图上进行的，其边不直接嵌入R3中。正如我们接下来展示的，V′[c]=V[c]Nb′[c]，c∈[C]，（12）其中Vb′[c]，Vb[c]是矢量信道s，Nb′[c]，Nb[c]是它们的标量2-范数，ElementWiseNorm（Vb）计算每个矢量信道vc=Vb[c]∈Vb的2-范数.3.5.不变层一般不变的架构是由equivariant层不变的。我们现在介绍我们的不变层，它可以根据需要附加到等变VN层的输出。旋转不变网络对于分类和分割任务都是必不可少的，其中对象或其部分的身份应该对姿势不变。我们的方法的关键是这样的思想，即等变信号V∈RC×3与等变信号T∈RC′×3的转置的乘积是旋转不变的：（V R）（T R）= V RRT = V T。（十三）注意，（13）的特定情况是两个向量的内积，特别地，等变向量特征的范数是旋转不变的。我们可以从向量列表中计算出一个不变特征V∈RC×3为Gram矩阵VV。然而，这将VN网络很好地适应这些骨干网，而先前的基于卷积的方法，如TFN [35]和EGCL[31] I'm sorry.为了使概括的容易性清楚，在下文中，我们将通过使用“VN”前缀来对第3VN-DGCNN。DGCNN通过计算相邻边缘特征e′nm，然后是局部最大池化来执行置换等变边缘卷积e′nm= ReLU（Θ（xm−xn）+ Φxn）（16）x′n=池m：（n，m）∈E（e′nm），（17）其中XnR3是每点特征，并且Θ、Φ是可学习的权重矩阵。我们的VN-DGCNN需要直接修改：En′m=VN-ReLU（Θ（Vm−Vn）+ΦVn）（18）Vn′=VN-Pool m：（n，m）∈E（En′m）（19）使用我们的向量列表表示Vn∈ RC×3。VN-PointNet。 PointNet近似于置换对称度量函数使用x′=Poolxn∈X（h（x1），· · ·，h（xN）），（20）其中h对于所有xn都是相同的。它的VN版本写为′ ′导致了很大的O（C2）存储复杂度。我们还可以考虑取V的每行的范数，但这将导致行之间的相对方向信息的丢失。相反，我们提出了一个可扩展的解决方案，更易12205∈V ∈×个于管理的O（C）的复杂性，可以保留direc- tional信息。我们的想法是产生一个坐标系TR3×3并且在该坐标系中读取V，从而产生旋转不变特征。在实践中，我们考虑我们通常的等变向量列表特征集RN×C×3。灵感来自Maron et al.[23]，我们生成一个矩阵Tn，V=VN-PoolVn∈V（f（V1），···，f（VN）），（21）其中f是共享VN-MLP。这里的一个问题存在于第一输入层中，其中输入点云坐标Vi是R1×3向量，因此将f应用于它们将退化为一组RC×3向量列表，其向量分量都是线性相关的（指向一个方向）。这类似于将每像素11卷积应用于灰度图像（单个输入通道）。因此，在VN-PointNet中，我们在输入层添加边缘卷积，将R1×3特征映射到RC×3（C>1），然后继续进行逐点VN-MLP操作。122063×个联系我们5. 实验我们在点云处理中的三个核心任务上评估我们的方法：分类（第5.1节）、分割（第5.2节）和重建（第5.3节）。除了所需输出的多样性之外，这些任务还跨越了我们提出的等变框架的不同用例：分类和分割是旋转不变的任务，而重建是旋转等变的。数据集。我们采用ModelNet40 [5]和ShapeNet [5]数据集进行评估。ModelNet40数据集由40个类组成，总共有12，311个CAD模型。在分类任务中，我们使用了9，843个模型进行训练，其他模型用于测试。对于ShapeNet数据集，我们遵循[42]使用ShapeNet-part进行零件分割，其中有16个形状类别，超过30，000个模型。我们还应用了[7]中的ShapeNet子集形状重建，包含13个大类，5万个模型。培训/测试旋转设置。在分类和分割中，遵循Esteves etal.[12]，我们采用三种训练/测试设置：z/z、z/SO（3）和SO（3）/SO（3），其中z表示数据扩充，其中更多关于最大池化以及补充材料中其他结构的消融研究。方法z/zz/SO（3）SO（3）/SO（3）仅围绕z轴旋转，并且SO（3）对于任意ro-站。所有的旋转都是在训练时间，从而将VN架构的构造的等方差与通过增强学习的等方差进行比较。在测试时，每个形状都以单个旋转对于重建，我们显示极端设置的结果：无旋转（I）-现有方法的标准评估设置，以及任意旋转SO（3）。由于该任务中的输出是静态的，并且每个形状的优化在训练和测试时间都需要多次迭代，因此这里在预处理阶段为每个形状生成SO（3）随机旋转，并且所有形状在训练期间保持在固定姿势。网络实现。在分类和分割中，我们以与经典对等物相同的体系结构实现VN网络，但每层都是N形3，而标量网络中的对应层具有大小N。这实际上大大减少了VN网络中可学习参数的数量，与对应的标量网络相比，导致参数大约为2/32=2/9倍-在重构中，我们稍微扩展VN编码器的层大小。此外，在VN-PointNet中，我们丢弃了学习3 3变换矩阵的输入空间变换MLP，因为我们的VN网络已经通过构造考虑了刚性变换。在下面的实验中，我们使用均值池作为所有网络的聚合，在实践中表现得我们将讨论表1：在三个训练/测试场景中测试ModelNet 40数据集[41]z代表通过围绕垂直轴的随机旋转增强的对齐数据，并且SO（3）指示通过随机旋转增强的数据。5.1. 分类我们评估了ModelNet40上的分类结果，并与普通PointNet，DGCNN和其他旋转不变或等变方法进行了比较，这些方法将点坐标（网格或点云）作为输入。与它们的非等变对应物相比，VN网络在所有三种设置上都获得了一致的良好结果，这表明它们对旋转的鲁棒性，特别是在z/SO（3）的情况下，其中测试集在训练集中包含看不见的旋转。即使在SO（3）/SO（3）的情况下，有大量的训练时间数据增加，旋转敏感网络也不能像VN网络中的结构等方差网络那样表现良好另一方面，我们的具有DGCNN主干的VN网络（VN-DGCNN）在z/SO（3）和SO（3）/SO（3）情况下优于仅具有点坐标输入的所有其他等变或不变方法。请注意，使用曲面法线[29，46]的方法仍然可以获得更好的结果。点/网格输入PointNet [27]85.919.674.7DGCNN [38]90.333.888.6VN-PointNet77.577.577.2VN-DGCNN89.589.590.2PCNN [2]92.311.985.1ShellNet [44]93.119.987.8[28]第二十八话91.828.485.0[21]第二十一话92.541.284.5Spherical-CNN [12]88.976.786.9一个3S-CNN [22]89.687.988.7[第29话]91.484.890.1TFN [35]88.585.387.6RI-Conv [43]86.586.486.4SPHNet [26]87.786.687.6集群网[6]87.187.187.1GC-Conv [45]89.089.189.2RI框架[19]89.489.489.3点+正常输入[第29话]92.385.391.0LGR-Net [46] 90.9 90.9 91.112207O→·|转∈∈2·∈∈方法z/SO（3）SO（3）/SO（3）点/网格输入PointNet [27]38.062.3DGCNN [38]49.378.6VN-PointNet72.472.8VN-DGCNN81.481.4[21]第二十一话34.771.4[28]第二十八话48.376.7ShellNet [44]47.277.1RI-Conv [43]75.375.3TFN [35]76.876.2GC-Conv [45]77.277.3RI框架[19]79.279.4点+正常输入LGR-Net [46] 80.0 80.1表2：ShapeNet部件分割。结果报告在两个列车/测试场景中的16个类别的总体平均类别平均IoU。对于z，我们指的是仅通过围绕垂直轴的随机旋转增加的数据，并且SO（3）表示随机旋转。5.2. 部件分割表2显示了我们在ShapeNet部分分割中的结果再次，我们的方法在不同的旋转中显示了一致的结果，并且与其他作品相比，VN-DGCNN实现了最佳性能，包括[46]除了点坐标之外还使用5.3. 神经隐式重建我们遵循OccNet [ 24 ]的点云完成实验，其中我们从稀疏和嘈杂的输入点云重建神经隐式函数：我们从每个（水密）ShapeNet模型的表面对300个点进行子采样，并且用具有零均值和0. 005标准偏差。输出是占用概率函数：R3[0，1]，其可以由共享神经隐函数hθ（z）：R3[0，1]参数化，该函数由从输入点集导出的潜在码z为了公平比较，我们重新训练原始OccNet[24]以及我们的方法进行300k次迭代，并选择在验证集上具有最佳性能的模型。编码器网络。我们构建了一个编码器-解码器框架，其架构类似于[24]，但采用VN语言。编码器是旋转等变的，将点云{x1，x2，···，xN}编码成全局向量列表特征Z∈RC×3。在Mescheder et al.[24]编码器是PointNet，这里我们使用VN-PointNet：Z= VN-PointNet（{xl，x2，...，xN}）。（二十二）解码器网络。该解码器具有向量表潜码ZRC×3与查询点坐标x之间的旋转不变性R3同时旋转时，占用值保持不变。我们将解码器定义为三个不变特征x2，x，Z，VN-In（Z）的函数：O（x |Z）= ResNet（[∠x，Z∠，x，VN-In（Z）]），（23）其中VN-In（）是在第3.5节中定义的VN不变层。作为消融研究，我们还用标准PointNet编码器（具有相同的不变解码器）替换VN-PointNet，其中编码器生成潜在代码zRC，并将其重塑为ZR（C/3）×3。相反，[ 24 ]中的解码器是简单的非线性函数O（x|z）=h（φ（x），ψ（z）），它在给定潜在码z∈RC和查询点x∈R3 的情况下，输出一个发生概率 O∈[0，1] 3.定量结果我们评估了三个训练/测试设置中重建的体积平均IoU。与原始OccNet相比，我们的等变编码器/不变解码器在任何姿势的形状重建中表现出出色的一致性，在I/I情况下准确性略有损失即使简单地采用不具有等变编码器的不变解码器，在所有三种设置中的性能也略有改善。定性结果我们使用原始的OccNet（浅粉色）和我们的VN-OccNet（黄色）显示了测试集的一些重构使用Mescheder等人的多分辨率等值面提取（MISE）方法从神经暗示中提取网格。[24]第10段。尽管OccNet在数据集预对齐时能更好地识别I/I情况下的细节，但它对旋转非常敏感。在I/SO（3）的情况下，当在测试时应用看不见的旋转时，OccNet完全失败，几乎没有学习任何有意义的东西;这些发现也与Deng等的结果一致。[9]的文件。即使在SO（3）/SO（3）的情况下，当在训练时采用数据增强时，它仍然通过生成模糊的形状（左上角），平均形状（右上角，盒状输出由不同姿势的沙发特征平均组成）或具有不正确先验的形状（右下角，汽车类中的形状被错误地识别为椅子）来显示其局限性。6. 结论我们介绍了向量神经元-一种新的框架，通过将标准神经网络表示提升到3D空间来到3[24]提供了多个版本的解码器。我们选择这个最简单的一个在我们的实验更容易比较。12208方法编码器潜在代码解码器I/ I 高级督察（3）SO（3）/SO（3）OccNet [24]PointNetz∈RCh（φ（x），ψ（z））71.4 三十点九58.2-VN-OccNetPointNetVN-PointNetZ∈RC/3 ×3Z∈RC/3 ×3h（∠x，Z∠，∠x∠2，VN-In（Z））h（∠x，Z∠，∠x∠2，VN-In（Z））72.069.331.069.359.468.8表3：具有神经暗示的ShapeNet重建上的体积mIoU我们展示了极端设置的结果：无旋转(I) – the standard evaluation setup for prior methods, and arbitrary rotations 这里，在预处理阶段为每个形状生成SO（3）随机旋转，并且所有形状在训练期间保持在固定姿势。图6：ShapeNet与OccNet（浅粉色）和VN-OccNet（黄色）的重建结果使用多分辨率等值面提取（MISE）方法从神经隐含提取网格为此，我们引入了标准网络模块的向量神经元对应物：线性层、非线性、池化和归一化。使用我们的框架，我们已经构建了两个领先的点云网络骨干的旋转等变版本：PointNet和DGCNN，并在3个任务上对其进行了评估：分类、分割、重构。我们的研究结果表明，我们的修改后的体系结构的一致的优势，当输入形状的姿势是任意的，相比基于增强的方法。局限性和未来工作。虽然我们的方法在任意旋转设置下闪耀，但在对齐的输入形状上，特别是在重建任务中，我们的VN-OccNet无法与vanilla OccNet的重建质量相匹配。在今后的工作中，我们计划调查这一问题。在这项工作中，我们专注于3D点云网络-作品，产生置换和旋转等变架构。然而，应该清楚的是，我们的框架以完全类似的方式对高维点云有明显的概括。还可以研究向量神经元到其他感兴趣的变换群（例如全仿射群）的推广（在我们的框架中添加均匀缩放是非常直接的）。总之，通过使旋转等变模块简单且可访问，我们希望减轻对用于监督的cu- rate和预对齐形状的需要，并激发对这个迷人主题的未来研究。鸣谢。我们衷心感谢Vannevar Bush教师奖学金，ARL授予W 911 NF-21-2-0104的支持，以及Adobe，Ama-zon AWS和Autodesk公司的礼物12209引用[1] Brandon Anderson ， Truong-Son Hy ， and Risi Kondor.Cor-morant：协变分子神经网络arXiv预印本arXiv：1906.04015，2019。二个[2] Matan Atzmon，Haggai Maron，and Yaron Lipman.基于扩展算子的点卷积神经网络 arXiv 预印本 arXiv ：1803.10091，2018。二、六[3] Jimmy Lei Ba，Jamie Ryan Kiros和Geoffrey E.辛顿图层正常化，2016年。四个[4] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3D对象坐标学习6D对象姿态估计欧洲计算机视觉会议，第5363[5] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Mano-lis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu.ShapeNet：一个信息丰富的 3D 模型库。技术报告 arXiv ： 1512.03012[cs.GR]，2015。六个[6] Chao Chen，Guanbin Li，Ruijia Xu，Tianshui Chen，Meng Wang，and Liang Lin. Clusternet：具有严格旋转不变表示的深度层次集群网络，用于点云分析。在计算机视觉和模式识别会议上，第4994-5002页二、六[7] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。欧洲计算机视觉会议，第628-644页六个[8] TacoSCohen， MarioGeiger ， JonasK？hler ，andMaxWelling. 球形 CNN 。 arXiv 预印本 arXiv ：1801.10130，2018。二个[9] Boyang Deng ， JP Lewis ， Timothy Jeruzalski ， GerardPons- Moll，Geoffrey Hinton，Mohammad Norouzi，andAndrea Tagliasacchi. NASA：神经关节形状近似，2020年。七个[10] EmilienDupont 、 MiguelBautistaMartin 、 AlexColburn、Aditya Sankar、Josh Susskind和Qi Shan。等变神经渲染。国际机器学习会议，第 2761-2770 页。PMLR，2020年。三个[11] Nadav Dym和Haggai Maron。关于旋转等变点云网络的普遍性，2020。二个[12] Carlos Esteves 、 Christine Allen-Blanchette 、 AmeeshMaka- dia和Kostas Daniilidis。用球面函数学习SO（3）等变表示欧洲计算机视觉会议，第52-68页二、六[13] Carlos Esteves ， Yinshuang Xu ， Christine Allen-Blanchette，and Kostas Daniilidis.等变多视图网络。在国际计算机视觉会议上，第1568- 1577页，2019年。二个[14] Fabian B Fuchs，Daniel E Worrall，Volker Fischer，andMax Welling.Se（3）-变压器：三维旋转翻译等变注意网络。arXiv预印本arXiv：2006.10503，2020。一、二[15] Geoffrey E Hinton，Alex Krizhevsky，and Sida D Wang.转换自动编码器。国际人工神经网络。Springer，2011.三个[16] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统进展，2017-2025页，2015年。一个[17] Risi Kondor，Zhen Lin，and Shubhendu Trivedi. Clebsch-gordan网：全傅立叶空间球形卷积神经网络。arXiv预印本arXiv：1806.09231，2018。二个[18] 利昂·朗和莫里斯·维勒。群等变卷积核的wigner-eckart定理。arXiv预印本arXiv：2010.10952，2020。二个[19] Xianzhi Li ， Ruihui Li ， Guangyong Chen ， Chi-WingFu，Daniel Cohen-Or，and Pheng-Ann Heng.一种用于深度点云分析的旋转不变框架。arXiv预印本arXiv：2003.07238，2020。二六七[20] Xiaolong Li，He Wang，Li Yi，Leonidas J Guibas，ALynn Abbott，and Shuran Song.类别级铰接对象姿态估计。在计算机视觉和模式识别会议上，第3706-3715页三个[21] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi，and Baoquan Chen. PointCNN：对x变换点进行卷积。神经信息处理系统，第820-830页，2018年。二六七[22] Min Liu ，Fupin Yao ，Chiho Choi，Ayan Sinha，andKarthik Ramani.使用alt-az各向异性2球卷积深度学习3d形状。在2018年国际学习代表会议上二、六[23] Haggai Maron ， Or Litany ， Gal Chechik ， and EthanFetaya.关于对称元素的学习集。在国际机器学习会议上，第6734-6744页，2020年。5[24] Lars Mescheder，Michael Oechsle，Michael Niemeyer，Se- bastian Nowozin ， and Andreas Geiger.Occupancynetworks：学习函数空间中的3D重建在计算机视觉和模式识别会议上，第4460- 4470页七、八[25] Adrien Poulenard和Leonidas J Guibas。张量场网络旋转等变非线性的泛函方法。在IEEE/CVF计算机视觉和模式识别会议论文集，第13174- 13183页，2021年。二个[26] Adrien Poulenard，Marie-Julie Rakotosaona，Yann Ponty和Maks Ovsjanikov。球谐函数核的有效旋转不变点在IEEE 3D视觉国际会议上，第47-56页，2019年。二、六12210[27] Charles R Qi， Hao Su ，Kaichun Mo ， and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。计算机视觉和模式识别会议，第652

下载后可阅读完整内容，剩余1页未读，立即下载