魔鬼在摆姿势：通过姿态感知卷积实现

190 浏览量更新于2023-10-26 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7472i=1--魔鬼在摆姿势：通过姿态感知卷积实现陈荣涵1，2，3杨聪1，2杨1中国科学院沈阳自动化研究所机器人国家重点实验室†2中国科学院机器人与智能制造研究所3中国科学院大学chenronghan@sia.cn，congyang81@gmail.com摘要最近将旋转不变性（RI）引入3D深度学习方法的进展主要是通过设计RI特征来代替3D坐标作为输入。这一战略的关键在于如何恢复全球信息，香草卷积* *** **我们的姿态感知卷积输入RI特征丢失的信息。最先进的CNN内核旋转不变特征映射输入图像旋转不变特征映射PaRI-Conv内核现有技术通过引起额外的块或复杂的全局表示来实现这一点，这是耗时且无效的。在本文中，我们认识到全局信息丢失源于一个未探索的姿态信息丢失问题，即，普通卷积层不能捕获RI特征之间的相对姿态，因此阻碍了全局信息在深层网络中分层聚集为了解决这个问题，我们开发了一个Pose-a ware旋转不变卷积（即，，PaRI-Conv），其基于相对姿态动态地适配其内核。具体地，在每个PaRI-Conv层中，轻量级的增广点对特征（APPF）被设计为完全编码RI相对姿态信息。然后，我们建议合成一个分解的动态内核，通过将其分解为一个共享的基矩阵和一个可以从APPF学习的姿态感知对角矩阵来降低计算成本和内存负担。在形状分类和部分分割任务上的大量实验表明，我们的PaRI-Conv超越了最先进的RI方法，同时更加紧凑和高效。1. 介绍随着3D扫描技术的发展，3D点云上的深度学习在各种任务中取得了显著进展[9]。然而，大多数方法*通讯作者是教授。杨聪。† 这项工作得到了中国国家重点研究与发展计划（2019YFB1310300）和中国国家自然科学基金（62127807）的部分支持。图1.说明旋转不变（RI）学习中的姿势信息丢失问题导致的几何模糊性。RI特征自然地忽略它们自己的姿态信息，并且重新在旋转R i 3下也是一样。因此，普通卷积（无论是在图像上还是在3D点云上）都无法捕获眼睛和嘴之间的相对姿态，导致不能区分笑脸和生气的脸的模糊表示。我们的姿势感知卷积基于相对姿势动态调整权重，从而消除模糊性。[14，15，35]假设强先验，即，数据被预对准到相同的规范姿态，并且即使在应用了大范围旋转增强时，性能也会在未对准的数据上急剧下降。这阻碍了当前方法在真实场景中的应用，其中物体通常以任意旋转出现。为此，大多数方法设计旋转不变（RI）表示作为输入[1，11，13，43]，并实现了一致的旋转不变性。然而，与3D坐标相比，这样的RI因此，最先进的方法要么设计直接处理坐标的辅助块[42，45]，要么手工制作在更大的邻域中记录成对关系的复杂表示[13，38]，这会产生很大的计算成本，同时仍然比对齐数据上的旋转敏感方法[14，35]竞争力更低。此外，他们未能解释为什么3D卷积神经网络（CNN）[15，24，31，38]不能通过分层抽象从RI特征中获取完整的全局信息，而2D CNN可以从像素中获取，因为像素和RI特征都缺乏位置信息。123*=≠ ≠≠*====7473·在本文中，我们发现，上述问题源于一个固有的姿势信息丢失的问题，这还没有得到很好的利用。本质上，旋转不变也意味着姿态信息的丢失。因此，如图1所示，当通过香草卷积聚合RI特征时，这些特征之间的相对姿态不可避免地丢失，导致无法区分笑脸和愤怒脸的模糊表示。此外，这也解释了当前方法的无效性[1，11，38，44]，即，它们仅恢复3自由度（DoF）位置而不是6自由度姿态信息。为了解决上述问题，我们提出了一种新的Pose- a ware旋转不变卷积（Pose- aware Rotation Invariant Conv Solutions）. 、PaRI-Conv）来恢复由RI特征丢失的姿态信息。如图1所示，在卷积中，我们的关键思想是根据每个邻居与中心的相对姿态为每个邻居生成动态内核权重。通过这种方式，局部邻居之间的相对姿态完全保留在导出的特征中。具体来说，我们首先提出了一个增强点对特征（APPF）来表示相对姿态信息，它扩展了点对特征（PPF）[5]，并且是严格旋转不变的。然后应用APPF来动态调整卷积核。为了减少存储重权重库[31，39，40]或回归大核矩阵[27，36]所引入的昂贵计算成本和内存负担，我们提出了一种分解的动态核，它将核权重分解为所有邻居共享的基矩阵和从APPF学习的低DoF对角矩阵。由于PaRI-Conv通过合并姿态信息完全保留了相邻块之间的几何关系，因此可以通过简单地堆叠PaRI-Conv层来自动获取全局上下文，从而避免了全局信息补偿的冗余块[45]或复杂表示[13，38]，从而产生了更加紧凑和高效的网络。形状分类和部分分割任务的大量实验表明，我们的方法超越了国家的最先进的RI方法，同时是- ING一贯的旋转不变。更重要的是，我们的方法接近甚至超过了对齐数据的最先进的旋转敏感方法，验证了PaRI-Conv’s总之，我们的主要贡献是：我们揭示了姿态信息丢失问题，并通过提出一个姿态旋转不变的卷积算子（即：，PaRI-Conv），导致更强大、更高效的RI学习解决方案。提出了一种轻量级的增强点对特征（APPF），用于对姿态进行完整编码每个邻居相对于中心。为了合成姿态感知核，通过将核权值分解为共享基矩阵和姿态感知对角线，设计了一种分解的矩阵，这是更紧凑和有效的，而不牺牲灵活性。2. 相关工作典型的姿态预测方法。这些方法学习将形状转换为其规范姿势，以避免旋转扰动 [6 ， 12 ， 23 ， 29] 。PointNet [23]和后续工作[14，35]使用空间Transformer网络（空间网络）[10]。RotPredictor [6]引入了自一致性，并实现了近似等变姿态估计。它的稳定性在[28]中通过使用球形CNN [2]作为骨架得到了改善。Sun等人[29]通过将每个形状分解成若干帽形来进一步学习类别级规范姿态Li等[12]利用主成分分析（PCA）的先验，并通过混合24个基于PCA的姿势来解决其模糊性。通常，上述方法依赖于先验增强，而仅实现可能无法推广到新对象或部分对象的近似不变性。3D点云上的旋转不变学习。大多数方法通过基于距离和角度设计手工制作的RI特征来实现旋转不变性[1，13，38，42然而，它们仅编码局部几何结构并丢失全局位置信息[44]。为了缓解这种情况，QuanterNet [1]需要构造一个k=80的强连通knn-图。最近的作品设计了辅助块[42，45]来编码规范化点，以进行全局信息补偿。其他方法[13，38]引入RI表示，编码更多的全球背景，如克矩阵，其具有计算任意点对之间的相对距离或角度的高复杂性。基于LRF的方法[11]将LRF的局部点坐标变换为保持RI，这也丢失了姿态信息。等变方法允许学习的特征在输入旋转后进行可预测的线性变换[3，8，22，32]，因此也可以在不丢失姿态信息的情况下实现不变性。然而，它们涉及对卷积核的严格约束，牺牲了它们的灵活性。相反，我们的PaRI-Conv可以完美地解决姿态信息丢失问题，具有信息卷积核，从而获得更好的性能。用于3D点云卷积的动态核。一系列的作品[15，34，36]直接回归基于相邻点的位置的权重核，导致过大的内存。其他人保持权重库并通过线性组合生成新的权重矩阵[18，31，39，40]。他们通常将配重与锚点联系起来，并以手工方式组装新的配重[18，31]，这限制了他们的灵活性。最近，PAConv [39]学会了通过得分预测动态组装内核权重。权值库一般占用内存大，难以联合优化相反，我们的因式分解的动态内核是更紧凑和有效的，而不牺牲性能。··7474×∈∈∈||不^VJ∈ NRPWRRPRPW PS∈NWLRRJRR→N×e3. 问题定义和背景本文首先给出了必要的背景，并对现有RI网络中的姿态信息丢失问题进行了解释，这是本文要解决的问题。旋转不变函数。给定点云P =[p1，p2，...，p N]RN×3，对N个点，我们可以通过P = PR对它进行任意旋转，其中RSO（3）是一个33旋转矩阵。旋转不变（RI）函数Φ应满足：Φ（P）=Φ（PR），其中R∈ SO（3）.（一）3D点云上的卷积通常，3D点云上的卷积层的输入是具有特征X =[x1，...， x N] ∈ RN ×c，且输出特征X′=[x′1，...，x′N]RN ×c输出。会议-在参考点PR处的求解操作F可以是下式：日期为：如果h是RI函数，则我们有h（pj（pj ））=h（pj（pj）Rj），这是等式1中给出的RI函数的定义。因此，等式3和等式5的右侧相等，从而得到：f（p r|Γ（pr））= f（pr| T（r（pr），（6）这意味着当前的CNN不能识别局部块之间相对姿态的变化，证明了导出的特征将不可避免地丢失局部块之间的相对姿态信息。这可能导致导出特征中的严重几何模糊性，即，如图1所示，从普通CNN得到的特征不能区分高兴的脸和生气的脸。4. 方法为了解决姿态信息丢失的问题，我们提出了一种姿态感知的旋转不变卷积（即，f（pr）=j∈N（pr）Wj·h（pj），（2）PaRI-Conv），其用姿态感知的动态内核替换香草卷积中的固定内核具体地说，其中（pr）表示pr周围的局部补丁，Wj是核权重，h：R3Rc表示将点坐标pj映射到其特征的非线性函数xj.表示聚合函数，例如MAX，参考点PaRI-Conv的一般公式pr可以定义为：x′=^W（P）·x，（7）AVG或SUM。早期的基于多层感知器（MLP）的方法[23，24]设计各向同性核，这意味着W i=W j，i，j（pr），这限制了表达邻居位置关系的能力。最近，一些作品[18，36，47]设计了位置自适应内核来解决这个问题，其中Wj=W（pj，pr）。现有RI方法中的位姿信息丢失问题虽然上述卷积在3D原始坐标上取得了令人印象深刻的性能，但我们发现，将上述卷积应用于RI特征不可避免地丢失了它们之间的相对姿态信息这里，我们将等式2扩展为：f（pr|r（pr））= ^Wj·h（pj|（3）j∈N（pr）其中是动态核函数，该动态核函数将中心点PR与其相邻点Pj之间的相对姿态j映射到相关核权重。在姿态为k（j）的情况下，等式3和5中的W j将不再相等，因为随着Rj旋转pj改变了其相对姿态J到中心点。因此，容易消除等式6中定义的模糊性同时，保持旋转不变性属性，因为全局旋转不会改变任意点之间的相对姿态j（更多细节参见补充材料）。PaRI-Conv的流水线如图2所示。提出了一种增强点对特征以完全嵌入姿态信息Pj。事后我们j∈N（pr）提出了一种分解的动态核R制定了一个标准，其中h（pj）是h在点p j处的接收iv e场，意味着h（pj）仅取决于h（pj）。然后，等式3中的f的接收场被定义为r（pr）=j（pr）（pj）。为了解释这个问题，我们把相对姿态改为-通过变换T：T（r（pr））= [r（pj）Rj，（4）nel函数，最终输出通过EdgeConv [35]从衍生特征中聚合。4.1. 增广点对特征LRF建筑。为了构建RI表示，LRF首先在每个点pr∈P上构造Lr，其中，三个标准正交基的集合：LR=[R1，R2，R3] ∈ R3×3.j∈N（pr）典型地，R r r十二这意味着我们分别旋转每个贴片<$p（pj），r通过首先定义两个轴er，er然后通过以下方式进行正交归一化：pj经由Rj（例如，旋转图1中的“是”和“嘴”，将微笑的脸改变为愤怒的脸）。然后我们表演1 21=e1，（八）7475RRRRRr对变换后的数据T（r（p））进行卷积，R r r∥∂1×e2∥f（p r| T（r（pr）））=Wj·h（pj|（pj）Rj）。（五）对于轴e1，e2有几个选择。[11]第十一话通过PCA来输入LRF，这可能对扰动敏感j∈N（pr）74761=12=13121j=1j=1j=1j=1j=1RR-- -RRRR-p，其中nRR∠2ΣRr图2.拟议PaRI-Conv.PaRI-Conv层的输入是中心点pr的LRF Lr和特征xr，如以及其k个邻居{ p j } k的LRF{Lj}k和特征{xj}k。为了解决姿势信息丢失问题，基于相对姿态合成动态核{Wj}k。我们对每个相邻点p，j和通过所提出的APPFPj，其从它们各自的LRFLj和Lr中表现出来。然后通过MLP将Pj编码为θjM，并转换为对角矩阵Λ（θj），其与共享基矩阵B相乘以合成最终的内核权重Wj。我们把这种策略分解的动态内核命名为。在线性嵌入之后，我们通过EdgeCo n v聚集所定义的特征{x∈j}k。=r32（a）PPF(b) PPF中的模糊性(c) APPF图3.点pr处LRF的构造示意图。许多其他方法转而将向量应用于图4.传统PPF（a）和我们提出的APPF（c）的图示。在（b）中，PPF允许围绕轴101旋转，导致模糊。在（c）中，我们通过角度βr，j固定旋转。PPF是一个4D向量：全局中心O和局部中心点Pr[13，42，43]。虽然在旋转下更一致，但轴−O−→pr与点pr的全局位置有关，而不是R JPPF（pr，pj）=（αd，α2，α3），α=（1，d），α=（1，d），α=（1，1）），（九）局部几何结构，这导致两个严重的问题：1）网络努力学习在3D形状中不同定位的相同结构的一致表示，以及2）当干扰和背景存在时，全局中心将严重移位，限制了对这些干扰的鲁棒性。因此，我们建议建立在本地几何LRF只。具体来说，如图3所示，我们定义第一个tw oax es为e1=nr和e2=−p−m→r=1r2j3rj其中d=pjpr，并且θ（，）表示两个向量之间的角度。然而，如图4（b）所示，PPF不能完全定义相对姿态，因为它都依赖于pj围绕pr[4]的轴m1自由旋转，反之亦然。因此我们建议通过用方位角β r，j和β j，r增大PPF来固定旋转。如图4（c）所示，我们将d在π2× π3平面上投影为π d，并记录方位角βr，j=（πr，πd）βj，r点pr周围的k个最近邻的重心。特征提取。为了捕获参考点pr和相邻点的LRF之间的相对姿态，通过切换pr和pj 的角色。为此，我们的亚太警察论坛Pj∈R8可以由下式给出pj，我们基于点对特征（PPF）设计我们的RI特征[5]。如图4（a）所示，给定其原始轴Pr=输入APPF浸提ℒ��动态内核生成APPF嵌入��× 8分解动态核��×��×�� ×��×��×�� ×��×共享基矩阵=我们的团队��关于我们APPF关于我们拉吉拉吉LRFs APPFs姿态感知卷积输入要素1× cin��× cin线性嵌入××通过EdgeConv进行要素聚合��× cin20×2cin��× c��输出特性1×c输出⊖M��′关于我们×联系我们��×1 × cin×cin× cin×：矩阵乘法×：矩阵减法M：最大池化132002年，11��′…………M是正常的，=1Kpj是角作为. 同样地，可以衍生RRRRKj=1R7477J（ωdω2，cos（α1），cos（α2），cos（α3），cos（βr，j），sin（βr，j），cos（βj，r），sin（βj，r）），（十）7478··RPR×R∈MPM⊕R其中，我们进一步使用sin（）和cos（）嵌入角度，遵循最近的位置嵌入技术[19，30]。关于APPF的旋转不变性分析，请参见补充资料。为了恢复由一般卷积层丢失的姿态信息，然后利用APPF来合成姿态感知动态内核，其介绍如下。4.2. 分解动态核目前的方法通过组装内存密集型权重库[18，39，40]或回归大型内核矩阵[27，36]来合成动态内核，这会导致大量内存使用和大量计算成本。为了解决这个问题，我们提出了一个新的因式分解动态核（FDK）。其核心思想是将动态核分解为Wj=W（Pj）∈Rcin×cin转换为轻量级的姿态感知对角矩阵 Λ （ θj ） ∈Rcin×cin 和姿态无关基矩阵B∈Rcin×cin，由所有邻居共享：Wj=Λ（θj）B。（十一）如图2所示，给定每个相邻点的APPFj，我们首先通过以下公式合成对角矩阵Λ（θj）θj=M（Pj），（12）其中θjRcin是Λ（θj）的对角项，并且是多层感知器（MLP）。然后，将姿态感知核Λ（θj）与共享基矩阵B相乘以生成最终核权重W j，遵循等式11。以这种方式，可以显著降低复杂度和存储器使用，因为FDK仅回归c维向量θj，而不是如[27，36]中那样回归c中的完整c。此外，FDK只需要一个由所有邻居共享的基矩阵B。因此，它需要的参数比重量组组装方法少得多[40]。我们也比较消融研究中的复杂性（见表6）。姿态感知卷积。在与学习的姿态感知内核Wj执行卷积之前，仍然存在一个问题。通常，卷积还考虑参考点Xr的特征。然而，在这种情况下，APPFr是零向量，导致无效的内核majerWr。因此，朴素卷积将丢失来自参考点xr的特征的关键信息。我们通过在线性嵌入时排除xr来xj=Wjxj，j=r，（13）然后通过EdgeConv [35]将xr与相邻特征xij进行x′r=MAXg（（x<$j−xr）<$xr），（14）4.3. 网络架构除了卷积之外，专门的架构也会影响性能，并掩盖卷积运算符的真正有效性[16]。为了公平地评估PaRI-Conv的内在有效性及其与现有主干的兼容性，我们直接将我们的PaRI-Conv集成到两个已知的架构中。形状分类。我们采用经典的DGCNN[35]通过简单地将其中的EdgeConv替换为我们的PaRI-Conv。在DGCNN之后，我们还在欧几里得空间中对第一层进行k最近邻（knn）搜索（k=20形状部分分割。对于零件分割，较大上下文是非常重要的。因此，我们应用池化层来扩大AdaptConv后的感受野[47]。一般来说，它类似于分类网络，但更深，有5个卷积层和3个池化层。我们用PaRI-Conv替换所有的Conv层，除了最后一个图卷积层。这里，在所有层中在k=40的欧几里德空间中执行knn搜索5. 实验我们在三个具有挑战性的数据集上评估了所提出的PaRI-Conv 的性能， ModelNet40 [37] 用于 3D 形状分类，ShapeNetPart [41]用于部分分割，ScanObjectNN[33]用于真实世界形状分类。为了评估在各种旋转下的不变性，我们在3个训练/测试设置下进行实验，即，z/z、z/SO（3）和SO（3）/SO（3），其中z表示输入是通过围绕垂直轴的旋转来处理的，而SO（3）表示任意旋转。5.1. 实现细节权重核生成。我们将等式12中的函数实现为以线性层结束的2层MLP。共享基矩阵B被随机初始化，与其他网络参数一起优化。LRF设置。第4.1节中介绍的默认LRF使用法向量。我们将实验中在此设置下获得的结果表示为（pc+正常）。为了与只需要点位置的方法进行公平的比较，我们将法线替换为全局中心和点（即，−O−→pr），而leav e是第二个轴不变。我们还评估了消融研究中更多LRF设置下PaRI- Conv的性能网络输入。输入的旋转不变性是网络旋转不变性的必要条件。我们为每个点Pi分配一个初始RI属性，如下所示：ing球面CNN [2]，它们是pi2，sin（（1，pi））和j∈N（pr）1 1i其中g是一层MLP并且表示特征关联操作。cos（ω i（ω i，p i）），其中ω i是LRF的主轴。培训战略。我们实现上述网络，PyTorch [20]和PyTorch Geometric [7]。我们使用SGD与7479∼∼初始学习率为0.1，逐渐降低到0。001使用余弦退火[17]。批量大小为32，所有网络都训练了300个epoch。我们在全连接层中应用80%的5.2. 三维形状分类数据集。ModelNet40 [37]由来自40个类别的12，311个CAD网格模型组成，其中9，843个用于训练，2，468次测试。为了公平比较，我们使用PointNet [23]提供的采样点云，并统一采样1，024个点作为输入。在训练时，我们通过随机缩放和平移来增强输入。结果如表1所示，我们将我们提出的PaRI-Conv与旋转敏感、等变和不变方法进行了比较。PaRI-Conv在训练过程中保持一致的旋转不变，无论旋转增强如何，并且在正常情况下达到92.3%的出色准确度，在不正常情况下达到91.4%，这优于所有未对齐数据的校正方法。与旋转敏感的方法相比，当在z/SO（3）设置下测试不可见的旋转时，它们的性能急剧下降。在增加（SO（3）/SO（3））的情况下，仍然存在明显的性能差距（10%）。与RI方法[11，38，43-45]特别地，我们的仅点的RI方法仍然可以优于其他应用法线的RI方法，这证明了对抗这些RI方法所遭受的姿态信息损失的重要性。此外，与没有姿态信息损失的等变方法[3，22，32]相比，PaRI-Conv甚至超越了它们，这可以归因于我们提出的因子分解动态核在其约束核上的高灵活性。最后，我们的方法也比学习全局变换输入点云的方法更有效[6，12]，同时避免了穷举旋转或排列增强。5.3. 形状零件分割数据集。对于形状部分分割，我们在ShapeNetPart数据集上评估我们的方法[41]。它包含16个类别的16，881个在每个类别中，形状被标记为25部分，总共50部分。我们遵循[24]中常用的训练测试分割，并从每个形状随机采样2，048个点作为输入。结果我们使用平均交并（mIoU）作为评估指标。如表2所示，可以得出类似的结论。我们的方法优于所有的比较方法，并在看不见的旋转下表现出一致的性能。此外，我们的无正规也优于有正规的方法，例如，LGR-Net [45]和RI-GCN [11]，显示了保留姿态信息的重要性。我们还在图5中可视化了z/SO（3）设置下的分割结果，其中大部分部分都是很好的分割。方法输入z/zz/SO（3）秘书长（3）/高级官员（3）PointNet [23]PC89.216.475.5旋转敏感[24]第二十四话[14]第十四话DGCNN [35]pc+n个人电脑91.892.292.218.441.220.677.484.581.1[6]第六话PC92.1-90.7旋转等变[32]第三十二话[22]第二十二话[3]第三章PC个人电脑88.589.789.585.389.789.587.689.790.2[25]第二十五话pc+n92.385.391.0[44]第四十四话PC86.586.486.4Li等[13个国家]PC89.489.389.4旋转-SGMNet [38]PC90.090.090.0不变AECNN [43]PC91.091.091.0[45]第四十五话pc+n90.990.991.1RI-GCN [11]pc+n91.091.091.0Li等[12个]PC90.290.290.2我们PC91.491.491.4我们pc+n92.492.492.3表1.在三种训练/测试设置下，ModelNet 40数据集的形状分类准确率（% ）‘pc’ and ‘n’ stands for 3d coordi- nates andnormals of the input point cloud,在看不见的旋转下分裂。方法z/SO（3）SO（3）/SO（3）仅输入pc[23]第二十三话[24]第二十四话48.276.7DGCNN [35]37.473.3RSCNN [15]50.773.3[44]第四十四话75.375.3[3]第三章81.881.8[13]第十三话82.282.5Li等[12个]81.781.7我们的（pc）83.883.8输入pc+正常RI-GCN [11] 77.2 77.3[45]第四十五话-82.8我们的（PC+正常）84.684.6表2. ShapeNetPart数据集上的部件分割结果[41]。我们在两个训练/测试设置下报告所有实例的mIoU（%）。’pc’ stands for3d coordinates of the input point5.4. 真实世界分类数据集。为了测试我们的RI方法对于现实世界应用的鲁棒性，我们对来自ScanObjectNN的扫描室内对象评估了所提出的PaRI-Conv [33]。我们选择OBJBG子集，它包含来自15个类别的2，902个除了常见的滋扰，如噪声，不完整性和变形，该子集中的数据请注意，正常不适用，因为它在他们的处理数据集上不可用。结果如表3所示，我们的方法还可以实现一致的不变性旋转，即使在各种现实世界的滋扰存7480在。由于我们应用的轴−O−→pr7481R∥ ∥ ∥ ∥R相比之下，由于姿势感知，我们的方法可以通过简单地堆叠PaRI-Conv层来获得完整的全局上下文，就像在正常的2D CNN中一样。此外，PaRI-Conv也没有全局方法中使用的姿态预测器[12]。因此，如表4所示，我们的方法以最小的模型大小和更少的计算成本（>48%FLOPs减少）实现了DGCNN 李等人[12个]AECNN [43] LGRNet [45]我们FLOPs小行星2495小行星3747小行星4841M小行星5828M小行星6538Params1.81M2.91M1.99M5.55M1.85M图5.在z/SO（3）设置下，ShapeNet- Part Dataset [41]上的部件分割结果可视化。地面实况在最左边的列中。其余列是我们在所示旋转下的测试结果。当存在杂乱的背景时，由于全局中心O的偏移，（pc）可能非常不稳定。We替换−O−→pr基于PCA的主轴，表示为我们的（PCA）。虽然我们的（pc）竞争力较弱，但我们的（PCA）实现了最佳性能，并比最强的竞争者LGR-Net高出2.1%。更重要的是，当比较对齐数据的结果时（即，z/z），我们的（PCA）甚至超过了大多数标准的3D深度学习方法（例如，DGCNN [35]），这表明通过我们的PaRI-Conv显式地对相对姿态进行建模不仅可以消除姿态信息丢失，而且还可以对抗现实世界数据中存在的各种方法z/zz/SO（3）SO（3）/SO（3）PointNet [23]输入p73.3仅c16.754.7[24]第二十四话82.315.047.4[14]第十四话86.114.663.7DGCNN [35]82.817.771.8[44]第四十四话74.675.375.5[13]第十三话-79.8-[45]第四十五话81.281.281.4我们的（pc）77.877.878.1我们的（PCA）83.383.383.3表3.在三种训练/测试设置下，ScanObjectNN数据集的真实世界分类准确率（%）’PCA’ denotes the primal axis5.5. 模型复杂性效率和轻便也是我们的主要优势。以前的方法由于较大的感受野[43]和额外的网络[45]而导致较大的计算成本，以合并丢失的全局信息。在表4.比较ModelNet 40数据集上的模型复杂度，其中浮点运算/样本（FLOPs），参数数量（Params）和精度（Acc.）本文报告5.6. 消融研究为了证明PaRI-Conv中每个组件的有效性所有实验均通过ModelNet40 [37]数据集的准确度（%）进行评价相对姿态表示。姿势是关键防止信息丢失。因此，如何表现它是一个值得探讨的问题。如表5所示，我们将我们提出的APPF与：1）旋转矩阵和平移向量（R，t），2）定义为等式9的PPF [5]，以及3）没有方向信息的APPF，其定义为（d2，cos（α1），cos（βr，j），sin（βr，j）），其中d2，α1，βr，j可以被认为是3维极坐标，其仅编码相对位置信息。首先，APPF明显优于仅部分编码姿态信息的表示（2，3），证明了姿态感知在防止RI学习中存在的信息丢失方面的关键作用此外，APPF也超过（R，t）1。1%，这表明APPF是深度网络嵌入的更有效表示号RI表示昏暗SO（3）/SO（3）1（R，t）1291.22PPF491.53APPF-无方向591.44APPF892.3表5. 相对位姿表示Pj的烧蚀研究。分解动态内核。如表6所示，我们将所提出的因子分解动态内核（FDK）与允许姿态感知卷积的其他策略进行了比较，包括：1）Concat，其中我们消融FDK并直接将APPF与潜在特征连接起来，2）Ours-w/oEdge，其中我们消融最终EdgeConv，以及3）其他动态内核[15，36，39]。使用建议的FDK，我们的- w/oEdge减少了参数的数量（高达26%）和FLOP（>12%），同时实现了更好的性能。这表明FDK更加紧凑和灵活。我们7482充分PaRI-Conv可以进一步提高性能到92.3%，适度的参数和FLOPs增量。动态内核ParamsFLOPsSO（3）/SO（3）康卡特1.84M-91.3RSCNN [15]1.83M小行星1913M91.2PointConv [36]2.45M小行星226491.2PAConv[39]2.44M小行星176889.6Ours-w/oEdge1.81M小行星157991.7我们1.85M小行星653892.3表6.因子化动态核的烧蚀研究。LRF建筑。LRF的选择对于旋转不变性的鲁棒性至关重要。回想一下，我们在4.1节中引入了三个相对稳定的轴，它们是法线nr，即局部重心−p−r−m→r=mr−pr，方向与全局中心−O−→pr=pr−O。基于这些ax，我们构造图6. 形状分类任务中学习的密集特征的可视化。虽然DGCNN（第二行）学习到的特征变化很大，但我们的PaRI-Conv（第三行）在不同旋转下为相同结构学习了一致的表示。各种LRF通过分配其中两个作为（e1，e2）和de-rr r这个因素，我们进一步评估我们的PaRI-Conv对对齐按照公式8推导LRF。如表7所示，正常的LRF通常优于同行。此外，用（nr，−O−→pr）中的全局中心替换（n r，−p−r−m→r）中的局部重心，可以获得更好的性能降解（0. 6%），这证明了我们的假设，LRF应该只建立在局部几何学上。（e1，e2）Rr（−p−r−m→r，−O−→pr）（−O−→pr，−p−r−m→r）（nr，−O−→pr）（nr，−p−r−m→r）Acc.91.291.491.792.3表7. LRF结构的烧蚀研究。5.7. 学习RI特征我们在图6中可视化了各种旋转下的学习特征图。虽然DGCNN[35]随着形状的旋转而变化很大，我们的PaRI-Conv可以学习不同旋转下点云之间对应点的一致表示上述结果表明，开发像PaRI-Conv这样的尊重3D空间中的自然对称性（例如旋转和反射）的深度网络允许相同的几何结构共享相同的卷积核。相反，旋转敏感方法[35]被迫在不同姿态下学习相同结构的冗余滤波器，这表明PaRI-Conv具有开发更紧凑网络的潜力。5.8. 讨论虽然我们的PaRI-Conv解决了RI学习中的信息丢失问题，但PaRI-Conv与最近的旋转敏感方法[39，46]在对齐数据上仍然存在很小的差距。我们假设这可能部分是由于对齐数据中存在的某些先验例如，床和衣柜的形状非常相似，而标准姿势（即，躺下与站立）提供了强先验，使其更容易区分它们，然而，这不能被我们的PaRI-Conv所利用。排除直接将坐标作为输入。令人惊讶的是，以法线作为稳定轴，PaRI-Conv达到93。8%的总体准确度，优于最近的点卷积方法PAConv [39]（93. 6%）和基于变压器的强大方法[46]（93. 7%）（详见补充材料）。我们认为，上述结果揭示了姿态信息的重要性，而这一点在以前并没有得到很好的利用，我们提出的PaRI-Conv是一种有效的姿态变化几何结构捕获算子6. 结论、局限性和未来工作我们已经提出了PaRI-Conv，这是一种用于在3D点云上进行RI学习的姿势感知卷积算子。我们揭示了当前RI方法的性能低下是由固有的位姿信息丢失问题引起的，并证明了PaRI-Conv可以通过基于相对位姿动态调整内核来完美地解决这个问题。具体而言，一个新的增广点对特征（APPF）已被提出来有效地编码的姿态。为了合成动态内核，我们将其分解为共享基础和低DoF动态内核，这已被证明是更轻量级的，而不会牺牲灵活性。实验结果表明，PaRI-Conv算法具有一致性不变性，并且通过消除姿态信息丢失，能够以更少的参数和计算量明显优于现有的RI算法。虽然我们的方法对真实世界的干扰具有一定的鲁棒性，但由于LRF的不稳定性，由于PaRI-Conv为RI学习提供了一个通用框架，因此可以通过应用更强大的LRF来解决这个问题[21，26]。在未来，我们希望PaRI-Conv可以为将旋转不变性引入更多的任务铺平道路，例如，语义分割、对象检测和配准等。DGCNN我们输入7483引用[1] Chao Chen，Guanbin Li，Ruijia Xu，Tianshui Chen，Meng Wang，and Liang Lin. Clusternet：具有严格旋转不变表示的深度层次集群网络，用于点云分析。在IEEE/CVF计算机视觉和模式识别会议论文集，第4994-5002页一、二[2] TacoSCohen， MarioGeiger ， JonasK？hler ，andMaxWelling.球形cnns。ICLR，2018年。二、五[3] Congyue Deng ， Or Litany ， Yueqi Duan ， AdrienPoulenard，Andrea Tagliasacchi，and Leonidas J. Guibas.向量神经元： SO （ 3 ） - 等变网络的一般框架 . 在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第12200-12209页，2021年10月。二、六[4] Haowen Deng ， Tolga Birdal ， and Slobodan Ilic.Ppf-foldnet：旋转不变3d局部描述符的无监督学习在欧洲计算机视觉会议（ECCV）的会议记录中，第602-618页，2018年。4[5] Bertram Drost Markus Ulrich Nassir Navab 和 SlobodanIlic。全局建模，局部匹配：高效、鲁棒的3D物体识别。在2010年IEEE计算机学会计算机视觉和模式识别会议上，第998IEEE，2010年。二四七[6] Jin Fang ， Dingfu Zhou ， Xibin Song ， Shengze Jin ，Ruigang Yang，and Liangjun Zhang. Rotpredictor：用于点云分类的无监督规范视点学习。2020年国际3D视觉会议（3DV），第987-996页IEEE，2020年。二、六[7] Matthias Fey和Jan Eric Lenssen。快速图形表示学习与pytorch几何。arXiv预印本arXiv：1903.02428，2019。5[8] Fabian Fuchs，Daniel Worrall，Volker Fischer，and MaxWelling. Se（3）-transformers：3d旋转平移等变注意网络。神经信息处理系统的进展，33，2020。2[9] Yulan Guo，Hanyun Wang，Qingyong Hu，Hao Liu，LiLiu，and Mohammed Bennamoun. 3D点云的深度学习：调查。 IEEE Transactions on Pattern Analysis andMachine Intelligence，2020。1[10] Max Jaderberg，Karen Simonyan，Andrew Zisserman，et

下载后可阅读完整内容，剩余1页未读，立即下载