平行帧场网络：基于三维表面的卷积神经网络的特征学习

105 浏览量更新于2023-10-23 收藏 18.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1135780PFCNN：使用平行帧的三维表面上的卷积神经网络0杨宇琪�1,3 刘世林�2,3 潘浩†3 刘洋3 童欣301 清华大学 2 中国科学技术大学 3 微软亚洲研究院 yangyq18@mails.tsinghua.edu.cn freelin@mail.ustc.edu.cn {haopan,yangliu,xtong } @microsoft.com0摘要0表面网格是广泛使用的形状表示方法，比点云或体积网格捕捉到更细的几何数据，但由于其非欧几何结构，直接应用CNN是具有挑战性的。我们使用表面上的平行帧来定义PFCNN，通过忠实地模拟标准卷积，在表面网格上实现有效的特征学习。特别地，PFCNN的卷积不仅将局部表面补丁映射到平坦切平面上，还对齐切平面，使其在局部形成平坦的欧几里得结构，从而实现标准卷积的恢复。通过从离散微分几何中借用局部平坦连接的工具，可以实现对齐的编码和计算，这可以通过平行帧场来实现。此外，通过使用帧方向进行采样来处理曲面上的缺乏规范轴的问题。实验证明，对于包括分类、分割和可变形几何域上的注册以及刚性域上的语义场景分割在内的任务，与最先进的基于曲面的CNN相比，PFCNN在不使用复杂的输入特征的情况下实现了稳健且优越的性能。01. 引言0将CNN应用于3D几何域对于超越2D图像的深度学习至关重要。与常规的2D图像不同，3D几何数据可以用不同的形式表示，给标准CNN带来了挑战。例如，体积网格定期采样R3，CNN可以轻松部署在上面，但它们占用内存并且不灵活，无法捕捉细微的几何细节。为了表示效率，3D对象和场景经常通过将其边界表面离散化为三角网格来编码。然而，曲面和不规则采样的网格不适用于为具有规则像素网格的平面图像域设计的标准CNN。虽然已经提出了几种基于曲面的CNN来解决这个问题，但在本文中，我们使用平行帧场来解决这个问题。0� 共同第一作者。工作期间在微软实习。† 通讯作者。0我们采用了点切向N方向帧（图1）来定义一种新颖的PFCNN框架，其卷积更加忠实地模拟了标准图像卷积。0与标准CNN类似，PFCNN卷积每次在局部表面补丁上工作，并将其映射到平坦切空间，其中卷积核被参数化，就像许多先前的基于表面的CNN所做的[28, 3, 30,32]。然而，与以前的方法不同的是，我们还对不同表面点的切空间进行对齐，使其在局部形成平坦的欧几里得结构，表面特征图和卷积核可以像在标准图像域中一样移动。对于图像，这种平移操作在卷积的平移等变性属性中得到正式捕捉[4]，这是CNN的有效性的关键因素，通过启用共享可训练权重，从而显著减少网络参数的数量，以避免过拟合并实现泛化[23,13]；我们表面上的卷积被证明在局部上重现了图像域的平移等变性。0我们采用了离散微分几何中局部平坦连接的工具[45]来对齐切线空间。局部平坦连接由点切向N方向帧的场（图1）编码，该场通过高效计算以平行和对齐显著几何特征以更好地捕捉语义。此外，由于曲面上不存在规范轴，我们使用相同的N帧方向对轴进行采样，并使用域曲面的N覆盖空间组织生成的特征图；在每个覆盖空间的表面上，选择规范轴并定义卷积。此外，为了处理不规则的网格顶点，对于每个补丁，我们使用规则网格重新采样，并在其上应用标准形状的卷积核。0PFCNNs类似于标准CNNs，因此可以相应地利用高效的网络结构。通过对可变形形状分类、分割和匹配以及刚性场景分割的实验，我们展示了仅使用原始输入信号的PFCNNs相比竞争的表面CNN框架具有更好的性能。此外，我们进行了广泛的消融研究，以验证我们框架的组成部分。2. Related workTxMTzMTyM135790我们简要回顾了3D神经网络，根据领域表示的形式进行分类，并重点关注使用表面网格的最相关工作。03D神经网络用于体积网格、点云和多视图表示。最早的3D深度学习工作直接将CNN扩展到3D体积网格[47,29]，后来通过使用自适应网格（如只在边界表面周围使用高分辨率的八叉树）提高了计算效率[37,46]。点集也方便地编码3D形状，其中基于集合的PointNet[33]被提出，并通过PointNet++[35]扩展以利用局部表面块结构。类似地，更多的工作利用3D点云的局部块结构，例如切线平面投影[42]，带有格点结构的定位[40]或局部核函数[1,43]。多视图表示使用一组2D图像对3D数据进行编码[41,34]，在这些图像上应用标准CNN提取中间特征并进行聚合以获得最终输出。本文提出的PFCNNs在表面网格上工作，这些网格由于其高效捕捉几何细节而被广泛用于3D表示。0基于块的表面CNNs。一系列的工作通过在局部测地块上应用卷积运算，将标准CNNs扩展到曲面域；它们主要在卷积计算的具体方式上有所不同。Masci等人[28]将每个测地块参数化为极坐标，然后通过旋转核函数来计算卷积操作，对一组离散角度进行卷积，并进一步对不同角度的卷积特征进行汇总以获得输出。使用这种方法很难捕捉各向异性或方向性信号。后来，Boscaini等人[3]通过将卷积核与主曲率方向的框架对齐，扩展了[28]中的方法，从而消除了角度汇总和歧义，并在各种任务上显示出改进的性能。Xu等人[48]使用类似的卷积在n个相邻面上进行形状分割。MoNet[30]通过将卷积核建模为高斯混合的基函数和系数完全可训练，而不是固定参数化的函数，扩展了测地卷积。TextureNet[16]在测地块上通过4方向场定义局部矩形网格，并分别提取中心或角网格点的特征以处理网格方向的歧义。多方向CNNs[32]通过使用平行传输来解决测地块的方向对齐问题，以匹配不同表面点的方向卷积响应，从而实现了方向信号的有效传播。与这些方法不同的是0（a）（b）图1.对于基于块的表面CNNs，关键问题是如何对齐不同表面点的切空间。（a）平行传输是路径相关的，将T x M中的向量直接映射到T zM中的蓝色向量，但通过T y M中的红色虚线向量。（b）通过构建由平行4方向帧场编码的平坦连接，我们的方法在图像域中具有路径无关的平移。0基于流形的工作，SplineCNN [11]定义了用于在曲面上提取特征的3D样条卷积核，本质上是一种处理网格不规则采样的体积方法。我们的PFCNN遵循测地线卷积范式，但在卷积计算上与其他方法不同。事实上，我们的框架与最新的平行传输方法[32]密切相关，但我们使用局部平坦连接来对齐切向空间，这不仅近似平行传输，还引入了适用于图像的局部欧几里得结构。此外，局部平坦连接可以适应捕捉显著的几何特征，如锐角，从而进一步提高性能。因此，我们的PFCNN在各种任务上显示出优越的性能（第6节）。0使用图集映射的表面CNN。另一系列工作通过将表面域映射到2D图集图像上，并在其上应用标准卷积来处理表面域。Sinha等人[39]使用几何图像将球拓扑的3D表面映射到平面域，并将映射输入CNN进行形状识别。Maron等人[27]指出，几何图像在图集映射的图表之间存在间隙，并提出将球拓扑的表面共形地参数化为具有环面拓扑的平面图像，其中应用具有跨边界循环填充的标准卷积。这种卷积被证明是共形平移等变的，但对于不同表面区域的共形缩放失真不均匀。Li等人[25]通过调制卷积以跨越间隙来处理图集映射的间隙，而映射失真通过细分图表来松散约束。相比之下，我们的框架适用于具有一般拓扑的曲面，并通过局部块范式自动保留原始信号，最小化由于局部块范式引入的失真。03. 概述0为了表示3D对象的边界，我们考虑一个表面网格 M = (V,F)，其中 V = {v i} 是具有嵌入 v i ∈ R 3 的顶点集合，F ={f i = (v i 0, v i 1, v i 2)}是由顶点索引角标识的面集合。记单位̸135800在顶点 v i 处定义法向量 n v i ∈ R 3 和切平面 T v iM，我们可以将局部测地块投影到切平面上并应用标准的类似图像的卷积。正如第2节所述，尽管大多数基于块的表面CNN都遵循这种一般方法，但关键挑战在于如何协调不同顶点的切平面上的卷积（图1）。我们通过构建局部平坦连接来解决这个挑战，将切平面对齐到局部平坦的欧几里得域，从而实现有效的权重共享和平移等变性，模拟2D图像上的行为。在第4节中，我们简要回顾了具有平移等变性属性的标准欧几里得卷积，从微分几何学的角度介绍了连接的概念，以及由N-方向框架场和N-覆盖空间编码的局部平坦连接以及组织卷积和特征图的新层。在第5节中，我们介绍了使用平行框架在曲面上进行的扩展卷积，该卷积实现了局部平移等变性，并处理了网格上的不规则顶点采样，以及构成PFCNN模型的新层。04. 背景04.1. 欧几里得域上的卷积0CNN的卷积操作利用了2D图像的平移等变性[22, 23, 4]。设f, k: Ω � R 2 → R 是定义在图像 Ω 上的两个函数，k是通常具有局部空间支持的卷积核。定义卷积算子 � 为 f � k(x) = �0y ∈ Ω k ( y − x ) f ( y ) dy . 将图像基函数沿着向量 v ∈R 2 进行平面平移，得到 τ v ( f ( x )) = f ( x − v )。平移等变性意味着平面平移与卷积是可交换的，即0τv(f�k)=τv(f)�k。（1）0CNN使用可训练权重对卷积核进行参数化，这些权重可以共享给不同的图像区域，从而减少过拟合并提高泛化性。如下所讨论的，在曲面域上，平移的概念只有在局部上才有意义，这对于卷积核的有效权重共享构成了困难。04.2. 连接和局部平坦连接0连接将平移的概念推广到具有非欧几里德度量的曲面上[24]。直观地说，（线性）连接�：TM×TM→TM测量了移动切平面TxM沿着矢量v∈TxM的线性微分。因此，曲面上的“直线”测地线γ：[0,1]→M的�˙γ˙γ=0，即曲线切向矢量沿着自身直线移动。实际上，基于补丁的多方向测地线CNN（MDGCNN）[32]通过将两个表面补丁的卷积相连接来进行平移0沿着连接两个补丁中心的测地线连接的切平面，为2D图像上的平移提供了自然的扩展。然而，沿着测地线平行传输的问题是映射是路径相关的。考虑三个附近的点x，y，z∈M，并将沿着x，y之间的测地线的切平面的传输表示为τx,y：TxM→TyM。一般而言，我们有τy,z◦τx,y≠τx,z，其中◦是组合，差异是由由测地线界定的三角形表面补丁的曲率引起的（图1（a））。在本文中，我们提出使用称为局部平坦（或平凡）连接[6，36]的构造来实现除少数奇异点外的所有表面补丁的路径无关切空间映射。局部平坦连接的思想是将曲面曲率集中在稀疏的奇异点上，并将大部分表面区域的切空间映射视为欧几里德域中的映射，从而为图像上的卷积铺平道路。04.3. N-方向框架场和覆盖空间0编码网格的局部平坦连接的一种方法是通过N-方向框架场[36，45]。在x∈M处的N-方向场给出了N个旋转对称方向uix∈TxM，i=1，∙∙∙，N；因此，序列中的两个连续向量之间的角度差为2π/N。因此，两个切平面之间的传输（或匹配）τx,y可以通过将uix与ujy进行标识来定义，这只是一种基底的变换。特别地，我们使用主要匹配，它选择使∥τ′x,y(uix)−ujy∥最小的j，其中τ′x,y是x，y之间沿测地线的平行传输。此外，当且仅当顶点x具有一组邻近顶点[p1，∙∙∙，pn]的循环，使得通过τpn,p1◦τpn−1,pn◦∙ ∙∙◦τp1,p2映射的uip1不返回到自身时，顶点x是奇异的（图2（c））。因此，在不包含奇异顶点的补丁上，无论x，y之间采取的路径如何，传输τx,y保持不变[6]（图1（b））。另一方面，奇异顶点处的集中曲率只能是2π的倍数0N，这解释了N个对称方向的使用：更大的N允许更灵活的奇异性和平坦连接。我们稍后讨论N的选择。通过求解与平行传输最小偏离并与底层表面的显著几何特征对齐的平滑（或平行）框架场（有关详细信息，请参见附录B），我们获得了近似线性连接的局部平坦连接，同时在变形形状之间具有一致性，从而通过扩展表面卷积支持改进的特征学习。虽然现在我们可以转换切平面，但与2D图像不同，表面域的一个独特挑战是缺乏切平面的规范轴。通过111222333444123412341234135810图2.4个方向框架及其对应的覆盖空间。a）和b）：没有奇异顶点的框架及其四个独立的覆盖表面。c）和d）：具有奇异顶点的框架，位于立方体角上的表面，其四个覆盖表面在奇异顶点处连接和重合。0随机固定一个切平面上的轴，会导致特征学习的显著偏差。相反，更健壮的方法是在切平面上采样多个方向作为轴，并适当地聚合学习到的特征以得到最终的输出。幸运的是，N个方向框架提供了切向方向的均匀采样，这激发了引入它们的关联N-覆盖空间，以便在多个轴上组织特征学习。0N-覆盖空间。一个框架场在定义域曲面上诱导出一个N-覆盖空间[18,9]。直观地说，覆盖空间由基本曲面的N个副本Mi（i = 1,...,N）组成，每个副本Mi具有一个单位向量场uσx(i)x，其中σx(i)索引了第i个副本上x处的N-方向框架的向量；此外，uσx(i)x和uσy(i)y由主匹配τx,y连接（图2）。单位向量场在覆盖空间上的任何地方都是良定义的，除了在奇异顶点处，覆盖空间的不同表面重合。在本文中，我们使用向量场作为规范轴，并在覆盖空间上计算曲面卷积；在奇异顶点附近，我们的框架退化为类似于平行传输方法[32]的策略。05. 基于曲面的PFCNN05.1. 基于平行框架的曲面卷积0给定一个带有平行N-方向框架uix的曲面网格M，对于顶点vi及其特征向量Fjvi（j = 1, ...,N），在第σ−1vi(j)个覆盖表面上计算曲面卷积的步骤如下：01.将ujvi选择为切平面TviM上的x轴。因此，局部坐标系由2×3矩阵Fjvi = (ujvi, nvi × ujvi)T编码。02.对于相邻的测地补丁Nvi中的每个顶点vk，将其投影到切平面上，得到坐标系Fjvi下的vk'。令ulkvk =τvi,vk(ujvi)，投影点的特征向量为Flvk。将投影的特征图重新采样到一个规则网格中，表示为FjNvi。03.用在Fjvi下定义的常规卷积核K对FjNvi进行卷积。响应构成vi的特征向量，用于下一层网络。0在介绍第2步的详细信息之前，我们注意到以（1）的形式的平移等变性确实在局部成立：0τvi,vk(f�k) = τvi,vk(f)�k，(2)0假设 f 是定义在切平面 TviM 上的函数，k是支持在切平面上的卷积核。等式成立的原因是：在左边，f�k返回一个定义在TviM上的函数，然后通过平坦连接τvi,vk将其传输到定义在TvkM上的函数；而在右边，f首先被传输到TvkM上，然后与TvkM上的k进行卷积。由于传输τvi,vk只改变底层坐标系的基，使用局部坐标定义的函数f和k在传输过程中不会发生任何变化，这使得等式显然成立。此外，在没有奇异顶点的区域中，无论两个顶点之间选择哪条路径，传输和等式都成立，这与路径相关的平行传输不同；对于具有奇异顶点的区域，由于传输最小化了与平行传输的偏差（第4.3节），我们的卷积与平行传输方法非常相似。0投影到切空间和重采样。以前基于补丁的表面CNN使用各种测地线追踪方法将极坐标系施加到邻域补丁Nvi上，并将每个相邻点映射到切平面[28, 3, 30,32]。我们采用了从[5]改编的类似方法，该方法计算简单且适用于点云，从而可以轻松将我们的框架扩展到点云。特别是，我们使用局部轴Fjvi调节测地坐标计算，并使用Delaunay三角剖分重新三角化投影的邻近点，以避免翻转的三角形，然后在卷积核形状的规则网格上进行重采样和特征向量插值。该操作由预先计算的表面网格的稀疏张量S编码，并可以通过标准的NN库进行高效应用。详见附录C。05.2. PFCNN结构0在本节中，我们介绍了PFCNN特有的层的详细结构。这些层可以与标准CNN层组合，并堆叠成网络，如U-Net[38]和ResNet[14]。输入层。PFConv以N个特征图的组作为输入，这些特征图对应于N个覆盖表面。这些特征可以通过简单地复制原始输入来构建N个副本，即| V |× C in → | V |× N × Cin，其中Cin是每个顶点的输入特征长度，也可以通过进一步利用不同覆盖表面的局部坐标系来计算。实际上，我们发现对于可变形域的任务，例如非刚性形状分类、分割和配准，一个简单但有效的输入135820对于全局刚性变换不变的特征，法向量和局部坐标系中的切平面高度是局部特征的采样，即对于每个补丁顶点vk∈Nvi，F l v k = � F j v i n v k , n T v i n v k , n T v i ( v k − v i)�。在这种情况下，输入层通过使用规则网格对局部特征进行采样，构建了一个扩展的| V |× N × H × W ×C的特征图（Sec. 5.1），其中H ×W是要应用的后续卷积核的空间形状。输出层。对于最终的每个顶点输出，我们需要将分组特征图减少到一个聚合，即|V |× N × C → | V |×C。减少操作可以采用不同的形式，例如在N个并行通道中取最大值或平均值，或者通过标准的1×1卷积隐式学习。输出可以进一步聚合到整个形状的单个输出中，如分类任务中所示。卷积层。给定形状为| V |× N × Cin的输入特征图Fin，卷积层首先将其向量化为vec(Fin)，与形状为(| V |× N × H × W, | V |×N)的稀疏矩阵S相乘，该矩阵进行特征图重采样（Sec.5.1），然后将结果向量重新整形为形状为| V |× N × H ×W × C in的张量；然后将其与形状为H × W × C in × Cout的卷积核相乘，以获得形状为| V |× N × Cout的输出特征图。如果输入层提供了带有局部特征的扩展特征图，如上所述，卷积是与卷积核的简单乘法。此外，通过C in × Cout的卷积核在每个覆盖表面上进行1×1卷积的特殊情况跳过了特征重采样步骤，并直接与Fin相乘以获得输出。请注意，相同的卷积核在所有N个特征图的覆盖表面上共享，因为不同的覆盖表面在表面域上有效地采样了规范轴。池化/反池化层。池化和反池化层有效地改变了学习特征的空间分辨率。对于表面网格，可以通过简化网格Mi的层次结构来构建不同的域分辨率，其中M1 = M，每个粗糙顶点v ∈Vi+1对应于一组密集顶点{v'k} � Vi，使用例如[12,15]。我们调整简化过程，使其N方向的框架也被映射，即Fjv对应于F lv'k最接近的轴通过旋转。池化是0然后定义为Fjv =Pool({Flv'k})，其中Pool(∙)采用逐通道最大值或平均值；该层的特征图形状为|Vi|×N×C →|Vi+1|×N×C。Unpooling是池化的逆操作。在整篇论文中，我们假设批量大小为1，尽管使用更大的批量大小只要每个批次的每个域分辨率上的网格具有相同数量的顶点就是微不足道的。我们使用Tensorflow实现了上述层；代码公开可用[1]。01 代码和数据可在https://github.com/msraig/pfcnn获得。0表1.SHREC'15非刚性形状分类结果。PN+是PointNet++[35]；“raw”表示使用空间坐标作为输入，“en”表示使用内在形状描述符的集成。MDG是使用SHOT特征作为输入的MDGCNN[32]。0PN+（原始） PN+（集成） MDG 我们的0准确率(%) 60.18 96.09 99.5 99.50表2.人体分割结果。我们的方法在原始数据和重新网格化数据上均优于MDGCNN。0原始重新网格化0方法 MDGCNN 我们的 MDGCNN 我们的0准确率(%) 88.2 91.45 89.53 91.7906. 实验0我们测试了PFCNN框架，并主要与最先进的MDGCNN[32]在涉及形状分类、分割和配准的可变形域任务上进行比较，其中MDGCNN在性能上优于其他方法，并与最先进的TextureNet[16]在具有刚性基础域的场景语义分割任务上进行比较。我们还对并行帧、覆盖空间分组特征图和层归一化等因素进行了消融研究。06.1. 可变形域任务0为了公平比较，我们对PFCNN使用5×5的卷积核，对MDGCNN使用更大的4（径向）×8（角度）的卷积核，在每个任务中，两种方法的网络结构相同，除了配准任务中采用相同数量的卷积层。网络和训练细节在附录D中提供。0分类。SHREC'15非刚性形状分类挑战[26]有1200个属于50个类别的表面网格表示的形状。我们使用具有三个分辨率级别和局部法线向量作为输入特征（第5.2节）的网络进行PFCNN。如表1所示，我们的结果在使用集成的复杂输入特征（例如WKS和HKS）的PointNet++[35]上表现优异，这些特征对非刚性变形是不可知的。我们与使用SHOT描述符[44]作为输入的MDGCNN相媲美，该描述符具有旋转不变性并且比我们的原始输入更复杂。0人体分割。[27]提出的人体分割数据集包含来自各种来源的不同人物身份和姿势的标记网格，按381/18进行训练和测试划分。这些网格的尺度差异很大，我们首先进行归一化。网格的分辨率也非常不同，顶点数量从3k到12k不等，然而我们的网络在这些数据上没有重新网格化也能很好地工作。网络是一个类似U-Net的结构，具有三个域分辨率级别。为了与MDGCNN进行比较，我们在原始网格和使用其开源代码生成的重新采样网格上进行测试。测试结果报告在表2中。0.00.10.20.30.40.5Geodesic Error0.8000.8250.8500.8750.9000.9250.9500.9751.000AccuracyOurs_INOurs_BNMDGCNN_4bin8dir_BNMDGCNN_4bin8dir_INMDGCNN_4bin16dir_IN135830(i)0(ii)0(iii)0图3. 人体分割结果。(i) 真实标签；(ii) MDGCNN的结果；(iii)我们的结果。0并在图3中可视化。请注意，不同样本的真实标签并不总是一致的，这阻碍了实现非常高的准确性的可能性。例如，在图3中，第三列的GT错误地将小腿标记为大腿。但是我们的方法正确地分割了这部分，并且比MDGCNN具有更好的覆盖范围。对于一些与训练数据不相似的形状，例如图3中的第一列具有异常头发的形状，两种方法都无法正确地分割头发，尽管我们的方法更好地捕捉了面部。0通过顶点分类进行人体配准。我们使用FAUST数据集[2]提出的非刚性人体配准任务进行测试。在一个场景中，通过将每个输入网格顶点的身体形状分类到模板网格上的相应顶点来实现配准，这与之前的工作[28, 3,11]相同。我们使用一个简单的网络，其中包含一系列在PFCNN中相同细节级别上的卷积，以及在MDGCNN中的两级网络，遵循它们的原始设置。FAUST数据集中的网格与模板具有相同的拓扑结构，这可能被不公平地利用来学习对应关系。根据MDGCNN的方法，我们将它们重新网格化为5k个顶点和不同的拓扑结构。使用最近的顶点作为原始网格和重新网格化网格之间的对应关系，我们可以得到对重新网格化模板的地面实况顶点对应关系，以通过将每个顶点分类为5k个类别来监督配准任务。我们在重新网格化数据上实现了92.01%的准确率，而在原始网格上的准确率为94.5%。为了与MDGCNN进行全面比较，我们还测试了它们的网络的不同径向bin和角度方向以及不同的归一化方法（更多讨论见第6.3节）。在有界测地误差内的准确率如图4所示；我们的结果甚至比他们使用4×16个卷积核和实例归一化的最佳结果具有更好的零误差准确率。视觉结果如图5所示；我们可以看到我们的结果对模板形状有更平滑的映射。0图4. 非刚性配准中给定测地误差下的准确性，通过顶点分类。0(i)0(ii)0(iii)0图5. 我们的方法和MDGCNN在非刚性配准上的视觉比较。(i)真实映射;(ii) MDGCNN在4个bin，16个方向上的最佳结果;(iii)我们的结果。0在附录E中，我们在噪声实际扫描和多样性高层次网格的非刚性配准的更具挑战性的场景中进行了回归测试，我们的结果再次比MDGCNN更好和更稳健。总之，与MDGCNN使用基于平行传输的卷积相比，使用引入局部路径无关传输和对显著几何特征的对齐的平行帧可以更有效地学习特征，我们的卷积在细分割和配准等更细粒度的任务中差异更为明显。06.2. 语义场景分割0在本节中，我们在ScanNet数据集[7]提供的广泛使用的室内场景语义分割任务上进行评估。虽然室内场景通常由平坦的墙壁和地板主导，但PFCNN仍然表现出良好的性能，优于使用切向和局部补丁卷积的最先进的TangentConv[42]和TextureNet[16]。我们使用具有U-Net结构和三个域分辨率级别的网络。我们按照[16]的方法通过从整个场景中裁剪小块来准备训练数据，并mIoU0.490.580.6320.662mA(%)61.474.475.777.92oA(%)77.980.3885.0186.26135840表3.ScanNet分割任务结果。mIoU是类别平均交并比。mA是类别平均准确率。oA是整体准确率，对场景中占主导地位的地板和墙壁有明显偏差。Ours*使用了一个具有更多卷积层的网络。0[42] [16] 我们 Ours*0(i) (ii) (iii) 图6.通过比较方法对ScanNet进行分割的示例室内场景。(i)是真实分割结果；(ii) 是[16]的结果；(iii)显示我们的结果。我们的结果具有更规则的边界，分隔出更一致的区域。0对这些随机围绕竖直方向旋转的块进行训练以进行增强。对于网络输入，我们遵循[42]的做法，为每个曲面块的网格顶点包括离地面的高度、法向量、颜色和距离局部切平面的距离，而不是像第5.2节中讨论的局部化法向量，而[16]则使用额外的高分辨率纹理图像作为输入。为了公平比较，我们使用了与[16]相似数量的可训练参数的网络；我们还探索了增加网络规模的效果并报告了更好的性能。0在验证集上比较方法和我们的结果的统计数据如表3所示；我们的结果的平均IoU和平均准确率比他们的要好得多，这表明我们的网络可以更好地区分小物体，而不仅仅是像地板和墙壁这样的主导部分。图6显示了一些视觉结果。在（i）中的黑色区域是未标记的数据；我们的方法为这些区域预测了合理的标签。我们结果中不同对象之间的边界比[16]更清晰，比如第一行中窗户和墙壁之间的边界以及第三行中门和墙壁之间的边界；我们的分割也更加规则和一致。请参见附录E以获取有关验证集和测试集上更详细的数据和视觉结果。0考虑到这三种方法都使用切向空间卷积，结果表明，我们的局部平移等变卷积作为关键差异在学习特征方面更加有效。0表4.不同卷积方法在顶点分类的非刚性注册任务上的测试准确率。PCF表示使用主曲率方向作为切平面轴。PCF作为FF表示使用主方向作为我们的PFCNN框架的4个方向框架场。0PCF PCF作为FF 我们的0准确率（%）83.29 89.80 92.010表5.不可变形注册任务中不同框架场对称阶数N的准确率和运行时间成本，以0N 1 2 4 6 80时间（ms）56.81 87.57 139.10 183.91 227.720内存（MB）148.67 156.15 205.81 371.45 409.1806.3. 剔除研究0在本节中，我们评估了PFCNN的核心构造和超参数对性能的影响。我们还研究了归一化对可变形域任务以及奇异顶点周围行为的影响。0使用框架和分组特征。我们评估了将PFCNN构造的不同组件逐个添加到基线模型上的不同配置的性能。评估是在通过顶点分类进行人体注册的任务上进行的（第6.1节）。•基线模型。当使用主曲率框架作为切平面的坐标框架时，我们有一个类似于一些最近的先前工作[3，30，48，42]的基线模型。使用类似于PFCNN的网络结构，但没有通过平面连接对齐切平面或通过覆盖层对特征图进行分组，可训练的卷积核参数实际上是PFCNN的16倍。然而，这种基线配置的准确率为83.29%（表4），远低于PFCNN。0•将主曲率框架视为4个方向的场。作为基线模型的修改，我们将主曲率框架视为4个方向的框架场，并应用PFCNN网络。结果准确率为89.8%（表4），比基线模型高得多，同时只使用1/16的可训练参数。改进表明，即使框架场不是全局优化为平滑或与显著特征对齐，通过使用其编码的平面连接以实现局部平移等变性和其引导的覆盖空间特征映射来采样切向方向，特征学习得到了显著改善。0•完整的PFCNN模型。通过额外优化与几何特征对齐的平行帧场，PFCNN框架的注册准确率进一步提高到92.01%（表4）。0帧对称阶数。如第4.3节所讨论的，当帧场的旋转对称阶数N变大时135850表6. 不同归一化的分类准确率。0我们的 MDGCNN0归一化 BN IN BN IN0准确率（%）11 99.5 14.0 99.50越大，帧场在实现平滑性和对显著特征的对齐性方面具有更大的灵活性。然而，增加N也会导致更大的计算成本，因为要计算的特征图的大小也增加了。我们再次测试了不同的N值，但修改了网络结构，以确保每组特征图具有相同的大小（即64），以便对于不同的N，可训练卷积核参数的数量保持不变。不同N的性能如表5所示。我们可以看到，选择N =4在准确性和计算开销之间取得了平衡：对于N <4，由于受限的场平滑性，准确性明显较低，而对于N >4，计算成本较高，额外运行时间大致与采样轴的数量成比例增加。我们在本文的所有其他实验中都使用了N = 4。0归一化。众所周知，归一化可以加快训练过程并使其更稳定。在这里，我们更详细地研究了不同归一化对基于表面的CNN的影响。对于分类注册任务，我们测试了我们的方法和MDGCNN使用批归一化（BN）和实例归一化（IN）。请注意，由于批量大小为1，BN和IN之间的区别在于，在测试阶段使用移动平均值和平均值的通道统计数据进行BN，而不是IN。结果如图4所示。我们发现，使用IN，我们的方法和MDGCNN都取得了更好的性能。我们在形状分类任务（第6.1节）上重复了实验；结果如表6所示。从所有这些实验中，我们可以看出，对于这些可变形域上的任务，IN优于BN。我们认为这是因为不同形状的多样变形不共享通道均值和方差的常见统计特征，类似于图像风格转换[31, 10,17]中的观察结果，这些统计特征编码的是风格而不是内容。0帧场奇异性。如第5.1节所讨论的，在奇异点附近，平移等变性不再是路径无关的，但我们的方案退化为类似于使用平行传输的MDGCNN。为了找到顶点奇异性和预测误差之间的关系，我们比较了奇异顶点的分布和预测顶点与地面真实对应顶点之间的测地距离的误差图。分布如图7所示；我们可以看到，奇异顶点主要分布在鼻子、手指或脚趾上，但不同形状的误差图并不反映这些相似性。我们还比较了奇异顶点和所有顶点在分类注册任务中的准确性。特别是，在原始数据集和重新网格化的数据集上，奇异顶点与所有顶点的注册准确率分别为93.4% / 94.5%和90.2% /92.2%，表明奇异顶点与预测误差之间没有明显的相关性。这种稳健性可以归因于具有路径相关的平移等变性的退化卷积、奇异性在形状之间的一致性（见附录B）以及学习滤波器的能力。0图7（i）显示了红色的奇异顶点，（ii）显示了预测误差图。奇异顶点与错误的预测之间没有明显的相关性。0在分类注册任务中，我们比较了奇异顶点和所有顶点的准确性。特别是，在原始数据集和重新网格化的数据集上，奇异顶点与所有顶点的注册准确率分别为93.4% /94.5%和90.2% /92.2%，表明奇异顶点与预测误差之间没有明显的相关性。这种稳健性可以归因于具有路径相关的平移等变性的退化卷积、奇异性在形状之间的一致性（见附录B）以及学习滤波器的能力。07. 结论0我们提出了一种基于表面网格的PFCNN框架，它与标准的基于图像的CNN非常相似，并具有卷积的局部平移等变性。它通过使用平行的N-方向框架来实现，这些框架既编码了表面上的平坦连接以定义路径无关的平移，又通过采样切平面规范轴来组织N-覆盖空间的卷积。与以前基于表面的CNN相比，PFCNN在细粒度特征学习方面表现更有效。将来，我们希望研究PFCNN框架如何处理表面生成任务，其中还需要生成框架场而不是预计算。0参考文献0[1] Matan Atzmon，Haggai Maron和YaronLipman。通过扩展算子的点卷积神经网络。ACM Trans.Graph.，37（4）：71：1-71：12，2018年7月。20[2] Federica Bogo，Javier Romero，Matthew Loper和Michael J.Black。FAUST：用于3D网格配准的数据集和评估。在CVPR上，2014年6月。60[3] Davide Boscaini，Jonathan Masci，EmanueleRodol`a和MichaelBronstein。使用各向异性卷积神经网络学习形状对应关系。在NIPS上，2016年，第3189-3197页。1，2，4，6，7135860[4] M. M. Bronstein，J. Bruna，Y. LeCun，A. Szlam和P. Van-dergheynst。几何深度学习：超越欧几里得数据。IEEE信号处理杂志，34（4）：18-42，2017年7月。1，30[5] Max Budninskiy，Gloria Yin，Leman Feng，YiyingTong和MathieuDesbrun。平行传输展开：一种基于连接的流形学习方法。SIAMJ. Appl. Algebra Geom.，3：266-291，2018年。40[6] Keenan Crane，Mathieu Desbrun和PeterSchr¨oder。离散曲面上的平凡连接。计算机图形学论坛，29（5）：1525-1533，2010年。30[7] Angela Dai，Angel X. Chang，Manolis Savva，MaciejHal- ber，Thomas Funkhouser和MatthiasNießner。Scannet：室内场景的丰富注释的3D重建。在CVPR上，2017年。60[8] Olga Diamanti，Amir Vaxman，Daniele Panozzo和OlgaSorkine-Hornung。使用复多项式设计n-多矢量场。计算机图形学论坛，33（5）：1-11，2014年8月。110[9] Boris A Dubrovin，Anatolij Timofeeviˇc Fomenko和Serge˘ıNovikov。现代几何学-方法和应用：第二部分：流形的几何和拓扑。1，40[10] Vincent Dumoulin，Jonathon Shlens和Manjunath Kud-lur。艺术风格的学习表示。ArXiv，abs/1610.07629，2016年。80[11] Matthias Fey，Jan Eric Lenssen，Frank Weichert和Hein- richM¨uller。SplineCNN：使用连续B样条核的快速几何深度学习。在CVPR上，2018年。2，60[12] Michael Garland和Paul S.Heckbert。使用二次误差度量的表面简化。在SIGGRAPH上，1997年，第209-216页。50[13] Ian Goodfellow，Yoshua Bengio和AaronCourville。深度学习。MIT出版社，2016年。http://www.deeplearningbook.org。10[14]何恺明，张祥宇，任少卿和孙剑。深度残差学习用于图像识别。在IEEE计算机视觉和模式识别会议上，2016年，第770-778页。40[15] HuguesHoppe。渐进网格。在SIGGRAPH上，1996年，第99-108页。50[16] 黄靖伟，张浩天，易力，Thomas Funkhouser，MatthiasNiessner和Leonidas J.Guibas。TextureN

下载后可阅读完整内容，剩余1页未读，立即下载