多视图聚合的组卷积方法及其应用

167 浏览量更新于2023-10-12 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1568等变多视图网络Carlos Esteves*，Yinshuang Xu*，Christine Allen-Blanchette，KostasDaniilovsky GRASP实验室，宾夕法尼亚{machc，xuyin，alec，kostas}@ seas.upenn.edu摘要3D视觉任务的几种流行方法利用在自然图像上预训练的深度神经网络独立地处理输入的多个视图，通过对所有视图进行单轮池化来实现视图每突变不变性我们认为，这种操作丢弃重要的信息，并导致低于标准杆的全球描述符。在本文中，我们提出了一种组卷积方法来进行多视图聚合，其中卷积是在旋转组的离散子组上执行的我们进一步开发- velop这一想法操作的旋转组，其中一个极视图表示- tation是用来保持等方差与输入视图的数量只有一小部分的较小的离散我们在几个大规模的3D形状检索任务中设置了新的最先进的技术，并显示了全景场景分类的其他应用1. 介绍对象[39，3]和整个场景[2，8]的大规模3D数据集的激增使得能够训练深度学习模型，生成可应用于分类和检索任务的全局描述符。出现的第一个挑战是如何表示输入.尽管有大量的尝试与体积[39，24]，点云[27，32]和基于网格[23，26]的表示，使用3D输入的多个视图允许切换到2D域，其中所有最近的基于图像的深度学习突破（例如。[15]）可以直接应用，促进现有技术的性能[33，20]。基于多视图（MV）的方法需要某种形式的视图池化，其可以是（1）在某个中间卷积层上的逐像素池化[33]，（2）在最终1D视图描述符上的池化[34]，或（3）将最终1D视图描述符*同等贡献。http://github.com/daniilidis-group/emvnlogits [20]，这可以被视为独立投票。这些操作通常对于查看排列是不变的。我们的主要观察是，传统的视图池是在视图集的任何联合处理之前执行的，将不可避免地丢弃有用的功能，导致低于标准的描述符。我们通过首先认识到每个视图可以与旋转群SO（3）的元素相关联来解决这个问题，因此组合多个视图的自然方式是作为群上的函数传统的CNN被应用于获得组成该功能的视图描述符。我们设计了一个群卷积网络（G-CNN，受[5]的启发）来学习与群中的变换等变的表示。这不同于通过丢弃信息的通常视图池获得的不变表示。我们通过在最后一个G-CNN层上进行池化来获得对分类和检索有用的不变描述符我们的G-CNN具有在组上具有本地化支持的过滤器，并且随着我们堆叠更多层并增加感受野，可以学习更复杂的分层表示。我们利用多个视图的有限性质，并考虑有限旋转群，如二十面体，与[6，10]相比，它对连续群进行操作为了减少处理每个组元素的一个视图的计算成本，我们表明，通过考虑相对于平面内扩张旋转组（对数极坐标）的正则坐标中的视图，我们可以大大减少视图的数量，并获得可以通过相关提升的均匀空间（H-空间）上的初始表示，同时保持等方差。我们专注于3D形状，但我们的模型适用于任何任务，其中多个视图可以表示输入，如全景场景的实验所示。图1展示了我们的模型。我们的贡献是：• 我们介绍了一种新的方法，聚合多个视图，无论是out”for panorama全景views视图.我们的模型利用了underlying组结构，导致在equivariant fea- tures的功能上的旋转组。• 我们引入了一种方法来减少视图的数量，同时保持等方差，通过转换为1569图1：我们的等变多视图网络将多个视图聚合为通过组卷积处理的旋转组上的函数这保证了与3D旋转的等变性，并允许在所有视图上联合推理，从而导致更好的形状描述符。二十面体群上的向量值函数表示在五十二面体上，相应的齐次空间（H-空间）上的函数表示在十二面体和二十面体上。每个视图首先由CNN处理，并且所得描述符与组（或H空间）元素相关联。当用H空间识别视图时，第一操作是将特征提升到组的相关性。一旦我们在组上有了初始表示，就可以应用Group-CNN。平面内旋转的规范坐标，然后是齐次空间卷积。• 我们探索了有限旋转群和齐次空间，并提出了一个离散的G-CNN模型迄今为止最大的一组，二十面体组。我们进一步探讨这一组的过滤器本地化的概念• 我们在多个形状检索基准上实现了最先进的性能，无论是在规范的姿势和扰动旋转，并显示应用于全景场景分类。2. 相关工作3D形状分析3D形状分析的性能在很大程度上取决于输入表示。主要的表示是体积、点云和多视图。体积方法的早期示例是[3]，其引入了ModelNet数据集并使用体素表示的深度信念网络训练了3D形状分类器;和[24]，其提出了具有3D卷积层和全连接层的标准架构。Su等人[33]意识到通过渲染3D输入的多个视图，可以将基于图像的CNN的力量转移到3D任务中。他们表明，即使只使用输入的单个视图，传统的CNN也可以优于体积方法，而多视图（MV）模型进一步提高了分类准确性。Qi等人[28]研究体积法和多视图法，并对这两种方法提出改进建议; Kanezaki等人[20]引入了一种MV方法，该方法通过联合预测类别和姿态来实现最先进的分类性能，但没有显式的姿态监督。GVCNN [12]试图学习如何组合不同的视图描述符以获得视图组形状表示;它们将特征的任意组合称为“组”。这与我们使用的术语“群”的代数定义不同基于点云的方法[27]实现了体积和多视图之间的中间性能，但计算效率更高。虽然网格可以说是最自然的表示，并广泛用于计算机图形学中，但直接在其上操作的学习模型仅取得了有限的成功[23，26]。为了更好地比较3D形状描述符，我们将专注于检索性能。最近的方法在检索方面显示了显著的改进：You等人[41]结合点云和MV表示; Yavartanoo等人[40]介绍了多视图立体投影;和Hanet al.[14]实现了一种递归MV方法。我们还考虑了旋转Mod-1 Net和包含旋转形状的SHREC'17 [ 29 ]检索挑战上的更具挑战性的任务任意旋转的存在激发了等变表示的使用。1570GG等变表示已经引入了许多解决方法来处理任意方向的3D形状。典型的示例是训练时间旋转增强和/或测试时间投票[28]以及学习到规范姿势的初始旋转[27]。视图池通过设计而等变的等变表示是利用对称性的有效方法。考虑一个集合X和一个变换群G。对于任意g ∈G，我们可以定义作用于集合T X：X → X的群作用，具有同态性质，T XT X= T X。考虑一个gh h在[33]中，对于输入视图的集合的排列是不变的处理旋转的一个原则性方法是使用repre-映射Φ：X → Y。我们说Φ与G等变，如果Φ（TX（x））= TY（Φ（x）），其中x∈ X，g ∈ G.（一）通过设计等变的语句。主要有g g将等方差嵌入CNN的三种方法第一种方式是约束滤波器结构，这类似于基于Lie生成器的方法[30，17]。Worral等人[38]利用圆谐波将平移和2D旋转等方差都类似地，Thomaset al. [35]引入张量场以保持3D点云的平移和旋转等变性。第二种方法是通过坐标的变化;[11，18]对输入进行对数极坐标变换，并将关于单点的旋转和缩放等方差转换为平移等方差。第三种方法是利用等变滤波器轨道。 Cohen 和Welling提出了具有正方形旋转群的群卷积（G-CNN）[5]，后来扩展到六边形[19]。Worrall和Brostow [37]在3D体素化数据上使用Klein的Four-group提出了Winkels等人[36]在用于体积CT图像八面体对称群Cohen等人[七]《中国日报》在CNN的上下文中，X和Y是输入和特征的集合。代表，分别。这个定义包含了TY是单位元的情况，使得Φ对G不变，并丢弃关于g的信息。在本文中，我们感兴趣的非退化的情况下，保持信息。我们将多个视图表示为组上的函数，并寻求组的等方差，因此组卷积（G-Conv）是自然的操作我们的方法。让我们回想一下 f ， h 之间的平面卷积：R2<$→R，这是CNN的主要操作：∫（f <$h）（y）=f（x）h（y-x）dx。（二）x∈R2它可以被看作是在平面上平移群上的运算，其中群作用是坐标值的加法;它很容易被证明是平移的等变这可以推广到任何群G和f，h：G→R，∫最近考虑的二十面体上的功能，如何以往任何时候他们的卷积是循环群，而不是在（f）（y）=g∈Gf（g）h（g−1y）dg，（3）我们的二十面体Esteves等[10]和Cohenet al. [6]着眼于无限群SO（3），并利用球谐变换来精确实现球卷积或相关。这些方法的主要问题是输入的球形表示不能捕捉对象形状的复杂性;它们的效率也较低并且面临带宽挑战。3. 预赛我们寻求利用数据中的对称性。对称性是一种保留对象的某些结构的操作。如果对象是一个没有附加结构的离散集合，则每个操作都可以被视为其元素的排列。它与G的群作用等变。为了提高效率，我们可以放松对每个群元素一个视图的要求，而只考虑较低基数的齐性空间的每个元素一个视图。例如，我们可以在二十面体（H空间）的12个顶点上表示输入，而不是在二十面体群的60个旋转上表示输入。群G的齐性空间X定义为G传递作用的空间：对任意x1，x2∈ X，存在g∈G使得x2=gx1.在齐次空间f，h：X <$→R上的函数之间可以定义两个类似卷积的运算：∫术语群用于集合的经典代数定义，其运算满足闭包、结合性、恒等式和反演性质。像置换这样的变换群是抽象和抽象之间的（f）（y）=（f）（g）=n ∈Gx∈Xf（gη）h（g−1y）dg，（4）f（gx）h（x）dx，（5）“群与对称”的概念我们将视图称为从定向相机拍摄的图像。这不同于参考光轴方向的视点，对于指向固定对象的移动相机而言，从外向内，或者对于指向不同方向的固定相机而言，从内向外可以从同一视点获取多个视图;它们通过平面内旋转而相关。1571其中η∈ X是任意的标准元。我们表示（4）“齐次空间相关”（H-Corr）。注意，卷积在齐次空间X上产生函数，而相关将输出提升到组G。我们参考[22，4]关于神经网络背景下的群和齐次空间卷积的论述1572J我我有限旋转群由于我们的表示是可以用旋转来标识的有限视图集，因此我们将处理旋转群SO（3）的有限子群。有限SO（3）的一个子群可以是2π/k的倍数的循环群Ck，正k边形对称的二面体群Dk，四面体、八面体或二十面体群[1]。我们的主要结果是关于二十面体群I，即二十面体的60元非交换对称群（见补充材料）。对称性可以被分成围绕几个轴的旋转集合例如，围绕穿过二十面体的顶点的每个轴有5次旋转，或者围绕穿过其面中心的每个轴有3次旋转。通过规范坐标的等方差某些简化产生的视图通过平面内旋转相关。我们利用这一点来减少所需的视图的数量，通过改变正则坐标，然后用CNN来获得旋转不变的视图描述符。Segman等人[30]表明改变到规范坐标系允许输入的某些变换对于平面上的扩张旋转群（同构于SO（2）×R+），正则坐标由对数极坐标变换给出。由于平面卷积与平移是等变的，因此将图像转换为对数极坐标并应用CNN会导致特征与扩张旋转等变，这可以是等价于它的对偶（十二面体）的顶点/面。这些配置是基于柏拉图固体，这保证了均匀分布的观点。通过从二十面体面选择视点，我们得到20在平面旋转中仅相差120度的3个视图的集合;我们将此配置称为20×3。类似地，使用十二面体的面，我们得到12×5的构型。在3D形状分析的上下文中，多个视点可用于处理自遮挡和模糊性。在这个意义上，通过平面内旋转相关的视图是冗余的，但对于保持组结构是必要的。为了最小化冗余，我们建议将视点与截顶二十面体（具有二十面体对称性）的60个顶点相关联。在此配置中，每个视点有一个视图。这不是均匀间隔的视点分布，但多样性是有益的。图3显示了我们考虑的一些视图配置。注意，我们的构型不同于[33]的80-视图和[20]的20-视图，它们不同构于任何旋转群。它们的12视图配置同构于更有限的循环群。4.2.群卷积网络我们的方法的群卷积部分的核心是（3）的离散版本然后，在输入和输出中具有ci，cj信道以及非线性σ的组卷积层由下式给出：池化到最后一层上的不变描述符[11，18]。波茨岛f+1（y）= σΣf<$（g）hij（g−1y）<$，（6）4. 方法我们的第一步是获得|G|输入的视图，其中每个视图xi与群元素gi∈G1相关联。每个视图都被馈送到CNNΦ1，并且1D描述符例如从最后一层提取的（在投影到类的数量之前）被组合以形成关于组的函数y：G<$→Rn，其中y（gi）= Φ1（xi）.然后使用在G上操作的群卷积网络（G-CNN）Φ2来处理y，并且最后一层上的全局平均池化产生用于分类或检索的不变描述符培训是端到端的。图1显示了该模型。来自[20]的具有后期池化的MVCNN优于原始[33]，是我们方法的特殊情况，其中Φ2是恒等式，描述符是G上的y平均值。4.1. 视点配置有几种可能的二十面体对称的视图配置，基本上由具有相同对称性的立体的顶点或面组成两个示例是将视点与二十面体的面/顶点相关联，1.或者，我们可以使用|X|一个齐次空间X的视图，如图4.3所示。i=1g∈G其中，f是在层i处的通道i，并且h ij是通道i和j之间的滤波器，其中1 ≤ j ≤ c j。这一层与G的作用是等变的。我们最重要的结果是二十面体群I，它有60个元素，是旋转群SO（3）的最大离散子群据我们所知这是在离散G-CNN的上下文中考虑过的最大的组。由于我只是粗略地对SO（3）进行采样，所以对任意旋转的等方差只是近似的。然而，我们的结果表明，不变性与由CNN提供的局部变形和由G-CNN提供的精确等效足够强大，以在许多任务中实现现有技术的性能当考虑组I时，Φ2的输入是60×n，其中n是Φ1的最后一层中的通道数（对于ResNet-18，n=512）。每层有ci×cj个过滤器，每个过滤器具有相同的组基数。我们可以将过滤器和特征图都可视化为pentakis十二面体的面上的函数，pentakis十二面体是截顶二十面体的对偶多面体。它具有二十面体对称性和60个面，可以识别与元素最后一个与gi∈I相关联的脸的颜色1573J我J我图2：通过我们的方法学习的特征在五角十二面体上可视化，该五角十二面体具有二十面体对称性，因此其60个面可以用离散旋转群I的元素来识别。列显示从不同通道/层学习的特征。前两行通过I中72度的旋转而相关。在这种情况下，等方差是精确的，这可以通过围绕极轴旋转的特征图来验证（注意前5个单元格如何移动一个位置）。第一排和第三排是通过围绕同一轴旋转36度而相关，该轴位于两个组元素之间的中点。在这种情况下，等方差是近似的，特征是上述两种的混合。输入是在点的空间上，而不是在一组旋转2上。事实上，输入是群的齐次空间上的函数;具体地说，对于我们考虑的视图配置，它是在二十面体或十二面体顶点上。我们可以在齐次空间上应用离散形式的卷积和相关，如第3节所定义：图3：所考虑的由外向内摄像机配置从左到右：20×3、12×5和60×1。蓝色箭头指示f波茨岛Σf（gη）hij（g−1y）<$，（7）光轴和绿色，相机向上的方向。对象i=1g∈G放置在所有光轴的交点只有60×1配置避免了与平面内旋转相关的视图f.波茨岛ΣΣf（gx）hij（x）.（八）反映f（gi），它是向量值。图2显示了通过我们的方法学习的一些等变特征图。4.3. 较少视图的等方差如图3所示，二十面体对称性可以被划分为围绕几个轴的旋转集合。如果我们将摄像机布置成位于这些轴上，则每个摄像机产生的图像通过平面内旋转而相关。如第3节所示，将一个图像转换为正则坐标可以将平面内旋转变换为平移。我们将转换后的图像称为“极坐标图像”。由于全卷积网络可以产生平移不变描述符，通过将它们应用于极坐标图像，我们有效地实现了平面内旋转的不变性[11，18]，这使得每个视点只需要一个视图这些网络需要在角度维度上进行圆形填充。当每个视点仅关联一个视图时，1574i=1x∈X这种方法的好处是，由于从12×5（20×3）的分辨率开始时，它使用的视图缺点是从极坐标图像学习可能具有挑战性。图4示出了一个从视图生成的极坐标图像的示例。当已知输入是对齐的（在规范姿态）时，等变中间表示不是必需的;在这种设置中，我们可以使用相同的方法来减少所需视图的数量，但不需要极坐标变换。4.4. 滤波器定位G-CNN过滤器是G上的函数，其可以具有多达|条目|entries.过去几年中使用深度CNN获得的结果显示了有限支持过滤器的好处（许多架构始终使用3×3内核）。优点有两方面：（1）有限支持的卷积2它们对于60×1组态是同构的。1575J我图4：来自12×5配置的平面内相关视图的一个子集和相应的极坐标图像。注意极坐标图像如何通过圆形垂直移位相关，因此它们的CNN描述符对于平面内旋转近似不变。对于12 ×5配置和20为20×3;这使我们能够保持12或20个视图的等方差，而不是60个视图。在计算上更有效，以及（2）当层被堆叠时，它允许学习层次上更复杂的特征。受这个想法的启发，我们引入了离散G-CNN的本地化滤波器 3。对于滤波器h：G›→R，我们简单地选择G的一个子集S，允许它有非零滤子值，而h（G-S）设置为零。由于S是一个固定的超参数，我们可以更有效地计算（6）：图5：当我们堆叠更多层时，局部过滤器及其感受野。第一列显示滤波器，第二列显示输入，其他列是使用相同滤波器堆叠群卷积的结果。顶行过滤器有12个非零元素;中间和底部有5个。底行的支持包含12元素子组的元素，因此其感受野不能覆盖整个输入空间。参数的数量与一个常规的3×3层相同）。我们从512到256个通道进行投影，因此参数的数量保持接近基线。当使用4.3节中的方法来减少视图的数量时，第一个G-Conv层被H-Corr层替换。我们的方法的变体被表示为Ours-X和Ours-R-X。R后缀表示检索特定功能，f+1（y）= σ 波茨岛Σf <$（yg−1）h ij（g）<$.（九）包括（1）三元组丢失4和（2）重新排序检索列表，使得被分类为查询的预测类的对象在重新排序之前，列表按余弦排序i=1 g∈S为了确保滤波器局部性，期望S的元素在旋转流形中彼此接近I中最小的12个旋转为72度。因此，我们选择S以包含身份和72度旋转的数量这种方法的一个警告是，我们需要确保S跨越G，否则无论堆叠多少层，感受野都不会覆盖整个输入，如果S属于G的子组，就会发生这种情况（见图5）。在实践中，这并不是一个具有挑战性的条件;对于我们只选择72度旋转的启发式方法，我们只需要保证至少两个旋转围绕不同的轴。5. 实验我们评估三维形状分类，检索和场景分类，并包括更多的比较和消融研究的补充材料。首先，我们讨论了架构，训练过程和数据集。架构我们使用ResNet-18 [15]作为视图处理网络Φ1，权重从ImageNet [9]预训练中初始化。G-CNN部分包含具有256个通道的3个层和其支持上的9个元素（注意3连续情况的局部化在[10]中引入。描述符之间的距离对于SHREC为了公平评估我们的贡献，我们实现了MVCNN的变体，表示为X输入视图的MVCNN-M-X，其中显示了性能最好的XMVCNN-M- X具有与我们相同的视图处理网络、训练过程和数据集;唯一的区别是它在视图描述符上执行池化，而不是使用G-CNN。培训我们使用SGD和Nesterov动量作为优化器进行训练。对于ModelNet 实验，我们训练了 15个 epoch ，SHREC'17训练了10个epoch在[16]之后，学习率在第一个时期从0线性增加到lr，然后在余弦四分之一周期之后下降到零当训练60个视图时，我们将批大小设置为6，lr设置为0。0015。这需要大约11 Gb的RAM。当使用12或20个视图进行训练时，我们线性增加批大小和lr。在ModelNet 40上训练我们的20视图模型一个epoch在NVIDIA 1080 Ti上需要1353s，而相应的MVCNN-M需要1308s。培训RotationNet[20]在相同条件下，一个历元需要1063s。4详见补充资料。1576数据集我们为ModelNet和ShapeNet SHREC'17子集绘制了12×5、20×3和60×1相机配置（第4. 1节）对于对齐的数据集，其中旋转的等方差是不必要的，我们将相机向上向量固定在由对象中心、相机和北极定义这将视图数量从12×5减少到12，从20×3减少到20。对于旋转的数据集，所有渲染具有60个视图，并遵循组结构。注意旋转的数据集不限于离散组，并且包含从SO（3）开始的连续旋转。我们观察到60×1配置性能最佳，因此这些是“Ours-60”所示的数字对于较少视图的实验，我们从12×5中选择12个，从20×3中选择20个，并将其转换为对数极坐标（第4.3节）。为场景分类实验中，我们从全景图中采样12个重叠视图。不执行数据扩充5.1. SHRECSHREC '17 大规模 3D 形状检索挑战 [ 29 ] 利用ShapeNet Core55 [ 3 ]数据集，有两种模式：“正常”和“扰动”，其对应于如我们在第5.2节中定义的“对准”和“旋转”。该挑战赛于2017年进行，但最近对其产生了兴趣，特别是对表1示出了结果。N是检索到的元素的数量，我们选择这些元素作为与查询分类为同一类的对象。归一化贴现累积增益（NDGC）分数使用ShapeNet子类来衡量检索到的模型之间的相关性。方法通过微观（基于实例）和宏观（基于类）mAP的平均值进行排名补充材料中包含了几个额外的检索指标只显示最佳执行方法;我们参考[29]以获得更多结果。我们的模型优于现有技术的两种模式，即使没有三重态损失，其中，当包括，增加利润。我们认为这是我们最重要的结果，因为它是最大的可用3D形状检索基准，并且有许多已发表的结果。5.2. ModelNet分类和检索我们在ModelNet的变体上评估了3D形状分类和检索[39]。为了与大多数公开的结果进行比较，我们在“对齐”的模型网络上进行评估我们还评估了更具挑战性表2和3显示了结果。我们只展示了表现最好的方法，并参考ModelNet网站5以获得完整的排行榜。分类性能由准确度（ACC）给出，检索性能由平均精度5http://modelnet.cs.princeton.edu微观宏观方法评分地图G@N地图G@NRotatNet [20]67.877.286.558.365.6[29]第二十九话61.874.082.849.655.9DLAN [13]57.066.376.247.756.3MVCNN-M-1269.174.983.863.270.3我们的-1270.777.786.363.670.8我们的-2071.477.986.864.971.9我们的-6071.777.886.465.672.3我们的R-2072.279.187.565.472.3DLAN [13]56.665.675.447.656.0[29]第二十九话55.769.678.341.847.9MVCNN-M-6057.564.175.950.959.7我们的-1258.166.476.749.858.6我们的-2059.366.977.051.760.2我们的-6062.169.679.654.663.0我们的R-6063.571.881.155.163.3表1：SHREC'17检索结果。顶部块：对齐的数据集;底部：旋转。我们显示了平均精度（mAP）和归一化的折扣累积增益（G）。我们以很大的优势创造了新的艺术水平。即使我们的12视图模型也优于基线，这表明了用更少的视图保持等方差的潜力。（mAP）。平均值超过实例。我们在补充材料中包括了即使没有检索特定的功能，我们也优于Mod-elNet10和ModelNet 40的检索技术水平当包括这样的功能（三重损失和重新排序的类标签），利润显着增加我们关注的是检索，而不是声明分类上的艺术，由RotationNet持有[20]。虽然[20]没有尝试ModelNet检索，但SHREC5.3. 场景分类我们已经展示了以对象为中心的配置（由外向内）的实验，但我们的方法也适用于以相机为中心的配置（由内而外），这在Matterport3D [2]全景任务的场景分类上得到了证明。我们从全景图中对多个重叠的表4显示了结果;补充材料中有每个类别的准确度和输入样本的完整表格。MV方法优于直接在全景图上操作，因为（1）它允许更高的整体分辨率1577M40（对齐）M10（对齐）acc mAP acc mAPsingle [2] pano [2] MV-M-12 Ours-12行政开支[%] 33.3 41.0 51.9 53.8表4：基于场景分类类别的准确度。问题更适合于评估形状描述符，因为它需要模型之间的完整相似性排名，而不仅仅是类别标签。我们对对齐数据集的结果表明，60个视图的完整集合是不必要的，在这种情况下甚至可能是有害的;但即使不需要等方差，使用G-Convs的原则视图聚合也是有益的，正如MVCNN-M和我们的方法之间的直接比较所示。为旋转数据集，结果清楚地表明，性能-表2：对齐的ModelNet分类和检索。我们仅与已发布的检索结果进行比较。即使没有检索特定的模型特征，我们也能达到最先进的检索性能这表明，我们的视图聚合是有用的，即使全球等方差是不必要的。M40（旋转）ACC地图MVCNN-80 [33]86.0-[第20话]80.074.20球面CNN [6]86.9-MVCNN-M-6090.6878.18我们的-1288.5079.58我们的-2089.9880.73我们的-6091.0082.61我们的R-6091.0888.57表3：Rotated ModelNet40分类和检索。请注意，“Ours”和“MVCNN-M”之间的差距同时跨视图共享权重，以及（2）视图匹配自然图像的比例，因此更好地利用预训练。我们的MVCNN-M优于两个基线，我们提出的模型优于它，这表明组结构在这种情况下也是有用的。在这个任务中，我们的表示是等变的方位角旋转;直接在全景上操作的CNN具有相同的特性。5.4. 讨论我们的模型在多个3D形状检索基准上显示了最先进的性能我们认为随着视图数量的增加，G-Convs的聚合带来了巨大的改进。有趣的是，我们的MVCNN-M基线优于许多竞争方法。与原始MVCNN [33]的区别是（1）后期视图池，（2）使用ResNet，（3）改进的渲染，以及（4）改进的学习率计划。在[34]中也观察到了这些显着的性能提升，并证明了多视图表示的代表性潜力一个限制是，我们的特征图仅与离散旋转等变，并且虽然连续旋转下的分类和检索性能非常好，但对于诸如连续姿态估计之类的任务，它可能不是。另一个限制是我们假设视图遵循组结构，这对于真实图像可能难以实现。请注意，这对于3D形状分析来说不是问题，我们可以渲染任何任意视图。6. 结论我们提出了一种方法，该方法利用传统深度CNN的表示能力，并利用多个视图的有限性质来设计一个组卷积网络，该网络在离散组中执行精确的等方差，最重要的是二十面体组。在这一背景下，我们还介绍了齐次空间上的局部化滤子和卷积我们的方法，使联合推理的所有意见，而不是传统的视图池，并超过了最先进的几个3D形状检索基准的大利润率。7. 致谢我们感谢通过以下赠款提供的支持： NSF-IIP-1439681 （ I/UCRC ）， NSF-IIS-1703319 ， NSF MRI1626008 ， ARL RCTA W 911 NF-10-2-0016 ， ONRN00014-17-1-2093，ARL DCIST CRA W911NF-17-2-0181，DARPA-SRC C-BRIC和本田研究所。MVCNN-12 [33]90.179.5--SPNet [40]92.6385.2197.2594.20PVNet [41]93.289.5--SV2SL [14]93.4089.0994.8291.43[31]第三十一话95.5686.3496.8593.2MVCNN-M-1294.4789.1396.3393.54我们的-1294.5191.8296.3395.30我们的-2094.6991.4297.4695.74我们的-6094.3691.0496.8095.25我们的R-1294.6793.5696.7896.181578引用[1] 迈克尔·阿廷代数，第50卷。中国科学院出版社.4[2] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Nießner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport3d：室内环境中rgb-d数据的学习。CoRR，2017年。1、7、8、11、13、14[3] Angel X Chang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimming Li ， SilvioSavarese ， Manolis Savva ， Shuran Song ， Hao Su ， etal.Shapenet：一个信息丰富的三维模型库。arXiv预印本arXiv：1512.03012，2015。一、二、七[4] 塔可·科恩马里奥·盖格莫里斯·维勒。齐型空间上等变cnn的一般理论。CoRR，2018年。3[5] 塔可·科恩和麦克斯·威林群等变卷积网络。在机器学习国际会议上，第2990-2999页，2016年。第1、3条[6] TacoSCohen ， MarioGeiger ， JonasK ？ hler ，andMaxWeelling. 球形 cnns 。 arXiv 预印本 arXiv ：1801.10130，2018。一、三、七、八[7] 塔可SCohen，Maurice Weiler，Berkay Kicanaoglu，andMax Welling.规范等变卷积网络与二十面体卷积神经网络。CoRR，2019。3[8] 戴安琪，天使 X.Chang ， Manolis Savva ， MaciejHalber，Thomas Funkhouser，and Matthias Nießner.扫描网：丰富的注释三维重建的室内场景。CoRR，2017年。1[9] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞ImageNet：一个大规模的分层图像数据库。2009年CVPR09中。6[10] Carlos Esteves ， Christine Allen Blanchette ， AmeeshMakadia和Kostas Daniilidis。用球面cnn学习so（3）等变表示。在欧洲计算机视觉会议（ECCV）中，第52一、三、六、七[11] Carlos Esteves 、 Christine Allen-Blanchette 、 XiaoweiZhou和Kostas Daniilidis。极性Transformer网络。arXiv预印本arXiv：1709.01889，2017。三、四、五[12] Yifan Feng，Zizhao Zhang，Xibin Zhao，Rongrong Ji，and Yue Gao.Gvcnn：用于3D形状识别的组视图卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第2642[13] 古谷隆彦和大渊龙太郎。三维模型检索中局部三维几何特征的深度聚合在BMVC，第121-1页七、十二[14] Zhizhong Han ， Mingyang Shang ， Zhenbao Liu ， Chi-Man Vong ， Yu-Shen Liu ， Matthias Zwicker ， JunweiHan，and CL Philip Chen. Seqviews2seqlabels：基于注意力的rnn序列视图聚集的三维全局特征学习。IEEETransactions on Image Processing，28（2）：658二、八[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。1、6[16] 童和、张智、张航、张中岳、谢君远、慕丽。使用卷积神经网络进行图像分类的技巧包。CoRR，2018年。6[17] Yacov Hel-Or和Patrick C Teo。可操纵函数的典范分解Journal of Mathematical Imaging and Vision，9（1）：83-95，1998. 3[18] Joao F Henriques和Andrea Vedaldi。扭曲的卷积：有效的空间变换不变性。第34届机器学习国际会议论文集第70卷，第1461-1469页。JMLR。org，2017. 三、四、五[19] Hoogeboom ， Jorn WT Peters ， Taco S Cohen 和 MaxWelling。六角锥体arXiv预印本arXiv：1803.02108，2018。3[20] Asako Kanezaki ， Yasuyuki Matsushita ， and YoshifumiNishida. Rotationnet：使用来自无监督视点的多视图进行联合对象分类和姿态IEEE计算机视觉与模式识别国际会议（CVPR），2018年。一、二、四、六、七、八、十一、十二[21] Risi Kondor，Zhen Lin，and Shubhendu Trivedi. Clebsch-gordan网：全傅立叶空间球形卷积神经网络。神经信息处理系统，第10138-10147页，2018年。7[22] Risi Kondor和Shubhendu Trivedi。关于神经网络中的等方差和卷积对紧群作用的推广CoRR，2018年。3[23] 放大图片作者：Michael M.布朗斯坦和皮埃尔·范德海斯特。测地线卷积神经网络-工作在黎曼流形上。在IEEE计算机视觉国际会议（ICCV）研讨会上，2015年12月。一、二[24] Daniel Maturana和Sebastian Scherer。Voxnet：用于实时对象识别的3D卷积神经网络。在Intelligent Robots andSystems （ IROS ）， 2015IEEE/RSJInternationalConference on，第922-928页中。IEEE，2015年。一、二[25] 威拉德·米勒对称群及其应用，第50卷。学术出版社，1973年。3[26] Federico Monti ， Davide Boscaini ， Jonathan Masci ，Emanuele Rodola ， Jan Svoboda ， and Michael MBronstein.使用混合模型cnns对图和流形进行几何深度学习。在Proc. CVPR，第1卷，第3页，2017年。一、二[27] Charles R Qi ， Hao Su ， Kaichun Mo ， and Leonidas JGuibas. Pointnet：对点集进行深度学习，用于3D分类和分割。 Proc. Computer Vision and Pattern Recognition（CVPR），IEEE，1（2）：4，2017. 一、二、三[28] Charles R Qi，Hao Su，Matthias Nießner，Angela Dai，Mengyuan Yan，and Leonidas J Guibas.用于三维数据对象分

下载后可阅读完整内容，剩余1页未读，立即下载