学习正则视图表示的任意视图

60 浏览量更新于2023-10-13 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

407学习正则视图表示的任意视图Xin Wei1*，Yifei Gong2*，Fudong Wang2，Xing Sun2，JianSun11西安tencent.comfudong-wang@whu.edu.cnjiansun@xjtu.edu.cnwxmath@stu.xjtu.edu.cn摘要在本文中，我们专注于从任意视图中识别3D形状，即，任意数量和位置的视点。这是一个具有挑战性的和现实的设置为基于视图的三维形状识别。我们提出了一个规范的视图表示来应对这一挑战。我们首先将任意视图的原始特征转换为固定数量的视图特征，称为规范视图表示，通过将任意视图特征对齐到一组使用最佳传输的可学习的参考视图特征以这种方式，具有任意视图的每个3D形状由固定数量的规范视图特征表示，这些特征被进一步聚集以生成用于形状识别的丰富且鲁棒的3D形状表示。我们还提出了一个规范的视图特征分离约束，以强制执行规范视图表示中的视图特征可以嵌入到欧氏空间中的分散点。在ModelNet40、ScanObjectNN和RGBD数据集上的实验表明，该方法在固定视点设置下取得了有竞争力的结果，在任意视点设置下显著优于appli- cable方法.1. 介绍理解3D世界是计算机视觉中的一个基本问题。其核心挑战之一是如何表示和识别3D空间中的对象。最近，许多基于视图的方法[7，13，14，15，20，22，23，33，34，38，40，42，43]提出了基于由深度神经网络学习的特征的聚合来识别具有多视图2D图像的3D形状。利用2D图像描述符的进步（例如[18]）和海量图像数据库[10]，它们是最先进的3D形状识别方法之一。然而，这些方法中的大多数[7，13，14，15，20，23，24，25，26，27，28，2933、34、38、40、42、43]关注具有预定义*同等缴款。(a)固定视图(b)任意视图（c）第（1）款查看特征参考查看shape 1的特征查看shape 2图1.本文讨论了（b）中所示的任意视图的3D形状识别如（c）中所示，给定任意数量的未对准视图图像，我们的方法使用最优传输来学习与固定数量的可学习参考视图特征对准的3D形状的规范视图特征。其中相同的视点组用于每个对象的照相机设置，例如，图1（a）.在实际应用中，3D对象经常从任意视图观察，而不知道它们的精确相机位置。在这项工作中，我们的目标是解决任意视图的三维形状识别该设置可以定义如下。(i)视图从每个对象的任意视点获取。(ii)对象具有不同数量的观察视图，例如，图第1段（b）分段。与固定视点的设置相比，3D形状识别面临着来自任意视图的不对齐输入所带来的新挑战。很难鲁棒地聚集结构上未对齐的视图的特征。此外，从典型神经网络学习的表示在特征空间中也是相互不对齐的，其中特征聚合可能导致可辨别性的损失。为了应对这些挑战，一个直观的动机是恢复任意视图的固有对齐。具体地，如果我们找到来自任意视图的未对准特征与用于观察对象的一组虚拟参考视图之间的链接，则我们可以将特征变换为408对齐的表示用于随后的聚合。在这个动机的驱动下，我们设计了一种新的规范视图表示的任意视图的三维形状识别具体来说，每个3D形状的输入任意视图首先由由CNN和Transformer编码器组成的图像级特征编码器处理[36]。然后将任意视图的这些特征变换成与固定数量的学习到的参考视图特征对齐的标准视图特征。变换映射由最优传输导出[9，16，37]。为了确保规范视图特征是不同的，我们要求规范视图特征可以嵌入到欧几里德空间（例如，R3）与相互距离的坐标。以这种方式，每个3D形状由特征空间中的参考视图上的固定数量的特征表示，从而导致每个3D形状的规范表示。添加有空间嵌入的对齐的规范视图特征被进一步编码和聚合以生成3D形状的有区别的全局表示。我们的主要贡献可归纳如下。我们通过引入一种新的规范视图表示来解决任意视图的3D对象识别的挑战，该视图表示恢复了任意视图之间的固有相互对齐特性，并产生了丰富的3D形状表示。我们进一步提出了一个规范的视图特征分离损失，以确保特征的可分性，提高了最终表示的可辨别性和鲁棒性。我们对CAD，扫描模型和真实世界的图像数据集进行实验，包括 Model-Net 40 [41]， ScanObjectNN [35]和 RGBD[25]数据集。结果表明，我们的方法显着优于形式的国家的最先进的方法下具有挑战性的设置任意视图的三维形状识别。2. 相关工作2.1. 基于多视点图像的在三维形状识别中，基于视图的方法已被证明是有效的，同时仅需要从不同视点观察的二维输入基于视图的方法的关键挑战是如何有效地聚合多个视图的特征来生成形状描述符。MVCNN [33]是一个使用最大池化聚合多视图特征的框架，与直接在3D输入上工作的方法相比，具有更好的在GVCNN [15]中进一步探索了多视图特征聚合，其中视图特征被分组以获得更多信息表示。类似地，view-GCN [40]使用图卷积神经网络对不同视点之间的关系进行建模，以分层地聚集多个视图的特征。RotationNet [23]试图通过预测对象姿势来表示其对齐的3D形状来解决扰动对象的挑战。form. EMV[13]也试图用离散旋转群上的群卷积来解决这个问题。在实现令人印象深刻的性能的同时，这些方法假设每个对象具有预定义的视点集合。这使得它们不适合更实际的设置，其中视点位置是任意的，并且对于每个对象都是不同的。据我们所知，很少有作品超越了固定的视点设置。DeepCCFV [22]试图在测试阶段模拟无约束的相机设置，并提高泛化性能。然而，它仍然假设用于训练数据和检索图库的预定义相机设置，并且从预定义的视点对查询进行采样。OVCNet [26]试图解决从任何视图进行形状识别的任务，但主要针对单视图场景，并依赖于从单个图像进行3D重建的挑战性任务，而我们的方法专注于从任意视点有效地聚合多视图图像。与上述方法相比，我们提出的方法也是基于视点的，但我们灵活地放宽了固定视点设置到任意视点设置。我们的方法通过采用将任意视图的图像级特征与一组参考视图特征对齐的规范视图表示来实现这种挑战设置中的最新结果2.2. Transformer网络Transformer [4，11，36]最初是作为机器翻译的编码器-解码器架构引入的，其中自注意机制被引入以建模一组输入之间的关系。为了对顺序输入的位置信息进行建模，将位置编码添加到输入嵌入。它们因其可扩展性和良好的泛化性能而被广泛采用。Transformer网络也被证明对计算机视觉任务有效[5，6，12，17，27，39，44]。DETR [5]是一种基于Transformer的目标检测方法，它并行地对图像特征进行编码并对目标进行解码。VIT [12]证明了使用Trans-former作为图像分类骨干的可行性，并且优于流行的CNN。在这项工作中，我们首先利用Transformer编码器[36]作为探索任意视图特征之间关系的有效方法。我们变身之后为了将这些特征转化为规范视图表示，我们使用另一个Transformer编码器[36]来处理添加了空间嵌入的对齐的规范视图特征，从而得到3D形状的最终表示。3. 规范视图表示我们首先介绍了我们提出的规范视图表示- tation三维形状识别与任意意见，采取409i=1不j=1∈∈O我i=1我i=1J纪我J j=1J我我我我i=1T*，argmin−TjiS（f，zj），（3）T{}∈--∈···不我确保特征可分离性的学习和预定义引用图2.概述我们的方法。该网络由三个部分组成，即，图像级特征编码器（ILFE）、规范视图表示（CVR）和规范视图聚合器（CVA）。来自N个任意视图的图像首先由ILFE编码，然后由ILFE编码。原始未对准特征Fo={fo}N被变换成固定数量M的规范视图特征Fc={fc}M对准到学习的参考视图特征Z={zi}M。在Fo和Z之间执行最优传输以获得规范视图特征Fc，而一种新的典型视图特征分离损失（CVFSL）保证了典型视图特征Fc的独特性和可分离性。的CVA利用空间嵌入进一步探索视点间关系并聚集规范视图特征。* 鲁棒欧几里德嵌入（REE）用于在示例3D空间中可视化Z作为我们的3D形状识别网络的基础，在节。4.第一章此表示的主要目标是我们假设它是线性的，这在高维特征空间中是合理的。现在我们有将3D形状的一组任意视图特征变换为通过学习并对准到FEA中的相同数量的参考视图特征，可以是固定数量的视图特征T（Fo），TFo，ft，ΣTfo，j=1，…，男（1）我真实空间最佳变换的特征被称为三维形状的规范视图表示假设我们已经通过图像级特征编码器从3D形状的每个视图中提取了特征（在Sect.4.1）。我们接下来呈现如何在特征空间中对一组参考视图特征进行建模，并且基于最佳传输将任意视图特征变换为规范视图表示，如图所示。3.第三章。为了提高规范视图表示的区分能力，我们还提出了一个约束，以确保规范视图表示在特征其中TRM ×N是实现的线性变换映射，并且Ft，f tMRM ×d是作为候选规范视图表示的变换特征。我们希望找到一个最优的变换映射T*来构造F t，其在下面详细描述。参照视图表达。我们进一步将变换T指定为从N个任意视图特征到固定数量（M）个可学习参考视图特征Z，z，j，M的映射，其可以被视为由所有不同的3D形状共享的虚拟参考视图。我们定义了一个相似度函数S（ft，zj）来度量ft和zj之间的相似度我我空间由于所涉及的计算是可微的，因此用于规范视图表示的计算将被视为在节中介绍的4，和参考视图fea-规范视图表示中的图和子网可以是通过网络培训学习。3.1. 制剂给定3D形状的变化的N个任意视图，我们首先对于i[1，N]，j [1，M]，并解决以下优化问题以找到最优变换映射T*：T*，argmax ΣS（ft，z j）= ΣS（ΣTjif o，z j）。（二）JJ我本文采用一个简单而有效的定义S（，）作为线性内积S（ft，zj），ftzj.最佳运输解算器。由于S的线性，在Eq中的优化问题（2）可以改写为通过Σ-{f0}N∈RN×d来提取它们的原始特征对于N个任意视图，我们提出寻找一个特征变换T：RN×d→RM×d，使得T（Fo）∈RM×d.这可以通过许多线性规划算法来解决[21，30]。但是参考位置空间表示{ρi}CVFSL{REE*（z）}空间嵌入我分类损失MLP参考视图功能fo1FC椅子fo12FC2浴缸视图池化foFC飞机MN任意视图功能∈N×d最优运输映射∈M×NCanonicalView特性∈M×d植物任意视图图像级特征编码器规范视图表示规范视图聚合器分类器CNNEnEcnocdoedr编码器不图像级特征编码器（在Sect.4.1）。然后，从特征中获得固定数量（M）的视图特征IJ410为了保证正规化411i=1O≥∈i=1∈∈∈·∈ ∈∈j=1∈我i=1tation模块的目的是对齐任意的Fo中的特征。参照视图特征Z，{zj}M的视图我i=1J j=1J我纪我i=1我--{}Σ--M{}∈{ −}联系我们j=1 的对于T和训练过程的可微性，我们将T正则化为双随机矩阵[28，32]，并将基于熵的正则化项添加到等式（1）中。（三）：在 N中， CNN 主干单独地处理每个视图，并且Transformer编码器进一步处理整个视图集合以输出每个视图的更丰富的特征。Σ Σ记为Fo，{fo}N不IJIJ−TjiS（fi，zj）+ε.典型的观点代表-其中，ε0是平衡重。此外，Eq.（4）是一个众所周知的正则化最优运输问题[3，16，29]，可以用Sinkhorn算法[9]微分求解。规范视图表示。一旦最优的T*被求解，我们得到规范视图特征为F c，fcM，其中fc= T*fo。因此，具有任意视图的3D形状的规范视图表示是在对齐约束下的最优变换特征w.r.t.参考视图特征。3.2. 规范视图特征可分性上面针对每个3D形状获得的规范视图表示是长度和顺序固定的，受益于也是在训练中学到的我们计算一个线性变换-使用最优运输的形成图T*RM×N。它可以基于参考视图特征Z将Fo最优地变换为固定大小的规范视图表示Fc、fcM。然后由规范视图聚集器处理在CVA中，Transformer编码器探索具有空间嵌入的规范视图表示的视图特征之间的关系，随后是全局平均池化（GAP）层以获得3D形状的全局特征我们接下来介绍这些网络模块。4.1. 图像级特征编码器如图2、图像级特征编码器由CNN主干和Transformer编码器组成参考视图表示，但是结果的FEA-如果没有适当的均匀化，则给定N个视图{Ii}N，CNN主干处理v约束因此，我们提出了一种典型的视觉特征分别成像并产生视图特征F，{fv}N∈RN×d.然后通过下式处理特征Fv分离损失（CVFSL）来灌输这些特征之间的可分离性。更确切地说，我们要求3D形状的标准视图表示Fc可以嵌入到空间表示FsRM×k中，使得Fs分散在k维欧氏空间中。为了实现这一目标，我们利用一个隐藏维数为64的两层MLP网络Φ（）来提取空间表示FsRM×kfrom F cRM×d，使得Fs= Φ（Fc）. 为了使空间表示Fs在Rk空间中均匀地散布，我们强制约束：L，Σ||fs'−ρj||2、、（5）2i i=1Transformer编码器[36]，其中多头自关注和前馈网络（FFN）来提取任意视图之间的信息在自关注层中，查询、键和值通过线性投影视图特征来获得。即，查询Q、键K和值V表示为：Q，Fv WQ，K，Fv WK，V，Fv WV，（6）其中WQRd×d、WKRd×d和WVRd×d是可学习的线性权重。我们利用缩放点积注意力[36]定义为Sep'Jj=1||ρj||QKTAttention（Q，K，V）=softmax（√d）V（7）其中fs是fs的l2归一化，并且参考p0-k位置P，ρ jM1、1k，M=2k。当训练我们的网络（在节。 4）使用这种损失作为一个术语，它强制每个3D的规范视图表示然后，多头注意力（MHA）计算为MHA（Q，K，V）= Concat（head1，.，标题h）W O形状是可分离的和有区别的。该设计的有效性在第节中得到验证。五点五其中头部h（八）=注意力（Q，K，V）4. 网络架构如图2，我们的3D形状识别网络由三个模块组成：图像级特征编码器（ILFE）、规范视图表示（CVR）和规范视图聚合器（CVA）。图像级特征编码器由CNN主干和Transformer编码器组成[36]。给定N个任意视图T*，argminTjiln（Tji），（4）412这里WoRhd×d降低了协调注意头的维数。探讨了任意视图之间的关系结果被馈送到FFN [36]中，从中我们获得输入任意视图的表示为Fo，foN的图像级特征。FFN（）[36]是一个简单的神经网络，使用遵循标准Transformer架构的两层MLP。在每个块之后还有残差连接和层归一化[2]413j=1i=1·∈∈∈∈2CM我i=1我i=1CCJ||ρj||2规范视图表示fo不111z∑iT*fo1i i1FC1fs1fo2z2FC2fs2MLPCVFSLT1NfoNz∑i T*foMi iMFCMfsM任意视图任意视图参考视图规范视图空间特征Fo特征Z特征Fc表示Fs参考位置P图3.具有任意视图的三维形状的规范视图表示的图示给定未对准的特征F〇，{f〇}N并且参考特征Z，{zj}M，变换映射T*，{Tj*i}在等式（1）中用最优传输来计算。（四）、的变换后的特征F_c、{f_c}M是对齐的规范视图特征。典型视图特征分离损失（CVFSL）确保F c知道参考位置{P = ρi}M。4.2. 规范视图表示如在Sect中所示。3、规范视图表示（CVR）模块由三个主要操作组成，包括（i）学习参考视图特征Z，特征，并将它们聚合成3D形状的全局特征Fg具有空间嵌入的Transformer编码器。给定空间表示Fs∈RM×k，在CVR，我们通过下式获得空间嵌入Fse∈RM×d(ii)将图像级特征Fo变换为具有最佳传输的规范视图特征Fc该过程的图示如图所示。3.第三章。更新Z。我们首先随机初始化它为Z0∈RM×d。其中Ψ（）被设计为具有64个隐藏单元和LeakyReLU层的双层MLP网络。因此，我们通过下式计算查询Q、键K和值V：Q，（ Fc+ Fse） WQ，然后，利用前向特征FoRN×d，我们可以：在Eq中构造目标函数（4）解：K，（Fc+Fse）WK，（十）与Sinkhorn算法相似。以这种方式，可以计算Z和Fo两者的梯度，以便在训练期间更新ZFo的转化。给定Fo，我们计算标准视图特征作为具有最优传输映射的FoFc=T*Fo，（9）其中，T*是Eq的解。（四）、Fc上的可分性约束。利用正则视图特征Fc，使用隐维数为64的两层MLP，通过Fs=MLP（Fc），提取空间表示FsRM×k.然后，我们在等式中构造规范视图特征分离约束。（5）使从正则视图表示Fc导出的Fs在RM×k空间中均匀散布。4.3. 规范视图聚合器规范视图聚合器（CVA）进一步处理规范视图特征F。以及空间表示Fs，并且产生3D形状的全局表示给定规范视图表示Fc∈RM×d，我们探讨了视图V，F c W V.然后，我们计算多头注意力，如在方程。在此之后，输出被馈送到前馈网络中，导致相同数量的特征FceRM×d。3D形状的全局表示。我们通过对Transformer编码器F ce的输出执行全局平均池化（GAP）来获得3D形状的全局表示fgR1×d，其中f g= GAP（F ce）。4.4. 分类器我们通过一个隐维为d的两层MLP网络来构造分类模块。然后，MLP的输出被馈送到softmax层，并且所得到的logit表示每个类别的概率。4.5. 网络训练训练损失。我们的网络的训练损失包括分类损失L cls和规范视图特征分离损失L sep。总损失定义为L， Lcls+ Lsep=−ylogp +λ（||fs'−ρj||（2）、（11）c=1j=1414J(a) ModelNet40(b) ScanObjectNN(c) RGBD图4.三个不同数据集中的数据示例。其中y c和p c是类别c的真实概率和预测概率，而f s'和p j在等式中定义。（五）、超参数和主干。我们采用在ImageNet[ 10 ]上预训练的ResNet-18 [18]作为图像级特征编码器中的CNN骨干网络，并将特征维度设置为d=512。M=2k是规范视图的数量，其影响规范视图表示模块如何处理输入。我们在ModelNet40 [ 41 ]和ScanobjectNN [ 35 ]上使用M=8，k=3进行实验，而对于RGBD [ 25 ]，M=4，k=2。进一步讨论的效果M是在节。五点五 λ是用于规范视图特征分离损失的加权因子，如在等式2中。（11），我们设λ = 0。1为实验。φ是在（4）中定义的平衡重量，根据经验设置为0.05。培训详情。对于所有实验，我们在NVIDIA V100 GPU上训练我们的网络60个epoch，批量大小为20。对于对齐和旋转设置，每个批次包含20个形状和400个多视图图像。对于任意视图设置，每个形状的视图数各不相同。来自CNN骨干网络的可变长度视图特征被零填充到视图(20)并将其分批在一起。我们使用SGD和动量作为优化器。初始学习率、权重衰减、动量分别为10−3、10−3、0.9。学习率在第一个epoch中遵循预热策略[19]，并且从0线性增加到10−3。然后它被简化为10−5跟随余弦四分之一周期。我们的代码将是可在www.example.com上获得http://github.com/weixmath/CVR。5. 实验我们评估了我们的方法在多个数据集上的性能，包括ModelNet40 [41]，ScanObjectNN [35]和RGBD [35]，这些数据集中的数据示例如图所示。4.第一章对于每个数据集，我们在任意视图设置和固定视点设置下进行实验，其中3D对象是对齐的或旋转的。为了保持比较公平，我们重新实现了 MVCNN [33] 和 GVCNN[15]，表示为MVCNN-M和GVCNN-M，它们使用与我们完全相同的骨干网络和5.1. 数据准备ModelNet40和ScanObjectNN。对于ModelNet40 [41]和ScanobjectNN [35]上的任意视图设置，我们通过以下步骤生成投影视图：（i）从球面随机选择6至20个点作为相机位置。(ii)从所选视点投影对象以获得2D视图（假设相机指向对象的质心）。对于具有对象旋转的固定视点设置，我们通过首先将对象围绕X轴旋转0至180度之间的随机角度，然后从构成类似于[23，40]的十二面体的20个固定视点投影对象来至于对齐设置，我们遵循其他工作中使用的设置，如[23，40]。我们比较我们的性能与国家的最先进的方法适用于特定的设置。请注意，由于ScanObjectNN以点云的形式提供3D模型，因此我们首先使用泊松表面重建将其重建为网格[24]。RGBD数据集。RGBD数据集[25]包含来自大量视点的对象的真实世界图片，而不提供这些对象的3D扫描。因此，我们模拟任意视图设置随机采样4至12个图像从每个对象实例。我们还对该数据集进行了10倍交叉验证。在每一轮中，我们从每个类中随机留下一个实例进行测试，而其余的则用于训练。5.2. 在ModelNet40该数据集由来自40个类别的12，311个3D形状组成，其中9，483个训练模型和2，468个测试模型用于形状分类。它是最广泛采用的三维形状分类的基准。各种方法报告了使用不同形状表示（包括体素、点云和多视图图像）在该数据集上的结果。在ModelNet40 [41]上的实验结果如表1所示。1.一、在先前的方法中，view-GCN [40]和RotationNet [23]是两种强大的方法，并且在对象对齐时产生最先进的结果。然而，在旋转对象设置下，它们的分类精度急剧下降超过9.3%，其中投影的2D图像没有很好地对齐。我们的方法优于他们的3.97%，每类和5.22%，立场的准确性，表明我们的方法可以获得更强大的表示扰动对象。对于任意视图设置，我们可以看到，我们提出的方法实现了显着更好的准确性比比较的方法与利润率为3.34%，每类的准确性为3.03%。注意，RotationNet [23]和 view-GCN [40] 不适用于任意视图设置，因为RotationNet [23]假设预定义的视点，而view-GCN [40]需要给定的固定视点位置来在训练和测试中构造视图图。415表1.ModelNet40上的形状分类准确度（%）方法对齐旋转任意视图表2.ScanObjectNN上的形状分类准确度（%）方法对齐旋转任意视图表3. RGBD的形状分类准确度（%）方法设置#查看每个插入Acc.从4到12变化。如Tab.所示。3，对于任意视图设置，我们的方法优于MVCNN-M和MDSICNN [1]≥120 89.6%GVCNN-M的2%，这表明我们的方法是能够CFK[8]≥ 120 86.8%处理从ARBIMMDCNN [31]固定≥120 86.8%奇怪的观点。我们的方法在任意视图设置（4至12[23] 12 89.3%[40] 2016年12月12日views）也超过了RotationNet在固定12个视图的设置中的结果MVCNN-MGVCNN-M任意4-1289.0%百分之八十九点八5.5.消融研究我们的91.8%5.3. ScanObjectNN实验ScanObjectNN [35]是最近提出的具有扫描室内场景数据的真实世界3D对象分类数据集它包含大约15000个对象，分为15个类别，2902 个唯一对象实例。ScanOb- jectNN提供了更多的实际挑战，包括背景发生，对象偏好，和不同的变形变种。ScanObjectNN上的结果显示在选项卡中。二、在任意视图设置下，我们的方法在每个实例和每个类的准确率上分别比MVCNN-M和GVCNN-M高出6.01%和9.23%。至于固定视点设置，虽然我们的方法在对齐对象上的表现与当前最先进的方法相似，但它在旋转对象上取得了更好的结果，将每个实例和每个类的准确性提高了2.09%和2.71%。5.4. RGBD数据集实验为了进一步评估我们用于识别真实捕获的多视图图像的方法，我们使用来自RGBD数据集的图像进行多视图形状识别实验[25]。我们随机选取不同仰角的摄影机所拍摄的影像，视数为在本节中，我们将仔细研究网络关键组件的影响实验在ModelNet40上进行，在任意视图设置下。图像级特征编码器的效果。我们研究的图像级特征编码器（ILFE）中定义的节的效果。4.1. 我们将其与基线网络进行比较，该基线网络使用CNN提取特征，并使用与MVCNN相同的结构Max-pooling聚合它们[33]。为了评估ILFE的效果，我们使用ILFE代替CNN来提取视图特征。如Tab.所示。5，ILFE带来了1.92%和2.92%的改进，每实例和每类的准确率超过基线。这证明了Transformer在探索任意视图间关系方面的有效性。规范视图表征的实证分析我们评估的典型视图表示（CVR）模块中定义的节的影响。4.2，以及我们选择使用最佳传输来获得规范视图特征。如Tab.所示。4，如果我们完全去除CVR模块，每实例和每类的准确率分别下降了 1.87% 和 2.00% 。除了最佳传输，Transformer解码器[36]是一种流行的网络结构，可以将任意数量的输入特征对齐为固定大小的特征。虽然在结构上与Transformer编码器相同，但Transformer解码器将可学习的参考视图特征Z作为查询和图像级特征每类Acc.根据植入物Acc.每类Acc.根据植入物Acc.每类Acc.根据植入物Acc.MVCNN-M94.30%96.35%87.95%88.17%78.86%83.20%GVCNN-M94.46%96.07%89.69%88.10%80.98%83.57%[23]第二十三话-百分之九十七点三七84.74%85.29%NANA[40]第四十话96.50%百分之九十85.90%88.25%NANA每类Acc.根据植入物Acc.每类Acc.根据植入物Acc.每类Acc.根据植入物Acc.MVCNN-M85.71%87.82%78.21%80.62%58.58%63.29%GVCNN-M86.64%88.68%82.86%83.70%58.84%百分之六十五点三五[23]第二十三话84.88%86.90%74.68%76.16%NANA[40]第四十话88.67%90.39%81.99%83.50%NANA41610.950.90.850.80.75表4. CVR中最佳传输与Transformer解码器的比较。每类Acc.根据植入物Acc.不带CVR82.01%85.04%Transformer译码器79.97%83.29%最佳运输（我们的）84.01%86.91%0.70.65表5. 对我们网络的每个模块进行消融研究(a)（b）第（1）款0.6ILFE CVR CVA CVFSL每类Acc.每Ins. Acc.图5.具有（a）和不具有（b）规范视图特征分离约束的规范视图特征Fc的矩阵的每个元素是成对的规范视图特征的余弦相似度。F0作为键和值。我们用Transformer解码器代替CVR模块，而网络的其余部分保留表6.结果通过选择不同数量的参考视图特征。真实分离损失（CVFSL）影响性能。如Tab.所示。5，与CVFSL，我们的方法取得了显着更好的结果与1.59%和1.73%的改进，每实例和每类的准确率。我们可以在图中观察到。5（b）在没有CVFSL的情况下，所得特征具有平坦的相似性矩阵。这意味着规范视图特征在特征空间中不能正确区分，导致3D形状的非信息表示。使用CVFSL，特征更加多样化，如（a）中所示，这可以解释启用CVFSL的更大性能增益。我们还将其与余弦相似性损失进行比较，余弦相似性损失只是迫使规范视图特征不同。在两种精度下，结果分别下降了1.06%和1.21%。因此，我们得出结论，规范视图特征分离约束在获得信息丰富的规范视图表示和3D形状的鲁棒的最终特征表示中是至关重要的。选择参照视图特征的数量。在本文中，我们已经引入了参考视图的功能，从任意视图的功能对齐。这里，我们评估参考视图特征的数量（M）的效果如Tab.所示。6、M的不同选择导致ModelNet40在任意视图上的性能有显著差异。具体来说，M =8个最佳性能，然后是M=16，最后是M=4。我们可以推断，在ModelNet40的任意视图设置上，M=8是优选的。注意，该结果可能在具有不同视点分布的不同数据集和设置规范视图聚合器的效果。现在，我们检查的规范视图聚合器（CVA）的影响.模块定义在节。四点三。我们从网络中删除了CVA比较表1中显示的结果。5，我们发现，删除CVA导致性能下降1.16%和1.97%的每实例和每类的准确性。因此，它表明，CVA模块，它利用对齐的空间编码，并进一步模型的规范表示中的特征之间的关系，是至关重要的，我们的网络的性能。6. 结论与讨论在这项工作中，我们提出了一种新的规范视图表示，以应对挑战的三维形状识别与任意视图。我们将最佳的传输端口与规范的视图特征分离的约束，将任意视图的功能转换成对齐的规范视图表示，使我们能够聚合和推导出一个丰富和强大的功能表示的3D形状。实验结果证明了该方法的有效性。如第3、Sect。在图4中，Z中的学习参考视图特征建立用于将任意视图对准到固定数量的可学习参考视图的公共参考。这种方法可以应用于其他多视点视觉任务，如视图合成，基于视图的三维重建或生成，我们可以在我们未来的工作中进行研究。鸣谢本工作得到国家自然科学基金资助，资助号：11971373 ， U20B2075 ， 11690011 ， U1811461 ，12026605，12090021，61721002，和国家关键研发项目2018AAA0102201。不变令人意外的是，结果进一步下降了2.04%每类Acc.根据植入物Acc.和1.75%。这表明，最佳运输是一个优越的M = 482.41%85.69%一种对齐功能的方法，并带来显著的性能M = 884.01%86.91%加强我们的网络。M = 1682.71%86.22%规范视图特征分离约束的影响。我们现在研究经验如何典型的观点Fea-78.86%83.20%C81.78%85.12%C c C82.04%85.75%C c C82.28%85.32%C C C84.01%86.91%417引用[1] Umar Asif ， Mohammed Bennamoun ， and Ferdous ASohel.一种用于rgb-d对象标记的多模态、判别性和空间不变cnnIEEE TPAMI，40（9）：20517[2] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。4[3] Jean-DavidBenamou ， GuillaumeCarlier ， MarcoCuturi ， LucaNenna ， andGabrielPeyre´.Iterativebregmanprojec-tionsforregularizedtransportationproblems.SIAM Journal on Scientific Computing ， 37（2）：A1111-A1138，2015. 4[4] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub- biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakantan ， Pranav Shyam ， Girish Sastry ， AmandaAskell ， et al. 语言模型是很少机会的学习者。在NeurIPS，第33卷，第1877-1901页2[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。参见ECCV，第213-229页。Springer，2020年。2[6] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。arXiv预印本arXiv：2012.00364，2020。2[7] Jiaxin Chen，Jie Qin，Yuming Shen，Li Liu，Fan Zhu，and Ling Shao.学习专注和层次表示的三维形状识别。在ECCV，2020年。1[8] Yanhua Cheng，Rui Cai，Xin Zhao，and Kaiqi Huang.用于rgb-d对象识别的卷积fisher核。在3DV，第135-143页中。IEEE，2015年。7[9] 马可·库图里Sinkhorn距离：最佳运输的光速计算。在NIPS，第2卷，第4页，2013中。二、四[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在CVPR，第248-255页中。IEEE，2009年。1、6[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。在NAACL，2018年。2[12] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。2[13] Carlos Esteves ， Yinshuang Xu ， Christine Allen-Blanchette，and Kostas Daniilidis.等变多视图网络。在ICCV，第1568-1577页，2019年。一、二[14] Feng Yifan ， Huxuan You ， Zizhao Zhang ， RongrongJi，and Yue Gao.超图神经网络在AAAI，第33卷，第3558-3565页1[15] Yifan Feng，Zizhao Zhang，Xibin Zhao，Rongrong Ji，and Yue Gao.Gvcnn：用于3D形状识别的组视图卷积神经在CVPR中，第264-272页，2018年。一、二、六[16] SiraFerradans ， NicolasPapadakis ， GabrielP e yr e´ ，andJean-Fran coisAujol.正则化离散最优运输。418SIAM Journal on Imaging Sciences ， 7 （ 3 ）： 1853-1882，2014。二、四[17] Meng-Hao Guo，Jun-Xiong Cai，Zheng-Ning Liu，Tai-Jiang Mu，Ralph R Martin，and Shi-Min Hu. Pct：点云Transformer。arXiv预印本arXiv：2012.09688，2020。2[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSu

下载后可阅读完整内容，剩余1页未读，立即下载