基于Transformers的多视图3D对象重建网络设计及效果分析

184 浏览量更新于2023-10-13 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5722基于Transformers的王丹1崔新瑞2*陈迅2邹正霞3石天阳4塞普蒂米乌萨尔库迪安1Z.Jane Wang1 Rabab Ward11英属哥伦比亚大学2中国科学技术大学3密歇根大学安娜堡分校4网易伏羲AI实验室摘要到目前为止，基于深度CNN的方法已经在多视图3D对象重建中实现了尽管这些方法取得了长足的进步，但它们的两个核心模块受最近在Transformer模型中取得的巨大成功的启发，我们将多视图3D重建重新表述为序列到序列的预测问题，并提出了一个名为3DVolume Transformer的框架。与以前使用单独设计的基于CNN的方法不同，我们将特征提取和视图融合统一在单个Transformer网络中。我们的设计的一个自然的优势在于使用多个无序输入之间的自我注意的视图到视图的关系的探索在ShapeNet -一个大规模的3D重建基准，我们的方法实现了一个新的国家的最先进的多视图重建的精度与更少的参数（70%以下）比基于CNN的方法。实验结果也表明了我们的方法的强大的缩放能力。我们的代码将被公开。1. 介绍从多视点图像中学习三维物体表示是三维建模、虚拟现实和计算机动画中的一个基本而具有挑战性的问题。最近，深度学习方法极大地促进了多视图3D重建的研究，其中基于深度卷积神经网络（CNN）的方法迄今为止已经在该任务中实现了最先进的结果[26，28，27]。为了从多个输入视图中学习有效的3D表示，大多数最近的基于CNN的方法遵循分治的设计原则，其中常见的做法是引入CNN用于单视图特征提取和多视图融合以整合特征*通讯作者。Email:xinruic@ece.ubc.ca或者从多个视图得到重建结果。尽管这两个模块之间有很强的联系，但它们的方法学设计是分开研究的。此外，在分别处理每个视图图像的CNN特征提取阶段期间，很少探索不同视图中的关系虽然最近的一些方法已经引入了递归神经网络（RNN）来学习不同视图之间的对象关系[5，12]，但这种设计缺乏计算效率，并且RNN模型的输入视图是置换敏感的[22]，这与一组无序输入视图不兼容。最近的研究还表明，基于CNN的重建方法可能会受到模型缩放问题的影响。例如，当输入视图的数量超过特定比例（例如，4），方法的准确性将饱和，显示从大量独立CNN特征提取单元学习互补知识的困难[28，27]。考虑到上述挑战，我们提出了一个新的框架命名为我们将多视点三维重建问题转化为序列间的预测问题，并将特征提取和视点融合统一在一个Transformer网络中。一方面，在多视图3D重建中，我们需要通过探索多个输入视图之间的关系来学习底层3D表示，因为我们只能从特定视图看到3D结构的一部分。另一方面，在Transformer模型中，自我注意机制最近在学习任意数量的输入标记[6，20]内的复杂语义抽象方面显示出强大的能力，并且自然适合于探索3D对象的不同语义部分的视图到视图关系鉴于所有这些，Trans-former [21，8]的结构成为多视图3D重建的自然且有吸引力的解决方案。我们的基于 Transformer 的框架包含 2D 视图Transformer编码器和3D体积Transformer解码器，如图1所示。2D视图Transformer5723××××××编码器通过探索它们的不同输入的3D体积Transformer解码器对来自编码器的多视图特征进行解码和融合，并且为每个空间查询令牌生成3D概率体素输出。解码器中的注意层学习同时，解码器中的体积注意层还通过利用不同3D位置之间的相关性来学习通过使用上述统一设计，基于上述编码器-解码器Transformer结构设计，我们进一步研究了Transformer模型中的在Transformers中，自我注意力对“令牌一致性”[ 7 ]具有坚实的归纳然而，这种收敛可能进一步导致更深层的“注意力一致性”问题我们发现，这个问题是特别突出的多视图三维重建任务，并将限制Transformer为了解决这个问题，我们进一步提出了发散增强Transformer，它可以通过增强来自不同视图的嵌入的差异来减缓自注意层中的发散衰减。这些捐款可归纳如下：• 我们提出了一个全新的基于Transformer的多视图三维物体重建框架。与之前使用特征提取+视图融合的单独设计的基于CNN的方法不同，我们将这两个阶段统一到单个Trans-former网络中，并将3D重建重新构建为• 所提出的方法可以联合和自然地探索我们的编码器-解码器Transformer结构内的2D输入视图和3D输出量之间的多级对应关系和关联。• 我们研究了“发散衰减”问题并在我们的自我注意力层中提出视图发散增强操作以避免这种降级。• 我们的方法实现了新的国家的最先进的多在ShapeNet上查看3D重建，仅使用最近基于CNN的方法的30%的参数。我们的方法也显示了更好的缩放能力的输入视图的数量。2. 相关工作2.1. 多视点三维重建多视点三维物体重建一直是计算机视觉和计算机图形学的研究热点。该领域的传统方法[30，9早期方法的一些代表，如运动恢复结构（SfM）[30]、同时定位和映射（SLAM）[9]可以产生具有满意质量的3D重建。然而，它们通常使用校准良好的相机捕获同一对象的多个图像，这在某些情况下是不实际的。最近，基于CNN的方法在不需要复杂的相机校准的情况下，在3D重建[5，12]中获得了越来越多的关注，并且已经显示出有希望的结果。在基于CNN的方法中，2D-CNN单视图编码器、3D-CNN单视图解码器和多视图融合模型通常被单独设计用于3D再现。其中，融合模型在多视图特征信息的融合中起着核心作用。先前的多视图融合方法可以大致分为三类，即，基于池化的融合、可学习的加权和融合和基于RNN的融合。基于池化的融合仅学习多个视图的部分信息并且忽略视图关联[11，15]。引入可学习的加权和融合模型来解决这些问题[26，28，27]。基于RNN的融合方法[5，12]可以学习有效的视图到视图关系，但计算成本高并且是置换变体[22]。在本文中，与上述基于CNN的方法不同，我们提出了一种基于Transformer的三维重建方法，该方法将特征提取和视图融合统一在单个模型中，并自然地探索输入视图之间的关系2.2. Transformer在自然语言处理中，Transformer模型在机器翻译、文本分类和问答等各种任务中取得了巨大成功[1]。Transformer的关键是多头自注意操作，该操作在嵌入序列的每个标记对最近，Trans- former也已成功地应用于计算机视觉领域[2，8，4]，并显示出良好的应用前景。DETR [2]提供了一个新的对象检测框架，它将2DCNN与Transformer相结合，并直接预测（并行）最终的对象检测。5724图1.用于多视图3D对象重建的EVolT图示（左）。我们的EVolT中提出的视图发散增强功能（右）。令牌序列ViT [8]直接将Transformer应用于图像分类任务的图像块序列，而不使用CNN特征，并且在大规模数据集上进行预训练时，实现了相当甚至更高的图像分类精度。在基于CNN的多视点三维重建方法中，如何设计一个既能挖掘视点间深层关系又能保持视点间置换不变的融合模型仍然是一个挑战。Transformer在多视图3D重建中的一个天然优势是，它的令牌嵌入可以以无序的方式逐层抽象和学习，这自然可以缓解基于CNN的方法的痛点。2.3. 3D表示存在不同的3D表示，即，基于坐标的隐式表示[14，18，29，24，3]，体素-[17]和基于网格的[23]表示。在学习3D表示方面，我们的方法是基于体素的，并在多个场景中进行训练以进行3D重建，而不是单独优化3D场景[17，23，14，18]。此外，我们的方法是在不需要相机参数的情况下学习的，而基于坐标的隐式3D表示方法主要用于视图合成并且需要相机参数[14，29，24]。3. 方法如图1所示，所提出的3D体积Transformer模型由2D视图编码器和3D体积解码器组成。所述输入是图像object. 2D视图编码器经由视图关注层对不同视图之间的相关3D体积解码器学习体积注意力层中不同空间位置的全局相关性，并解码视图和空间域之间的关系。在解码器中，我们将3D空间均匀地划分为一组令牌作为输入。每个标记的预测体积最终被缝合到最终3D重建中作为输出。输出包含占用体素预测，其中每个体素预测定义其体素中的对象占用概率。在本文中，我们实现了三个不同版本的方法的基础上提出的框架：香草3D体积Transformer（VolT），香草3D体积变换器+（VolT+），视图发散增强的3D体积变换器（EVolT）。• VolT ：我们的方法的基线实现，使用 vanillaTransformer模型并使用标准VGG16 [16]特性作为我们的初始视图嵌入。• VolT+：使用从高级预训练CNN获得的2D视图嵌入，与VolT相比。我们用它来证明2D视图嵌入对我们的基于转换器的框架重建的影响。• EVolT：我们的方法的完整实现，采用所提出的视图发散增强函数并使用标准VGG16 [16]进行2D视图嵌入。这里，为了获得2D视图初始嵌入，我们使用在多个视图之间共享的预训练CNN。5725······∈∈···∈∈∈Q KVQ KV3.1. 发散增强的2D视图编码器假设I={I1，I2，...，IM}表示多视图值的总和。Attn函数被公式化为QKT（五）要重建对象的图像集为每个视图Im，我们首先使用预训练的视图共享CNN来获得其初始视图嵌入xmR1×d，其中d是特征维度。然后，2D视图编码器接受初始视图嵌入X0=[x1;x2; ;xM]RM×d，并通过使用一系列自注意层探索多个视图之间的全局关系来细化多视图表示。这里，为了保持视图序列的置换不变，移除标准Transformer的位置编码。我们基于DETR [2]通过堆叠N=6个基本块来构建我们的发散增强的2D视图编码器每个基本块由多头发散增强的视图注意力层（表示为MH-DEAtt，等式（1））组成。（2 ））和位置前馈网络（FFN，方程（2 ））。（三））。2D视图编码器被公式化如下：X0=[x1;x2;···;xM]，（1）X¯l=Norm （MH-DEAtt （ Xl−1 ， X0 ）+Xl−1），（二）Xl=Norm （FFN （ X¯l ） +X¯l ），（3）其中块L的嵌入被用作我们的2D视图编码器的输出。如图1的右侧所示，缩放的点-Attn（Q，K，V）=softmax（√d）V，3.2. 3D立体解码器3D体解码器学习不同空间位置之间的全局相关性，并探索视图与空间域之间的关系。给定一个对象，我们将[y1;y2; ;yN]表示为解码器输入端的顺序可学习3D体积查询，其中ynR1×d对应于第n个3D体积。表示对象的一组3D子体积的3D体积嵌入与网络参数一起被端到端地优化，并且在所有潜在输入（如[2]中的对象查询）之间共享这些体积嵌入不是视图条件变量，但可以为数据集提供全局先验位置编码Epos被添加到3D体积嵌入以将位置信息保持在空间域中。每个位置编码向每个子体积通知其在对象中的3D空间位置。它以与[2]类似的方式使用不同频率的正弦和余弦函数来计算。在解码器中，基本块包含体积关注层、视点-体积关注层和FFN。解码器可以被公式化如下：Yo=[yi;y2;···;yN]+Epos，（6）产品关注度（表示为Attn，等式（5））通过学习在多个视图之间聚合特征表示Y'l =Norm（ MH-VolAttn（Yl−1）+Yl−1），（7）视图到视图关系。同时，我们提出了一个视图发散增强函数（DiView，等式（1））。（4））以减轻更深层中的多视图表示的差异退化。具体来说，DiView引入了跳过连接，并将内部视图特征与特征维度中的输入视图嵌入连接起来。MH-DEAtt层定义如下：MH-DEAtt（Xl−1，X0）= DiView（A，X0）W视图，其中A=cat（A1，...，A1H），⑷Ah= Attn（Qh，Kh，Vh）.这里， W视图R（Hdk+d）×d表示线性函数的参数矩阵，并且dk是每个头部中的特征维度。在第h个头中，堆叠在QhRM×dk中的M个查询从堆叠在X中的M个视图嵌入投影，其中Y¨ l=Norm（MH-Vie wVolAttn（Y¨l，XL）+Y¨l），（8）Yl=Norm（ FFN（Yl）+Yl），（9）其中MH-VolAttn（在等式（7））和MH-ViewVolAttn（在Eq.（8））分别表示多头体积关注层和多头视见体积关注层。在我们的解码器中，MH-VolAttn层如下学习不同3D体积之间的全局依赖性：MH-VolAttn（Yl−1）= cat（A1，· · ·，AH）Wvol，其中Ah= Attn（Yl−1Wh，Yl−1Wh，Yl−1Wh）。（十）MH-ViewVolAttn层集成了视图和空间域中的相关信息，计算如下：MH-Vie wVolAttn（Y¯l，XL）= cat（A1，···，AH）W，参数矩阵HRd×d（hl−1h）。WQ ∈k Q= Xl−1WQ类似地，堆叠在Kh∈RM×dkK5726VK ∈∈其中Ah=Att n（Y¯lWh，XLWh，XLWh）。（十一）且Vh∈RM×dk 其中Wvol∈RHdk×d和W∈RHdk×d是参数矩阵。hRd×dk，WhRd×dk。具体地，在注意力函数对应的线性函数的参数矩阵。最后，在解码器块L之后，我们使用线性函数将每个3D体积的嵌入投影到它们的W5727ΣΣ¯D=s −s，其中¯s=s。M2mRK·GQKTΣ∥ − ∥Σ∥ − ∥×××I（y（i，j，k）>t）I（y¯（i，j，k））（i，j，k）N个视=Σ多视图表示的会聚表1.竞争方法中初始2D视图嵌入的参数大小和预训练CNN。阈值d：F评分（d）=2P（d）R（d），（13）P（d）+R（d）3D输出空间。然后，预测的3D体积被重新成形并分组到重建输出。我们使用体素标签和输出之间的二进制交叉熵作为我们的损失函数。4. 实验4.1. 数据集我们利用ShapeNet数据集[25]来评估所提出的我们遵循3D-R2 N2 [5]并使用相同的设置进行公平比较。具体来说，我们使用ShapeNet的一个子集，它由13个类别和43，783个常见3D对象组成。对于每个3D对象，从围绕对象的不同视角渲染24个2D图像。对于每个类别，我们遵循[27]并将样本随机分为70%训练，10%验证，20%测试。培训类别与评估类别在训练期间，输入视图数目可以变化。4.2. 评估指标4.2.1IOU平均交并（IoU）计算预测的3D体素网格和地面实况网格之间的匹配度。更高的IoU值意味着更好的重建结果。对于每个体素网格，IoU被定义为：ΣIOU、I[I（y（i，j，k）>t）+I（y¯（i，j，k））]（十二）具有严格距离阈值的较高F分数指示更好的重建结果。在F-Score中，P（d）通过计算位于距离地面真实值d=1%内的重建点的部分来R（d）通过对位于到重建的距离d内的地面实况点的百分比进行计数来量化这两个度量定义如下：P（d）=1[minrgd]，（14）<|R|r∈R g∈GR（d）=1[min gr

下载后可阅读完整内容，剩余1页未读，立即下载