多模态Transformer网络用于三维表面超分辨率

150 浏览量更新于2023-10-25 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12703正常MNSR重构MNSRNet：用于三维表面超分辨率的多模态Transformer网络计算机科学与软件深圳大学wuyuan.xie@ gmail.com王妙慧*深圳大学wang. gmail.com摘要随着显示技术的飞速发展，获取尽可能高质量的真实感三维表面已成为迫切的需求。由于三维物体数据的非结构化和不规则性，通常难以以低成本获得高质量的表面细节和几何纹理。在这篇文章中，我们提出了一种有效的多模态驱动的深度神经网络来在2D法向域中执行3D表面超分辨率，它简单，准确，并且对上述困难具有鲁棒性。为了利用来自不同视角的多模态信息为了更好地利用跨模态信息，本文提出了一种基于Transformer结构的双桥正规化特征对齐方法，并研究了一种用于融合多模态特征的仿射变换模型。在公开的和我们新构建的光度立体数据集上的大量实验结果表明，与9种竞争方案相比，所提出的方法提供了有前途的表面几何细节1. 介绍随着对真实世界物体的感知和分析能力和需求的不断提高，越来越多的基于3D视觉的应用需要输入高质量的物体表面[11，43]。然而，大多数当前的3D采集设备不提供高质量的3D数据。鉴于这一实际困难，人们希望开发低成本的计算机视觉方法，以提高三维数据采集器的采集质量。直观地说，提高所采集的3D表面数据的质量的最直接的方法是直接执行* 这项工作得到了中国国家自然科学基金的部分支持（No.61902251 号 61701310 ）、深圳市自然科学基金（编号：20200805200145001号JCYJ20180305124209486）和广东省自然科学基金（No. 2019A1515010961号2021A1515011877）。（通讯作者：王妙慧）纹理深度正常原始图1. 所提出的用于3D表面超分辨率的多模态Transformer框架的图示。纹理，深度，和正常的方式联合研究执行三维表面超分辨率在2D域。3D域中的上采样操作现有的Stud-根据三维表面的表示方法，可以分为基于体素的方法、基于点云的方法和基于网格的1）基于体素的方法[6]已经在3D表面处理中使用多年，其通常对设备和计算有很高的要求。2)点云是表示3D对象的最简单方法，它基于特殊的卷积神经网络（CNN）结构[29]直接上采样[26，40，44由于点云数据本身的不规则性，很难获得高质量的三维表面增强效果。3)基于网格的方法作为应用最广泛的三维表示方法，主要是基于网格剖分和顶点插值的方法[3]。随着深度神经网络的发展，基于网格的CNN结构[12，14，32]激发了几种数据驱动的方法，用于基于网格的3D表面上的上采样操作[24]。然而，这些传统的方法只能优化网格数据的某些数学性质，而基于学习的方法面临着大量数据不足的问题。由于在3D域中改善表面质量的上述困难，一些初步研究旨在提高2D域中的表面质量通过12704在物理布料增强领域中使用法线和位移在2D域中表示3D表面[19]，相关的3D表面已经通过2D图像超分辨率（SR）算法间接上采样[45]。这种策略可以避免高计算复杂度，这也得益于成熟的2D图像SR技术。然而，这些现有的方法在2D域通常只探索一个单一的模态，这是缺乏利用三维物体的多模态属性，以进一步提高性能的上采样。受上述讨论的启发，我们通过联合考虑纹理、深度和法向模态，提出了用于3D表面超分辨率的多模态Transformer网络，如图1所示。1.一、更具体地，从低分辨率3D对象表面获得纹理、深度和法线数据。然后，首先通过Transformer网络将纹理和深度模态对齐到正常模态，并将相关的侧特征融合到主SR骨干网络中。最后利用增强后的法线映射重建出细粒度的三维物体表面。概括起来，与以往的方法相比，主要有三个贡献：• 为了更好地利用相机传感器获取的模态信息，我们研究了一种新的多模态驱动的表面超分辨率网络（表示为• 为了更容易地捕获辅助模态信息，在多模态预处理阶段（MPS），原始纹理照片被划分为层次纹理表示。此外，我们设计了一种新的跨模态Transformer对齐（cmTA）模块来对齐辅助模态信息，并探索了一种基于仿射变换机制的跨模态仿射融合（cmAF）模块来融合中间特征。• 由于缺乏多模态训练数据，我们还建立了一个新的光度立体数据集1，其中包括400个对象。在公开数据集和我们新构建的数据集上的大量2. 相关工作在本节中，我们简要回顾了一些代表性的基于图像的超分辨率方法，包括单图像超分辨率（SISR）和多模式图像超分辨率（MISR），因为所提出的3D表面超分辨率框架主要是在2D正常图像上进行的。1 https：//驱动器。Google. com/file/d/1At34c7LrIQ_qcJLtFZqbjotngk_cQNeB/view？usp=共享2.1. 单幅图像超分辨率基于CNN的SISR方法[9]在过去几年中得到了广泛通过引入残差学习，Kimet al. [17][18][19] Lim等人提出了EDSR [23]，以削减一些不必要的CNN模块，并建立了一个更深的网络。为了处理未知的降解，Shocher等人开发了一个零射击学习网络[35]。随着自注意机制在自然语言处理（NLP）领域的成功，基于transformer的结构已经被研究[5，42]。此外，SISR中还引入了其他一些有用的模型，如拉普拉斯金字塔结构[20]，稠密残差结构[47]，生成对抗网络（GAN）[21，39]，注意力机制[7，27，46]，二元回归网络[13]等。现有的SISR方法在自然RGB图像上取得了令人满意的结果然而，正常图像与RGB图像完全不同，其中正常像素表示几何信息。例如，两个adjacent正常像素可能完全不同，并且在RGB图像中缺乏平滑幅度变化的特性鉴于此，有必要研究在二维正常域实现三维表面超分辨率的新方法。2.2. 多模态图像超分辨率组合多模态信息的思想（例如，不同的视角，不同的传感器，不同的领域），是计算机视觉中的一个热门研究课题[36，48]。在MISR中，一些研究人员采用多模态信息来提高重建性能。例如，Almasriet al. [2]采用高分辨率图像信息对热成像仪获得的热图像进行上采样。Wang等人[38]利用图像分割图作为先验信息来提高GAN模型的学习性能Li等[22]采用正常图像来引导纹理图像的超分辨率。Deng等[8]引入了两个具有不同曝光的图像来执行SR任务。这表明MISR已经在一些初步的研究中进行了研究，这些基于多模态的3D物体表面超分辨率方法的探索仍处于起步阶段，部分原因是难以识别合适的多模态描述符来表示3D表面的不同特征据我们所知，在2D域中对3D表面进行上采样时，很少有这是本研究的根本动机。3. 该方法3.1. 概述问题表述。我们的目标是对表面法线贴图进行上采样，然后将其重建为增强的3D12705↑双三次升峰DTransformer对准⨁侧模态仿射融合DN日本语简体中文一N桥正常浸提Transformer对准N主要方式仿射融合上采样&规范跨模态Transformer对准（厘米TA）多模态预处理阶段（MPS）跨模态仿射融合（cmAF）组Nt Nrepe层次纹理图像提取LL·MMMLL×M·M··H× W×C高×宽gt1i、ji、jp图2. 概述了所提出的用于2D域中的3D对象表面的多模态超分辨率网络。它主要包括多模态预处理阶段、跨模态Transformer对齐和跨模态仿射融合。SR法线贴图通过光度立体中的曲面法线重建为增强的3D表面。物体表面由于我们提出了在二维法向域中表示三维几何表面，这就成为了一个常规的图像超分辨率问题。因此，整个任务可以被公式化为最小化SR法线映射Nsr和地面实况法线映射Ngt之间的专门设计的距离的优化。min（总体（Nsr，Ngt）），（1）NSR其中，overall（）表示特殊距离，其可以表示为法向像素损失Lpix和法向角度损失Lnor的加权和。然后，我们有其中Imul表示原始多模态信息，包括多照明纹理图像、深度图像和低分辨率（LR）正常图像。一般来说，Eq。（3）可以分解为两个子任务：多模式特征提取EX和多模式超分辨率SR。多模态特征提取阶段EX由MPS和cmTA模块组成。Imul首先由MPS模块处理然后，这些得到的特征被馈送到 cmTA 模块 McmTA ，其具有充当特征编码器的Transformer结构，从不同的模态中对齐和提取中间特征。关系的MEX（·）可以表示为L总体（Nsr，Ngt）=λpixLpix（Nsr，Ngt）+λnorLnor（Nsr，Ngt）、（二）Ftn，Fsn=McmTA （SMPS（我mul，Dp，Nlr）），（4）λpix=|N-否|+λnor（1−ni、j其中Ftn和Fsn是对齐的侧模态特征。（一M）表示多照明照片，、D、N其中（h，w，c）表示预测的正常图像的高度、宽度和通道。pix表示逐像素的L1损失，其通常用于SISR中以加速训练收敛。 NOR表示余弦相似性，以限制预测法线ni，j和地面实况法线ni，j 之间的角度损失。通过对这两种损失度量的平衡训练，我们的模型在实际应用中达到了最小的重建误差。架构以前的研究已经证明了多模态数据在SR任务中的积极作用[2]。针对这一点，我们采用了三种测光立体方式，包括纹理、深度和法线图像。在不同的光照条件下，在同一视图上获得纹理和深度图像所提出的网络体系结构的整体如图所示。2，并制定为Nsr=MSR（Nlr，MEX（Imul））。（三）深度图像和LR正常图像。在这种跨模态对准之后，采用几个cmAF块（形成cmAF序列）来将侧模态特征和主模态特征融合在一起。随后，融合的特征图被馈送到上采样模块，该上采样模块由一个高档块、两个3 × 3卷积层、一个向量归一化模块和一个从一开始连接的双三次插值模块组成，用于残差学习。SR（）可以表示为Nsr=N（MUP（McmAFs（Flr，Ftn，Fsn），（5）其中，Flr表示从由三个共同层提取的LR法线图的浅特征开始的主模态特征。McmAFs （ · ）表示cmAFse。序列，以及UP（）表示一个upgrade块。（）de-注意卷积层、向量归一化和双三次插值的组合。矢量规范化层将输出法线限制为单位长度，cmAFSrLR12706−×····×布吕德D NNN其中β=µI'表示偏移偏差，µ表示训练数据集中的总体平均值。I′和I分别表示校正前后的层次纹理图桥接法线贴图。如前所述，表面正常图像与自然RGB图像非常不同。在这种情况下，分层纹理图像可能包含一些不利的信息，其指示侧模态可能与主模态不一致或未对准。因此，我们建议分别使用纹理法线映射Nt和形状法线映射Ns作为深度和法线以及纹理和法线之间的桥梁。灵感来自于观察到深度图像缺乏图3. 多模态预处理阶段（MPS）。上采样模块将特征图放大到输出尺寸。在上采样模块中有一些选择，例如去卷积[28]和像素混洗[34]。为了简单的演示，我们采用[34]作为实验中的高档3.2. 多模态预处理阶段（MPS）在MPS模块中，我们主要研究了两个问题：1）如何减少不同数据集之间的副模态数据分布差异; 2）如何建立副模态与主模态之间的相关关系对于第一个问题，我们从多张光照照片中提取层次纹理表示。对于第二个问题，我们提取两个桥法线映射连接正常域中的侧模态信息。拟议MPS的整体流程如图所示。3 .第三章。层次纹理。由于目标物体材料和表面几何结构的多样性、传感器的不确定性以及光照条件的不确定性，原始多光照照片可能包含许多不利的问题，如曝光误差、自模糊阴影、镜面反射以及由于反射强度不同而导致的亮度不均匀。然而，这些误导性的噪音数据也包含有用的信息。为了充分利用这种信息，我们首先计算逐像素最暗纹理Id以捕获自模糊结构和曝光不足纹理。然后，提取最亮的图像11以捕获非朗伯反射和过曝光纹理信息。最后，提取逐像素平均图像Ia以表示较少受那些不利问题影响的纹理模态。由于这些层次纹理的亮度可以变化很大，在模型训练中使用不友好，我们建议尽可能将亮度调整为相同的值。公式中的亮度校正（6）通过计算移位偏置来完成，然后亮度被对准到最大值而不溢出最大像素幅度。但它包含了一个粗略的形状信息和给定表面的位置关系，我们通过平均滤波的法线地图与窗口大小3.3和100倍，生成形状法线地图Ns形状法线贴图可以重建为模糊表面，用于表示粗糙的对象形状。由于深度和形状法线映射具有相似的结构，因此我们在等式中使用形状法线映射N。（7）作为将来自深度图像的特征与随后的cmTA模块中的正常模态Ns=conv（N，κave），（7）其中conv（）表示卷积运算，并且κave表示平均滤波器核。同样，我们也期待着一种能在不受形状干扰的情况下表达纯纹理信息的层次纹理。为了获得纹理法线映射Nt，我们建议计算原始法线和形状法线之间的方向偏差。该计算如图所示。3，并制定为Nt=rot（Nlr|），（8）其中rot（）表示旋转操作<，>表示逐元素旋转，并且z= [0，0，1]t表示z轴方向。纹理法线映射Nt包含较少的形状信息，这使得重构的表面更模糊。NT表示给定表面的高频细节信息，其类似于提取的没有形状信息的纹理图像。因此，我们建议使用纹理法线映射作为指导，从RGB域到法线域对齐纹理模态。3.3. 跨模态Transformer对齐（cmTA）为了对齐上述跨模态信息，我们进一步设计了一个跨模态Transformer对齐（cmTA）模块，如图所示。4.第一章在cmTA之前，所有的-使多模态通过三个3× 3卷积层以提取相关的浅特征Fx（即，、I=I′+max（min（β，1−max（I′）），− min（I′）），（6）x ={a，l，d}）. 换句话说，Ia、Il和Id将被映射纹理法线提取纳兹纳N步骤12.第三多灯光照片原始LR法线贴图亮度校正深度图形状法线提取提取层次纹理图像12707模态适配器VVcmTA模块cmTA模块cmTA模块KQVB·∈×∈.BM我CME∈×BB图4.跨模态Transformer对齐（cmTA）。图5. 跨模态仿射融合（cmAF）。+1分别为Fa、Fl和Fd。由于这些提取的纹理特征可能包含丰富的颜色和结构信息，因此其高频信息比原始法线图更为复杂。通过引入纹理法线映射作为桥梁，cmTA模块可以捕获更多的纹理特征，并将其投影到法线域。类似地，对于深度特征Fp，由于深度图像不仅携带形状信息，而且还携带重构的位置信息，因此其可以辅助重构形状法线映射域中的3D表面的低频。首先，cmTA模块可以被认为是几个cmTA块和两个模态适配器的组合。每个cmTA块使用Transformer结构来将一个模态特征与桥法线特征对准，并且产生对准的特征（例如，与纹理法线特征Fan对准的平均图像特征Fa）。其中，X表示候选模态特征之一，并且δ表示相应的桥梁法线特征。注意，当X表示纹理图像时，δ表示纹理法线特征。类似地，当X表示深度图像时，δ表示形状法线特征。由方程式在等式（9）中，cmTA（）表示cmTA块。受自注意机制[37]捕获全局信息的效率的启发，所提出的cmTA模块由几个类似于[10]的Transformer编码器组成。由于我们期望所提出的深度网络可以捕获跨模态特征并将它们映射到桥法线特征，因此cmTA块以以下递归结构组织，并在等式（1）中定义。（十）、学习它们之间的关系。通过在Eq.在式（10）中，桥接正常特征经由跳过连接结构重复地连接到cmE模块的k和q输入。在这种情况下，所提出的网络期望捕获不同模态之间的相关信息，并逐渐对齐正常域中的相关信息。在cmTA模块之后，每个模态特征对将联合生成跨模态特征。然而，如上所述，分层纹理映射包含一些不利的信息，因此我们进一步采用两种模态适配器来减少相关的不利信息。模态适配器使用通道注意力（CA）[16]，然后是一个卷积块来建模不同通道之间的重要性关系。具体来说，它将产生三个纹理模态（Fan，Fln和Fdn）从一个cmTA模块。然后，将它们连接为F×nR3f× h × w，并使用CA层和11卷积块来提取最重要的纹理信息FtnRf × h × w。在这两个模态适配器的处理之后，生成两个对齐的纹理特征Ftn和形状特征Fsn，即侧模态特征。3.4. 跨模态仿射融合（cmAF）在跨模态对齐之后，将侧模态特征融合到主模态中以辅助目标SR特征表示。受将分割概率图作为先验的空间特征转换机制[38]的cmAF算法，将提取的纹理和形状特征逐步融合到SR网络的主干中。如图5所示，cmAF可以分为侧模态仿射融合阶段和主模态仿射融合阶段。Fi+1=icmE（q，k=Fδ，v=Fx），i=1、（10）在侧模态仿射融合阶段，CA层xn（q，k=F，v=Fi）的情况下，n≥i >1首先将Fsn和Ftn融合，CMEδxn侧流特征Fss，代表联合制导其中i（q，k，v）表示第i个跨模态编码器（cmE），并且（q，k，v）表示自注意层范例（查询、键和值）。在cmE中，每个特征图被裁剪为9个具有位置嵌入的补丁。随后，利用自我注意的自我表征，我们将桥梁正常和模态特征视为一个整体，并采用多头注意机制，结合了纹理和形状信息。如前所述，形状纹理缺乏细节信息，但它与表面顶点位置和结构有很强的关系然后采用一个3 3卷积块从FsnRf×h×w到R1×h ×w提取一个通用的形状特征。基于纹理特征图比形状特征图包含更多信息的事实，侧模态仿射融合主要方式仿射融合SR-分支机构⨁⨂ConvConvReLUReLUConvConv规模⨂埃克塞特⨁移位ConvTransformer编码器Transformer编码器标准位置多头关注规范MLP猫CAConv猫转换BNReLUConv-1BN CAReLU转换12708×∈E⊗⊕C·SrC·∥ ∥×4EE纹理特征映射可以提供更详细的移位信息，不应该被提取。因此，我们使用3 3卷积块来获得从FtnRf×h × w到Rf× h × w的一般移位特征。最后，Fss将按像素乘以缩放映射，然后添加到移位映射. 图2中的侧模态仿射融合 5可以表示为Fsf=Fss<$C1（Fsn）<$Cf（Ftn），（11）其中Fsf表示侧面特征。和分别指元素级乘法和加法。x（）表示由一个BN层和一个ReLU激活层组成的卷积模块，旨在使输出稳定且更易于使用。在获得侧特征Fsf之后，我们进一步使用卷积模块来学习另一个仿射变换以融合不同的模态特征。由于Fsf的信息已经被大量提取，因此我们使用具有一个ReLU层的两个卷积块来为等式中定义的主模态特征Fsr准备相应的仿射移位和缩放映射（十二）、（WPS）数据集。第一张左图显示了我们建立WPS数据集的设置右侧显示了WPS中的一些多模态示例：从上到下分别是原始纹理模态、正常模态和深度模态。三维表面重建。在获得正常的mapNsr，我们可以对其进行积分以获得最终重建的物体表面，也称为法线表面（SfN）[31]。具体而言，我们采用了公开的基于离散几何的SfN方法[41]来重建SR3D表面。评估指标。为了定量比较，我们采用各种质量测量来评估性能，尽可能全面地管理在图像域中，Fi+1=FiCF（Fsf）其中Fi表示SR侧支的不同阶段中的第i个主模态特征，其维度与Fsf相同。F（）表示两个卷积层和一个ReLU层的线性结构。如图2，该cmAF模块将重复多次，以便充分融合和利用跨模态信息。例如峰值信噪比（ PSNR ）和结构相似性指数（SSIM）。此外，两个广泛使用的度量用于定量测量3D重建结果[31，41]，包括平均角度误差（MAE）和平均相对深度误差（MRDE）。最后，所产生的功能将被送入我们的高档MAE=1μmrccos（ni、j·ni，j），（十三）模块作为Eq的其余部分。（五）、4. 实验结果吴恩达i、j4.1. 实验方案数据集说明。MNSRNet的训练需要高分辨率的标签。目前，最广泛使用的光度立体数据集没有足够的图像用于多模态训练，例如DiLiGenT数据集（10个对象）[33]和葫芦苹果数据集（3个对象）。其中，n=i，j和ni，j分别表示预测法线和N表示输入法线像素的总数。在正态域中，计算了MAE的五个统计指标，包括均值、中位数、5分位数、10分位数和变异。MRDE用于评估估计顶点的准确性。[1]。因此，我们建立了一个新的照片-MRDE=1||p~i、j-pi，j ||,(14)度量立体数据集，即WPS（wonderful photometricstereo）。WPS包含400个不同的对象，包括吴恩达i、j蝴蝶翅膀、树叶、油画、工艺品等。每个物体都是在18个预定义的光照条件下捕获的，如图所示。六、为了公平地评估所提出的MN- SRNet的性能，测试数据集由DiLiGenT、葫芦和从WPS中选择的80个对象组成注意，WPS中的其余对象仅用于训练（例如，，9（训练）：1（验证））。训练和测试数据使用双三次（BI）降低1和×1，以生成LR图像作为网络输入。2其中，p∈i，j和pi，j分别表示由[41]重构的表面和地面实况表面的vert e x位置。综上所述，前两个指标（PSNR和SSIM）评估预测精度，且越高越好。接下来的三个指标（MEAN、MID和VAR）捕获角度误差的平均值、中位数和变化，并且越低越好。第六和第七个指示器（5°和10°）表示5度或10度角误差内的像素百分比，越高越好。最后一个indi-图6. 插图的新精彩光度立体SrSr我们采用SISR任务中常用的指标12709××××××全LRPU-GCNC-CEDSRRCANIPTTDSRGANSFT-GAN3DASRTDTN我们的GT图7.在4种设置下，10种方法之间的3D表面超分辨率的视觉比较。为了更好地进行比较，红框中的区域在第2 - 13列中进行了放大请放大电子版以获取更详细的信息。cator（MRDE）评价三维物体表面重建质量，且越低越好。实作详细数据。MNSRNet已在PyTorch中实现，Adam优化器使用默认参数（β1= 0.9和β2= 0.999）。对于SR分支，我们使用20组cmAF。我们已经训练了MN-SRNet，使用小批量大小为8的1000个epoch，Nvidia Tesla A100GPU ，耗时约两昼夜。由于Transformer模块需要固定的输入尺寸，因此所有输入图像都被自适应地裁剪。例如，在4尺度下，HR和LR图像块分别为196 196和48 48。每个层的所有训练权重都由Kaiming分布[15]初始化，偏差初始化为常数。除了随机旋转（90度，180度和270度）和水平翻转外，我们不应用任何特殊的数据增强方法。4.2. 性能比较比较方法。我们将我们的MNSR- Net与9种代表性方法进行了比较，这些方法可以分为四组：基于网格的方法（用 “Mesh“ 表示）、基于点云的方法（用“Points“表示）、基于SISR的方法（用“SISR“表示）和基于MISR的方法（用“MISR“表示）。对于网格方法，Catmull-Clark细分（C-C）[25]已成为最广泛使用的网格细分方法。它可以有效地上采样三角形网格的启发式算法。我们使用Blender中内置的实现版本进行比较。对于点方法，我们选择PU-GCN网络[30]以表示点云的SR任务。在实验中，我们将相关网格转换为PU-GCN的点云，执行上采样，并将其重新转换为网格进行比较[4]。对于SISR方法，我们选择EDSR [23]来表示残差学习结构，RCAN [46]来表示控制器。演化注意结构，IPT [5]表示自我注意结构。对于这些方法，我们已经在WPS上对相应的模型进行了微调，以显示其最佳性能。对于MISR方法，我们选择TDSRGAN [2]代表早期融合方法，SFT-GAN [38]和3DASR [22]代表混合融合方法，TDTN [8]代表具有自注意力结构的混合融合方法值得注意的是，我们的任务不能完全提供原始方法所需的模式，我们已经调整了上述方法，以适应我们的WPS基准。定性结果。图7展示了一些代表性3D物镜表面的视觉比较。对于SISR，得益于强大的自然图像预训练模型，一些方法在我们的WPS数据集上进行微调后仍然可以表现良好。然而，由于这些SISR方法没有考虑跨模态信息，它们不足以获得最佳的视觉质量。对于MISR，它们可能无法充分利用额外的多式联运信息。因此，它们甚至可能产生负面影响（例如，严重混叠的表面）。在视觉上，该方法实现了一个有前途的主观质量与足够的表面细节和几何结构。定量结果。表1总结了混合测试数据集（包括DiLi-GenT、葫芦和WPS）的详细平均结果。具体来说，我们的方法在PSNR，SSIM，MEAN，MID，VAR，5μm，10μ m和MRDE方面实现了所有8个第一最佳结果。设置，并且在4设置上实现第一最佳结果中的6个和第二最佳结果中的2个。实验结果表明，该方法在不影响多模态输入不稳定性和多模态间信息混淆的情况下，在大多数情况下，MNSRNet主要原因可能是我们的方法可以采用更多的跨模态12710×××××表1. 10种最先进的方法在混合测试数据集上的平均比较结果。“[+]” means the higher the 第一个最好的用粗体突出显示，第二个最好的用下划线突出显示。规模类型算法峰值信噪比[+]SSIM[+]平均值[-]MID[-]VAR[-]5○[+]10○[+]MRDE[-]点PU-GCN [30]18.57470.738216.098212.3674252.82090.33690.608316.5069网格C-C [25]22.18810.90109.08664.7667162.46320.59340.774111.0118EDSR [23]27.55930.95225.13242.0439157.76640.78450.89425.1496SISRRCAN [46]27.72090.95355.08341.9327153.16030.78190.89085.1578×2[5]27.97560.95454.91491.7689166.24590.80760.90084.7418TDSRGAN [2]SFT-GAN [38]26.198227.36300.94340.95096.31835.32602.64412.1304182.8687162.47540.70190.77210.85770.88985.68725.5245Misr3DASR [22]28.30170.95814.67021.7837149.01490.81330.90695.2261TDTN [8]27.82630.95554.78141.7344158.12080.81110.90305.5026我们28.76620.96054.42771.6312146.08150.83030.91234.5849点PU-GCN [30]15.84040.591724.338719.5136443.09750.13900.360720.5933网格C-C [25]20.90220.853911.84876.5019352.55110.48600.683613.7369EDSR [23]23.06090.89099.14073.7643323.70650.63020.79517.0694SISRRCAN [46]23.60580.90248.75913.5196344.95520.65420.81206.8314×4[5]23.62680.90418.26952.8598335.11930.70630.82756.6668TDSRGAN [2]SFT-GAN [38]22.446122.76830.88190.881610.515310.04314.73974.7215345.8229330.22370.53700.55510.72770.760610.51889.6531Misr3DASR [22]22.91380.89019.23413.6517349.10820.64730.80106.9161TDTN [8]22.63840.88619.44343.4755371.07400.65240.79937.3051我们23.79610.90537.99452.9255302.61970.69930.83076.4827表2.对所提出的跨模态对齐和融合方法进行消融实验MPsCMTA cmAF峰值信噪比[+]SSIM[+]平均值[-]MRDE[-]×✓✓✓✓××✓×✓×××✓✓22.330223.281223.499423.682423.79610.87520.89490.89950.90430.905310.71828.98138.70828.22857.994511.72457.26177.20216.60916.4827信息，以帮助捕捉更全面的细节，这是很难学习使用单一的模态。4.3. 消融研究MNSRNet包含三个主要的多模态学习模块，如MPS，cmTA和cmAF。为了验证这些模块的有效性，我们进一步在DiLiGenT数据集上进行了额外的实验，设置为4。如表2中所示进行五个独立实验，其中选择相关模块（不选择的）由符号“"（““）表示。在实验中，MPS的替换是使用最轻的纹理图像作为纹理模态，其他两种模态保持不变。cmTA的替代是简单地连接所有相关的模态信息，然后使用三个3 × 3卷积层和一个1 × 1卷积层来收缩中间通道。cmAF的替换是CA层和11卷积层的组合，以将侧模态融合到主模态。实验表明，当三个模块都使用时，可以达到最佳效果。为了证明单一模态的效果，我们进行了如Ta中所提供的附加实验表3. 不同模式的消融实验（×2设置）。所选（未选）模态由（×）表示。正常Nlr纹理多深度DpPSNRSSIM平均值[-]MRDE[-]✓××27.93760.95364.98835.0325✓✓×28.31510.95644.69424.8478✓×✓28.38160.95854.56114.7091✓✓✓28.76620.96054.42774.5849ble3.可以看出，纹理和深度模态都可以有效地提高表面超分辨率的性能。5. 结论本文介绍了一种基于多模的二维标准域三维物体表面超分辨率网络。更具体地说，我们共同考虑了纹理，深度和正常模式，以恢复高质量的表面细节和保留几何结构。为了有效地利用跨模态信息，我们采用两个桥接法线映射作为跨模态对齐指导。基于纹理和深度模态，我们开发了一个跨模态Transformer对齐（cmTA）模块来连接不同的模态。此外，我们还开发了一个跨模态仿射融合（cross-modality affine fusion，cmAF）模块，用于融合主网络分支和提取的侧模态的特征。最后，我们从恢复的高分辨率法线映射重建增强的3D物体表面。在不同基准数据集上的实验结果从定性和定量两个方面验证了该方法的有效性。12711引用[1] 尼尔·奥尔德林，托德·齐克勒，大卫·克里格曼。具有非参数和空间变化的反射率的照相测量立体。在IEEE计算机视觉和模式识别会议中，第1-8页6[2] Feras Almasri和Olivier Debeir。多模态传感器融合在单一热图像超分辨率中的应用。Springer Asian Conferenceon Computer Vision （ ACCV），第418- 433 页，2018年。二三七八[3] 科萨拉·班达拉，托马斯·鲁贝，费赫米·奇拉克。用多分辨率细分曲面和浸入式有限元进行形状 ElsevierComputerMethodsinAppliedMechanicsandEngineering，300：510-539，2016。1[4] FaustoBernardini、JoshuaMittleman、HollyRushmeier、Claudio Silva和Gabriel Taubin。曲面重构的球轴算法。 IEEE Transactions on Vi- sualization andComputer Graphics，5（4）：349-359，1999. 7[5] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。在IEEE计算机视觉和模式识别会议中，第12299-12310页，2021年。二七八[6] IanCherabier ， ChristianHan ？ ne ， MartinROswald ，andMarcPollefeys.使用体素块的多标记语义3D重建。在IEEE 3D可视化国际会议（3DV）中，第601-610页，2016年。1[7] Tao Dai，Jianrui Cai，Yongbing Zhang，Shu-Tao Xia，and Lei Zhang.二阶注意力网络用于单幅图像超分辨率。在IEEE计算机视觉和模式识别会议（CVPR）中，第11065-11074页，2019年。2[8] 邓欣、张雨桐、徐迈、古书航、段一平。联合曝光融合与图像超分辨率的深度耦合反馈网络。 IEEETransactions on Image Processing ， 30 ： 3098-3112 ，2021。二七八[9] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。在 Springer European Conference on Computer Vision（ECCV），第184-199页2[10] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。5[11] 冯雨桐、冯一凡、游浩轩、赵喜斌、高岳。Meshnet：用于3D形状表示的网格神经网络。在AAAI人工智能会议上，第33卷，第8279-8286页，2019年。1[12] Lin Gao，Jie Yang，Tong Wu，Yu-Jie Yuan，HongboFu，Yu-Kun Lai，and Hao Zhang.SDM-net：用于结构化变形网格的深度生成网络。 ACM Transactions onGraphics，38（6）：1-15，2019。1[13] Yong Guo ， Jian Chen ， Jingdong Wang ， Qi Chen ，Jiezhang Cao，Zeshuai Deng，Yanwu Xu，and MingkuiTan.闭环问题：单幅图像的对偶回归网络12712超分辨率在 IEEE 计算机视觉和模式识别会议（CVPR），第54072[14] Rana Hanocka、Amir Hertz、Noa Fish、Raja Giryes、Shachar Fleishman和Daniel Cohen-Or。Meshcnn：一个有边缘的网络。 ACM Transactions on Graphics ，38（4）：11[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深入研究整流器：超越人类水平的图像分类性能。 IEEEInternational Conference on Computer Vis

下载后可阅读完整内容，剩余1页未读，立即下载