基于Transformers的三维人体纹理估计

24 浏览量更新于2023-10-13 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13849相关性输出基于Transformers的单幅图像三维人体纹理估计翔宇徐晨换来南洋理工大学S-Labxiangyu. ntu.edu.sg，ccloy@ntu.edu.sg摘要我们提出了一个基于transformer的框架，从一个单一的图像三维人体纹理估计。所提出的Transformer是能够有效地利用输入图像的全球信息，克服了现有的方法，仅基于卷积神经网络的局限性。此外，我们也提出一个遮罩融合的策略，以结合RGB和纹理流模型的优点。我们进一步引入了部分风格的损失，以帮助重建高保真度的颜色，而不会引入不愉快的文物。广泛的前-图像UV图渲染人查询关键关注渲染人类值实验证明了所提出的方法对国家的最先进的三维人体纹理估计方法的有效性定量和定性。项目页面位于https://www.mmlab-ntu.com/project/texformer。1. 介绍本文研究了从单目图像中估计三维人体纹理的问题这是一个重要的问题，在单图像3D人体重建中起着关键作用，并且在虚拟和增强现实、电影工业、游戏和生物识别中具有广泛的应用针对该问题的大多数现有方法[13，23，29，44，47，53]使用深度卷积神经网络（CNN）来预测3D人体纹理（即，UV图）（图1（a））。虽然这些方法已经取得了令人印象深刻的结果，但它们的网络架构具有固有的缺点：卷积层通过设计是局部操作，并且在处理在3D人体纹理估计中至关重要的全局信息时是低效的。更具体地，该任务中的输入和输出不具有严格对齐的空间对应，并且甚至可以具有完全不同的形状，如图1（a）所示。这与2D计算机视觉任务形成鲜明对比，例如图像超分辨率[51]和图像到图像转换[21]，其中输入和输出很好地对齐。我们认为，不应该简单地遵循仅使用CNN进行3D任务的常见做法。(a) 现有方法（b）Transformer的注意机制图1.我们提出了一个Transformer的三维人体纹理估计，从一个单一的图像。与仅依赖于CNN（a）的现有方法[44]相比更详细的解释见正文。工作，并应引入全局操作，以更好地重建三维人体纹理注意，一些最近的方法[47，53]试图用完全连接的层（或MLP）来解决这个问题此外，由于不同层特征的未对准，这种信息丢失无法通过跳过连接[38]轻松补救成功的解决方案应该能够更有效地将输入的特征分布到UV空间中的合适位置，同时保留精细的空间信息。为此，我们提出了一个基于Transformer的框架，从一个单一的图像三维人体纹理估计。Transformer允许以全局方式处理输入信息，这特别适合我们的任务。Transformer的核心是一个注意力模块，包括三个基本组件：查询、键和值。对于查询，我们使用一个预先计算的颜色贴图，它与输出UV贴图具有相同的形状。查询图中的每个像素对应于3D人类网格上的顶点[31]。值是具有所有源像素的输入图像对于Key，我们使用通过现成模型[16]获得的2D部分分割图，其实现了从图像到UV空间的映射[34，53]。CNN13850为了直观地理解这三个组件之间的关系，我们在图1（b）中阐明了我们的Transformer的工作机制。首先使用Query中的像素（标记为黄色星）与Key相关联，从而产生注意力图。利用该注意力图，然后可以通过加权平均来有效地聚合值中的源信息，以这样的注意力机制使我们能够利用输入图像的全局信息而不丢失细节，这是我们的方法区别于现有算法的关键因素。注意，为了便于理解，已经简化了上述说明。正如第3节所介绍的，我们在实际实现中使用更多的通道用于值和键，并在特征空间中执行多头注意[43总而言之，我们做出了以下贡献：1) 我们提出了一个基于变换器的框架，称为Texformer，从一个单一的图像三维人体纹理估计。基于注意机制，该网络能够有效地利用输入的全局信息。它自然地克服了现有算法的局限性，这些算法仅依赖于CNN，并有效地促进了更高质量的3D人体纹理重建。2) 现有算法输出RGB值[44，47]或纹理流[23，53]以合成最终的UV贴图。我们分析了这两种策略的局限性，并提出了一种新的方法来结合这两个世界的最好的我们表明，所提出的方法是能够显着减少视觉伪影，同时保留精细的细节。3) 先前方法的估计的纹理经常遭受来自输入的明显颜色差异。为了解决这个问题，我们提出了一个部分风格的损失，它为每个人体部分实施了Gram-matrix相似性[12]，并鼓励更接近输入图像的外观。在Market-1501数据集[54]上进行的大量实验证明了所提出的方法在定量和定性方面对最先进的3D人体纹理估计方法的有效性。2. 相关工作3D人体纹理估计。近年来，在3D人体纹理估计领域已经取得了显著的进展[1，2，3，6，13，19，23，28，29，30，34，35，36，37，38，39，36、39、44、47、53、55、57]。一些方法[1，2，3，6，34]通过将多视图图像作为输入来解决这个问题，并且可以通过使用Graph-cut [7]，中值滤波器[3]或深度学习[34]合并来自不同视图的纹理来合成3D人体纹理。然而，这些方法不能容易地用于单图像3D人体重建[4，37，40，56，59]。在这个方向上，最近的方法使用RGBD视频[30，57]，这对输入提出了更高的要求对于单图像3D人体重建[4，37，40，56，59]中的应用，另一种方法使用深度神经网络从单目图像重建3D人体纹理[19，28，35，39，55]。然而，这些方法通常需要经由3D扫描获得的3D监督，这既耗时又费力。此外，一些方法[28，36]需要高质量的密集人类姿态估计来提取部分观察到的纹理，这对于野外图像来说是具有挑战性的。与这项工作更密切相关的是，一些最近的方法旨在解决没有3D标签的单图像纹理重建的问题[13，23，29，44，47，53]，其通常更适用于现实世界的使用。例如，Wanget al. [44]通过建立在现有3D人体网格重建算法的成功基础上，提出了一种自监督训练管道[18，22，24，26，27，46]。Kanazawa等人[23]还以自我监督的方式学习3D纹理，并使用纹理流直接从输入图像中采样像素。此外，Zhaoet al. [53]利用人体部分分割作为输入，并使用多视图数据作为额外训练标签以获得更好的性能。虽然这些方法在这项任务中取得了可喜的进展，但它们通常依赖于CNN，无法很好地利用输入的全局信息。相反，我们建议一个基于Transformer的框架，有效地克服了这个问题。此外，我们还引入了一种掩模融合策略，以结合RGB预测和纹理流的优点我们还提出了部分风格损失和面部结构损失，以进一步改善纹理重建的结果。变压器. 由于处理远程信息的卓越能力，Transformer已成为自然语言处理中的主导架构[10，43]。最近，它也被引入到计算机视觉中，其应用包括对象检测[8]、图像分类[11]、图像恢复[9]和手部姿势估计[17]。我们参考[14]对视觉转换器进行更全面的在这项工作中，我们证明了注意力机制，使Transformer特别适合于三维人体纹理估计的任务。我们提供了新的见解，在设计Transformer的这项任务，所提出的网络实现了更好的性能比国家的最先进的方法。我们还表明，一个共同的Transformer结构没有具体的设计不能执行，以及所提出的架构形式。3. 方法我们提出了一个基于变换器的框架，称为Texformer，从一个单一的图像三维人体纹理估计。Texformer的概述如图2所示。框架的简要说明见图说明。接下来，我们提供Texformer以及损失函数的更详细的解释。13851∈∈ ∈∈TRGB输出查询关键值F卷积层掩模融合conv图层的数据流FFTransformer单元查询键值输出特征特征特征特征MVKQ+O位置编码反式反式反式MLP多头注意反式图2.建议的Texformer概述查询是通过将标准人体网格的3D坐标映射到UV空间而获得的UV空间的预先计算的颜色编码Key是输入图像和2D部分分割图的级联值是输入图像及其2D坐标的串联。我们首先将Query、Key和Value输入到三个CNN中，将它们转换为特征空间。然后将多尺度特征发送到Transformer单元以生成Output特征。多尺度输出特征在另一个CNN中被处理和融合，其产生RGB UV贴图TRGB、纹理流F和融合遮罩M。通过使用融合掩模M组合TRGB和用F采样的纹理来生成最终UV图。请注意，我们在CNN的相同分辨率层之间跳过了类似于[48]的连接，为了简洁起见，在图中省略了这些连接。3.1. Texformer查询. 如第1节所介绍的，我们模型的查询表示输出UV空间的颜色编码，并且查询映射中的每个像素都应该表征3D人体网格上的顶点。为此，我们使用来自SMPL模型[31]的标准人体网格的3D坐标查询中每个像素的颜色值可以通过首先将3D坐标映射到UV空间，然后使用KD树[33]插值坐标来获得我们在网络训练之前预先计算查询映射，并且对所有输入图像使用UV空间的相同颜色编码。钥匙回想一下，Key用于与Query元素相关，以获得输入的注意力图（图1），这对于连接图像空间和UV空间至关重要。受最近的研究[34，53]的启发，我们使用2D部分分割作为学习从输入图像到输出UV图的映射的关键。我们的2D部分分割是用现成的模型[16]获得的。如图2所示，我们还包括输入图像作为密钥的附加通道以提供上下文信息。值 Value表示由Key索引的源信息，并且被聚合到UV空间中以使用注意力映射生成输出。有两种可能值的选项取决于转换器输出的形式：1）当Transformer直接输出RGB UV图时，使用RGB输入图像作为值;2) 使用图像的流场，即，当模型首先产生纹理流，然后通过用预测流对输入图像进行采样来生成UV图时，每个像素的2D坐标正如本节后面将介绍的那样，我们的Transformer预测RGB值和纹理流，因此，我们将RGB图像和流场连接起来作为模型的值（图2）。Query、Key和Value不能直接由Transformer使用它们的原始形式;这对于查询和关键字尤其如此，查询和关键字将在注意模块中进行比较，从而应该具有相同的特征维度。因此，我们将它们输入CNN中，将它们转换为特征空间，如图2所示。然后得到的特征QRvu×d，KRhw×d和VRhw×c被送入Transformer单元，变压器单元产生输出特性ORvu×c。这里，v、u是输出UV图的高度和宽度，h、w是输入图像的高度和宽度，而d、c分别是K和V的特征尺寸。注意，Q的CNN用于找到固定查询映射的更好表示，并且仅在训练阶段需要。在部署过程中，我们可以通过预先计算特征编码来删除Query CNN。13852OO·图2中的Transformer单元是所提出的网络的中心部分，它有效地将图像特征分布到UV映射的合适位置，并实现输入空间和输出空间之间的全局信息交换具体地，它可以写为：0=fres-MLP（fAttn（Q+EQ，K+EK，V）），（1）其中fAttn是来自[43]的多头注意力模块。fres-MLP是在其输入和输出之间具有剩余连接的两层MLPEQ和EK分别是查询和关键特征的正弦位置编码[43]。低级注意力。如[43]中所介绍的，多头注意力fAttn基于单头注意力模块：fsingle（Q~，K~，V~）=softmax（Q~K~）V~ ，（2）(a) 输入（b）RGB结果（c）流(d)融合掩模（e）UV贴图(f)掩模融合结果图3. 掩膜融合策略结合RGB值和纹理其中Q~∈Rv~u~×d~，K~∈Rh~w~×d~，且V~∈Rh<$ w<$×c<$。的流以减少伪像，同时保留精细细节。引入分母α以避免大值。为了清楚起见，我们在这里不使用符号Q、K和V，因为这些特征需要首先由多头注意力fAttn中的线性投影层处理[43]。正常注意力公式的一个重要问题是等式（1）的高存储器复杂度（（v~u~h~w~））。 2），这使得训练对于普通GPU不可行。到为了解决这个问题，我们提出了一个受[50]启发的低秩注意力fLoRA（Q~，K~，V~）=Q~K~V~/α，（3）其中softmax函数被移除，并且注意力通过纯矩阵乘法来近似。此策略允许通过操纵或来实现更高效的计算矩阵乘法的阶[50]（i. 例如，计算K~V~第一）。内存占用可以显著减少到（max（vu，hw）max（d，c）），这使得训练更可行。注意[50]使用这种低秩策略矩阵因式分解，而我们将其应用到多个头atten- tion的有效变压器。多尺度特征融合。而不是在一个单一的规模应用的Trans-former单位，我们计算的输出功能与三个层次的功能金字塔。对于其中特征具有大空间尺寸的前两个级别，我们使用所提出的LoRA（等式2）。3）降低存储器成本。对于第三级上的小特征，我们简单地使用softmax attention模块（等式10）。2）的情况。然后，多尺度输出特征Oi，i=1，2，3可以很容易地在CNN内融合为如图2所示。这种多尺度方法可以帮助提出的Transformer更好地利用上下文信息，并预测不可见区域的高质量人体纹理（图9）。遮罩-RGB和纹理流的融合。有两个可能的选项的输出网络：1）直接生成RGB纹理TRGB[44，47]，或13853⊙纹理流F，其可用于通过从输入图像I采样来生成最终纹理[23，49，53]。如图3所示，这两种策略都有其优点和局限性：直接合成TRGB可以很好地重建视觉上令人愉快的3D人体纹理，然而这通常导致精细细节的丢失（图3（b））。另一方面，纹理流能够保留输入图像中的精细细节，但结果可能遭受严重的人为因素（图3（c））。为了解决这个问题，我们提出了一个遮罩融合方法，结合RGB值和纹理流的优点。具体来说，我们的Transformer生成三个输出：RGB UV贴图TRGB、纹理流F和融合蒙版M。然后掩模熔合过程可以写为：T=M⊙fsample（F，I）+（1−M）⊙TRGB，（4）其中f_sample是用于从I与F对纹理进行采样的双线性采样函数，并且表示逐元素乘法。最终的纹理T是通过加权求和将TRGB和fsample（F，I）融合来计算的如图3（f）所示，掩模融合方法能够显著减少视觉伪影，同时保留精细细节。此外，通过观察学习的融合掩模（图3（d）），我们可以发现网络倾向于将采样纹理fsample（F，I）用于可见区域（如人类胸部），并将合成纹理TRGB用于不可见区域（如人类背部）以及其他具有复杂结构的硬区域（如面部和手部）。与传统变压器的关系通常，现有作品[8，9，11，43] 通过堆叠多个 Transformer 单元来构建Transformer，其中当前单元的Output fea- tures成为下一个单元的Query features。因此，Transformer中的数据流需要13854Σ22Σ能够充当两个不同的角色（即，查询和输出）。这是一个合理的选择，当1）查询和输出在同一空间中，例如，在自然语言处理[43]中，查询是前一个时间步的移位输出，或者2）查询的物理含义不能具体定义，例如，在对象检测[8]中，查询是随机初始化的向量，也在训练期间优化。然而，在这项工作中，我们有一个明确的定义查询，这是一个颜色编码的地图，从一个标准的三维人体网格的三维坐标，并在查询中的每个元素对应于一个物理顶点;并且该查询映射在与输出不同的空间中（即，RGB值和纹理流）。因此，在我们的网络（图2）中，我们避免堆叠多个注意力模块，并以多尺度的方式更有效地使用Transformer单元。通过这种方式，我们的特克斯- former的功能不需要同时充当两个不同的角色了，这有效地减轻了训练的难度。如第4.1节所示，传统的Transformer无法提供与所提出的模型一样高质量的结果，这证明了我们设计的有效性。3.2. 损失函数在[23，44，47，53]之后，我们以自我监督的方式训练Texformer首先，我们使用估计的人体纹理来渲染人体图像fr（T，D），其中fr是可微分渲染函数[25]，并且D表示由最先进的算法RSC-Net [46]预测的3D人体网格和相机参数;然后可以通过强制渲染图像fr（T）和输入I之间的相似性来训练模型。请注意，为了简洁起见，我们在这里和下面的部分中省略了D为了加强fr（T）和I之间的相似性，我们首先使用来自[44]的重新识别（ReID）损失ReID=v其中表示行人区域的第v(a) ReID（b）ReID w/o norm（c）ReID+Style（d）输入图4. 用高保真颜色重建人体纹理的部分风格损失。(a) 输入（b）三维网格（c）P-S和（b）（d）二维P-S图5. 3D网格预测的未对齐问题。(b)是由[46]预测的3D人体网格。(c)是从3D网格（b）获得的2D身体部位分割（P-S）（d）是通过[16]获得的2D在图5（b）中，3D人体网格没有与输入图像很好地对准。因此，直接强制渲染的人和输入图像之间的相似性导致显著的错误，这将负面地影响训练过程。部分风格的损失。为了解决这个问题，我们基于2D部分分割通常比3D估计更准确并且与输入图像更好地对齐的观察结果提出了新的损失函数（图5（d））。具体地，我们强制渲染的人的每个身体部分与输入图像之间的相似性，这自然地处理由不准确的3D网格预测引起的未对准问题。然而，如图5（c）和图5（d）所示，不同分割图中的相同身体部位的区域通常具有不同的大小和形状，这阻止了我们进行分割。使用简单的MSE损失，如在等式2中。五、相反，我们使用识别网络[41]。正常化2表示L2-风格损失[12]，其中Gram矩阵不需要相同的大小和形状进行计算。不同于虽然这种ReID损失表现得相当好，但重新-所构造的纹理通常具有与输入图像的明显色差，如图4（a）所示，这主要是由于等式4（a）中的归一化操作。五、解决这个问题的一种方法是去除归一化，并使用未归一化的特征用于ReID丢失。然而，这种策略经常导致如图4（b）所示的重构的人类纹理中的严重伪影（注意人类面部和手臂上的不自然纹理）。我们假设这个问题可能是由于预测的3D人体网格并不总是准确的。所示原始风格损失[12]计算整个图像的格拉姆矩阵，我们以每个身体部位的方式实施格拉姆矩阵相似性，其可以公式化为：style=G（Mp⊙p其中M和M′分别是来自3D网格和2D人体解析模型的人体部位分割[16]。这里，p表示第p个身体部位，G是格拉姆矩阵。请注意，我们只使用13855NNsynsyni=1ReID网络的第一层（即，1）用于部分样式损失，以更好地关注重构纹理的低级颜色。如图4（c）所示，将ReID和style结合起来，可以实现更接近输入图像的颜色外观，而不会引入令人不快的伪影。面结构损失。虽然我们的方法能够很好地重建人体大部分区域的3D纹理，但对于具有复杂结构的人体部位（例如人脸）的纹理合成仍然具有挑战性Wang等人[44]提出MSE面部损失以鼓励面部纹理接近合成人类数据集的平均面部[42]，然而，这通常导致面部颜色与重建的人类的其他皮肤区域不一致的不自然结果为了解决这个问题，我们提出了一个面结构损失：面=−1i=1表1. 定量评价所提出的算法。粗体数字表示每列中的最佳，下划线数字表示第二。方法CosSim↑ CosSim-R↑ SSIM↑ LPIPS↓参数（M）0.5241 0.4978 0.7142沪ICP备15024550号-1沪ICP备15026664号澳门金沙城中心官网-澳门金沙城中心-澳门金沙城中心官网纺织成型机0.5747 0.5422 0.7422 0.11547.6电话：+86-021 - 8888888传真：+86-021 - 8888888DETR*[8]0.5632 0.5274 0.7133 0.1379 17.9ReID损失的提取器（等式（五）。我们经验性地设置Eq. 当w1= 5000，w2= 0时，8。4，w3= 0。01.对于评估指标，我们使用SSIM [45]和LPIPS [52]与人类面具[32]来测量预测的人类纹理的质量。我们还计算了人ReID特征的余弦相似性（CosSim）[41]，以从语义层面衡量结果更高的CosSim其中{T（i）}N是真实人体纹理的集合用于训练基线和我们的模型，我们也计算特征的余弦相似性从一个合成的人类数据集[42]。 M面是预定义的二进制贴图，指示纹理贴图上的面部区域s是结构相似性函数[45]，定义为：s（x，y）=（σxy+C）/（σxσy+C），（7）其中σx是x的标准偏差，σxy是x和y之间的协方差，并且C是常数。当量6本质上鼓励面部纹理具有与Tsyn类似的结构，这有效地促进了合理面部纹理的生成我们最后的损失是里德的损失，部分-风格损失和面部结构损失：=w1其中w1、w2和w3是超参数。类似于[53]，我们使用多视图数据来训练网络，并且我们的损失函数可以直接应用于多视图图像。4. 实验我们在实验中使用Market-1501数据集[54]，该数据集由1501个在[44，47]之后，我们使用1401个身份进行训练，其余100个身份进行测试。对于面部结构损失，我们使用来自SUR-REAL数据集的合成纹理[42]。我们用8个注意力头来注意-tion模块，并且对于K和V两者，特征维度被设置为128。对于LoRA，我们设置α=h~w~（等式1）。（3）第三章。我们使用BatchNorm [20]而不是LayerNorm[5]Transformer单元，因为它在实践中给出了更好的结果。类似于[44，47]，我们使用PCB网络[41]作为特征在训练期间未看到ReID网络。具体来说，我们使用来自 [58] 的 ResNet-50 [15] ，并将相应的度量命名为CosSim-R。4.1. 与最新技术我们比较了最先进的3D纹理估计方法：CMR [23]、HPBTT [53]、RSTG [44]和TexGlo [47]。由于HPBTT以不同的方式分割数据，我们使用我们的协议重新训练它[44，47]。如表1所示，所提出的方法在所有指标上都实现了比基线方法更好的结果，同时需要更少量的参数，这证明了我们算法的有效性。此外，我们还提供了我们的方法相对于图6中的基线的定性评估。由于CMR [23]和HPBTT [53]的纹理是从具有纹理流的输入图像中采样的，因此它们通常具有接近输入的颜色，这导致表1中的SSIM和LPIPS方面的良好性能。然而，这些方法通常遭受显著的伪影并且对遮挡不鲁棒，如图6（a）-（b）所示。另一方面，虽然RSTG [44]（图6（c））和TexGlo [47]（图6（d））可以很好地重建人体纹理，而不会出现严重的视觉伪影，但它们的结果通常缺乏细节，并且与输入存在显著的色差。相比之下，所提出的算法在图6（e）中实现了具有精细细节和高保真色彩的更高质量的结果用户研究。我们进行了一个用户研究，更全面的评价纹理估计算法。本研究使用从Market- 1501测试集[ 54 ]中随机选择的10张图像，每个输入都通过5种不同的方法进行处理：CMR [23]、HPBTT [53]、RSTG [44]、Tex-指示渲染的人更可能是输入图像中的同一个人。作为PCB网络[41]13856(a) CMR（b）HPBTT(c) RSTG（d）TexGlo(e) 我们(f) 输入1.00.80.60.4图6.所提出的算法的定性评价0.20.0CMRRSTGHPBTTTexGlo我们(a) DETR（b）DETR*（c）我们的（d）投入图8. 与DETR进行目视比较[8]。映射到DETR的查询以获得更好的性能。怎么-图7.3D人体纹理估计的不同算法的用户研究每个柱显示每种方法的归一化得分的平均值和标准偏差Glo [47]，以及建议的Texformer。要求20名受试者以输入图像作为参考通过每种方法对重建的纹理进行排序我们将排名值归一化为[0，1]，并使用归一化的分数来测量结果。我们在图7中可视化平均得分和标准差。所提出的方法是明显优于其他方法，这表明其更好的能力，在生成具有高感知质量的三维与DETR比较 DETR [8]采用传统的Transformer结构[43]，最初用于对象检测。在这里，我们通过将对象查询替换为UV映射查询来调整该网络以进行3D人体纹理估计，UV映射查询在训练期间被随机初始化，然后被优化。我们还添加了建议的查询然而，原始网络无法正常工作，如表1和图8（a）所示，这主要是由于DETR的非常深的结构（ResNet-50[15]）阻止了较低级别纹理信息的保存。因此，我们通过仅使用ResNet-50的第一块作为特征提取器来改进原始DETR这导致如表1和图8（b）所示的更强的基线模型（DETR*）。然而，由于DETR将多个注意力模块堆叠在一起而没有明确地解开查询和输出功能的角色，因此它的表现不如所提出的网络，该网络产生具有精细细节的高质量人类纹理，如图8（c）所示。4.2. 消融研究Transformer的有效性。所提出的网络基本上依赖于Transformer单元（等式10）。1）利用输入的全局信息为了分析其效果，我们删除了图2中的Transformer单元，而是生成用户研究13857表2. 所提出方法的烧蚀研究方法不带Transformer装置CosSim↑0.5413CosSim-R↑0.5101SSIM↑0.7242LPIPS↓0.1235无多尺度0.57150.53910.74070.1181只有RGB0.57110.53700.71670.1261仅纹理流0.55150.52580.75810.1027无部件式损失0.57830.54410.71580.1412完整模型0.57470.54220.74220.1154无部件式损失带部分样式损失输入不带Transformer装置无多尺度全模型输入图9.Texformer不同组件的有效性输入UV贴图注意渲染人图10. 学习的注意力地图的可视化。UV贴图中的红色和黄色星星分别对应于红色和黄色框架包围的注意力贴图。首先将Q、K和V串联起来，然后将串联起来的特征发送到普通卷积层中，以评估输出特征。如表2所示，没有Transformer单元的模型在所有指标方面都遭受了显著我们还在图9中提供了一个视觉示例，其中“w/oTransformer unit”的结果具有低得多的视觉质量和令人不快的伪影。为了更好地理解Transformer单元的注意力机制，我们在图10中进一步呈现了学习的注意力图的可视化，示出了Transformer单元可以学习将来自图像的相关特征聚合到UV空间中。此外，在我们的方法中，我们使用多尺度策略来融合来自Transformer单元的特征，这适度地提高了性能，如表2所示。由于多尺度策略可以有效地利用输入的上下文信息，因此它能够更好地推断人体不可见区域的纹理，例如。图9中的人。结合RGB和纹理流的有效性如第3.1节所述，我们提出了一种遮罩融合方法来结合RGB输出和纹理流。如表2所示，直接预测RGB值导致差的SSIM和LPIPS，这主要是由于基于RGB的模型不能重建准确的细节（图3（b））。此外，仅使用纹理流用于人图11. 部分样式损失的有效性。纹理估计导致表2中的低CosSim和CosSim-R，这主要是由如图3（c）中的大量伪像引起的请注意，虽然我们的基于RGB和基于流的模型都有其局限性，但它们仍然比以前的基于RGB和基于流的方法（表1）获得更好的结果，这再次表明了所提出的Transformer网络的优越性。部分样式损失的有效性。如Ta所示-如表2所示，部分型损耗显著改善了SSIM和LPIPS。在图11中，没有这种损失的重建纹理这与我们在第3.2节中的设计动机一致，以合成高保真度颜色，而不会引入令人不快的视觉伪影。请注意，零件型损耗导致表2中的CosSim和CosSim-R略微降低。这可能是由于ReID网络不完全依赖于颜色外观来识别人类，因为当从不同角度或在不同的光条件下观看因此，强制输出具有与输入接近的颜色外观可能并不总是与ReID损失的优化方向一致，并且可能稍微分散训练过程。5. 总结发言我们已经开发了高品质的3D人体纹理重建从一个单一的图像的Texformer。这项工作的核心是Transformer单元，它允许两个不同空间之间进行有效的信息交换，即：图像空间和UV纹理空间。潜在地，这个想法可以扩展到其他领域，其中感兴趣的数据涉及多个表示或位于不同的空间中，例如多模态学习和图形处理。另一方面，由于SMPL [31]的限制，所提出的方法主要适用于紧身衣服而不是宽松衣服。通过在Texformer中引入更先进的人体模型可以克服这一限制，这可能是未来研究的一个有趣方向。谢谢。本研究得到了RIE 2020行业联盟基金-行业合作项目（IAF-ICP）资助计划的支持13858引用[1] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个单一的rgb相机重新构建穿着衣服的人。在CVPR，2019年。2[2] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，ChristianTheobalt，and Gerard Pons-Moll.从单目视频的详细的人类化身。2018年国际3D视觉会议（3DV）。2[3] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，ChristianTheobalt，and Gerard Pons-Moll.基于视频的三维人体模型重建在CVPR，2018年。2[4] Thiemo Alldieck，Gerard Pons-Moll，ChristianTheobalt，和马库斯·马格纳Tex2shape：从单个图像中获得详细的完整人体几何形状。在ICCV，2019年。2[5] Jimmy Lei Ba，Jamie Ryan Kiros，and Geoffrey E Hin-吨层归一化。arXiv预印本arXiv：1607.06450，2016。6[6] Bharat Lal Bhatnagar，Garvita Tiwari，ChristianTheobalt，和杰拉德·庞斯-莫尔Multi-garment net：学习从图像中为在ICCV，2019年。2[7] Yuri Boykov Olga Veksler和Ramin Zabih 快速AP-通过图切割的近似能量最小化。TPAMI，23（11）：12222[8] Nicolas Carion ， Francisco Massa ， Gabriel Synnaeve ，NicolasUsunier，Alexander Kirillov，and Sergey Zagoruyko.使用变压器进行端到端对象检测。在ECCV，2020年。二四五六七[9] 陈涵婷，王云鹤，郭天宇，徐昌，一平Deng，Zhenhua Liu ，Siwei Ma，Chunjing Xu，ChaoXu，and Wen Gao. 预训练的图像处理Transformer 。arXiv预印本arXiv：2012.00364，2020。二、四[10] Jacob Devlin、Ming-Wei Chang、Kenton Lee和Kristina图坦诺娃Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。2[11] Alexey Dosovitskiy Lucas Beyer Alexander KolesnikovDirk Weissenborn，Xiaohua Zhai，Thomas Unterthiner，Mostafa Dehghani，Matthias Minderer，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器 . arXiv 预印本 arXiv ：2010.11929，2020。二、四[12]Leon A Gatys，Alexander S Ecker，and Matthias Bethge.我-使用卷积神经网络的年龄风格转移在CVPR，2016年。二、五[13] Shubham Goel，Angjoo Kanazawa，Jitendra Malik.没有关键点的形状和视点。在ECCV，2020年。一、二[14] 韩凯：王云鹤，陈翰庭陈兴浩郭建元，刘振华，唐业辉，安晓，徐春静，徐义兴，等.视觉 Transformer 的研究概况。 arXiv 预印本 arXiv ：2012.12556，2020。2[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。六、七[16] 黄侯静，杨文杰，陈晓唐，赵鑫，黄凯琪，林锦斌，黄关，杜大龙。Eanet：增强跨域人员重新识别的对齐。arXiv预印本arXiv：1812.11369，2018。1、13859三、五[17] 林煌、谭建超、季柳、袁俊松。 Hand-Transformer：用于3D手部姿势估计的非自回归结构化建模在ECCV，2020年。2[18] 黄曾，李天业，陈伟凯，赵亚杰，邢军，Chloe LeGendre，Linjie Luo，Chongyang Ma，HaoLi.从非常稀疏的多视图性能捕获的深度体积视频。在ECCV，2018。2[19] 黄曾，徐元禄，克里斯托夫·拉斯纳，李浩，和托尼·董。Arch：可动画化的衣服人的重建.在CVPR，2020年。2[20] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。6[21] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR，2017年。1[22] Angjoo Kanazawa、Michael J Black、David W Jacobs和吉坦德拉·马利克端到端恢复人体形状和姿势。在CVPR，2018年。2[23] Angjoo Kanazawa、Shubham Tulsiani、Alexei A Efros和吉坦德拉·马利克从图像集合学习特定类别的网格重建在ECCV，2018。一二四五六[24] Angjoo Kanazawa、Jason Y Zhang、Panna Felsen和Jiten-马利克夫人从视频中学习三维人体动力学在CVPR，2019年。2[25] Hiroharu Kato、Yoshitaka Ushiku和TatsuyaHarada。Neu-ral 3D网格渲染器。在CVPR，2018年。5[26] Muhammed Kocabas、Nikos Athanasiou和Michael J黑色. Vibe：用于人体姿势和形状估计的视频推理。在CVPR，2020年。2[27] 放大图片作者：Michael J.黑色和科斯塔斯·丹尼利迪斯学习通过循环中的模型拟合重建3D人体姿势和形状。在ICCV，2019年。2[28] Verica Lazova，Eldar Insafutdinov，and Gerard Pons-Moll.360-从一张照片中可以看出人们穿着衣服的不同程度的纹理。2019年国际3D视觉会议（3DV）2[29] Xueting Li，Sifei Liu，Kihwan Kim，Shalini De Mello，VarunJampani，Ming-Hsuan Y

下载后可阅读完整内容，剩余1页未读，立即下载