3D人体姿态估计的多视图校准方法及其性能改进

149 浏览量更新于2023-10-25 收藏 914KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7779对极变压器卡耐基梅隆大学Pittsburgh，PA{he2@alumni，ruiyan@alumni，katef@cs}.cmu.eduShoou-I YuFacebook RealityLabs Pittsburgh，PA15213shouou-i. fb.com摘要在同步和校准的多视图设置中定位3D人体关节的常见方法包括两个步骤：（1）在每个视图上分别应用2D检测器以定位2D中的关节，以及（2）对来自每个视图的2D检测执行鲁棒三角测量以获取3D关节位置。在步骤1中，2D融合特征（高×宽×256）查询相似性匹配（高×宽×256）探测器仅限于解决具有挑战性的案件，可能在3D中更好地解决，例如遮挡和倾斜视角，纯粹在2D中，而不利用任何深度特征（256）候选人(256×K）深度特征3D信息。因此，我们提出了可微分的（HxWx256）'（高×宽×256）直觉是：给定当前视图中的2D位置p，我们希望首先找到其对应点p′处的特征，然后将p′处的特征与p处的特征组合，从而导致p处的3D感知特征。受立体匹配的启发，极线Transformer利用极线约束和特征匹配来近似p'处的特征。在InterHand和Human3.6M [13]上的实验表明，我们的方法在基线上有一致的改进。具体来说，在不使用外部数据的情况下，我们使用ResNet-50主干和图像大小256×256训练的Human3.6M模型比最先进的模型性能高出4.23 mm，达到MPJPE 26.9 mm。代码可用1.1. 介绍为了估计人体或手的3D姿态，有两种常见的设置。第一设置是单视图3D姿态估计[46，44，2，9]，其中该算法直接从单个图像估计3D姿态。这是非常具有挑战性的，因为当只有一个视图可用时，深度是模糊的。第二种设置是多视角的，*同等贡献1github.com/yihui-he/epipolar-transformers参考视图源视图图1：所提出的对极Transformer概述，它使2D探测器能够利用3D感知功能进行更准确的姿态估计。对于查询向量（例如，长度为256），沿源视图中对应的核线提取K个样本。点积和softmax是用于计算查询和采样向量之间的相似度然后，将对应特征与参考视图特征融合，以获得用于参考视图的3D感知特征。3D pose estimation, where the algorithm can leveragemultiple synchronized and geometrically calibrated viewsto resolve depth ambiguity.解决深度模糊和准确估计关节3D位置的通用框架[ 30，16 ]遵循两步过程：（1）申请分别在每个视图上的2D姿态检测器以在2D中定位关节，以及（2）基于来自每个视图的相机校准和2D检测来执行鲁棒三角测量以获取关节的3D位置。需要稳健的三角测量，因为2D姿态检测器的预测可能由于遮挡而不正确或缺失。该框架的一个主要缺点是步骤1中的检测7780独立于所有其他视图预测关键点位置。因此，可能在3D中更好地解决的挑战性情况，例如遮挡和从倾斜角度观看场景，都由检测器在2D中解决，而不利用任何3D信息。这可能导致3D不一致的不准确检测，或者网络可能需要更多的容量和训练数据来解决这些具有挑战性的情况。为此，我们提出了完全可微的对极Transformer利用来自相邻视图（源视图）的特征来增强给定视图（参考视图）的2D检测器的中间特征，从而使得中间特征是3D感知的，如图1所示。为了计算参考视图中位置p处的3D感知中间特征，我们首先在源视图中找到对应于p的点：p′，然后将p ′处的特征与p处的特征融合以获得3D感知特征。然而，我们不知道正确的p′在哪里，所以为了近似p′处的特征，我们首先利用源视图中p生成的对极线来限制p′的潜在位置。然后，我们计算p处的特征与沿极线采样的特征之间的相似性。最后，我们沿着极线对特征进行加权求和，作为p′处特征的近似。用于加权和的权重是特征相似性。为了融合p和p'处的特征，我们提出了多种受非局部网络启发的方法[34]。请注意，上述操作是针对中间特征图中的所有位置密集完成的，因此我们模块的最终输出是一组具有与输入特征图相同维度的3D感知中间特征由于对极Transformer是完全可微分的，并且输出与输入具有相同尺寸的特征，因此可以将其灵活地插入到2D姿态检测网络的期望位置并进行端到端训练。我们网络的输入是几何校准和同步的多视图图像，网络的输出是2D关节位置，然后可以进一步三角测量以计算3D关节位置。请注意，即使我们的网络输出2D关节位置，我们的网络也可以访问2D和3D特征，从而使其能够利用更多信息来实现更准确的2D预测。为了评估我们的对极Transformer的性能，我们在Human3.6M [13] 和 InterHand 上进行了实验。在Human3.6M [13]上，当在分辨率为256×256的输入图像上使用ResNet-50主干并且在没有外部数据的情况下进行训练时，我们实现了26.9 mm的平均每个关节位置误差。这优于现有技术，Qiuet al. [28]从ICCVInterHand是一个内部多视图手部数据集，我们也一直优于基线。总之，我们的方法的优点如下。1. 如果对极Transformer是完全可微的，并且输出特征尺寸与输入相同，则可以很容易地将其添加到现有网络架构中。2. 对极Transformer包含最少的可学习参数（参数大小为C乘C，其中C为输入特征通道大小）。3. 对极Transformer是可解释的，因为人们可以分析沿对极线的特征相似性以衡量匹配是否成功。4. 使用对极Transformer学习的网络可以推广到新的多相机设置，只要提供了intrinsic和extrinsic，这些设置就不包括在训练数据中。2. 相关工作多视图3D人体姿态估计：有许多方法被提出用于多视角人体姿态估计。Pavllo等人[26]提出通过2D关键点上的扩张时间卷积来Rhodin等人[29]提出利用多视图约束作为弱监督，以在标记数据有限时增强单目3D人体姿势检测器。我们的方法是最相似的邱等。 [28]和Iskakovet al. [15]因此，我们在下面的段落中提供了更详细的比较。Qiu等[28]提出通过学习每对视图的所有像素对的固定注意力权重来融合来自其他视图的这种方法的优点是不再需要相机校准。然而，缺点是（1）需要来自每个视图的更多数据来训练该注意力权重，（2）当视图的数量和图像分辨率增加时，需要学习的权重明显更多，以及（3）在测试时间期间，如果多相机设置改变，则在训练时间期间学习的注意力不再适用。另一方面，虽然所提出的极线Transformer依赖于相机校准，但它只增加了最少的可学习参数。这使得训练变得更加容易，因此对每个视图的训练图像数量的要求更低（表4）。此外，只要提供了校准参数，利用对极Transformer训练的网络就可以应用于看不见的多相机设置，而无需额外的训练。Iskakov等人[15]提出通过可微三角测量直接学习3D姿态[11]。他们的可学习三角测量和我们的一个关键区别是，Iskakov等人。[15]将特征与3D体素特征图融合，这比我们将3D感知77812D特征图中的特征（表7）。多视图手部姿势估计：大多数3D手部姿态估计工作集中在单眼RGB图像或单眼深度图像[43，42，36，7，44，14，35，45，10，3、19、39、41]。相比之下，由于难以获得多视图手部数据注释，因此关于多视图3D手部姿态估计的工作较少，特别是双手姿态估计。Simon等人[30]提出使用多视图自举迭代地提升单个图像2D手部关键点检测性能Garcia等人[8]介绍了具有RGB-D和3D手部姿势注释的第一人称双手动作数据集。不幸的是，只有右手被注释。为了展示我们的极线Transformer在多视图双手姿势估计应用中的效果，我们使用了我们的内部InterHand数据集。深度神经网络中的对极几何：普拉萨德al. [27]将核线约束应用于具有基本矩阵的深度回归。 Yang等[38]建议使用对称核线距离用于数据自适应兴趣点。MONET [16]使用核线发散进行多视图半监督关键点检测。与上述方法不同，我们利用对极几何进行深度特征融合。注意机制： Vaswani 等人 [33] 首次提出一个Transformer，用于完全基于注意力机制的序列建模。引入了非局部网络[34]，用于捕获视频中的长期依赖性以进行视频分类。我们的方法被命名为核线注意，因为我们根据特征相似性计算沿核线的注意权重，并使用这些权重来融合特征。3. 对极Transformer我们的对极Transformer由两个主要组件组成：核线采样器和特征融合模块。给定参考视图中的点p，极线采样器将沿着源视图中的对应极线对特征进行采样。然后，特征融合模块将获取（1）源视图中采样位置处的所有特征和（2）参考视图中p注意这是坐标如图1所示，假设相机中心不重叠，对应于I中给定查询像素p =（x，y，1）的核线l可以确定性地位于I '上，如下[11]。l=[M′C]×M′M+p，（1）其中M+是M的伪逆，并且[·]×表示斜对称矩阵。p在源视图中的对应点：p′，应位于对极线上：lTp′= 0.给定源视图的核线l，核线采样器沿着核线的可见部分均匀地采样K个位置（在我们的实验中为64个），即，I′和l的交点。采样位置形成具有基数K的集合P′。极线采样器通过双线性插值对子像素位置（实值坐标）进行采样。对于极线与I′完全不相交的查询点，我们简单地跳过它们。有关如何处理对极Transformer的图像转换的详细信息，请参见补充资料3.2.特征融合模块理想情况下，如果我们知道源视图中对应于参考视图中p的地面实况p ′，那么我们所需要做的就是对源视图中p ′处的特征进行采样：Fsrc（p′），然后将其与参考视图中p处的特征相结合：Fref（p）.然而，我们并不知道地面真值p′。因此，受Transformer [33]和非局部网络[34]的启发，我们通过沿极线的所有特征的加权和来近似Fsrc（p′），如下所示：ΣFsrc（p）=sim（p，p′）Fsrc（p′）（2）p′∈P′其中成对函数sim（·，·）计算两个向量之间的相似性得分。更具体地说，它是一个点积，后面跟着一个softmax函数。一旦我们从源视图中获得了特性：F src（p），我们现在需要将其与参考视图中的特征融合：Fref（p）.融合特征的一种直接方法是由残差块[12]激发的，其中来自源视图的特征在被添加到参考视图的特征之前经历变换Wz，如图2（b）和以下等式所示：对于来自参考视图的中间特征图的所有位置密集地完成。我们现在提供细节F稠合（p）=Fref（p）+Wz（Fsrc（p）（3）到两个组件。3.1. 对极采样器我们首先定义用于描述极线采样器的符号。给定两幅同时从不同视角拍摄的图像，即参考视角I和源视角 I ′ ，我们将它们的投影矩阵记为 M ，M′∈R3×4，摄像机中心记为C，C′∈R4，在我们的实验中，权重Wz是1×1卷积我们将这种方法称为恒等高斯体系结构。注意，输出Ffused与输入Fref具有相同的形状，因此该属性使我们能够将对极Transformer模块插入到许多现有网络的不同阶段中。我们还探讨了瓶颈嵌入高斯建筑，这是由非本地推广7782softmax��×��×��×��×1281x1��×��×256参考视图��×��×256��×�� ×128��×�� ×128×��×�� ×128��×��×256源视图参考视图源视图(a) 瓶颈嵌入高斯（b）恒等高斯图2：不同的特征融合模块架构。特征图与其张量的形状一起显示，高×宽×256，适用于256个通道。“”表示逐元素求和，“”表示批处理矩阵乘法，其中批处理大小为H × W。网络[34]，如图2（a）所示的特征融合模块。在对极Transformer之前，来自参考视图和源视图的特征经过嵌入式高斯内核，其中通道大小被下采样为2倍，并且输出被上采样回来，使得融合特征的形状仍然匹配输入4. 实验我们已经在具有多视图图像和地面实况3D姿态注释的两个大规模姿态估计数据集上进行了实验：内部手部数据集 InterHand 和公开可用的人类姿势数据集Human3.6M [13]。InterHand数据集：InterHand是一个内部手部数据集，在同步多视图工作室中使用34个彩色摄像机和46个单色摄像机捕获。在我们的实验中只使用了彩色摄像机。我们拍摄了23个做各种单手和双手姿势的受试者。然后，我们为7.6K唯一时间戳注释了手的3D位置，当我们将3D注释投影到所有34个2D视图时，这导致257K注释的2D手。248K图像用于训练，9K图像用于测试。对于每只手，注释了21个关键点，因此双手有42个唯一点。Human3.6M [13]：Human3.6M [13]是使用四个摄像头捕获的最大的3D人体姿势基准之一，并具有3.6M可用的3D注释。摄像机位于矩形房间的角落，因此具有较大的基线。这导致了与InterHand相比的主要差异图3：InterHand预测的可视化。图像被裁剪以便于可视化。我们的模型在具有遮挡的挑战性手部姿势上仍然失败（右下）。评价指标：在训练过程中，我们使用预测热图和真实热图之间的均方误差（MSE）作为损失。通过应用以关节为中心的2D高斯来生成地面实况热图。为了估计3D姿态预测的准确性，我们采用MPJPE（平均每关节位置误差）度量。它是最流行的评估指标之一，在[21]中被称为方案#1它是通过每个关节的地面实况和预测之间的L2距离的平均值计算的4.1. InterHand数据集我们对InterHand数据集进行了一系列消融研究，以更好地了解极线Transformer，同时了解不同设计选择的影响。我们训练了一个包含极线Transformer的单级沙漏网络[23]。为了预测3D关节位置，我们在所有视图上运行用极线 Transformer 训练的 2D 检测器，然后用RANSAC执行三角测量以获得最终的3D关节位置。在预测期间，我们的2D检测器需要来自源视图的特征，这些特征是从训练期间用作源视图的相机池中随机选择的。我们对图像进行了下采样，分辨率为512×336，用于训练和测试。图3显示了我们模型的一些预测。特征融合模块设计：首先，我们比较了在非本地网络[ 34 ]中推广的瓶颈嵌入高斯（图2（a））与恒等高斯（图2（b））。如表1所示，Identity Gaussian性能稍好。我们假设，与视频分类不同[34]，姿势估计需要准确的对应关系，因此在��×��×256softmax��×��×��×��×256��×��×256×��×�� ×256�� ×�� ×256采样器对极1x1，采样器对极采样器对极1x11x11x1，BN7783阶段MPJPE（mm）早+晚5.03早期4.96晚4.91推理MPJPE（mm）基线5.46单源视图4.91多源视图4.83表1：InterHand和Human3.6M的架构设计比较[13]。表 2 ：插入的对极 Transformer成不同Hourglass网络的阶段[23] InterHand数据集。表3：InterHand上用于推断的不同数量的相邻源视图。5.25.15.04.9参考6°（上二）12º（前7名）24°（前15名）42°（前25名）4.86 12 24 42旋转角度（度）图4：参考视图和源视图之间不同视角的图示。从左到右是参考视图图像，以及分别具有视角差6°、12°、24°和42°的图像。右侧是InterHand在不同视角下使用MPJPE测量的性能。瓶颈嵌入高斯可能会对性能有害Max还是softmax？我们使用softmax来获得沿极线的权重。另一个选择是使用max，因为我们的目标是在极线上找到一个“正确”的点。如表1所示，max的性能略差于softmax。我们假设这是因为softmax为极线上的所有样本产生梯度，这有助于训练。视角：我们现在研究所选相邻相机的视角差异如何影响极线Transformer的性能。直觉是，如果源视图具有与参考视图非常相似的视角，则来自两个视图的特征可能太相似，因此对于我们的融合模块不是非常有用然而，如果视图相距太远，则特征匹配变得更加困难。在其中一个视图中，点被遮挡的可能性也更高因此，我们在训练过程中尝试了四种视角设置：6度，12度，24度和42度。源视图从视角最接近所选视角的十个摄像机中随机选择图4示出了具有与示例参考视图不同的视角的源视图的示例。如图4所示，极线Transformer在视角差24°左右最有效，这是我们在其他InterHand实验中默认使用的设置。插入对极Transformer的阶段：我们进行实验，以测试的理想位置插入到网络的极线Transformer。我们测试了两个设置：“晚”表示在最终预测层之前插入对极Transformer ， “ 早 ” 表示在沙漏单元之前插入模块[ 23 ]。具体位置详见补充材料。如表2所示，在添加对极Transformer的情况下没有显著差异。在本文的其余部分中，我们默认在后期进行融合。测试期间使用的视图数量的影响：我们将探讨测试期间使用的视图数量如何影响最终性能。由于有许多不同的组合来采样参考和源视图，我们随机采样视图多次（当相机很少时多达100次），并确保每个相机至少有一个相邻相机的视角差接近24°。比较的基线是未使用对极Transformer的普通沙漏网络。如图5所示，使用对极Transformer训练的网络始终优于基线。当使用非常少的视图时（例如，two views), the relativeimprovement using the epipolar transformer is around15%.这支持了我们的论点：核线变换器使网络能够使用来自相邻视图的信息获得更好的2D关键点，并且当视图较少时，信息是至关重要的。即使有更多视图，对极Transformer仍然能够对极Transformer建筑设计MPJPE（mm）InterHand H3.6M瓶颈嵌入高斯4.99 35.7高斯+max4.97-恒等高斯+softmax33.1MPJPE（mm）7784403020100浏览次数表4：与横观融合的比较[28]。基线使用Hourglass网络[23]用于InterHand，Resnet-50 [12]用于Human3.6M [13]，没有视图融合。网络我们使用ImageNet [6]预训练模型[24]图5：通过改变InterHand上用于预测的视图数量的MPJPE。黑线表示标准偏差。在基线上提高10%左右。使用多个源视图进行推理：我们介绍的对极Transformer不限于融合来自两个视图的特征。在测试过程中，我们可以选择不同的相邻视图作为源视图，并选择具有最高置信度的预测（即，在热图上的最高峰如表3所示，我们使用10个不同的相邻视图运行预测，并为每个关节选择具有最高置信度的预测。使用多视图进行测试只能通过以下方式减少MPJPE错误：0.1嗯，这是微不足道的。当使用两个以上的视图进行训练时，性能可能会进一步提高，如MVSNet [40]。与交叉视图融合的比较[28]：Qiu等人。[28]为每对视图学习固定的全局注意力权重这种方法的一个局限性是它需要更多的图像每个视图来学习注意力权重。在InterHand上，交叉视图融合[28]的性能甚至比基线检测器更差，如表 4 所示。一个可能的原因是因为InterHand 上每个视图只有大约3K的图像，而不是Human3.6M 上每个视图的 312K 图像 [13] 。此外，Human3.6M [13]只有四个视图，这使得学习成对注意力权重更容易，但是学习InterHand的34个视图的权重要困难得多。4.2. 人类3.6M数据集我们在公开可用的Human3.6M [13]数据集上进行了实验。我们采用与[28]相同的训练和测试集，其中科目1，5，6，7，8用于训练，9，11用于测试。由于Human3.6M [13]中只有四个视图，因此我们选择最接近的视图作为源视图。我们采用ResNet-50，图像分辨率为256×256，在简单的基线中提出，用于人体姿势估计[37]作为我们的支柱用于初始化。网络训练了20个epoch，批量大小为16，Adam优化器[18]。学习率衰减被设定在10和15个时期。除非特别说明，我们遵循Qiuet al. [28]的设置，不做额外的数据扩增公平的比较。我们也遵循邱等人。[28]其他超参数。在[28]之后，由于该数据集中只有四个摄像机，因此使用直接线性变换（DLT）进行三角测量（Hartley Zisserman [11]，第312页），而不是RANSAC。2D姿势估计：再次跟随Qiu et al. [28]，2D姿态估计精度由关节检测率（JDR）测量，该检测率测量成功检测到的关节的百分比。如果估计位置和地面实况之间的距离小于头部尺寸的一半，则检测到关节[1]。2D姿态估计结果在表5中示出。如Qiuet al. [28]，计算特定参考视图位置的交叉视图得分的一种方式是沿着源视图中的对应核线对热图预测得分进行求和或取最大值，但这不会带来良好的性能。因此，交叉视图融合[28]通过融合学习的全局注意力来提高性能。相比之下，对极Transformer既不对热图预测分数进行操作，也不全球融合。它关注沿核线局部的中间特征。使用相同的主干 ResNet-50 ，输入图像大小为256×256，具有极线Transformer的模型实现了97.01%的JDR，优于Qiu等人的95.9%的JDR。 [28] 1%。这种改进表明，沿核线融合优于整体融合。我们进一步应用数据增强，其中包括从截断的正态分布TN（1，0）的随机尺度。2520 75 ， 1 。 25 ）和从 TN （ 0<$ ，（30<$）2，−60<$，60<$）的随机旋转[37]。JDR进一步提高到98.25%JDR。Visualization of feature-matching: The main advantageof the epipolar transformer is that it is easily interpretablethrough visualizing the feature-matching similarity scorealong the epipolar line.我们将沿着对极线对颜色特征、深颜色特征和深颜色特征进行特征匹配的结果可视化。基线对极TransformerMPJPE（mm）MPJPE（mm）InterHand7k imgs/viewHuman3.6M312k imgs/view跨视图融合[28]6.2945.47基线5.4648.73核线Transformer4.9133.17785净规模施尔德ELBWRI髋膝脚踝根肚子脖子鼻子头Avg-R152 32088.50 88.94 85.72 90.37 94.04 90.11 ------对极线求和[28]R152 32091.36 91.23 89.63 96.19 94.14 90.38 ------[28]第28话R152 32092.67 92.45 91.57 97.69 95.01 91.88 ------跨视图融合[28]R152 32095.58 95.83 95.01 99.36 97.96 94.75 ------跨视图融合[28]R5032095.695.093.796.695.592.896.796.496.596.496.295.9跨视图融合[28]R5025686.186.582.496.791.579.0100.0 94.193.795.495.595.1核线TransformerR5025696.44 94.16 92.16 98.95 97.26 96.62 99.89 99.86 99.68 99.78 99.63 97.01对极Transformer+R5025697.71 97.34 94.85 99.77 98.32 97.55 99.99 99.99 99.76 99.74 99.54 98.25表5：Human3.6M [13]上的2D姿态估计准确度比较，除非另有说明，否则不使用外部训练数据度量是联合检测率JDR（%）。+：表示使用数据扩充。“-”：我们引用[28]中的数字，这些条目不存在。：我们使用发布的代码训练模型[28]。R50和R152分别是ResNet-50和ResNet-152 [12]。Scale是网络的输入分辨率。不使用对极Transformer学习的特征，以及通过对极Transformer学习的特征。对于颜色特征，我们首先将RGB图像转换到LAB颜色空间。然后我们丢弃L通道并且仅使用AB通道以对光强度更恒定。图6示出了一个具有挑战性的示例，其中感兴趣的联合点在两个视图中完全被遮挡然而，考虑到利用对极Transformer学习的特征可以访问2D检测器本身中的多视图信息，沿着对极线的匹配找到 still finds the occluded right wrist,which is the desired behavior for a pose detector.然而，没有意识到多视图信息的特征在“物理上正确”的位置处具有最高的匹配分数补充材料中列出了更多的例子。测试期间使用的视图数量的影响时间：如图7所示，与交叉视图[28]相比，具有对极Transformer的模型在视图较少时仍然具有更好的性能。这表明对极Transformer有效地融合了来自其他视图的特征。与最新技术水平的比较，无外部数据集设置：表6显示了当不使用外部数据集时几种最先进方法的性能。我们的对极Transformer性能远远优于最先进的产品。具体而言，当使用三角测量来估计3D人体姿势时，极线Transformer 达到33.1 mm ，在使用相同的骨干网络（ResNet- 50）和输入大小（256×256）时，比交叉视图[ 28 ]好12 mm。使用递归图形结构模型（RPSM[28]）估计3D姿态，我们的极线Transformer达到26.9mm，参考视图源视图图6：沿着Human3.6M上各种特征的对极线的匹配结果的可视化[13]。（被遮挡的）右腕被选中，并在参考视图中用绿点表示用于匹配的特征是（a）通过对极Transformer学习的深度特征（具有E.T.的深度特征），(b)ResNet-50 [12]在没有对极Transformer的情况下学习的深度特征（深度特征w/oE.T.），以及（c）颜色特征（特别是RGB转换为LAB，然后排除L通道）。源视图上的绿点是地面实况的对应点。70605040302 3 4视图数这比横截面视图[28]的等效值好14mm。此外，通过增加对极Transformer，图7：MPJPE 通过不同的 number 的意见[13]第十三话横视图+三角形横视图+RPSM对极Transformer+三角形对极Transformer+RPSMMPJPE（mm）7786MPJPE（mm）Dir Disc Eat Greet Phone Pose Purch Sit SitD Smoke Wait WalkD Walk Walk TAvg--表6：与Human3.6M [13]上最先进方法的比较，其中除非另有说明，否则不使用额外的训练数据。公制单位为MPJPE（mm）。“+“：旋转和缩放增强。“-"：使用已发布代码[28]训练的模型，其中未提供每个动作ResNet-50输入尺寸256×256甚至超过了来自ResNet-152输入尺寸320×320的交叉视图[28]的最新结果134 mm，这是13%的相对改进。我们的数据增强模型通过三角测量实现了MPJPE30.4 mm，这比最先进的模型更好我们相信改进的一个来源来自于这样一个事实，即极线Transformer基于特征相似性动态地找到对应关系并融合特征。这比交叉视图更准确[28]，交叉视图对来自一对视图的所有输入图像使用静态注意力图。与最新技术水平的比较，使用外部数据集设置：表7显示了使用外部数据集时几种最先进方法的性能。Iskakov等人[15]使用来自MS-COCO [20]和MPII [1]的额外数据建立了22.8 mm MPJPE RANSAC基线。他们进一步提出了可学习的加权三角剖分（代数w/ conf）和体积三角剖分[5，22，32]，分别达到19.2 mm和17.7mm。我们在Human3.6M [ 13 ]上微调了[ 15 ]中发布的MS-COCO+MPII预训练ResNet-152 384×384，19.0 mm，这是使用香草三角测量的方法中最好的。此外，核线Transformer对参数和计算量的贡献很小。4.3. 限制我们的方法最大的局限性是精确的几何相机校准。不好的校准将导致不准确的核线，从而不正确的特征匹配。我们的方法的另一个限制是，相邻相机视图的视角不应该太大，否则很有可能3D点可能被遮挡在其中一个视图中，这将使特征匹配更加困难。2github.com/Lyken17/pytorch-OpCounter复杂性预训练微调错误。paramMACCOCO MPII H36M MPIIcrossview+tri.560M 212BC38.3crossview+RPSM 560M 212BC31.2crossview+tri.560M 212BCC27.9crossview+RPSM 560M 212BCC26.2三角测量69M 204BCCCC22.8代数80M 210BCCCC24.5代数w/conf80M 210BCCCC19.2体积+81M 360BCCCC17.7我们的+三。69M 204BCCC19.0表7：使用外部数据集对Human3.6M [13]进行的最新技术水平方法比较。+：数据增加（即，cube rotation [15]）。“呃。“：误差度量为MPJPE（mm）。“三。“代表三角测量使用THOP2计算参数和MAC（乘加运算）的数量。5. 结论我们提出了核线Transformer，它使2D姿态检测器，以利用3D感知功能，通过融合功能沿核线相邻的意见。实验不仅显示了在Human3.6M [13]和InterHand上的基线改进，而且还证明了我们的方法可以改进多视图姿态估计，特别是当相机很少沿极线的特征匹配的定性分析也表明，极线Transformer可以提供更准确的匹配在困难的场景与闭塞。最后，极线Transformer具有非常少的可学习参数，并且输出具有与输入相同维度的特征，从而使其能够容易地扩展到现有的2D姿态估计网络。对于未来的工作，我们相信极线Transformer也可以有益于3D视觉任务，例如深度多视图立体[40]。[31]第三十一话46.5 48.6 54.0 51.567.570.748.5 49.169.8 79.457.853.1 56.742.2 45.457.0Pavlakos等人[25日]41.2 49.2 42.8 43.455.646.940.3 63.797.6 119.0 52.142.7 51.941.8 39.456.9Tome等人[三十一]43.3 49.6 42.0 48.8 51.164.340.3 43.366.0 95.250.252.2 51.143.9 45.352.8[17]第十七话39.4 46.9 41.0 42.753.654.841.4 50.059.9 78.849.846.2 51.140.5 41.049.1R50 256×256+三角形38.9 46.1 36.2 59.7 46.444.744.9 37.751.2 72.048.261.0 46.245.7 52.048.7R50 256×256+crossview+triangulate[28] -- ------------45.5R50 256×256+我们的+三角测量30.6 33.2 26.732.838.429.3 28.936.6 45.234.331.7 33.134.8 31.233.1R50 256×256+我们的+三角测量+29.0 30.6 27.431.031.826.4 28.734.2 42.632.429.3 27.029.3 25.930.4R50256×256+crossview+RPSM[28]--------------41.2R50256×256+我们的+RPSM25.7 27.7 23.7 24.826.931.424.9 26.528.8 31.728.226.4 23.628.3 23.526.9R152320×320+crossview+triangulate[28]34.8 35.8 32.7 33.534.438.229.7 60.753.1 35.241.041.6 31.931.4 34.638.3R152320×320+crossview+RPSM28.9 32.5 26.628.329.328.0 36.842.0 30.535.630.0 29.330.0 30.531.27787引用[1] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。IEEE计算机视觉与模式识别会议论文集，2014年。六、八[2] Adnane Boukhayma、Rodrigo de Bem和Philip HS Torr。3d手的形状和姿势从图像在野外。在IEEE计算机视觉和模式识别会议论文集，2019。1[3] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单目rgb图像的弱监督三维手势估计在2018年欧洲计算机视觉会议论文集。3[4] 克里斯蒂安·斯明基塞斯库·卡塔林·约内斯库，李福欣。用于人体姿态估计的潜在结构模型。IEEE InternationalConference on Computer Vision，2011。[5] Ricson Cheng，Ziyan Wang，and Katerina Fragkiadaki.用于主动视觉识别的几何感知递归神经网络。神经信息处理系统进展。2018. 8[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。IEEE计算机视觉与模式识别会议论文集，2009年。6[7] Endri Dibra 、 Silvan Melchior 、 Ali Alcohis 、 ThomasWolf、Cengiz Oztireli和Markus Gross。基于无监督精化网的单目rgb手势推理。IEEE计算机视觉和模式识别研讨会论文集，2018年。3[8] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准与rgb-d视频和3d手部姿势注释。在IEEE计算机视觉和模式识别会议论文集，2018。3[9] Liuhao Ge ， Zhou Ren ， Yuncheng Li ， Zehao Xue ，Yingying Wang，Jianfei Cai，and Jun

下载后可阅读完整内容，剩余1页未读，立即下载