可泛化的多视图人体姿势三角测量

8 浏览量更新于2023-10-25 收藏 13.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

110280可泛化的人体姿势三角测量0克里斯蒂扬∙巴尔托尔大卫∙博亚尼奇托米斯拉夫∙佩特科维奇托米斯拉夫∙普里巴尼奇克罗地亚萨格勒布大学电气工程与计算机学院0name.surname@fer.hr0摘要0我们解决了多视图3D人体姿势估计的泛化性问题。标准方法是首先在图像中检测2D关键点，然后从多个视图进行三角测量。尽管现有方法在公共基准测试上实现了非常准确的3D姿势估计，但大多数方法仅限于单一空间相机布置和数量。一些方法解决了这个限制，但在新视图上的性能明显下降。我们提出了一种基于随机框架的人体姿势三角测量方法，并在两个公共数据集上展示了其在不同相机布置上的卓越泛化能力。此外，我们将相同的方法应用于基础矩阵估计问题，表明该方法可以成功应用于其他计算机视觉问题。与最先进的方法相比，随机框架在3D姿势估计任务上取得了超过8.8%的改进，并且在基础矩阵估计上比标准算法提高了30%以上。01. 引言0人体姿势估计是一种检测代表标准人体关节的关键点的视觉任务。该领域竞争非常激烈，尤其是由于深度学习的进步。姿势估计对于医学、时尚产业、人体测量和娱乐等应用特别重要[1]。在这项工作中，我们专注于在单个时间帧中从多个视图估计3D人体姿势。多视图姿势估计的常见方法是：（1）使用预训练的姿势检测器[37, 8,35]在每个视图中检测对应的2D关键点，然后（2）进行三角测量[15, 25, 13, 26, 18,32]。一种简单的方法是将2D检测结果直接应用于所有可用视图的三角测量。由于姿势的多样性和自遮挡，某些视图可能包含错误的检测结果，这些结果应该被忽略或在三角测量过程中减少其影响。忽略错误检测结果的一种方法是应用RANSAC[10]，将重投影误差超过阈值的关键点标记为异常值[30,13]。传统的RANSAC存在的问题是不可微分，无法进行反向传播，从而无法进行端到端学习。大多数最先进的3D姿势估计方法从多个视图中提取2D图像特征，如热图，并将它们组合起来进行端到端的3D提升[15, 26,25]；我们将这些方法称为可学习的三角测量方法。0不同的相机0配置0数据集0不同0相机0数量0图1：我们提出了一种基于多视图的人体姿势三角测量的随机框架，并展示了它在不同相机布置、数量和不同公共数据集上的成功推广。上面两张图和左下角的图显示了CMUPanopticStudio数据集[17]上不同的相机布置和数量。右下角显示了Human3.6M的4个相机布置[14]。0RANSAC[10]，将重投影误差超过阈值的关键点标记为异常值[30,13]。传统的RANSAC存在的问题是不可微分，无法进行反向传播，从而无法进行端到端学习。大多数最先进的3D姿势估计方法从多个视图中提取2D图像特征，如热图，并将它们组合起来进行端到端的3D提升[15, 26,25]；我们将这些方法称为可学习的三角测量方法。0由于训练过程中使用的相机设置基本固定，可学习的三角测量方法通常仅限于单个相机布置和数量。一些研究试图推广到训练数据之外的情况。110290[26, 15, 18, 13, 31, 29,34]，但在新视图上的性能明显低于使用原始（基础）视图。受随机学习[27]及其在计算机视觉中的应用[4, 5,6]的启发，我们提出了可泛化的人体姿势三角测量方法。首先，我们生成一组随机假设。每个假设是一个3D姿势，其中的点是通过分别对每个关节进行随机子集的视图进行三角测量得到的。每个生成的假设都经过一个评分神经网络。损失函数是三角测量误差的期望，即 E(hi) = �0i e i s i ，其中 e i 是假设 h i 的误差，s i是假设得分。通过最小化误差期望，模型学习了假设的分布。关键思想是学习在三角测量中不考虑空间摄像机布置的情况下评估3D姿势假设。与以前的方法相比，所提出的方法具有几个实际优势。首先，我们证明了其在两个公共数据集Human3.6M [14]和Panoptic Studio[17]上对不同摄像机布置的一致泛化性能（见图1）。其次，我们展示了所提出的模型学习了人体姿势先验，并定义了一种新的姿势先验评估指标。最后，我们将相同的随机方法应用于从嘈杂的2D检测中估计基本矩阵的问题，并将其与标准的8点算法进行比较，结果表明所提出的框架成功地应用于除人体姿势三角测量之外的计算机视觉问题。02. 相关工作0我们区分两种相关工作。首先，我们关注基于三角测量的3D姿势估计方法和试图在不同的摄像机布置和数据集之间进行泛化的方法。其次，我们与关键点对应方法相关，并指出我们的问题与标准对应问题的区别。三角测量。大多数基于单人图像的方法要么使用鲁棒的三角测量（RANSAC），要么应用可学习的三角测量。几种基于鲁棒三角测量的方法[19,30,24]使用RANSAC在许多（超过四个）视图上应用三角测量，仅在内点检测候选上产生伪地面真实数据。He等人[13]利用极线约束在多个图像之间找到关键点匹配，然后应用鲁棒三角测量。使用深度学习模型进行可学习三角测量的标准方法[15, 25, 32, 7,3]是首先提取2D姿势热图，其中每个热图表示关键点位置的概率。交叉视图融合[25]建立在图像结构模型[2]的基础上，将多个视图中的2D关键点特征组合起来估计3D姿势。代数三角测量[15]估计置信度0对于每个关键点检测，应用加权三角测量。他们的体积法将多视图特征组合起来构建体积网格，获得了当前单帧3D姿势的最新成果。最后，[26]将特征融合成统一的潜在表示，其内存占用比体积网格更小。与我们类似，他们也试图从特定的空间摄像机布置中解脱出来。关键点对应。标准的基于关键点的计算机视觉方法，如结构运动[28]，依赖于稀疏的关键点检测来建立初始的3D几何。核心问题是确定在不同光照变化、无纹理表面和重复结构[11]下提取的关键点检测之间的对应关系。通常的方法是应用关键点描述符，如SIFT[21]，并使用RANSAC[10]找到内点对应关系。尽管这种范式在实践中很成功，但它不可微分，因此不能以端到端学习的方式使用。一些工作提出了RANSAC的软化和可微分版本（DSAC）[4, 5, 6,39]。成功的软化RANSAC替代方案[39]学习提取每个数据点的局部特征，同时保留3D场景的全局信息。与我们类似，他们还展示了对未见3D场景的令人信服的泛化能力。另一方面，DSAC及其变种[4, 5,6]提出了一种概率学习方案，即最小化误差期望。我们遵循他们的方法，但还发现不同的策略对我们的问题效果更好（见第3节和第4节）。与标准的关键点匹配方法相比，我们提取的关键点已经知道视图之间的人体关节对应关系。然而，我们的对应关键点是嘈杂的，围绕关节中心振荡，这可能导致错误的三角测量。我们的模型对错误的关键点检测表现出鲁棒性。03. 方法0我们首先描述通用的随机框架，然后更具体地描述适用于可推广的姿势三角化和基础矩阵估计的方法。该框架由几个步骤组成，如图2所示：01.预训练。在随机学习之前，从数据集中提取所有图像的2D姿势（关键点）。在我们的所有实验中，我们使用在Human3.6M数据集上预训练的基线模型[ 37]提取的关键点。因此，随机模型的输入仅包含关键点检测结果 y 。在每个帧中，检测到 J x K 个关键点，其中 J为关节数量， K 为视图数量。DSlestlentropyltotalIhi^Hhisiˆhweight =σGS(si) =exp((log si + gi)/τ)kj=1 exp((log sj + gj)/τ),(3)110300图像2D姿势检测器 lstoch0预训练0假设生成0假设评分0假设选择0损失0随机节点0确定性节点 h *0图2：我们方法的概述。在随机学习之前，提取2D关键点 y 。在每个帧中，生成假设池 h i ∈ H ，并通过评分网络 f S进行姿势评分。根据估计的分数 s i 选择假设 ˆ h i 。最后，总损失 l total 由三个组成部分（ l stoch ， l entropy ， l est）组成，并相对于真实值 h � 进行计算。02. 假设生成， H .由于可能生成极大数量的假设，只创建一部分随机假设。根据[ 27 ]和[ 4 ]，我们将假设生成步骤建模为随机节点。03. 假设评分， f S . 每个生成的假设 h i ∈ H通过评分函数 f S ( h i | y ) = s i进行评分。评分函数是一个神经网络，即多层感知机。3D姿势三角化和基础矩阵估计的网络架构不同，并在第4节末尾进行了详细说明。该网络是我们模型中唯一可学习的部分。通过Gumbel-Softmax传递的估计分数 s i (Eq. 3)表示假设 H ， θ H 的估计概率分布。04. 假设选择， ˆ h i .我们尝试了几种假设选择策略。对我们来说效果最好的是所有假设的加权平均值：0i s i h i ，�0i s i = 1 ，当 h i ∈ H时， (1)0其中分数 s i用作权重。我们还尝试了其他策略，例如随机选择：0ˆ h stoch = h i ，其中 i � θ H ， (2)0其中假设 h i 基于估计的分布 θ H进行选择。如第4节所示，与[ 4]相反，随机选择的性能较差。05. 损失计算， l total . 损失函数由几个组成部分组成：0(a) 随机损失。根据[ 4]，我们将随机损失计算为所有假设的误差期望， lsto0i e ( h i , h � ) s i ，其中 e i是估计假设与真实值之间的误差， h �是真实值， s i 表示误差最小的概率。0(b) 熵损失。评分估计 s i往往迅速收敛到零。为了稳定估计值，我们遵循[ 5]并最小化熵函数， l entropy = − �0i s i 对数( s i ) .0(c)估计损失。我们将其定义为所选假设相对于真实3D姿势的误差，l est = e i ( ˆ h i , h �)。在可推广的姿势三角化的情况下，估计损失与竞争方法[15, 26, 25, 32,18]使用的标准3D姿势估计损失最为相似。0最后，总损失是三个组成部分的总和，l total = α lstoch + β l entropy + γ lest，其中α、β和γ是固定的超参数，调节各个组成部分之间的相对值。0为了使估计得分 s i 表示概率，它们的值需要归一化到 [0, 1]范围内。归一化输出值的标准方法是应用softmax函数，σ ( s i ) = exp s i �0j exp s j。为了避免早期收敛，我们使用Gumbel-Softmax函数[16,22]：0其中 τ 是温度参数，g i 表示从 Gumbel (0, 1) [23]分布中抽取的样本。温度 τ 调节分布的广度。ei(ˆhi, h∗) = ei(ˆpi, p∗) = 1JJ�k||ˆpik − p∗k||2,(4)110310对于较低的温度（τ <1），与较高得分的假设相比，较低得分的假设的影响有限，反之亦然。 Gumbel (0, 1)的目的是在保留原始分布的同时为每个样本添加噪声，从而使模型在假设选择方面更加灵活。03.1. 可推广的姿势三角化0我们现在具体描述用于学习人体姿势三角化的随机框架。姿势生成。3D人体姿势假设 h i ∈ H的生成方式如下。对于每个关节 k，随机选择一组视图 vk。从所选视图中检测到的关节进行三角化，得到一个3D关节。姿势归一化。姿势评分网络 f S的输入是归一化的3D姿势坐标p，归一化方式如下：我们选择三个点：左肩、右肩和骨盆（在臀部之间），计算由这三个点确定的平面的法线与 xy平面的法线之间的旋转，并将该旋转应用于所有坐标。除了3D姿势坐标外，我们还提取16个身体部位的长度，由所有相邻的关节给出，例如左下臂、左上臂、左肩等。最后，我们将归一化的3D坐标和身体部位长度连接成一个1D向量，并通过网络传递。输出是一个标量 s i，表示假设 h i的得分。姿势估计误差。姿势估计误差 e i ( ˆ h i , h � )是估计的3D姿势 ˆ p i 与真实值 p �之间的平均每关节精度误差（MPJPE）[14]：0其中 p ik 是第 i 个姿势的第 k 个关键点。03.2. 基础矩阵估计0我们描述了如何使用提出的随机框架学习相机对之间的基础矩阵估计。基础矩阵通过 x � 2 Fx 1 = 0描述了两个视图之间的关系，其中 x 1 和 x 2是第一个（目标）视图和第二个（参考）视图中对应的2D点。从基础矩阵可以获得视图之间的相对旋转和平移（相对相机姿态）[12]。假设生成。相对相机姿态假设 h i的生成方式与3D姿势假设略有不同。当使用8点算法时，确定基础矩阵所需的点的数量为8[20]。然而，由于存在噪声，所需的点的数量通常要高得多。因此，不是0使用单个时间帧进行姿态三角测量，我们从M帧中选择关键点，总共有M�J个单独的点对应。通过8点算法传递T

下载后可阅读完整内容，剩余1页未读，立即下载