多人关节跟踪研究：时空嵌入视角的新方法

114 浏览量更新于2024-06-20 收藏 1.18MB PDF 举报

"时空嵌入的多人关节跟踪方法的研究与应用" 本文主要探讨了一种创新的多人关节跟踪方法，该方法基于时空嵌入的框架，旨在解决多人姿态估计和跟踪问题。作者提出了一种统一的解决方案，包括SpatialNet和TemporalNet两个关键组件。SpatialNet负责在单帧图像中进行身体部位检测，同时预测关键点嵌入（KE）和空间实例嵌入（SIE）。KE有助于识别身体部位，而SIE则用于区分不同的身体实例，但两者都存在一定的局限性，如SIE可能导致过度分割，而KE可能会错误地将远离的身体部分分组。为了解决这些问题，文章引入了姿势引导训练（PGG）模块，它可以端到端地优化部件检测和分组流程，提高准确性。TemporalNet则负责在时间维度上进行人体实例的跟踪，通过利用Hu编码的外观特征（HE）和时间一致的几何特征（TIE），使得跟踪过程更加鲁棒，能应对遮挡、快速运动、大姿势变化和尺度变化等挑战。实验结果显示，该模型在ICCV'17姿态跟踪数据集上相比于现有最先进的方法有显著的性能提升，多目标跟踪精度（MOTA）从65.4%提高到了71.8%，证实了所提模型的有效性。该研究对于视频理解、动作识别等领域的应用有着重要的意义，尤其是在复杂视频环境中自动化跟踪多人的挑战上提供了新的思路。多人关节跟踪的难点在于处理复杂的交互场景，例如多人之间的遮挡、快速运动以及相机视角的变化。通过时空嵌入，模型可以更好地理解个体在时间和空间上的连续性，从而实现更精确的跟踪。此外，PGG模块的引入，提高了模型对相机移动、缩放以及人体姿态变化的适应能力，增强了整体的跟踪稳定性。总结而言，这项工作为多人关节跟踪提供了一个新颖且有效的框架，它结合了SpatialNet和TemporalNet的优势，通过KE、SIE、HE和TIE的综合运用，解决了传统方法在复杂视频环境中的不足，为未来相关研究开辟了新的方向。

5666

SpatialNet

T-第1

帧

辅助任务

热图

柯

PGG

河店

特征

SIE

TIE分支

SpatialNet

特征

第T

帧

辅助任务

热图

柯

TemporalNet

PGG

SIE

孔夫斯

图2.我们的姿势跟踪框架的概述

检测身体部位候选并将它们分组为个体。基于图切割

的方法[12，27]将分组公式化为解决基于图分区的优

化问题，而[3，24]利用启发式贪婪解析算法来加速解

码。然而，这些自下而上的方法仅使用分组作为后处

理，并且来自分组结果的错误信号不被反向传播。

最近，已经致力于端到端训练或联合优化。对于自

上而下的方法，Xieet al. [35]提出了一种强化学习代理

来桥接对象检测器和姿态估计器。对于自下而上的方

法，Newellet al. [21]提出了关键点嵌入（KE）来标记

实例并通过成对损失进行训练我们的框架是一种自下

而上的方法，受[21]的启发[21]以间接的方式监督分

组。它训练关键点嵌入描述符以简化后处理分组。但

是，没有对分组结果进行直接监督。即使KE的成对损

失很低，仍然有可能产生错误的分组结果，但[21]没

有对这种分组损失进行建模。相反，我们提出了一个

可区分的姿势引导训练（PGG）模块来学习对身体部

位进行分组，使整个管道完全端到端可训练，从而在

姿势估计和跟踪方面取得了显着改进。

我们的工作也与[23，24]相关，其中引入空间实例

嵌入（SIE）来辅助身体部位分组。然而，由于缺乏分

组监督，它们的嵌入总是嘈杂的[23，24]，需要额外

的聚类[23]或细化[24]。相反，我们使用PGG和额外的

分组损失来学习对SIE进行分组，使其端到端可训练，

同时产生更紧凑的嵌入表示。

2.2.

多人姿态跟踪

最近的多人姿态跟踪工作主要遵循检测跟踪范式，

其中首先在每帧中检测人体部位，然后随着时间的推

移执行数据关联以形成轨迹。

离线姿态跟踪方法考虑到未来的帧，允许更鲁棒的

预测，但具有

通过利用在滑动的时间窗口内编码的时间上下文基于

图分割的方法[11，14，16]将多人姿势跟踪公式化为

整数线性规划（ILP）问题并解决时空分组。这种方法

通过执行长距离时间一致性来实现复杂视频的竞争性

能。

我们的方法是一个在线的姿态跟踪方法，这是更

快，适合实际应用。在线姿态跟踪方法[6，26，38，

34]主要使用二分图匹配将当前帧中的目标分配给现有

轨迹。然而，它们只考虑部件级的几何信息，而忽略

了全局外观特征。当面对快速姿态运动和摄像机运动

时，这种几何跟踪器容易产生跟踪误差。我们建议将

SpatialNet扩展到TemporalNet，以捕获HE中的外观特

征和TIE中的时间相干性，从而获得更好的跟踪性能。

方法

如图2所示，我们将姿态估计和跟踪统一在一个框

架中。我们的框架由两个主要部分组成：SpatialNet和

TemporalNet。

SpatialNet通过身体部位检测和部位级空间分组来处

理多人姿势估计它一次处理给定一个帧，SpatialNet同

时生成热图、关键点嵌入（ KE ）、空间实例嵌入

（SIE）和几何顺序映射。热图对身体部位位置进行建

模。KE对零件级外观特征进行编码，而SIE捕获关于

人体中心的几何信息。辅助的几何-序数映射对嵌入空

间实施排序约束以促进KE的训练。PGG的使用使KE

和SIE都更加紧凑和区分。我们最终通过贪婪解码生成

身体姿势建议[21]。

TemporalNet扩展了SpatialNet以处理在线人类级别

的时间分组。它由 HE 分支和 TIE 分支组成，与

SpatialNet共享相同的底层特征提取层。给定身体姿势

提议， HE 分支为每个人类实例提取区域特定嵌入

（HE）TIE分支利用时间相干几何嵌入（TIE）。给定

HE和TIE作为成对势，解决了一个简单的二分图匹配

问题以生成姿态轨迹。

3.1.

SpatialNet：部分级空间网格

在整个论文中，我们使用以下符号。设

（x

，

y）

∈

为图像中的二维位置，

，

∈

为

人 k 的

身

体部位

的位置

。我们使用

{

，

}

：

来表示

计算复杂度高。美国[8]

利用3D Mask R-CNN来改善对身体

第k个人。我们使用2D高斯置信度热图来

对身体部位进行建模设Cj

，

为置信度

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

多人关节跟踪研究：时空嵌入视角的新方法

论文研究-基于时间颜色特征及快速模糊C-均值聚类的多人跟踪方法研究.pdf

时空大数据和知识图谱嵌入

知识图谱嵌入模型和时空大数据结合

app应用中嵌入其他应用

qt 嵌入第三方应用exe

wpf嵌入其他应用程序窗体

web端嵌入应用程序怎么操作

electron如何嵌入exe应用程序

知识图谱嵌入模型要不要加入时空数据

qt界面嵌入外部应用程序

最新资源