基于时域特征对齐和互信息最大化的视频人体姿态估计

13 浏览量更新于2023-10-25 收藏 2.24MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11006基于时域特征对齐和互信息最大化的视频人体姿态估计刘振光1，冯润扬2，陈浩明2*，吴双3*，高义兴4，高云军1，王翔51浙江大学，2浙江工商大学，3黑芝麻科技，4吉林大学5新加坡国立大学{liuzhenguang2008，runyang2019.feng，chenhaomingbob} @ gmail.com，wushuang@outlook.sg，gaoyixing@jlu.edu.cn，gaoyj@zju.edu.cn，xiangwang1223@gmail.com摘要多帧人体姿态估计一直是计算机视觉领域的一个重要问题。由于视频中经常出现快速运动和姿势遮挡，因此该任务具有挑战性。现有技术的方法努力结合来自相邻帧（支持帧）的附加视觉证据以促进当前帧（关键帧）的姿态估计。到目前为止已经被排除的一个方面是当前方法直接跨帧聚集未对齐的上下文的事实。当前帧和相邻帧的姿态特征之间的空间未对准可能导致不令人满意的结果。更重要的是，现有的方法建立在简单的姿态估计损失的基础上，不幸的是，这不能限制网络充分利用来自相邻帧的有用信息。为了解决这些问题，我们提出了一种新的分层对齐框架，该框架利用从粗到细的变形来逐步更新相邻帧，以在特征级与当前帧对齐。我们进一步建议明确监督知识提取相邻帧，保证有用的互补线索提取。为了实现这一目标，我们从理论上分析了帧之间的互信息，并得出了最大化任务相关的互信息的损失。这些使我们能够在基准数据集PoseTrack 2017的多帧人物姿势估计挑战中排名第一，并在基准Sub-JHMDB和Pose-Track 2018上获得最我们的代码在https：//github上发布。com/Pose-Group/FAMI-Pose，希望它对社区有用。*通讯作者图1.最先进的方法，如PoseWarper和DCPose直接聚合来自相邻帧的未对齐上下文，这可能会失败于具有快速运动或姿势遮挡的场景。我们在每个支持帧和关键帧之间执行时间特征对齐，提供强大的姿态估计。1. 介绍我们与他人互动能力的一个关键组成部分在于我们识别人类姿势的能力[36，37，48]。同样，检测人类姿势对于智能机器在与人交互时调整其动作并正确如今，姿态估计在包括动作识别、增强现实、监视和跟踪在内的广泛场景中找到了丰富的应用[39，67]。大量文献关注静态图像中的姿态估计，从早期的方法[47，57，59，70]利用树模型或随机森林模型到最近尝试使用深度卷积神经网络[6，42，54，60]。对于视频中的姿态估计，这样的方法在处理由具有快速运动和姿态遮挡的场景引起的劣化视频帧合并和利用来自相邻帧的附加上下文是期望的，以填充单个帧内缺少的运动动态并促进姿势11007估计一行工作[2，39，58]建议聚合相邻帧（支持帧）的香草[39]训练卷积LSTM对空间和时间特征进行建模，并直接预测视频的姿势序列。[58]提出了一个3D-HRNet来组装tracklet上的功能。另一条工作线[35，45，50]采用光流或隐式运动估计来完善当前帧（关键帧）的姿态估计。[45，50]提出计算帧之间的密集光流，并利用基于流的运动场来在时间上跨多个帧细化姿态热图。[35]聚合连续帧的姿态热图并对运动残差进行建模以改进关键帧的姿态估计。在仔细检查和实验现有方法的已发布实现[5，11，35]后，我们观察到它们在快速运动和姿势遮挡等复杂情况下会出现性能恶化如图1所示，在姿态遮挡场景中，现有方法如DCPose无法识别被遮挡人的右脚踝在快速运动场景中，现有方法由于运动模糊而难以识别左手腕。我们认为原因是双重的。（1）通常，当前帧和相邻帧中的同一个人没有很好地对准，特别是对于涉及人类主体或相机的快速运动的情况然而，现有的方法倾向于直接从相邻帧中聚集未对齐的上下文，这些空间未对齐的特征可能会降低模型的性能。（2）现有技术的方法简单地采用传统的MSE（关节的均方误差）损失来监督姿态热图的学习，同时缺乏对保证来自相邻帧的信息增益的有效约束以及在中间特征水平的监督。在本文中，我们提出了一个新的框架，以及理论分析，以应对上述挑战。所提出的方法，称为FAMI-Pose（特征对齐和相互信息最大化的Pose估计），由两个关键组成部分。（i）FAMI-Pose进行从粗到细的变形，其系统地更新相邻帧以在特征级与当前帧对准。具体地，FAMI-Pose首先执行全局变换，其整体地重新排列邻近帧特征以初步校正空间移位或抖动。随后，利用局部校准来自适应地移动和调制相邻帧特征的每个像素以增强特征对准。（ii）FAMI-姿势进一步采用信息理论目标作为特征级的额外中间监督。最大化这个互信息目标使我们的模型能够充分挖掘邻居中与任务相关的线索提取有目的的互补知识，增强关键帧上的姿态估计。到据我们所知，我们是第一个系统地研究人体姿态估计中的特征对齐问题，并从信息论的角度提供见解。我们在三个广泛使用的基准数据集PoseTack 2017，Pose-Track 2018和Sub-JHMDB上广泛评估了所提出的方法。经验评估表明，我们的方法显着优于当前最先进的方法。我们的方法分别在 PoseTrack 2017 、PoseTrack 2018 和 Sub-JHMDB 上实现了 84.8mAP 、82.2mAP和96.0mAP。我们的结果提交到PoseTack2017的官方评估服务器，并在这个大型基准数据集中排名第一我们还提出了广泛的消融分析的贡献，每个组件，并验证了功能对齐和建议的互信息损失的有效性。这项工作的贡献总结如下：我们建议检查多帧人体姿态估计任务的角度，有效地利用时间背景，通过功能对齐。为了明确地监督从相邻帧中提取的知识，我们提出了一个信息理论损失函数，它允许最大化从支持帧中挖掘的任务相关线索。我们的方法在三个基准数据集PoseTrack 2017、PoseTrack 2018和Sub-JHMDB上设置了新的最新结果。我们的源代码已经发布。2. 相关工作在本节中，我们简要回顾了与我们的工作密切相关的以下三个热门问题，即基于图像的人体姿态估计、基于视频的人体姿态估计和特征对齐。2.1. 基于图像的人体姿态估计基于图像的人体姿势估计的传统解决方案利用图像结构[47，70]来对身体关节之间的这些方法往往依赖于手工制作的功能，并具有有限的代表性的能力。受深度学习[19，58]的爆炸式增长以及PoseTrack [1，27]和COCO [34]等大规模姿态估计数据集的可用性的推动，已经提出了各种深度学习方法[2，8，17，18，22，51，56，65，66，68这些方法可以大致分为两种范式：自下而上和自上而下。自下而上的方法[6，30-[6]提出了一种双卷积结构，···11008N不t+δ不t+δt+δ不t+δt+δ{z<$不不不不^L不t+δ不不不^Ltt+δ多变量预测部分置信度图和部分亲和性字段（其表示身体部分之间的关系）。另一方面，自上而下的方法[41，42，52，60，62]首先检测人类边界框，然后估计人类边界框。对象检测器，用于为每个人提取边界框然后将该边界框放大25%，以在相邻帧的预定义窗口上裁剪相同的个体。总的来说，对于人i，我们得到在每个边界框内设置姿势[62]第六十二话关键帧的裁剪图像Ii和{Ii| δ ∈ N} for层，以取代常用的双线性间，不支持（相邻）框架。t+δ用于特征图的空间上采样的插值。最近的一个问题公式提出了一个关键帧Ii[52]中的工作提出了一个高分辨率网络（HRNet）及其支持框架{I i|δ ∈ N}，我们的目标在整个推理过程中保持高分辨率特征图，在多个基于图像的基准上获得最先进的结果。2.2. 基于视频的人体姿态估计针对基于图像的数据训练的姿态估计模型由于其是估计Ii中的姿态。我们寻求更好地利用支持框架，通过一个原则性的功能对齐和挖掘任务相关的信息，从而解决现有的方法未能充分挖掘到的时间信息的共同缺点。方法概述我们的流水线概述如图2所示。对于每个支撑框架11，FAMI-不能结合来自相邻姿势的丰富线索执行两阶段分层变换，跳转建模和利用跨对齐Ii其中关键帧11处于特征级。具体-帧，一种直接的方法是采用卷积LSTM，如[2，39]中所提出的一个关键的缺点FAMI-Pose主要由全局变换模块和局部标定模块组成。我们可能是他们倾向于将特征首先对Ii和Ii进行特征提取，得到zitt+δt在不同的框架，这不利地降低了PO-而zi分别表示。然后将这些特征输入到我们的支持框架的开放性。[45，50]通过计算连续的图像之间的光流来显式地估计运动场。全局变换模块，其学习仿射变换的参数以获得粗对准的超变换。动态帧，这些运动线索随后被使用portingframefea tur rezi. zi和zi然后交给t+δtt+δ用于对齐姿势热图。 [35]估计局部校准模块的运动偏移，局部校准模块执行逐像素在关键框架和支撑框架之间，变形以产生精细对齐的特征z<$i. Fi-偏移量提供了执行姿态，最终，我们聚合所有对齐的支撑框架特征，连续帧上的热图在这两种情况下，姿势是-it+δ| δ ∈ N } and the key frame feature z ito obtain our估计准确性将在很大程度上取决于每-光流的估计或运动偏移估计。此外，这些方法在中间特征级别缺乏有效的监督可能导致不准确的姿态估计。2.3. 特征对准特征对齐对于许多计算机视觉任务（例如，语义分割[33，40]，对象检测[7，20]），并且最近已经做出了许多努力来解决这个问题。[38]提出了一个索引引导的框架，该框架采用索引来引导池化和上采样。[23]建议学习像素的变换偏移以对齐上采样的特征图。[24]提出了一个对齐的特征聚合模块，用于对齐多个不同分辨率的特征，以实现更好的聚合。鉴于以前的方法主要解决网络输入和输出之间的空间不对齐，我们专注于时间（即，跨帧）特征对齐。3. 我们的方法为了从视频帧中检测人体姿势，我们首先提取每个人的边界框从技术上讲，对于视频帧It，我们首先采用增强功能zi. z_i被传递到检测头，检测头输出姿态估计Hi。任务目标是最小化热图估计损失H，该热图估计损失H测量H与地面实况Hi之间的差异。在此之上，我们还设计了一个互信息目标MI，它实现了一个功能级别的监督，最大限度地提高互补的任务相关的信息编码在zi的量。在下文中，我们介绍了完整FAMI-Pose架构和互信息对象细节方面3.1. 特征对准特征对齐从特征提取开始，这是用HRNet-W 48网络[52]（基于图像的人体姿势估计的最先进方法）作为骨干完成的。然后，将所提取的特征zi和zi传递通过全局变换模块和局部校准模块，以逐渐将zi与zi对准。我们想强调的是，我们不追求图像级对齐，而是驱动网络学习支持帧和关键帧之间的特征级对齐。我们观察到，视频中姿态估计的大多数失败情况是由于人或相机的快速移动而发生的，这不可避免地导致大的11009不t+δ不Lt+δt+δ不t+δ不t+δ我t+δt+δt+δ.z¯O，Mt+δt+δ输出姿态估计的检测头。除了测量H1和H2之间的差异的热图估计损失LH之外，pp=112112221323不不图2.我们的FAMI-Pose框架的整体管道目标是在辅助下检测人i在关键帧Ii中的姿势，它的支撑框架。为了清楚地说明，我们在该图中仅示出了单个支撑框架11我们首先提取他们的相应的特征zi和zi. 然后，这些特征被交给我们的全局变换模块和局部校准模块，tt+δ时间对准所有支撑框架的关键框架特征zi和对齐特征z<$i被聚合为zi，该z i被传递到tt+δt地面实况Hi，我们通过我们的互信息目标MI引入额外的特征级监督，以从支持帧中提取最大的任务相关补充信息相邻帧之间的空间偏移或抖动。为了使支撑框架与关键框架对齐，我们设计了一个全局变换模块（GTM）。GTM计算全局仿射变换的空间重排参数局部校准全局变换模块产生粗略的对齐。然后，我们设计本地校准模块（LCM），以在pix el-l水平上执行细致的微调，从而产生精细对齐的特征z<$i。以获得粗略的初步对准的支持-Specifically，givenz<$i和zi，我们独立地估计，输入结构件特征zi其中关键帧特征zi。匹配卷积核采样偏移O和调制更具体地说，GTM包括两个子模块：1. 一种空间重排参数估计网络估计仿射变换参数Θ的φit+δ残余zt−bl−oc−k→s定期−c−on−v−ol−ut−io→n 哦（二）从输入特征对作为φ：（zi，zi）→Θ∈ii残差定期R2×3。的元素不t+δz<$t+δ<$zt−bl−oc−k→s−c−on−v−ol−ut−io→n M.Θ对应于平移、旋转、剪切和缩放操作。2. 随后，全局仿射变换T是每-自适应学习的内核偏移O和调制标量M分别对应于位置移位和输入。每个像素xel在z<$i中的张力波动相对于形成以获得初步对准的支撑关键帧特征zi.t+δ框架特征T：（zi，Θ）→z<$i.不随后，我们实现了本地校准操作，GTM的操作可以表示如下：通过调制的可变形卷积[73]。在初步对齐的特征z′i中，内核Θ= φ。zizi，采样偏移Ot+δM是指-不.xx θyθt+δθθθθΣx¯p是的1和调制标量Put，调制的可变形卷积输出（一）微调特征z<$i：“你好，我t+δ调制变形-−co−n−vo−lu−tio−n−→我t+δ.（三）其中（xp，yp）和（x<$p，y<$p）表示pixelT的坐标。p为zi而Zi分别表示我们要指出的是，关键帧fea-z¯,z¯11010不不t+δ不t+δ不不不不t+δ不不不t+δ联系我们+Izi|yi问题，从而给出更准确的姿势热图。任务相关信息在z_i和z_i中。启发式，不不不不不不不我yt; zt+δ|兹赫特+Iyt; zt|兹赫特不 t+δ不不不不测量zi中消失的任务相关信息不 t+δ不不 t+δt+δ不不不不不 t+δ不不不不.Σ{|∈ N}.Σ。Σ。Σ.Σ。Σ。ΣΣΣ.Σ不不不不不足以提供相关的支持信息，t+δ不不不不不不不不不实际zi仅用于计算GTM中的全局变换参数和LCM中的卷积参数。它的信息不会传播到最终对齐的支撑框架特征z<$i中。最终，我们聚合所有最终对齐的支撑框架特征z<$iδ并且关键帧特征zi经由逐元素加法获得增强的特征z_i。将z_i馈送到检测头，zi，complementaryto（i. e. 不包括）来自关键帧特征Zi的信息。直观地说，优化这个目标将最大限度地增加额外的相关和复杂的信息，我们寻求从相邻帧中提取，以支持姿态估计任务。由于条件MI计算的臭名昭著的困难，特别是在神经网络[21，53]中，我们每-形成一种简化。我们首先分解Eq。5如下：t t以产生姿态热图估计我们实施了有效地利用时间信息，I.yi;zi|zi=I.yi;zi−I.zi不不、不不检测头使用3×3卷积的堆栈通过ef-t t tt t t（六）帧通过我们的粗到精对齐模块，我们的在那里我。yi;zi测量标签yi的相关性，FAMI-Pose更擅长解决视觉退化问题特征i，t. tiit w o特征zi和zi，以及I。zi|yi代表不不我们当然可以直接端到端地训练FAMI-Pose，但会丢失姿势热图，就像大多数以前的方法一样[5，35，52，58，62]。考虑到我们对提取姿态估计的时间特征的系统检查，研究在特征级引入监督是否会促进任务将是富有成效的简单地说，我们可以将特征级目标表述为支持框架特征之间的L1或L2当优化任务目标时，信息将压倒任务无关信息。因此，我们可以假设，在足够的训练下，与任务无关的信息可以忽略不计[14，72]。这简化了Eq. 6至：Iyi;zi|zi→Iyi;zi−Izi;zi。（七）此外，我们引入了两个正则化项来减轻信息丢失：我t+δ 以及关键帧特征zi。然而，如此死板的-Σ.我我iΣ。我我我的天术语I.yi;zi|ziangi和I.yi;zi|zirespect iv ely便于姿态估计。因此，我们必须强调来自支持框架的有目的的补充信息。为此，受[21，72]的启发，我们提出了一个互信息目标，该目标旨在最大化增强特征z i中的互补任务相关信息的量。互信息互信息（MI）是一种衡量RAN之间共享的信息量，zi在特征对准期间。它们有助于信息的非破坏性传播。同时最小化这两个项将防止zi和zi中的过度信息损失，同时最大化主要互补任务相关互信息目标。类似于Eq。7，我们简化了等式中的两个正则化项。8如下：I.yi;zi|zi→I.yi;zi−I.zi;zi，dom变量形式上，MI量化了统计数据，两个随机变量v1和v2的悬垂性：Iyi;zi|zt→Iyi;zi−Izi;zi。最后，我们同时优化方程中的互补信息项。5和两个正则化项I（v1;v2）=Ep（v1，v2）日志 p（v1，v2），（4）p（v1）p（v2）由方程式8提供特征级监督：消失的w.r.t.zi消失w.r.t. zi其中p（v1，v2）是以下两个变量之间的联合概率分布：LMI=Iyi;xz`i|zi+I。yi;zxi`|z˜iΣ˛在这个框架内，我们学习有效时间有限元的主要目标真实对准可以用公式表示为：马克斯岛yi;zi|中国（5）-α·Iyi;zi|Z1，互补其中α作为我们网络中的超参数，以平衡不同项的比率这些MI术语可以是由现有MI估计器估计[4，9，53，55]。在我们z兹赫特我zt;zt表示了3.2.互信息目标协调一致可能导致从支持框架中侵蚀针对具体任务的补充信息。结论min.（八）因此，这样优化的时间特征将在-和（九）v1和v2，而p（v1）和p（v2）是它们的边缘。（十）11011不不不不其中yi代表标签，而I。yi;zi|zi表示实验中，我们采用变分自蒸馏(VSD)[53]每一个人都有自己的命运。增强功能中的任务相关信息量11012L2H¨不t¨2方法头肩膀肘手腕髋膝脚踝是说STAF [46]---六十四7--62. 0七十4[13]第十三话63岁978岁7七十七。4七十一0七十三。7七十三。069.7七十一9TML++[25]-------74岁6MDPN [16]75. 481. 279岁。074岁1七十二4七十三。069岁。975. 0PGPT [3]---七十二3--七十二2七十六。8动态GNN [67]八十684. 5八十674岁475. 0七十六。7七十一8七十七。9PoseWarper [5]79岁。986岁。382岁4七十七。579岁。878岁8七十三。279岁。7DCPose [35]84. 086岁。682岁778岁0八十479岁。3七十三。8八十9FAMI-Pose（我们的）八十五587岁784. 279岁。281. 481. 174岁982岁2表1.PoseTrack2017验证集的定量结果方法头肩膀肘手腕髋膝脚踝总[15]第十五话---51岁5--50块2五十九6[64]第六十四话六十四967岁5六十五0五十九062. 562. 8五十七963岁0[第10话]---五十三1--50块463岁4TML++ [25]---六十岁。9--五十六067岁8[49]第四十九话---七十一9--六十五074岁0[58]第五十八话---69岁。8--六十五974岁1简单（ResNet-152）[62]八十1八十2七十六。9七十一5七十二5七十二4六十五774岁6HRNet [52]八十1八十2七十六。9七十二0七十三。4七十二567岁074岁9PoseWarper [5]79岁。584. 3八十175. 8七十七。6七十六。8七十8七十七。9DCPose [35]84. 384. 9八十5七十六。1七十七。9七十七。1七十一279岁。2FAMI-Pose（我们的）86岁。186岁。181. 8七十七。479岁。579岁。1七十三。6八十9表2.PoseTrack2017测试集上的性能比较这些结果发表在PoseTrack2017排行榜上。3.3.培养目标我们的培训目标包括两部分。（1）我们采用热图估计损失函数H来监督最终姿态估计的学习：L=<$H^i−Hi<$，（11）我我表3. PoseTrack2018验证集的定量结果。方法头肩膀肘手腕髋膝脚踝总TML++[25]---六十岁。2--五十六967岁8AlphaPose++ [13，16]---66岁。2--六十五067岁6[58]第五十八话---69岁。8--67岁1七十三。5MDPN [16]---74岁5--69岁。0七十六。4PoseWarper [5]78岁984. 4八十9七十六。875. 6七十七。5七十一878岁0DCPose [35]82岁884. 0八十8七十七。2七十六。1七十七。6七十二379岁。0FAMI-Pose（我们的）83岁684. 581. 4七十七。9七十六。878岁3七十二979岁。6表4.PoseTrack2018测试集上的性能比较方法头肩膀肘手腕髋膝脚踝Avg[44]第四十四话79岁。0六十岁。328岁7十六岁074岁8五十九2四十九352岁5联合行动[63]83岁363岁5三十三岁。821岁6 七十六。362. 7五十三155. 7[26]第二十六话九十3七十六。9五十九355. 0八十五9七十六。4七十三。0七十三。8CPM [61]九十八494 7八十五581. 7九十七994 9九十391. 9[50]第五十话九十七1九十五787岁581. 6九十八092. 789岁。892. 1LSTM PM [39]九十八2九十六。589岁。686岁。0九十八7九十五6九十0九十三6DKD（ResNet-50）[43] 九十八3九十六。6九十487岁1 九十九。1九十六。092. 994 0K-FPN（ResNet-18）[71]94 7九十六。3九十五2九十2 九十六。4九十五5九十三294 5K-FPN（ResNet-50）[71]九十五1九十六。4九十五391. 3九十六。3九十五692. 694 7移动自适应[12]九十八2九十七491. 7八十五2九十九。2九十六。792. 294 7FAMI-Pose（我们的）九十九。3九十八694 591. 7九十九。291. 8九十五4九十六。0表5. Sub-JHMDB数据集上的性能比较。方法头肩膀肘手腕髋膝脚踝是说[15]第十五话67岁5七十262. 051岁7六十岁。7五十八7四十九8六十岁。6[64]第六十四话66岁。7七十三。368岁361岁167岁5 67岁061岁366岁。5[第10话]-------69岁。3快速姿势[69]八十0八十369岁。5五十九1七十一467岁5五十九4七十3TML++[25]-------七十一5简单（ResNet-50）[62]79岁。1八十575. 566岁。0七十8七十061岁7七十二4简单（ResNet-152）[62]81. 783岁4八十0七十二475. 374岁867岁1七十六。711013−×N {− −}^协议）分成250、50和214个视频序列用于训练。执行、验证和测试。PoseTrack2018数据集包含1，138个视频序列（和153，615个姿势注释）。其中H t H t 表示预测热图，Ground Truth Heatmap，分别。(2)我们还利用所提出的MI损失来监督如在第2节中描述的时间特征。3.2.总损失函数由下式给出：Ltotal=LH+β·LMI。（十二）4. 实验在本节中，我们介绍了我们在三个广泛使用的基准数据集上的实验结果，即 Pose-Track 2017 [27] ，PoseTrack 2018 [1]和Sub-JHMDB [28]。4.1. 实验设置数据集PoseTrack是一个大规模的基准，用于视频中的人体姿势估计和关节跟踪，包含拥挤场景中具有挑战性的人物序列，PoseTrack2017数据集包括514个视频序列，总共有16，219个姿势注释。这些都是分裂的（以下是官方培训593人，验证170人，试验.这两个数据集都使用15个关节进行注释，并带有用于关节可见性的附加标签。训练视频在中心30帧中提供密集的姿势注释，并且验证视频进一步每四帧提供姿势注释。Sub-JHMDB数据集包含316个视频，总共11，200帧。对15个关节进行注释针对该数据集执行三个不同的数据分割，每个数据分割的训练与测试比率为3：1。根据以前的工作[39，43，71]，我们报告了三次分裂的平均精度。我们的FAMI-Pose是使用PyTorch实现的。输入图像大小固定为384 288. 我们执行数据增强，包括随机旋转 [45° ，45°]，随机缩放[0。65，1。35]、随机截断和水平翻转。预定义窗的相邻帧被设置为二、1，1，2，即2个先前帧和2个未来帧。我们采用在COCO数据集上预训练的HRNet-W 48模型进行特征提取，11014- -↑↑↑图3.我们的FAMI-Pose在基准数据集上的可视化结果。涉及具有挑战性的场景，例如高速运动或姿势遮挡。牵引随后的权重参数从标准高斯分布初始化，而偏置被初始化为0。我们使用Adam优化器，基本学习率为1e4（分别在第8、12和16个时期衰减到1e5、1e6和1e7训练使用4个Nvidia Geforce RTX 2080 Ti GPU和48.所有训练过程在20个epoch内终止。在等式中权衡不同的损失。10和Eq. 12，我们设α=1。0，β=0。1，并没有密集地调整它们。评估指标我们使用标准人体姿势估计协议[52，62]，即平均精度（AP）度量。我们计算每个身体关节的AP，然后对所有关节进行平均以获得最终结果（mAP）。请注意，在性能评估中仅计算可见运动类型4.2. 与最先进方法的PoseTrack2017 数据集上的结果我们首先在PoseTrack2017验证集和测试集上评估我们的模型。共比较了14 种方法，包括PoseTracker [15]，PoseFlow[64]，JointFlow [10]，Fast- Pose [69]，TML++ [25]，SimpleBaseline （ ResNet-50 和ResNet-152 ），STEEmbedding [29]， HRNet [52]，MDPN[16] ， Dynamic-GNN [67] ， PoseWarper [5] ， DCPose[35]和我们的FAMI-Pose。它们在Pose-Track 2017验证集上的性能报告见表1。提出的FAMI-Pose始终优于现有方法，实现了84的mAP。8. 值得注意的是，我们的FAMI-Pose能够将mAP提高7。5个百分点，广泛采用的骨干网HRNet-W 48 [52]。我们的模型也达到了2。OmAP增益超过先前的现有技术方法DCPose[35]。特别是，我们在更具挑战性的关节（即，手腕、脚踝）：平均AP为80。0（1 .一、6）手腕平均动脉压77 0（二、（8）脚踝。另一个有趣观察到的是，姿态估计方法，速率相邻帧（如PoseWarper和DCPose）优于仅使用单个关键帧的方法。这表明了拥抱互补方法全局变换局部校准MI损失手腕脚踝是说HRNet [52]73.368.577.3（一）C78岁174岁382岁9（b）第（1）款CC79岁。7七十六。084. 0（c）第（1）款CCC八十0七十七。084. 8表6.FAMI姿势中不同部件的消融公告补充帧窗口N头肩膀肘手腕髋膝脚踝是说N= {−1}88岁189岁。283岁978岁083岁5八十7七十三。482岁8N= {−1，1}89岁。189岁。584. 879岁。084. 282岁374岁983岁9N= {−2，−1，1}89岁。389岁。8八十五379岁。884. 282岁6七十六。284. 5N= {−2，−1，1，2}89岁。6九十186岁。3八十084. 683岁4七十七。084. 8表7.修改支撑框架窗口的影响来自相邻帧的线索。PoseTrack2017测试集的定量比较报告见表2。由于姿势注释不公开，我们将我们的模型预测上传到PoseTrack官方评估服务器：https：//posetrack.net/leaderboard.php获取结果。FAMI-Pose再次超越了之前的最先进技术，达到80的平均加速比9（1. 7），mAP为81。八，七十七。4、79。1，73。肘、腕、膝和踝分别为6。如图3所示，具有快速运动或姿态遮挡的场景的可视化结果证明了我们的方法的鲁棒性。更多可视化的结果可以在我们的项目页面1上找到。PoseTrack2018 数据集上的结果我们进一步在PoseTrack2018数据集上对我们的模型进行基准测试。验证集和测试集的详细结果分别列于表3和表4中。从这些表中，我们观察到我们的FAMI-Pose始终达到所有关节的最新结果。我们得到了82分。2映射在验证集和一个79。测试集为6Sub-JHMDB数据集上的结果业绩子JHMDB数据集报告见表5。我们观察到，现有的方法已经取得了令人印象深刻的准确性。具体地，当前最先进的方法MotionAdaptive获得94. 7mAP在这个数据集上。在1https://github.com/Pose-Group/FAMI-Pose11015NNN {−}N {−} N{− −} N {− −}图 4. 我们的 FAMI-Pose （ a ）， HRNet-W 48 （ b ），PoseWarper （ c ）和 DCPose （ d ）对 PoseTrack 2017 和PoseTrack 2018数据集的挑战案例的预测的视觉比较不准确的姿态估计由红色虚线圆圈突出显示。相比之下，我们的方法能够实现96. 0mAP。我们也得到了 99 分。 3 mAP 的头部关节和一个 99。髋关节2mAP。的1. 3mAP改进已经令人印象深刻的国家的最先进的方法可能是一个证据，以显示所提出的方法的有效性。4.3. 消融研究我们进行烧蚀实验，以检查特征对齐的一致性以及我们的方法中每个组件的影响（即，全局变换模块、局部校准模块和MI损失）。我们还研究了修改支持框架的预定义窗口的影响这些实验是在PoseTrack2017验证数据集。特征对齐我们经验性地评估了建议组件的有效性，以促进和指导我们的FAMI-Pose框架中的特征对齐我们在表6中报告了腕关节和踝关节的AP以及所有关节的mAP。（a）对于第一种设置，我们去除了FAMI-Pose中的局部校准模块和MI损失，仅采用全局变换模块（GTM）进行特征对准。值得注意的是，与GTM的粗特征对齐已经在基线（HRNet-W 48主干）上提高了五、6 mAP和82。9mAP实际上与先前的最新技术水平82相当。8mAP的DCPose [35]。这证实了我们的方法在引入特征对齐以便于基于视频的姿态估计。特征对齐在从支持帧中提取时间信息方面明显更有效，这与以前采用光流或运动偏移估计的方法（b）对于下一个设置，我们将局部校准模块（LCM）并入全局对准之上以获得微调的特征对准。这种微调将mAP提高了1. 1到840的情况。（c）最终设定包括MI目标，并与我们完整的FAMI-Pose框架相对应。0的改善。8mAP提供的经验证据表明，我们提出的MI损失是有效的，作为一个额外的监督，以促进学习，时间特征中的互补任务特定信息此外，我们还研究了采用不同的支撑框架窗口进行姿态估计的效果。表7中的结果表明，具有更高数量的支持帧的性能改进，由此mAP从82增加。8因为=1到83。九，八十四。5，84。8at=1，1，=二、一，一， =二、分别为1，1，2。这符合我们的直觉，即。，合并更多的支持帧使得能够访问更大的时间上下文，更有益于改进关键帧上的姿态估计的补充和有用的信息。4.4. 目视检查结果除了定量分析之外，我们还进一步检查了我们的模型处理具有挑战性的场景的能力，例如快速运动或姿势遮挡。我们在图4中说明了a）我们的FAMI- Pose与最先进方法的并排比较，即b）HRNet-W 48 [52]，c）PoseWarper [5]和d）DCPose [35]。据观察，我们的方法产生更强大和准确的姿态估计，这样的挑战性的场景。HRNet-W 48是为基于图像的姿态估计而设计的，并且不包括来自支持帧的信息，从而导致对降级的视频帧的性能差。另一方面，PoseWarper和DCPose隐式地估计帧之间的运动线索以改善姿态估计，但缺乏特征对齐和对信息增益的有效监督。通过GTM和LCM的渐进式特征对齐以及MI目标的原则性设计，以增强互补信息挖掘，FAMI-Pose显示出更好的处理视觉退化的能力。5. 结论在本文中，我们研究了多帧人体姿态估计任务的角度，有效地通过特征对齐和互补信息挖掘的时间上下文。我们提出了一个分层的粗到细的网络，逐步对齐支持框架功能与关键帧功能。在理论上，我们进一步引入了一个互信息的目标，有效地监督中间功能。广泛的实验表明，我们的方法在三个基准数据集PoseTrack 2017，Pose-Track 2018和Sub-JHMDB上提供了最先进的6. 确认本论文得到了国家自然科学基金项目（ No.61902348 ）和浙江省重点研发计划项目（No.20000000）的资助。2021C01104）。11016引用[1] Mykhaylo Andriluka，Umar Iqbal，Eldar Insafutdinov，Leonid Pishchulin ， Anton Milan ， Juergen Gall ， andBernt Schiele. Posetrack：人体姿态估计和跟踪的基准。在IEEE计算机视觉和模式识别会议论文集（CVPR），2018年6月。二、六[2] 布鲁诺·阿尔塔乔和安德烈亚斯·萨瓦基斯。Unipose：在单个图像和视频中统一人体姿势估计。在IEEE/CVF计算机视觉和模式识别会议的论文集，第7035-7044页，2020年。二、三[3] 钱宝，刘武，程宇浩，周伯彦，桃梅。姿态引导的检测跟踪：鲁棒的多人姿态跟踪。IEEE Transactions onMultimedia，23：161-175，2020。6[4] Mohamed Ishmael Belghazi 、 Aristide Baratin 、 SaiRajesh- war 、 Sherjil Ozair 、 Yoshua Bengio 、 AaronCourville和De- von Hjelm。互信息神经估计。国际机器学习会议，第531PMLR，2018。5[5] Gedas Bertasius ， Christoph Feichtenhofer ， Du Tran ，Jianbo Shi，and Lorenzo Torresani.从稀疏标记的视频中学习时间姿态估计。在神经信息处理系统的进展，第3027二五六七八[6] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。一、二[7] Yuntao Chen ， Chenxia Han ， Naiyan Wang ， andZhaoxiang Zhang. 重新审视一阶段物体检测的特征对齐arXiv预印本arXiv：1908.01570，2019。3[8] Bowen Cheng ， Bin Xiao ， Jingdong Wang ， HonghuiShi，Thomas S Huang，and Lei Zhang. Higherhrnet：自底向上人体姿势估计的尺度感知表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第5386-5395页，2020年。2[9] Pengyu Cheng ， Weituo Hao ， Shuyang Dai ，

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于时域特征对齐和互信息最大化的视频人体姿态估计

人体姿态识别

基于matlab的语音信号时域特征分析实验

EEMD 特征提取和时域特征提取的对比

时域特征和频域特征是什么

matlab时域特征和频域特征的区别

时域特征适合累积计算吗

基于MATLAB的语音信号时域特征分析

语音信号的时域特征有哪些？详述其中一种时域特征

matlab时域特征计算

语音信号的时域特征与频域特征

那为什么时域和频域特征融合效果比只有时域特征差

为什么提取时域，频域特征融合，比只用时域特征效果差

语音信号的时域特征与频域特征难点

matlab怎么提取时域特征

时域特征提取_phm建模方法论之 数据特征提取

matlab提取时域特征

脑电时域特征提取python

声信号时域特征、频域特征、时频特征

matlab时域特征提取

调制信号时域特征识别svm代码

最新资源

时域特征提取_phm建模方法论之数据特征提取