基于视频压缩的运动自适应位姿估计模型

183 浏览量更新于2023-10-15 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11719基于压缩视频的运动自适应位姿估计范志鹏1刘军2*王耀1美国纽约大学Tandon工程学院1新加坡科技与设计大学信息系统技术与设计支柱2zf606@nyu.edujunliu@sutd.edu.sgyw523@nyu.edu摘要从视频中估计人体姿态有许多实际应用。现有方法集中于在完全解码的帧上应用具有均匀计算简档的模型，忽略了来自压缩流的自由可用的运动信号和运动补偿残差。提出了一种新的模型，称为运动自适应位姿网络，利用压缩流来有效地从视频中解码位姿序列该模型结合了一个运动补偿的ConvLSTM来传播空间对齐的特征，以及一个自适应门来动态地确定是否应该从完全解码的帧中提取计算上昂贵的特征，以补偿运动扭曲的特征，仅基于残差。利用来自压缩流的信息丰富但易于获得的信号，我们通过我们的运动自适应姿态网络有效地传播潜在特征。我们的模型在两个广泛使用的数据集上的姿态估计准确性方面优于最先进的模型，仅具有大约一半的计算复杂度。1. 介绍近年来，人体姿态估计已经引起了越来越多它在动作识别、人机交互、AR/VR和机器人等领域有着广泛的应用。多年来，人们对来自视频的姿态估计越来越感兴趣，与静止图像相比，在视频中，人的动态被忠实地捕获在智能监控摄像头分析或机器人模仿学习等应用中，需要通过深度模型分析数千小时的视频，这引起了人们对处理帧的更有效方法的关注[23，49，7]。直接采用现有技术的模型来对每个帧执行姿态估计是次优的，因为它不仅*通讯作者。图1.我们介绍了运动自适应姿态网络，它exploit的使用免费的，但有价值的运动矢量和运动补偿残差从压缩流，大大提高了基于视频的姿态估计模型的效率。利用现成的运动和残差信息存储在压缩流中，我们获得了最先进的性能与约一半的计算。忽略了跨连续帧嵌入的有价值的时间动态，而且还导致了大量的冗余计算。最近的方法[19，20，41，25]采用时间模块逐帧地对时间动态进行建模，例如递归神经网络[19]，LSTM模型[20，41]和时间卷积模型[25]等。然而，来自每个帧的特征仍然是独立提取的，而不考虑相邻帧之间的自然相干性。另一方面，视频压缩技术在很大程度上依赖于时间相干性来大幅减小视频的大小。现代标准[30，29]将整个视频分割成图片组（GOP），并且仅部分帧以其完整形式编码对于剩余帧，仅存储稀疏运动矢量（MV）和残差（R）。SOTA姿势机器在完全解码的帧上操作，同时不断地忽略在压缩流中编码的免费但有价值的运动场由于节省11720在现代视频编解码器的基础上，我们探讨了如何利用压缩流来实现视频的帧之间的编码运动场提供了有价值的见解如何跨帧的姿态变化，而残留误差提供了一个直接的测量用于压缩的运动矢量的质量考虑到这两种无成本表示的独特属性，我们提出了一种自适应姿态机，该自适应姿态机基于残差在来自ConvLSTM的轻MV扭曲特征和从解码帧中提取的准确特征当模型确定运动扭曲特征是可靠的时，计算繁重的特征提取阶段被跳过，这提供了显著的计算节省。我们在两个广泛使用的数据集上验证了我们的模型，并展示了在解码过程中有价值的中间表示，我们可以开发1）有效的操作，为姿势推断提供相对可靠的特征，以及2）对变形特征的可靠性的快速验证机制。因此，我们的运动自适应姿态网络在效率和准确性方面优于以前的SOTA模型。总之，我们的贡献如下：- 我们利用内部的运动信号和残余误差在压缩视频的姿态估计，这是免费的成本，但保留有价值的运动信息。- 一个动态模型的开发，以有效地利用压缩的信号，这大大降低了计算成本相比，SOTA模型。- 我们在两个广泛使用的数据集上评估我们提出的模型：[48]和Sub-JHMDB [15]。我们在准确性和效率方面都优于现有的方法2. 相关作品2.1. 姿态估计现有的大多数关于人体姿态估计的工作集中在姿态估计精度上。最近，一些作品研究了视频中姿势估计的效率，无论是在训练期间的采样效率[3]还是推理效率[23，49]，这与我们的工作一致。然而，它们中没有一个利用来自压缩视频的免费可用的和信息丰富的表示。2.1.1基于静止图像的传统方法采用图形结构来建模人类骨骼[1，27，28，47，37]，如分层树[35，37]。最近，深度学习的浪潮将深度神经网络带到了中心舞台。DeepPose [38]引入了一个多级网络来直接从框架中回归关节的坐标，而后来的作品主要是采用概率热图表示来编码关节位置[22，43，45，5]。通常采用编码器-解码器结构来导出联合热图，例如沙漏模型[22]具有平衡编码器和解码器，Simple Baseline[45]在编码器侧具有更多计算。HRNet [34，40]提出在模型中保持高分辨率特征图，以利于具有更高精度的姿态我们的框架是正交的任何单帧姿态估计。我们采用简单基线[45]作为我们的基础模型，因为它将大部分计算分配给编码器侧，对于某些帧，可以在我们的框架中跳过编码器侧以减少计算。2.1.2基于视频的光流通常用作运动线索以从视频中导出姿势序列[33，26，4]。然而，估计光流在计算上是繁重的，这涉及用于基于视频的姿态估计的附加计算。循环神经网络（RNN）也已经被集成到姿势机器中以从数据学习姿势动态。这些模型共享使用CNN来顺序地编码每个帧并且随后是时间模型（例如，CNN）的一般结构。RNN[19]，LSTM[20]，Seq2Seq[6]）来细化估计。在效率方面，DKD [23]用轻姿态内核替换了重流量估计模块或RNN，而[49]引入了帧建议模块来确定用于姿态估计的一组关键帧，然后从估计的关键姿态进行插值。我们的模型还专注于从视频的姿态估计的效率。我们引入了无成本的运动矢量注入运动信号。虽然运动矢量是容易因此，我们基于信息丰富的残差动态地确定是否需要准确的特征提取。与[49]中使用的ResNet系列相比，残差中的显式和丰富的信号允许我们使用与[49]中使用的插值机制相比，引入的动态门自适应地确定计算配置文件。2.2. 压缩视频压缩视频格式最近仅在深度学习的背景下被研究[44，32，2，12，11]。CoViAR [44]是利用这种模式进行动作识别的先驱之一三组模型分别独立地在完整帧、运动矢量和残差上开发以导出动作。甚至更少的作品在对象检测[18，42，21]和视频分割[14，36，8]的任务据我们所知，我们是第一个工作，介绍了压缩流的高效11721O×× ×图2.我们的姿态估计管道由两个关键组件组成：运动补偿ConvLSTM和残差驱动动态门。运动补偿的ConvLSTM扭曲了ConvLSTM的单元格和隐藏状态，促进了更好的特征对齐。动态输入。该门基于残差信息自适应地确定是否可以跳过（标记）特征提取。为了可读性，跳过从残差图到门的输入。扭曲和门都比运行ResNet进行特征提取和关键帧建议更有效，如[49]所示，因此节省了大量计算从视频中估计姿势。而不是直接contibut- ing的姿态估计精度，运动矢量和残差被引入到构建有效的运动补偿功能，并动态地确定分别计算配置文件，这使我们能够实现SOTA的准确性，同时保持低的计算复杂度。3. 方法3.1. 概述我们的运动自适应姿态网络由两个关键组件组成：运动补偿ConvLSTM和残差驱动动态门。我们将在第3.2节中简要介绍视频压缩的背景，并在第3.4节中3.3.然后，我们将在3.4节中更详细地介绍残差驱动动态门。最后，我们在3.5节中解释损失函数和训练策略。3.2. 视频压缩标准视频压缩旨在减少存储跨连续帧存在的冗余信息的比特。视频的高效存储和分发依赖于强大的视频编解码器：用于高级视频编码的H.264/MPEG-4第10部分/AVC [30，29]是用于视频压缩的常用格式之一。264标准的关键部分是残差编码和基于块的运动补偿。运动补偿是指基于运动信息来扭曲先前帧的技术，而残差编码是指仅对扭曲的帧之间的差异进行编码的步骤。帧和实际帧。在运动场的相对准确的估计的情况下，差异图是稀疏的并且对于存储是有效的。为了编码的效率，使用基于块的运动估计，其假设块中的所有像素遵循具有范围从4 - 4到16 - 16的可变块大小的相同运动矢量。结合这两种技术，可以从原始序列中节省大量比特。然而，块简化导致运动场相比于传统流场噪声更大，这启发我们进一步引入动态门机制来补偿误差。更具体地， H.264 标准将视频划分为图片组（GOP），其进一步划分为帧内帧（I帧）和预测帧间帧（P帧）。I帧是自包含的并且需要更多比特来编码。另一方面，P帧仅存储相对于前一帧的运动矢量和残余误差。为了解码P帧，编解码器扭曲先前的参考I帧/P帧Ft-1与运动矢量MVt相加，然后将残差Rt相加。Ft=Warp（Ft−1，MVt）+Rt（1）3.3. 运动补偿ConvLSTM受ConvLSTM [31，42]的启发，我们设计了具有自适应输入的运动补偿ConvLSTM。为了辅助时间动态的学习，明确地使用免费运动向量来扭曲ConvLSTM的单元和隐藏状态，以：1）对齐特征图; 2）解码姿态热图。如图3，我们用卷积层代替LSTM中的线性层以适应11722不∈----3个去卷积层，以解码关节的热图Hj图3.我们的运动补偿ConvLSTM在每个时间步长基于无成本运动矢量MVt扭曲隐藏它进一步采用动态输入（来自解码帧或空映射的2D特征）来更新遵循一般LSTM设计的单元状态。更新所述2D特征图以用于解码所述概率姿态热图。理论上，运动补偿ConvLSTM的初始状态和输入可以来自任何单帧姿态估计器。在这里，我们采用Simple Baseline [45]作为我们的基本特征提取器，因为它使用预训练的ResNet模型将繁重的计算保留到编码器侧，这可以基于我们的残差驱动动态门做出的决定而假设给定N个帧的GOP：F0、F1、MV1、R1、…FN−1，MVN−1，RN−1，after esti使用简单基线的I形框架的配合姿势，ResNet特征用作单元状态c的初始化以及ConvLSTM的隐藏状态h：x0=ResNet（F0）（2）h0=x0;c0=x0（3）将ConvLSTM的输入表示为xt，t一、二、……N1运动补偿ConvLSTM 执行以下动态：h′t−1=Warp（ht−1，MVt）（4）c′t−1=Warp（ct−1，MVt）（5 ） it=Sigmoid （ Conv （ xt+h′t−1;wi ）+bi ））（ 6 ） ft=Sigmoid （ Conv（ xt+h′t−1;wf ） +bf ））（ 7 ） ot=Sigmoid（Conv（x t+ h ′t−1; w o）+bo ））（ 8 ） g t= Tanh （ Conv （ x t+h′t−1;wg）+bg））（9）ct=ftc′t−1+itgt（10）ht=otTanh（ct）（11）我们使用it，ft，ot，gt来表示输入门，遗忘门，输出门和遵循LSTM术语的候选状态ConvLSTMht的输出被馈送到11723不--j在时间t跟随H j= Mdeconv（h t）。请注意，ConvLSTM的输入x t是基于残差驱动动态门的决策动态确定的。我们仅采用ResNet从当前帧F t中提取特征，其中x t=ResNet（Ft），否则我们设置xt=0。3.4. 残差驱动动态门图4.我们的动态门基于GOP内的所有残差帧做出离散决策（0，1）。残差帧显式地测量当前帧和运动补偿的前一帧之间的差异，允许我们在这里使用轻量级门模型来确定跳过策略。受残差存储扭曲帧Warp（Ft−1，MVt）和实际帧Ft之间的差异这一事实的启发，为了最小化计算复杂度，我们引入了仅基于残差帧的光门模型来确定ConvLSTM的输入如图4所示，我们首先将残差帧下采样到原始大小的1/8，以降低计算复杂度，因为我们不太关心差异图的细节。将两个连续的2D卷积层应用于下采样的残差帧以进行特征提取。所得到的特征图被全局合并为1D向量，然后将其与全局合并的原始残差串联。我们在[39]之后引入正弦位置编码（PE）以注入位置信息。然后，将位置注入的1D特征馈送到时间卷积层中，以实现GOP级响应。最后，我们从最终logits生成决策。改进的语义散列：我们期望“硬”决定而不是“软”注意力分数能够完全跳过对所选P帧的计算。然而，这种二元决策自然地将不连续性引入模型中，并且因此禁止梯度反向传播到较早的层。为了解决这个问题，我们采用了改进的语义散列-技术，这是第一次介绍[16，17]。在训练期间，我们添加额外的高斯噪声平均值为零，预测值的11724----×个logits来自门输出的g，这鼓励门随机地探索更多空间。然后从噪声污染的对数g=g+计算两个向量：gc=σ′（g）和gd=1（g>0）（12）σ’对应于饱和S形函数：σ ′（x）=max（0，min（1，1. 2σ（x）−0。其中σ是原始S形函数。这里，gc几乎处处保持连续可微，而gd是具有值0，1的二进制离散决策，其是不可微的。在[16，17]之后，我们认为gc相对于g的梯度是用于更新来自离散门gd的参数的梯度的近似。这种梯度置换运算可由gd=gd+gcgc实现。detach（）在PyTorch符号中。在训练期间，我们以相等的概率随机混合连续门输出g_c和离散门输出g_d将门的最终输出表示为g_mix，ConvL-STM的输入变为：xt=ResNet（Ft）·g混合物（14）在推断期间，我们跳过了高斯噪声采样步骤并且直接使用离散输出，即g混合物=1（g > 0）。3.5. 培训策略和损失受益于改进的语义散列的简单性，损失函数采用以下形式：4. 实验4.1. 数据集和评估指标Penn Action[48]是一个基于大规模无约束视频的数据集，涵盖了人类的15种日常活动。它总共包含2326个视频序列，其中1258个视频被分离用于训练，其余的被保留用于测试。视频的分辨率在640 - 480之间，平均持续时间为70帧。除了动作标签外，还提供了丰富的注释，包括2D姿势、人体关键点可见性和边界框。Sub-JHMDB[15]包含总共11，200帧的316个视频和12个不同的动作类别。它提供了15个身体关节的注释，以及每个帧的木偶流和遮罩提供3个分割用于性能估计。根据[33，20，23，49]开发的协议，我们在每个拆分上独立地训练我们的模型，并报告3个拆分的平均性能。在之前的工作[33，20，23，49]之后，我们采用了正确关键点百分比（PCK）来评估我们的模型。如果身体关节落在从βL像素到地面实况位置的范围内，则认为身体关节是正确的。L被定义为对象的边界框的高度和宽度之间的最大值我们把它设为0.2根据以前的作品[33，20，23，49]。4.2. 实现细节我们首先使用FFmpeg [9]将数据集编码为视频，然后再次使用FFmpeg来检索与每个P帧相关的编码运动矢量和残差。在[44]之后，我们使用MPEG-4编码视频，其中每个GOP通常以I帧开始，然后跟随11个P帧对于每个视频中的最后一个GOP，我们用虚拟帧将其填充到12帧。在[20，49，23]之后，我们裁剪I帧，P帧，使用所提供的运动矢量和残差帧来确定L=1ΣΣ（H~ j−Hj）2+λ||gmix||Penn Action的1（15）个边界框。对于子JHMDB，我们生成-NJT TCt=1j =1其中λ控制热图上的均方误差与门的激活上的第二误差之间的相对权重我们使用l1项来鼓励激活的稀疏性，从而导致特征提取所需的帧更少当使用不同的λ时，损失平衡了训练期间的准确性和效率之间的权衡，从而导致具有不同计算复杂性和总体准确性的模型对于模型训练，我们首先分别训练姿势编码器、运动补偿ConvLSTM和残差驱动门，然后联合微调它们。当独立训练门时，我们冻结其余的模型。在[20]之后，从傀儡遮罩中清除边界框。每个GOP共享唯一边界框，其是当前GOP的I帧与下一GOP之间的平均边界框。裁剪帧的大小调整为256 x 256。请参阅supp。的双曲余切值。4.3. 消融研究4.3.1压缩表示法我们首先在Penn Action数据集上进行消融研究，以分析几个重要设计选择的有效性，包括运动补偿ConvLSTM以及残差驱动门。为了验证运动矢量和运动补偿残差提供无干扰的直观性，11725表1.对压缩信息使用的消融研究在ConvLSTM中引入运动补偿机制，与基线a相比，几乎不需要额外的计算，就可以使PCK提高2%。与使用P帧用于输入的基线d相比，基于残差（基线e）的残差驱动动态门针对计算繁重的特征提取产生少14%的帧，这大大减少了计算。详细实验设置请参见第4.3.1节IDFP经纱栅极头昭Elb.Wri.髋膝谢谢是说关键帧GFLOPS一BC×个C×C×C×个×个×个95.898.399.295.698.098.891.193.897.587.590.397.096.897.898.696.097.298.194.895.897.793.895.898.18.3%8.3%百分百1.521.5410.32DeCCCCFPRes.98.898.698.698.496.796.995.995.798.298.597.898.197.397.797.597.7百分之四十三点二29.0%5.364.10表2. Sub-JHMDB上闸门设计的烧蚀研究。在相似的精度下，使用时间模型和位置编码设计，我们的模型可以比基线少10%的帧用于特征提取。时间体育头昭Elb.Wri.髋膝谢谢是说关键帧GFLOPSC×C×个C×98.298.298.297.397.397.491.791.691.785.784.985.299.299.299.296.696.696.792.192.292.294.894.694.7百分之四十五点三百分之三十八点七35.2%3.142.842.70图5. PCK与r.t.在Penn Action上选择作为特征提取关键帧的帧的百分比。半径对应于计算复杂度。大约35%的帧可以被丢弃，而不会对PCK产生太大影响。保持SOTA 0。975 PCK，只需要25%的帧。这指示在每个帧上执行姿态估计的巨大计算冗余。为了有效地解码每个帧的姿势，我们设计了以下实验，如表1所示，使用ResNet34作为编码器：a：在该实验中，仅采用I帧来提取姿态相关特征，然后将其馈送到ConvL-STM中以学习时间动态并解码随后的P帧的姿态。运动矢量和P帧的特征都没有提供给LSTM。b：通过内部状态扭曲将运动信息注入时间不提供P帧的特征而不是从运动矢量中提取特征，我们扭曲Con内的内部状态。vLSTM直接使用运动矢量，这导致最小量的额外计算。c：在ConvLSTM中显式地使用运动向量来扭曲ConvLSTM状态，如b中所示。此外，特征从每个P帧中提取，并且总是输入到ConvLSTM。扭曲的隐藏和单元状态有助于隐藏状态和输入特征之间的对齐。d：基于实验c中构建的模型，我们另外引入动态门以自适应地控制是否需要将P帧特征馈送到LSTM中。在该实验中，门将实际解码的P帧作为输入以导出跳过策略。e：这是所提出的模型，其中我们使用残差驱动的动态门来基于残差帧确定每个P帧是否需要特征提取将运动补偿应用于ConvLSTM以更好地沿着时间维度对齐特征。将运动注入ConvLSTM的功效可以通过实验a、b和c之间的比较来显示。通过使用运动向量简单地扭曲隐藏状态和单元状态该性能增益验证了当省略来自P帧的特征时，运动矢量提供而对于实验c，由于提供了来自相应P帧的准确特征，因此可以进一步提高实验c用作运动自适应姿态网的上界。通过对比实验d、e，我们研究了剩余驱动动态门的影响。与基于完全解码的P帧进行决策的门相比，我们的残差驱动动态门获得了0.2%的高PCK，并且对于特征前跳过了14%的帧。11726图6.由动态门做出的决策的可视化以及针对（a）Penn Action和（b）Sub-JHMDB的估计姿势。估计的姿势用绿色标记，而红色用于地面实况。选择用于特征提取的帧用珊瑚中的框标记每个示例从上到下被组织为解码帧、运动场和残差帧我们绘制了慢动作序列，因此顶部的激活较少而在底部的行，我们的门适应更具挑战性的运动和激活更频繁。牵引当使用更复杂的模型时，计算复杂度差异将被放大。这与我们的直觉一致，即运动补偿误差（即，残差帧）提供了对运动矢量质量的更好的测量，并且具有更高的信息密度，从而允许门做出更好的决定。4.3.2浇口设计我们的残差驱动动态门还涉及一些重要的设计选择，包括时间卷积和位置编码。我们在表2中比较了具有或不具有Sub- JHMDB上的这种设计的门的性能。以大约相似的精度，将时间卷积引入门跳过7%以上的帧。进一步添加位置编码可以让我们跳过大约4%的帧。注意，在没有时间卷积和位置编码的情况下，门基本上仅基于来自每个帧的残余误差来对该与在GOP中使用所有P帧相比，该选项适合于低延迟实时应用，仅具有计算成本的小增加。引入时间卷积允许门基于相邻的运动补偿残差进行推理。直观地，在从实际帧提取特征的机会有限的情况下此外，添加位置编码允许门具有感测到其相邻特征的距离和到第一I帧的绝对距离因此，可以将更高的概率分配给相对远离第一I帧的那些帧4.3.3门权重λ通过改变权重λ，我们可以控制姿态估计准确度和数量之间的相对权重。Eq. 15训练中因此，我们可以获得不同的复杂性配置文件和性能的模型。我们在图1B中绘制了计算复杂度和姿态估计精度之间的关系。Penn Action数据集为5。如图所示，在每个单独的帧上应用统一的计算架构将导致大量的浪费。仅保留选定的65%的帧导致仅为0。PCK的001下降。如果我们想要保持SOTA PCK为0，则可以跳过大约77%的帧。九百七十五此外，如图所示，保持约30%的帧就像平衡计算减少和姿态准确性的最佳点当保持少于30%的帧时，姿态估计精度下降得更显著。4.4. 与最新技术水平的最后，我们将我们的模型的准确性和效率与SOTA进行了我们的运动自适应姿态网络实现了最高的PCK，但保持了最低的计算配置文件。与以前的最先进的相比，我们获得约0。2%至0。使用ResNet 18作为主干，两个数据集上的计算量仅为1/2，PCK提高了3%。我们还包括使用与[49]相同的ResNet34主干的运动自适应姿势网络的结果。与[49]相比，我们可以进一步降低复杂性，同时将PCK提高0.3%。计算复杂度的节省主要是由于存储在残差中的显式误差图，允许我们使用显着更轻的模块用于我们的帧选择门。而在KFP[49]中，基于ResNet的主干必须应用于每个帧以进行特征提取，然后是关键帧建议。我们的模型使用ResNet34与ResNet18作为主干，尽管基于ResNet34的模型跳过了更多的帧，但总体复杂度仍然是Resnet18模型的2倍，同时产生类似的准确性。11727表3.Penn Action数据集上的结果我们的运动自适应姿态网络在效率和准确性方面都优于SOTA模型与KFP[49]相比，我们获得了0.3%的准确率，关键帧减少了8%利用更有效的压缩信号，我们跑赢了SOTA模型的一半左右的计算。方法头昭Elb.Wri.髋膝谢谢是说关键帧GFLOPSNie等人[46个]64.255.433.822.456.454.148.048.0N/A-Iqbal等人[13个国家]89.186.473.973.085.379.980.381.1N/A-Gkioxari等人[10个国家]95.693.890.490.791.890.891.591.9N/A-Song等人[33]第三十三届98.097.395.194.797.197.196.996.8N/A-Luo等人[20个]98.998.696.696.698.298.297.597.7N/A70.98DKD（smallCPM）[23]98.497.396.195.597.097.396.696.8N/A9.96基线[45]98.198.296.396.498.497.597.197.4N/A11.96DKD（ResNet50）98.898.796.897.098.298.197.297.8N/A8.65[49]第49话98.298.296.093.698.798.698.497.438.0%4.68我们的（ResNet34）98.698.496.995.798.598.197.797.729.0%4.10我们的（ResNet18）98.998.796.996.398.498.097.497.7百分之二十九点七2.46表4. Sub-JHMDB数据集上的结果。结果为3次拆分的平均值。利用更有效的压缩信号，我们跑赢了SOTA模型的一半左右的计算。此外，该实验表明，残差驱动门可以开发出一个有效的跳过策略，相对少量的数据。方法头昭Elb.Wri.髋膝谢谢是说关键帧GFLOPSPark等人[24日]79.060.328.716.074.859.249.352.5N/A-Nie等人[46个]83.363.533.821.676.362.753.155.7N/A-Iqbal等人[13个国家]90.376.959.355.085.976.473.073.8N/A-Song等人[33]第三十三届97.195.787.581.698.092.789.892.1N/A-Luo等人[20个]98.296.589.686.098.795.690.093.6N/A70.98DKD（ResNet50）98.396.690.487.199.196.092.994.0N/A8.65基线[45]97.597.891.186.099.696.892.694.4N/A11.96[49]第49话94.796.395.290.296.495.593.294.5百分之四十点八4.68我们的（ResNet18）98.297.491.785.299.296.792.294.735.2%2.70因此，ResNet18主干网总体上是更好的选择4.5. 可视化我们进一步可视化由门做出的决定以及图1B中所选GOP的预测姿态。6.我们的模型从帧序列中获得准确的姿势，而门仅针对具有局部大残差的帧稀疏地激活，这与我们基于残差设计动态门结果，仅一小部分帧被用于提取准确的特征，而剩余的帧简单地使用有效的运动补偿特征，这导致计算中的显著节省。更多结果在supp中。5. 结论和未来工作我们开发了新的运动自适应姿态网络，以有效地利用来自压缩流的无成本运动矢量和运动补偿残差进行姿态估计。运动补偿的ConvLSTM是提出随时间在空间上对准隐藏状态和单元状态，并采取动态输入。此外，自适应门模块被引入到自适应跳过特征提取的P帧的残差信息的基础上。在广泛使用的Penn Action和Sub-JHMDB数据集上进行评估，所提出的运动自适应姿态网络在PCK中以显著更少的计算量优于SOTA模型。我们希望这项工作可以进一步激发更多的研究使用压缩信号的人体姿态估计从视频。在未来，我们计划探索更多的一般框架工程多人的姿势估计从压缩视频。从理论上讲，当单独处理每个主题时，我们当前的框架可以应用于多人设置。然而，这将导致同一帧内的不同对象的不同计算简档，而不是整个帧的一个全局简档。我们计划开发一个统一的自下而上的姿势估计模型，多人的情况下，作为未来的扩展。11728引用[1] Mykhaylo Andriluka Stefan Roth和Bernt Schiele重新访问图片结构：人物检测和关节姿态估计。在2009年IEEE计算机视觉和模式识别上，第1014IEEE，2009年。[2] Barak Battash ， Haim Barad ， Hanlin Tang ， and AmitBlei-weiss.模拟原始域：加速压缩域中的动作识别。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第684-685页[3] Gedas Bertasius ， Christoph Feichtenhofer ， Du Tran ，Jianbo Shi，and Lorenzo Torresani.从稀疏标记的视频中学习时间姿态估计。arXiv预印本arXiv：1906.04016，2019。[4] James Charles ， Tomas Pfister ， Derek Magee ， DavidHogg，and Andrew Zisserman.个性化人类视频姿态估计。在IEEE计算机视觉和模式识别会议论文集，第3063-3072页，2016年。[5] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人姿态估计的级联金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第7103-7112页[6] Xiao Chu，Wanli Ouyang，Hongsheng Li，and XiaogangWang.用于姿态估计的结构化特征学习。在IEEE计算机视觉和模式识别会议论文集，第4715-4723页[7] Zhipeng Fan，Jun Liu，and Yao Wang.用于单目3d手部姿态估计的自适应计算高效网络。欧洲计算机视觉会议，第127-144页Springer，2020年。[8] Junyi Feng ， Songyuan Li ， Yifeng Chen ， FuxianHuang，Ji-abao Cui，and Xi Li.如何训练你的龙：驯服的翘曲网络用于语义视频分割。arXiv预印本arXiv：2005.01344，2020。[9] FFmpeg Ffmpeg/ffmpeg。[10] Georgia Gkioxari Alexander Toshev和Navdeep Jaitly。使用卷积神经网络的链式预测欧洲计算机视觉会议，第728-743页。施普林格，2016年。[11] Hezhen Hu，Wengang Zhou，Xingze Li，Ning Yan，and Houqiang Li. Mv2flow：学习运动表示，用于快速压缩视频动作识别。 ACM Transactions on MultimediaComputing，Communications ，andApplications（TOMM），16（3s）：1[12] Yuqi Huo ， Xiaoli Xu ， Yao Lu ， Yulei Niu ， MingyuDing，Zhiwu Lu，Tao Xiang，and Ji-rong Wen.压缩视频中的轻量级动作识别。欧洲计算机视觉会议，第337-352页。Springer，2020年。[13] Umar Iqbal，Martin Garbade，and Juergen Gall.姿势换动作-动作换姿势。2017年第12届IEEE自动人脸手势识别国际会议（FG 2017），第438-445页。IEEE，2017年。[14] Samvit Jain和Joseph E Gonzalez。基于块运动特征插值的视频快速语义分割在欧洲计算机视觉会议（ECCV）研讨会论文集，第0-0页[15] H. Jhuang，J. Gall，S.祖菲角Schmid和M. J.布莱克。对动作识别的理解。国际会议计算机视觉（ICCV），第3192-3199页，Dec. 2013.[16] 武卡斯·凯泽和萨米·本吉奥。用于序列模型的离散自动编码器。arXiv预印本arXiv：1801.09797，2018。[17] Lukasz Kaiser 、 Samy Bengio 、 Aurko Roy 、 AshishVaswani 、 Niki Parmar 、 Jakob Uszkoreit 和 NoamShazeer。使用离散潜变量的序列模型中的快速解码。国际机器学习会议，第2390-2399页。PMLR，2018。[18] 孔凌超，戴锐，张尉迟。一种新的基于压缩视频的目标检测在2016年IEEE图像处理国际会议（ICIP），第3797-3801页IEEE，2016.[19] Mude Lin，Liang Lin，Xiaodan Liang，Keze Wang，andHui Cheng.循环3d姿态序列机器。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition，pages 810[20] Yue Luo，Jimmy Ren，Zhouxia Wang，Wenxiu Sun，Jinshan Pan ， Jianbo Liu ， Jiahao Pang ， and LiangLin.Lstm pose machines.在IEEE计算机视觉和模式识别会议论文集，第5207-5215页[21] Gedeon Muhawenayo和Georgia Gkioxari。压缩对象检测。arXiv预印本arXiv：2102.02896，2021。[22] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络在欧洲计算机视觉会议上，第483施普林格，2016年。[23] Xuecheng Nie，Yuncheng Li，Linjie Luo，Ning Zhang，and Jiashi Feng.用于视频中的在IEEE/CVF国际计算机视觉会议论文集，第6942[24] 丹尼斯·帕克和德瓦·拉马南零件模型的N最佳最大解码器。在2011年计算机视觉国际会议上，第2627-2634页。IEEE，2011年。[25] DarioPavllo ，ChristophFeichtenhofer， DavidGrangier，and Michael Auli.利用时间卷积和半监督训练的视频中的3D人体姿态估计。在IEEE/CVF计算机视觉和模式识别会议论文集，第7753-7762页，2019年[26] 托马斯·菲斯特詹姆斯·查尔斯安德鲁·齐瑟曼。用于视频中的人体姿态估计的流卷积。在IEEE计算机视觉国际会议的论文集，第1913-1921页[27] Leonid Pishchulin，Mykhaylo Andriluka，Peter Gehler，and Bernt Schiele. 波塞莱制约的图像结构。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，pages 588[28] Leonid Pishchulin，Mykhaylo Andriluka，Peter Gehler，and Bernt Schiele.用于人体姿势估计的强外观和表达空间模型。在IEEE计算机视觉国际会议论文集，第3487-3494页[29] 伊恩·理查森。白皮书：概述了H. 264高级视频编码。Vcodex/OneCodec，2011（7），2007。11729[30] 伊恩·E·理查森。H. 264和MPEG-4视频压缩：用于下一代多媒体的视频编码。John Wiley Sons，2004年。[31] Shi XingShi ， Zhourong Chen ， Hao Wang ， Dit-YanYeung，Wai-Kin Wong，and Wang-chun Woo.卷积lstm网络：降水临近预报的机器学习方法。arXiv预印本arXiv：1506.04214，2015。[32] Zheng Shou ， Xudong Lin ， Yannis Kalantidis ， LauraSevilla- Lara，Marcus Rohrbach，Shih-Fu Chang，andZhicheng Yan.Dmc-net：为快速压缩视频动作识别生成有区别的运动提示。在IEEE/CVF计算机视觉和模式识别会议论文集，第1268-1277页[33] Jie Song ， Limin Wang ， Luc Van Gool ， and OtmarHilliges. Thin-slicing network：一种用于视频中姿势估计的深度结

下载后可阅读完整内容，剩余1页未读，立即下载