大规模动作计数数据集及基于密度图回归的重复动作计数方法研究

76 浏览量更新于2023-10-25 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

19013TransRAC：用于重复动作计数的胡华章1*，董思勋1*，赵益群1，连东泽1，2，李正新1<$，高盛华1，3，4<$1上海科技大学2新加坡国立大学3上海市智能视觉与成像4上海市节能与定制AI IC工程研究中心{huhzh，dongsx，v-zhaoyq，liandz，lizhx，gaoshh} @ shanghaitech.edu.cn摘要计算重复动作广泛存在于人类活动中，如体育锻炼。现有的方法集中于在短视频中执行重复动作计数，这对于在更现实的场景中处理较长的视频是困难的。在数据驱动的时代，这种泛化能力的下降主要归因于缺乏长视频数据集。为了补充这一优势，我们引入了一个新的大规模重复动作计数数据集，涵盖了各种视频长度，以及视频中出现动作中断或动作不一致的更现实的情况此外，我们还提供了一个细粒度的注释的动作周期，而不仅仅是计数注释与数值。这样的数据集包含1，451个视频，具有大约20，000个注释，这更具挑战性。对于更真实场景的重复动作计数，我们进一步提出了使用可以兼顾性能和效率的变换器来此外，在对动作周期进行细粒度标注的基础上，提出了一种基于密度图回归的动作周期预测方法，该方法具有更好的性能和更好的可解释性。我们提出的方法优于国家的最先进的方法在所有数据集上，也实现了更好的性能上看不见的数据集没有微调。数据集和代码可用1。1. 介绍行星的运动，季节的变化，心跳，这些周期性的运动在我们的生活中无处*这些作者对这项工作的贡献是相同的†通讯作者。1https：//svip-lab.github.io/dataset/RepCount_dataset.html它们可以用牛顿力学来建模，也可以借助传感器来检测，以了解世界或我们的身体。在计算机视觉中，重复/周期性运动的检测也起着重要的作用，例如在人类活动中，其中一些体育锻炼运动的计数使人们在健身检测和规划中受益。虽然可以使用一些传感器（例如，重力传感器），基于视觉的方法能够实现非侵入性，从而使得基于第三视图的视频分析成为可能并且有前景。计算机视觉中的重复动作计数也可用作其他以人为中心的视频分析应用的辅助提示，例如行人检测[ 26 ]和3D再现[17，28]。尽管如此重要，计算机视觉中的重复动作计数很少被探索。以前的论文[5，38]倾向于计算短视频中的重复动作，例如从Ki-netics数据集中抓取的一些简单视频[10]。然而，这些视频缺乏一些真实场景，这由于以下两点而限制了该方法在更真实场景中的应用：• 限制视频长度。之前的数据集[5，16，29，38]通常仅包含短视频（例如，，0.4- 30秒），然而，在真实场景中，方法可能被部署到长视频例如，我们计算俯卧撑或跳跃，视频长度为60秒。在这样的长视频中统计动作更加困难，因为在真实场景中可能存在各种异常，例如由于内部或外部原因而中断的动作（图1（a）），或者动作时段之间的不一致（图1（b））。这些异常可能导致先前的算法失败或获得次优性能，从而影响算法在真实场景中的通用化• 注释不充分在以前的数据集中[5，16，29，38]，视频中重复动作的数量19014(a) 动作中断（深蹲）（b）动作周期不一致（俯卧撑）（c）带有数字循环的长视频（60秒）（冲压千斤顶）（d）以每个循环的开始和结束的形式进行的注释（前举）图1. 我们提出的数据集RepCount的特征：（a）异常情况（动作期间中断）;（b）异常情况（动作周期不一致）;（c）由数字动作周期组成的长视频;（d）细粒度标记协议。被简单地标记为一个数值。虽然计数作为最终的预测目标，这种粗粒度的注释剥夺了算法的可该模型在训练或推理过程中只预测一个数值，这使得很难更全面地评估模型正如在一些人群计数论文[20，27，36，40]中所讨论的，重复动作的总数是正确的，但中间循环的位置可能是错误的。在数据驱动的深度学习方法中，数据集是算法创新的关键为了解决上述问题，我们收集了一个大规模的以人为中心的数据集，这是更接近真实的。如图在图1（c）中，视频长度存在大量变化，而在一些视频中出现中断或不一致的动作周期。为了更准确的性能评估和模型可解释性，我们提供了动作周期的更细粒度的注释，如图1（d）。此外，我们还收集了一部分包含在完全现实的场景中（在当地学校）捕获的学生活动视频，这与之前从YouTube抓取图 2提供了我们数据集的概述。这样的数据集更具挑战性，并且有可能成为重复动作计数的新基准。为了执行重复动作计数，以前的方法[5]通常采用固定数量的帧进行预测。这种方法在相对较短的短视频中可能是合理的。例如，TSN [37]提取三个帧用于修剪视频的动作识别，其中表征动作的信息集中在某些关键帧上。然而，对于真实场景中的长视频，提取固定帧将导致次优性能。曼斯。由于视频持续时间变化很大（例如，从4s到88s），如果选择的帧数太少，则会忽略高频动作。相反，如果选择太多帧，则可能导致计算资源的浪费。另一种替代方案是对于长视频和短视频两者以相同的频率对视频进行采样。但是，有些动作非常快（例如，跳绳）和一些非常慢（例如，俯卧撑）。以固定频率进行采样将导致性能下降或效率不够。为了平衡性能和效率，我们提出了一个多尺度的时间相关编码网络与变压器，可以照顾到不仅是高，低频率的行动，但也长，短视频。该方法允许模型自动选择其适应的尺度来计算用于最终计数预测的相关矩阵。此外，由于我们的数据集中对动作周期进行了细粒度的注释（见图 1 ）。 1（d）），我们还提出了一种基于密度图回归的方法来预测作用期，这不仅产生更好的性能，而且更有利于模型的可解释性我们将我们的贡献总结为三个方面：• 我们引入了一个新的数据集，名为RepCount，它由1，451个视频和大约20，000个细粒度注释组成。这样的数据集允许大量的视频长度变化并且包含异常情况，因此更具挑战性。• 设计了一种新的带变换器的多尺度时间相关编码网络，用于重复动作计数，该网络不仅能处理高频和低频动作，还能处理长视频和短视频短• 该方法在我们提出的数据集和所有其他数据集上的性能优于最先进的毛皮-19015此外，我们还在未看到的数据集上实现了更好的性能，而无需进行微调。2. 相关作品时间自相关时间自相关函数广泛用于运动识别[3，13，14]和人体识别[12]。时间序列中的自相关包含周期性信息[24，35]。表示自相关函数最常用的方法是向量内积。Vaswani等人 [34]通过将查询矩阵和关键矩阵相乘来获得自相关矩阵。Panagiotakis等人 [24]实现视频帧序列的注意机制，构造视频帧的自相关矩阵。利用自相关矩阵，可以从时间序列中找到周期信息来计算重复动作的数量。视频特征提取长期以来，空间和时间卷积在视频特征提取领域占据主导地位，如C3D [33]， I3D [2]， P3D[25]。然而，受限于卷积核的小的感受野，基于卷积的方法难以捕获时域上的长程依赖性。 ViT [4]及其变体为计算机视觉领域带来了开创性的变化。然而，由于二次计算复杂性和复杂结构，基于Transformer的模型的训练成本很高[11]。视频Swin Transformer是一个有用的主干，因为它的权衡已经在大数据集上进行了预训练。视频Swin Transformer [22]是一个合适的主干，因为它的权衡是在一个大数据集上预先训练计算机视觉中的计数。从图像或视频计数[1，16，18，19，23，29，38，39]是计算机视觉中非常重要的它在物体检测[30]、公共交通[15]和体育锻炼[31]方面具有较高的应用价值Zhang等人 [38]提出了一种用于时间重复计数的上下文感知和尺度不敏感的框架。[39]首次将视觉信号与相应的视觉信号合并到运动计数中。密度图。密度图的应用增强了人群计数的效果[20，27，36，40]。密度图是通过与高斯核卷积从绘图图生成的。密度图采用二维平面空间分布来表示空间分布和局部概率分布。[40]应用2D密度图来实现密集人群计数。在[32]中，提取的特征被传递到密度回归器以生成密度图。在许多神经网络架构中，它可以被视为中间表示层。周期性密度图保留了更多的信息，并给出了空间分布。句号注释。目前，数据驱动的学习方法已经成为计算机视觉中的一种重要方法在重复计数的情况下，大多数数据集只在-周期计数[5，10，38]。研究人员必须使用由真实数据和人工数据合成的生成数据进行训练。[16]首先提出了训练模型的合成数据。然而，这些数据是基于这样的假设，即运动是连续的、不间断的、均匀分布的，并且具有相似的周期。 [5]天真地将周期计数除以帧的数量以获得周期长度。这与真实的运动情况相差甚远因此，具有周期性细粒度注释的数据集是非常宝贵的。3. 我们建议的数据集现有的重复计数数据集，主要包括 Countix [5]和UCFRep [38]，已被广泛用于重复计数模型的评估在这些数据集中，从YouTube上收集的视频片段涵盖了各种视角，尺寸大小和动作类别。通常，视频剪辑中重复动作的总数被标记为其地面实况。虽然这些数据集对重复计数问题的建模做出了重大贡献，但仍然存在几个不可忽略的限制，这些限制增加了视频中所示场景与现实场景之间的差距，例如i）没有来自内部或外部的动作中断; ii）在单个视频中仅包含统一的动作频率; iii）缺乏长距离视频;iv）粗粒度的地面实况注释等。特别是，最后一点阻碍了更复杂模型的开发。为了克服这些限制，我们引入了一种名为RepCount的新型重复计数数据集，该数据集包含长度变化显著的视频，并允许多种异常情况，如图所示。二、这些视频数据与细粒度的注释协作，指示每个动作周期的开始和结束。此外，数据集由两个子集组成，即部分A和部分B。A部分的视频来自YouTube，而B部分的其他视频记录了初中学生和教师的模拟物理考试。因此，可以根据具体需求，采用灵活的数据分割策略进行训练和评估。然后详细介绍了数据的收集、注释和统计。数据集收集。根据数据来源，我们的数据集包括两部分。对于A部分，我们从YouTube上收集了1，041个视频片段。动作类型包括锻炼活动（下蹲、引体向上、前举等）。）、体育项目（赛艇、鞍马等）。）和其他重复动作（足球杂耍）。我们选择代表至少一个符合人类习惯的完整系列动作的视频。此外，视频通常包含一些不相关的动作，如说话和放松。最重要的是，在一系列动作期间中断是优选的，这可能导致交流困难。19016± ± ± ±±（c）数据分析图2.建议的基准测试RepCount的摘要：前两列分别代表部分A和部分B，右列显示我们数据集的视频长度和重复计数的统计数据。UCFRep孔蒂我们a部b部A部分+B部分来源UCF101动力学子集Youtube本地学校自行收集持续时间最小值/最大值2.08/33.84 0.2/10.0 4.0/88.0 5.56/79.16计数平均值STD.6.76 14.99 14.70 9.27 4.3615.932 15.65最小计数/ 最大值3/54 2/73 1/141 1/321/141表1.Countix[5]、UCFRep[38]和拟议RepCount的数据集统计。我们的数据集在平均持续时间和平均注释方面比以前的数据集更大副牧师计数。我们使用开源脚本YouTube- download2来下载视频并编辑它们以仅保留有用的剪辑。每个视频片段的长度为20-40秒。对于B部分，我们记录了志愿者所做的练习视频，如坐和引体向上数据集注释。现有的重复计数数据集通过假设动作是周期性统一的并且不被不相关的情况中断来简化问题。因此，它们只有单值总数形式的粗粒度注释[5]或指示整个动作的开始和结束时间的两个时间戳[38]。我们的细粒度注释协议如下：i）将每个单独的视频分配给两个志愿者; ii）标记每个动作周期的开始和结束时间;iii）通过比较来自两个志愿者的注释来交叉验证注释，如果它们总共差异大于1，则应该检查和修改根据协议，每个运动周期都精确地定位在时间轴上，这使得模型的设计和训练具有更好的可解释性。数据集统计。我们的数据集摘要如下所示：2 https：org.github.io/youtube- dl/index。HTML在选项卡中。1.一、简而言之，我们提供了1，451个视频和19，280个注释。我们数据集中的视频平均长度为39.359秒，是其他数据集视频长度的4-5倍。我们数据集中的每个视频片段平均包含15.932个动作周期，而UCFRep为6.66，Countix为6.84。此外，B部分是为了验证模型的一般化。图表统计显示在图的右边二、我们的数据集具有更真实的场景和细粒度的注释。4. TransRAC模型给定一个长持续时间的视频，其内容中发生的重复活动超过15个，我们的目标是计算重复动作的数量为了实现这一点，我们提出了一种称为TransRAC的模型，它包含三个阶段：编码器，时间相关性和周期预测器。视频序列V被馈送到编码器中，然后输出X用于通过C=X（X）计算相关矩阵C。最后，利用周期预测器D=τ（C）对最终的输出密度图进行预测。(a)数据集A部分(b)数据集B部分Num. 的视频526875710414101451平均持续时间±标准8.15 ±4.296.13 ±3.0830.67 ±17.5428.53 ±16.0629.359±16.024.0/88.019017× ×× × ×p联系我们∈1×12ppFV��=X512��=C��=D…��6464公司简介��5126432512…��64646464公司简介��3×3conv6464Transformer 642 FC层公司简介51264Concat…��64视频公司简介��视频序列编码器时间周期预测器嵌入相关性相关性矩阵密度图图3. TransRAC架构。我们使用步长为1、2和4的三个滑动窗口来生成重叠的视频序列：红色、橙色和黄色。然后通过编码器对多尺度视频序列进行特征分别计算三个尺度下的相关将三个相关矩阵连接成一个后，使其贯穿剩余的网络并输出最终的密度图。4.1. 编码器如图3所示，编码器为X=X（V）。为了解释函数f，首先，假设我们有N个帧的序列F= [f1， f2，. . .，fN]。我们从原始视频序列中提取三个尺度的视频子序列V作为视频处理器的输入。然后，我们将视频序列V馈送到编码器CLK 中以产生多尺度嵌入X =[X1，X4，X8]T，其中X1=[x1，x2，. - 是的- 是的，xN]T.X4每个尺度的所得特征的大小为7 × 7 × 768，其中t等于时间维度中的2倍压缩。然后将这些特征在时间维上连接成一个特征块。时间背景。为了考虑更多的时间背景，我们在特征提取器之后应用了一层3D卷积，该特征提取器具有33512个具有ReLU激活的过滤器。之后，我们使用全局3D最大池层和X8与X1相似。1 1 1以减少模型参数，获得编码器的最终结果X，作为多尺度视频序列。我们从视频中提取三个尺度序列：单帧，4帧和8帧，表示图中3 .第三章。如等式V1，V4，V8表示V的元素长度。在视频采样中，我们使用步长为2的滑动窗口来获得V4，步长为4的滑动窗口来获得V8。并且我们还需要对视频进行填充，以确保输出的三个尺度序列的时间维度V={{f};{f};. -是的-是的个文件夹V4={{f1，. - 是的- 是的，f4};{f3，. - 是的- 是的，f6};。- 是的- 是的个文件夹图3 .第三章。上述操作是在不同尺度的视频序列上进行的，以便我们能够获得更多的时域信息。4.2. 时间相关与自我注意嵌入的相关性可以表示为Ci=（Xi）。我们需要计算xi嵌入与其他xj之间的每个相关ci，其中j ∈ {1，2，. - 是的- 是的，N}，并且JV={{f，. - 是的- 是的，f};{f，.- 是的- 是的，f};。- 是的- 是的个文件夹相关矩阵Cp=[c1，c2，. . .，cH]T，p∈ {1，4，8}818 5 12和pp p时空特征视频摇摆Transformer[22]用于从不同尺度的各个视频子序列中提取3D特征该算法利用自注意机制，可以很容易地捕捉到长距离依赖关系;同时，通过分层设计，还可以捕捉到局部依赖关系，更适合于图像。令视频子序列Vi（其中i为1，4，8）通过特征提取块以提取特征。三种不同尺度的视频片段可以匹配不同的周期长度（如跳跃和蹲）更好。H是注意力的数量。相关矩阵对于交流的时间位置为了提高效率，我们使用具有相关矩阵和自注意机制的变换器[34]来编码多尺度时间相关层。在对视频序列进行编码之后，我们可以得到每个尺度Vi的嵌入Xi，其中i一四八每个尺度下所有嵌入的形状是第512章如图3所示然后利用自注意机制计算相关矩阵。一个尺度嵌入Xi乘以两个权矩阵，得到密钥矩阵K和查询矩阵Q.然后我们可以用K和Q来计算注意力分数，（一）i，这样我们就可以使用嵌入Xp来获得19018×NΣ˜本文称之为相关性自我关注。我们通过C=f（Q，K）构造相关矩阵C，其中f（. ）被称为点积注意力。如图3所示，这是另外两个重要的点，我们使用512维的4头（而不是更常见的8头[34]）和多尺度嵌入来计算相关性。因此，在自注意层之后，将三个尺度的特征连接成一个，我们可以得到输出的形状是[ N，N，M H ]。M表示我们有多少个刻度 H和N分别是头和输入帧的数目。此外，详细地，TransRAC中的N、M和H分别为64、3和4。4.3. 周期预测器在图3中，D=τ（C）示出了馈送C，其中C从C1、C2和C3连接到密度图预测器，该密度图预测器对于每个视频子序列不输出任何元素：- 是的- 是的，dN]表示周期的分布。一个更详细的版本可以在图中看到。3 .第三章。密度图。密度图方法最直观的优点是解释能力强。因此，我们使用密度图预测作为我们的周期预测器。密度图包含整个视频的全局信息。密度图的每一行指示帧我们还比较了密度图回归器与消融实验中的分类器，并发现密度图执行。两个预测因子之间比较的更多细节可以在第二节中看到五、更多的实施细节可以在补充材料中看到。4.4. 损失我们的数据集RepCount使用每个位置进行注释计算。将这些帧输入到模型中以获得密度图D=[d1，d2，. - 是的- 是的，dN]。应用线性和法得到作用期数的预测值p_i，其中di为密度图的值。5. 实验本部分主要有五个部分首先，我们解释了一些现有的基准和流行的重复计数中使用的评估矩阵。其次，我们详细说明了细粒度符号的优点和能力。通过对不同运动项目的预测结果进行可视化和比较，提出了相应的解决方案.然后，我们评估我们的模型性能，并将其与其他方法进行比较，这些方法是在我们的数据集RepCount上训练的，在现有的基准测试中。最后，我们进行了烧蚀研究，以证明我们的模型设计。5.1.基准和评估矩阵我们在四个视频数据集上评估了我们的方法：我们的RepCount部分A测试集，我们的RepCount部分B和UCFRep[38]。如Tab中所示。1，我们的（部分A+部分B）包含的视频比所有现有数据集的数量更多，持续时间更长。以前的工作[5，38]主要使用两个矩阵来评估视频中的重复计数：Off-By-One（OBO）计数误差。如果预测计数在地面实况的一个计数内，则我们可以认为该视频被正确计数否则，这是计数错误的情况。它表示整个数据集上重复计数的错误率。平均绝对误差。该度量意味着地面真值计数和预测计数之间的归一化绝对误差OBO和MAE定义如下：OBO=1[|c−c|≤1]，（2）在时间维度中的每个运动周期。将这些标签传递给高斯函数G（x）以获得基本事实。高斯化的过程可以是Ni=1N我我|c−c|在补充材料中看到。因此，使用MSE（均方误差）作为损失函数往往是一个很好的选择。MAE=1Ni=1我吉吉（3）选择4.5. 推理为了纯粹从学术角度比较网络推断重复计数的方式具有以下操作：视频样本。对于任何长度小于两分钟的视频，我们直接采样64帧。如果输入视频少于64帧，我们将在时域中实现其中c是地面实况重复计数。N是数字-的视频。5.2. 实现细节我们使用PyTorch实现我们的方法。编码器Video SwinTransformer tiny [22]在Kinetics上进行了预训练。我们使用三列来获取输入视频序列，并将它们送入编码器。基于变换器的周期预测器的隐藏层维度是512。由于GPU内存的限制，在训练过程中，预先训练好的编码器参数被冻结。我们用一个19019×下降学习率为8× 10−6，并由Adam优化器使用16个批次大小进行优化（每个批次64帧）。代码中提供了其他详细信息5.3. 细粒度注释从图中观察4、容易在地面实况上找到精确的周期位置信息，这对于精确计数是必不可少的。由于每一种动作都有不同的特点，有些动作，如卧推，由于人在开始时的精力充沛，完成速度很快。然而，在动作结束时，速率将减慢。另一方面，具体动作的周期长度可以更加统一。如图1的示例如图4所示，“前举”更容易让男子在一个稳定的时间段内完成。这是因为我们以更细粒度的方式注释数据，通过这种方式，我们可以从数据集中获得各种动作的位置，我们有机会根据不同的需求微调模型的结构。当然，如果没有细粒度的注释，就没有机会将密度图设置为模型的预测器。总的来说，需要一个更细粒度的符号来精确地帮助模型计算周期数。图4. 密度图的可视化。以下是我们模型的地面实况和预测结果之间的比较。我们可以从第一对中看到，我们数据集中视频的持续时间各不相同。5.4. 评价和比较我们从多个方面评估了模型的有效性。当我们在RepCount（Part-A和Part-B）和UCFRep数据集上比较RepNet提出的TransRAC时，为了公平比较，我们修改了RepNet的最后一个全连接层[5]，使其能够处理包含超过32个动作周期的视频。除非另有说明，否则我们在Rep-Count Part-A上训练网络，并在Part-A的测试集上验证它们，获得表中所示的结果。二、此外，我们还介绍了一些SOTA动作识别方法[6，7，22]，并相应地更改输出层以适应我们的任务。远-此外，我们还比较了SOTA方法[9]在动作分割领域的应用。更多细节可参见补充材料。人们可以观察到，TransRAC，我们的模型在所有考虑的数据集上都以显著的优势优于它们。概括。从Tab。3，还可以看出，TransRAC模型在多个数据集上很好地泛化方法MAE↓OBO↑X3D [7]0.91050.1059TANet [6]0.66240.0993[22]第二十二话0.57560.1324Huang等人[9]第一章0.52670.1589RepNet [5]0.99500.0134Zhang等人[38个]0.87860.1554我们0.44310.2913表2.不同方法在RepCount部分A测试中的性能当在RepCount的相同训练集上训练时。RepCount BUCFRep方法MAE↓OBO↑MAE↓OBO↑RepNet [5]我们0.99940.78390.00250.0910.99850.64010.0090.324表3.不同方法在RepCount部分B上的性能，在RepCount部分A的同一训练集上训练时的UCFRep。图5. 不良案例的可视化。以下是我们的模型预测的两个坏情况的结果。在第一种情况下，另一个人在移动虽然我们的TransRAC在大部分数据上表现良好，但仍有一些失败的情况，如图。5显示对于图5中的顶部，我们实现了坏的预测结果，因为在视频中有多于一个人移动底部的失败案例表明，在一些极端情况下，帧提取策略可能会降低我们模型的性能。可以看出RepCount A19020在预测的密度图和地面实况之间存在明显的差异，特别是在左侧部分。由于该样本视频具有772帧的总数，大多数动作集中在前400帧中，所以地面实况密度图和我们的模型的输出都不能处理这种不平衡。5.5. 消融研究我们进行了几次消融，以证明设计TransRAC时所我们在部分A的训练集上训练我们的模型，然后在部分A的测试集上评估模型。在补充材料中可以看到更多的烧蚀实验相关矩阵在选项卡中。4、比较了不同相关矩阵对模型的影响时间自相似矩阵（TSM）[5]采用平方欧氏距离作为相似性函数。但我们发现用自注意机制来计算扩散矩阵更好。由于实验表明自我注意机制可以大大提高我们的模型的性能，我们的模型使用自我注意机制。RepCount A相关矩阵MAE↓OBO↑TSM0.56780.2251自我关注（Our）0.44310.2913表4.我们的模型在RepCount部分A的训练集上训练时应用不同的相关矩阵的结果。密度图。我们建立了四个模型来验证密度图的有效性，如表1的前四行所示。五、我们可以得出结论，使用密度图回归器作为周期预测器是显着优于原来的分类器。如Tab的第三行和第四行所示。5、用密度图回归器代替传统的分类器，RepNet的性能得到了显著的比较结果表明，密度图更适合于重复动作计数。多尺度。在选项卡中。5、比较了应用不同尺度的影响我们发现，多尺度模型的表现优于单尺度模型时，帧的数量是相同的。实验表明，不同尺度的时间特征越多，提取的周期信息越多。6. 结论本文针对现有方法在处理更真实场景下的长视频时存在的难题，提出了一种新的大规模重复动作计数数据集.这样的数据集涵盖了各种各样的视频长度，其中动作中断或动作不连续，RepCount A方法MAE↓OBO↑ResNet [8]+ CLS0.99500.0134ResNet [8] + DM0.69050.0811[21]第二十一话0.70270.118瑞典[21]0.67810.138我们的（第一级）0.65950.1854我们的（第四级）0.54340.2649我们的（8级）0.66570.192我们的（多）0.44310.2913表5.在 RepCount part-A上训练模型时的建立研究结果。ResNet+CLS表示RepNet的原始结构[5]。ResNet + DM表示用密度图回归量替换最后一层这同样适用于指示swin变压器的swinT。我们的（Scale-X）表示没有多尺度相关性的单列，其中X表示V1、V2和V3。我们的（多）表示我们提出的结构。在视频中出现的场景，这是更真实的。为了模型的可解释性和更准确的评估，我们进一步提供细粒度的注释。整个数据集包含1，451个视频，约20，000个注释，这更具挑战性，并有可能成为新的基准。为了平衡性能和效率，我们提出用Transformer对多尺度时间相关性进行编码，以解决现实场景中的重复动作计数问题。我们还提出了一种基于密度图回归的方法来预测作用期，该方法具有更好的性能和足够的可解释性。大量的实验表明，我们的方法在所有数据集上都取得了最先进的结果，并且在没有微调的情况下，在看不见的数据集上也取得了更好的性能。更广泛的影响和限制。所提出的数据集是关于重复动作的计数，这意味着我们数据集中的视频是以人为中心的。滥用我们的数据集可能会导致隐私泄露。我们的数据集仅限于学术研究。所提出的方法基于数据集预测结果，其中可能包括一些负面的社会影响。因此，通过我们的方法进行的结果可以反映来自数据集的偏差其他技术上的限制在美国证券交易委员会讨论。五、鸣谢。国家重点研发&计划（2018AAA0100704），国家自然科学基金#61932020，#62172279，上海市科学技术委员会（批准号：20ZR 1436000）和上海市教育发展基金会、上海市教委资助的19021引用[1] Carlos Arteta ， Victor Lempitsky ， and AndrewZisserman.在野外数数2016年欧洲计算机视觉会议。3[2] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页3[3] 陈晨，张宝昌，侯振杰，姜君君，刘梦媛，云扬。基于二维和三维梯度自相关特征加权融合的深度序列动作识别。 Multimedia Tools and Ap-plications ， 76 （ 3 ）：4651-4669，2017. 3[4] AlexeyDosovitskiy ， LucasBeyer ， AlexanderKolesnikov ， Dirk Weissenborn ， Xiaohua Zhai ，Thomas Unterthiner ， Mostafa Dehghani ， MatthiasMinderer，Georg Heigold ，Syl- vain Gelly，et al. Animage is worth 16x16 words：Trans- formers for imagerecognition at scale.arXiv预印本arXiv： 2010.11929，2020。3[5] Debidatta Dwibedi ，Yusuf Aytar ，Jonathan Tompson ，Pierre Sermanet，and Andrew Zisserman.计数时间：类不可知论的视频重复计数在野外。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。一二三四六七八[6] 刘朝阳等，Tam：用于视频识别的时间自适应模块。ICCV，2021。7[7] 克里斯托夫·费希滕霍夫。X3d：扩展架构以实现高效的视频识别。在CVPR，2020年。7[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2016年6月。8[9] Yifei Huang，Yusuke Sugano，Yoichi Sato. 通过基于图的时间推理改进动作分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第14024-14034页，2020年。7[10] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，et al. 人体运动视频数据集。 arXiv 预印本 arXiv ：1705.06950，2017。第1、3条[11] Nikita Kitaev，Łukasz Kaiser，and Anselm Levskaya.重整器：高效Transformer，2020年。3[12] Takumi Kobayashi和Nobuyuki Otsu。一种基于三向自相关的步态身份识别方法。在IEEE视觉监控研讨会上，第1卷，第4页。Citeseer，2006. 3[13] Takumi Kobayashi和Nobuyuki Otsu。运动识别的三向自相关方法。PatternRecognition Letters， 30（3 ）：212-221，2009. 3[14] Takumi Kobayashi和Nobuyuki Otsu。基于时空梯度局部自相关的 PatternRecognition Letters ， 33 （ 9 ）： 1188-1195，2012. 3[15] Paulius Lengvenis ， Rimvydas Simutis ， VygandasVaitkus和RytisMas keliu'nas。计算机视觉系统在公交客流统计中的应用。Elektronikair Elektrotechnika，19（3）：69-72，2013. 3[16] 奥菲尔·利维和利尔·沃尔夫实时重复计数。在IEEE计算机视觉国际会议（ICCV）的开幕式上，2015年12月。第1、3条[17] Xiu Li，Hongdong Li，Hanbyul Joo，Yebin Liu，andYaser Sheikh. 从递归运动的结构：从刚性到递归。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月1[18] Dongze Lian，Xianing Chen，Jing Li，Weixin Luo，andShenghua Gao.在具有深度先验的人群中定位和计数人头。IEEE Transactions on Pattern Analysis and MachineIntelligence，2021。3[19] DongzeLian ， Jing Li ， Jia Zheng ， Weixin Luo ， andShenghua Gao.用于rgb-d人群计数和定位的密度图回归引导检测网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第1821-1830页，2019年。3[20] Weizhe Liu，Mathieu Salzmann，and Pascal Fua.情境感知的人群计数。在IEEE/CVF计算机视觉和模式识别会议论文集，第5099-5108页，2019年。二、三[21] Ze Liu，Yutong Lin，Yue Cao，Han Hu，Yixuan Wei，Zheng Zhang ， Stephen Lin ， and Baining Guo. Swintransformer：层次视觉Transformer，使用移位的Win-10.在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第10012二零二一年十月。8[22] Ze Liu ， Jia Ning ， Yue Cao ， Yixuan Wei ， ZhengZhang ， Stephen Lin ， and Han Hu. 视频摆动Transformer。arXiv预印本arXiv：2106.13230，2021。三五六七[23] Erika Lu，Weidi Xie，Andrew Zisserman.类不可知计数。亚洲计算机视觉会议，第669-684页。Springer，2018. 3[24] 科斯塔斯·帕纳吉塔基斯，乔戈斯·卡武纳斯，安东尼斯·阿吉罗斯.视频中周期性片段的无监督检测。2018年第25届IEEE 图像处理国际会议（ ICIP ），第 923-927 页。IEEE，2018年。3[25] 赵凡秋，姚婷，陶梅。用伪三维残差网络学习时空表示。在IEEE计算机视觉国际会议论文集，第5533-5541页，2017年。3[26] Yang Ran，Isaac Weiss，Qingdao Zheng，and Larry S.戴维斯基于周期运动分析的行人检测。Int. J.Comput.目视，71（2）：143-160，2007. 1[27] Viresh Ranjan、Hieu Le和Minh Hoai。迭代人群计数。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年9月。二、三[28] 埃文·里布尼克，尼科斯·帕帕尼科洛普洛斯，埃文·里布尼克，和尼古拉斯·帕帕尼科洛普洛斯。从单个视图进行周期性运动的3D重建。1[29] 汤姆·F. H. Runia，Cees G. M. Snoek和Arnold W. M. 史默德斯通过div、grad和curl进行真实世界的重复估计。在IEEE计算机视觉和模式识别会议论文集（CVPR），2018年6月。第1、3条[30] NilakornSeenouvong 、 UkritWatchareeruetai 、Chaiwat Nuthong 、 Khamphong Khongsomboon 和Noboru Ohnishi。基于计算机视觉的车辆检测与计数系19022统。2016年第八届国际会议19023知识和智能技术（KST），第224IEEE，2016. 3[31] 安德里亚·索罗，吉诺·布伦纳，西蒙·坦纳，罗杰·瓦特滕霍夫.使用深度学习进行复杂体育锻炼的识别和重复计数。传感器，19

下载后可阅读完整内容，剩余1页未读，立即下载