没有合适的资源?快使用搜索试试~ 我知道了~
大规模搜索与上下文感知网络传播和圈长分布细化周期长度优化
670大规模搜索与上下文感知网络传播与圈长分布细化周期长度优化上下文感知和尺度不敏感的时间重复计数张怀东1,徐学苗1,2,3,韩国强1,何胜峰11华南理工2亚热带建筑科学3计算智能与网络空间信息广东省重点实验室输入视频(a)短周期(跳绳)(b)长周期(台式压力机)(c)可变循环(演奏小提琴)(d)双运动循环(前爬行)计数= 4.07图1:重复动作的不同周期长度和上下文相关运动对计算时间重复提出了挑战我们提出了一个上下文感知和规模不敏感的框架来应对这些问题。计数过程以粗到细的方式设计,与上下文感知网络集成,用于检测双向重复动作。摘要时间重复计数旨在估计给定重复动作的循环次数。现有的深度学习方法假设重复动作是在固定的时间尺度上执行的,这对于现实生活中复杂的重复动作是无效的。在本文中,我们定制了一个上下文感知和规模不敏感的框架,以解决未知的和不同的周期长度造成的重复计数的挑战。我们的方法结合了两个关键见解:(1)来自不同动作的周期长度是不可预测的,这需要大规模搜索,但是,一旦确定了粗略的周期长度,重复之间的变化可以通过回归来克服。(2)确定周期长度不能仅仅依赖于视频的一小段,而是要对上下文进行理解。第一点是通过由粗到细的循环细化方法来实现的。它避免了穷举搜索视频中所有周期长度的繁重计算,而是以分层方式传播粗略预测以进行进一步细化。其次,我们提出了一个双向的周期长度估计方法的上下文感知预测。它是一个回归网络,以两个连续的粗略周期作为输入,并预测前一个和下一个重复周期的位置。有利于时间重复的训练和评价徐学苗和何胜峰为联合通讯作者。电子邮件:xuemx@scut.edu.cn,hesfe@scut.edu.cn计算区域,我们构建了一个新的和最大的基准,它包含526个视频与不同的重复动作。大量的实验表明,在单个数据集上训练的网络在几个基准测试中的表现优于最先进的方法,这表明所提出的框架足够通用,可以 捕 获 跨 域 的 重 复 模 式 。代 码 和 数 据 在https://github.com/Xiaodomgdomg/Deep-Temporal-Repetition-Counting中可用。1. 介绍人类活动通常涉及重复动作。时间重复计数是一个旨在对视频中重复动作的数量进行计数的问题[7,14,21,26]。重复分析被探索作为其他视频分析应用的辅助线索,例如心脏和呼吸信号恢复[16],行人检测[22],3D重建[15,24]和摄像机校准[11]。这是一个具有挑战性的问题,因为重复的动作表现出固有的不同动作模式。我们在图1的左侧部分总结了4个代表性案例。图1(a)和(b)显示了最常见的重复,其中动作在固定周期内进行。检测这两个重复的问题是,它们的周期长度变化很大,因此,对跨动作的周期长度的时间尺度671在图1(c)中,拉小提琴的情况表明,周期长度并不总是一个固定值。这种情况与(a)和(b)相反,因此,将以周期性方式执行动作的假设是错误的。在图1(d)中,一个前爬行动作可以分解为两个具有相似运动场的子动作,分别用左手和右手爬行。由于两个子动作在运动空间上具有相似性,因此应考虑语义空间上的上下文信息,以避免重复计算错误。大多数现有的方法[3,7,14,16,21]严重依赖于周期性假设。因此,尽管代表性工作[14]在周期性数据集YTsegments上实现了近乎完美的性能,但它无法检测非静止视频数据集QUVA Repetition[25]中的变化周期长度。虽然最新的工作[26]解决了这个问题,但它仅基于运动场来检测重复。因此,它与如图1(d)的场景相冲突,在图1(d)中,重复不能通过运动场来区分,并且需要上下文和语义信息基于上述观察,我们认为重复检测应该:1)过度搜索大范围的周期长度,以覆盖大多数未知动作; 2)包括上下文理解和考虑多个周期来估计周期长度在本文中,我们根据上述原则定制了一个上下文感知和规模不敏感的框架。数据流显示在图1的右侧。遵循规则#1穷举搜索所有时间尺度绝对可以解决周期长度变化问题,但它导致昂贵的计算。我们打击这个问题,lem提出了一个粗到细的周期长度估计策略与回归网络集成。特别地然后,初始估计被传播到整个视频,并且视频中的每个估计重复都通过我们的回归模型进行细化。通过这种方式,我们大大降低了搜索准确周期长度的计算成本,同时我们可以适应同一视频中周期长度的大变化所提出的回归模型处理规则#2,其中我们注入上下文信息以估计准确的周期长度。具体地说,我们不是只取一个动作循环作为输入,而是对视频进行采样,使其包含两个连续的重复,称为双循环。在这样广泛的背景下,我们的回归模型旨在以双向的方式重新定位之前和未来的重复周期此外,现有的重复动作计数研究缺乏足够的数据,因此,我们提出了一个新的重复动作计数基准,命名为UCFRep。它是通过从广泛使用的数据集UCF 101[28]中注释重复动作而构建的,它是包含526个视频的最大数据集。丰富的经验-实验结果表明,该方法能够处理各种重复动作,并且在三个基准测试中优于现有的方法。我们的贡献有四个方面:(1) 我们提出了一种由粗到精的双周期估计策略,该策略与回归相结合,可以快速估计整个视频的周期长度并动态重新定位不同的周期。(2) 我们提出了一个双向上下文感知回归模型。它探索上下文信息,以双向方式同时估计先前和未来的周期。(3) 我们构建了一个新的和最大的基准UCFRep。526个重复动作视频被注释用于训练和评估。(4) 所提出的网络优于国家的最先进的方法在三个基准,特别是我们实现了优越的性能两个看不见的基准(没有微调)。结果表明,该框架对复杂未知场景具有较好的通用性.2. 相关工作时间重复计数的典型解决方案是将运动场转换为一维信号,然后尝试从信号周期恢复重复结构[1,13,19,20,30]。这些方法的主流是通过傅立叶分析获得重复频率[2,3,7,21]。此外,他们还通过文件检测周期[4],峰值检测[29],分类[8]和奇异值分解[6]。上述方法假设估计重复是周期性的,使得它们不能处理非平稳重复。最近的一项工作[26]解决了这一限制,并提出了一种新的推理方案来检测非静止动作。然而,他们只采用运动场来提取特征进行分析,而忽略了语义域的上下文相关性。和我们一样,有些方法也使用深层特征进行重复分析。Li等人。 [16]提出通过在图像序列上采用LSTM网络来学习时间依赖性。They aim to recover the cardiacand res- piratory signals from the medical image sequence,as such their method cannot handle complex repetitions inreal- world. Levy和Wolf [14]旨在提出一种用于实时重复估计的分类网络。他们的网络被设计为以预定义的采样率从视频中提取20帧的特征。如上所述,预定义的周期长度不能适应周期长度变化大的复杂重复动作。动作本地化[17,18,27]与时间域中的动作这些方法旨在672双环回归网络由粗到精的双循环精炼拉格尔尺度搜索1级采样上下文感知功能2级3D骨干FCFCcls ®.cls ®.…………IN原始双循环{tp(i),tn细化精炼双循环{tpr(i),tnr最后阶段周期1周期2输入视频双循环蒸馏,精炼I1............我我Ii+1.....................L1...LMLM+1...L2M图2:框架概述。所提出的上下文感知双循环回归网络如左图所示。它基于从前一个双循环采样的上下文信息回归新的双循环{tpr(i),tnr(i)}{tp(i),tn(i)}。 在右边的部分,一个由粗到细的双循环细化方法进行说明。 我们首先进行详尽的在第一阶段进行局部搜索,并在随后的阶段中传播和细化初始双循环准确计数结果可以通过平均视频中的所有周期长度来获得以便在整个视频中定位每个动作的时间开始点和结束点,因此这些方法可以容易地适用于重复计数领域。然而,这些方法单独找到动作片段,这意味着它们忽略重复先验以有效地利用上下文信息。在我们的方法中,我们借用了基于锚点的时间回归的思想,并进一步探讨上下文依赖。目标制定。在本文中,我们的目标是计算给定视频的时间重复数c。如果动作在视频中是强周期性的,我们可以假设整个视频的周期长度是恒定的。然后,我们可以通过找到的前一个和下一个重复帧位置{p(i),n(i)}来容易地估计重复次数。并计算重复c为:3. 方法Nc==i−p(i)+1Nn(i)−i+1.(一)在本节中,我们首先介绍问题公式和概述所提出的上下文感知和规模不敏感的框架。然后,我们描述了我们的框架的两个核心模块,上下文感知的双循环回归网络和粗到细的双循环细化。然而,在现实世界中,重复之间的变化不能被忽视。为了解决这个问题,我们建议通过估计{p(i),n(i)}。因此,我们将问题公式化为最后,我们提出了我们新构建的时间重复基准的细节3.1. 问题公式化ΣNC=i=1.0的情况。5 +i−p(i)+1Σ0的情况。5n(i)−i+1.(二)重复定义。我们有一个不同的问题设置,比以前的作品,因为我们的目标是以双向的方式定位以前和未来的周期。 给定具有N个帧的视频I ={I1,I2,.,在N}中,可以定义重复如下:对于帧I,如果我们可以找到前一帧Ip(i)和未来帧In(i),使得两个帧序列{Ip(i),Ip(i)+1,..., Ii}和{Ii,Ii+1,..., In(i)}包含相同的动作,则在这两个序列中存在两个重复。 我们将这两个连续的周期称为双周期,并且将Ip(i)作为Ii的前一个重复帧,并且将In(i)作为Ii的下一个重复帧。两个循环长度可以计算为tp(i)=i-p(i)+1和tn(i)=n(i)−i+1。 为了清楚起见,我们定义{tp(i),tn(i)}作为描述具有帧i的两个连续重复的双循环。3.2. 框架概述根据目标公式,我们的框架被设计为预测所有位置i∈ {1,2,., N}个。我们首先提出了一个上下文感知的双循环回归网络,在图2的左半部分,并在第3.3节中描述。该网络的目的是改善给定的双循环为673具体位置。给定一个初始的双循环,我们的网络基于一些采样的视频帧提取3D特征,并输出一个新的双循环{tpr(i),tnr(i)}。利用从大范围视频帧中提取的上下文信息,网络能够识别重复并容易地回归循环长度。此外,该过程被执行多次以获得逐渐细化的双循环。如上所述,应执行穷举搜索它还可以为回归网络提供一个合理的初始双循环。我们不是搜索整个视频,而是首先在视频中进行局部搜索,然后将预测传播到其他帧。图2的右边部分显示了我们的方法,并在第3.4节中进行了描述。我们在视频的中间帧中执行一次穷举搜索,使得初始双周期可能与其他双周期在相同的尺度内。然后将其推广到其他框架,每个新框架与回归网络集成以进行局部细化。对于每个阶段,我们对位置进行均匀采样,算法1从粗到精的双循环精化输入:视频长度N,双循环回归网络F,细化阶段的数量K输出:双周期预测{tp,tn}1:初始化队列Q2:通过网络F的全局搜索确定{tp(N/2),tn(N/2)}3:将{tp(N/2),tn(N/2)}推入Q第四章: 对于k= 1,2,…K-1DO5:初始化点集Sk,其中在视频上均匀采样2k个6:用Q中的预测初始化{tp(Sk),tn(Sk)}7:用网络迭代地细化{tp(Sk),tn(Sk)}F8:将{tp(Sk),tn(Sk)}推入Q第九章: 端10:返回队列Q的{tp,tn}{yp,yn},对于回归{tp,tn},我们用公式表示总体损失函数:L=(Lcls(yp,yp)+Lcls(yn,yn))+这样采样的位置就可以是传播的。.˜˜ Σ(三)根为下一阶段。视频的最终重复计数可以通过所有帧的重复计数求和来计算。3.3. 双圈回归网络网络的目标是细化指定位置i的输入双循环{tpr(i),tnr(i)}。为了提取用于回归的固定大小的特征,我们在双循环内对特定帧进行采样。如图2的左侧部分所示,网络输入L是具有2M帧的序列,其由两个半帧组成我们抽取前半部分从范围[i-2tp(i),i]均匀输入,从范围[i+1,i+2tn(i)+1]下半输入。请注意,我们将采样范围加倍以检测大的置信度,如图1(d)中的双运动文本。然后将采样的序列L馈送到3D骨架模型中。 我们使用3D-ResNext 101 [10,31]在Activ- ityNet [5]上预训练。其他的网络架构也被应用,请参考实验的细节。 我们删除最后一个分类层,并 使 用 池 化 后 的 输 出 作 为 上 下 文 感 知 的 1D 特 征(ResNext101为4096维)。然后将特征馈送到新添加的预测分支中进行分类和回归。预测分支是两个全连接的层,具有多锚点,其中我们使用7个锚点,具有默认大小{0。5,0。66,0。八,一。0,1。25,1。五二0}来检测不同大小的重复注意,总共使用14个锚,因为我们有两个周期{tpr(i),tnr(i)}。在训练期间,3D主干和添加的分支端到端地训练,具有分类损失和回归损失。用网络输出进行分类λLreg(tp,tp)+Lreg(tn,tn),其中Lcls是softmax之后的交叉熵损失,Lreg是平滑的L1回归损失[23]。{tp,tn}是具有尺度参数化的代表不变中心平移和对数空间周期长度移位[9]。{yp,yn}是分类标签,如果双循环预测和地面真值的交并(IoU)大于0,则其等于1。5,否则为0。λ是根据经验设置为50的加权因子。在推理期间,目标{tpr(i),tnr(i)}等于具有最高分类的锚的回归输出。sification score.3.4. 粗到精双循环细化由于网络从由原始双循环{tp(i),tn(i)}确定的上下文中提取特征,因此良好的初始化将有助于改善定位。为此,我们提出了一个分层的管道,以提供初始化,通过确定双循环在一个粗略的,很好的方式。所提出的流水线的核心思想是不同帧之间的周期长度变化可以通过回归来克服,特别是对于相邻帧。因此,每个阶段我们在整个视频的均匀采样位置上细化结果,使得下一阶段的初始化可以受益于前一阶段的相邻预测。如图右部所示,图2,在第k阶段,我们在均匀采样位置i ={N/2k,3N/2k,.,(2k −1)N/2k}。每个位置的预测由两个过程组成,初始化和细化。算法1说明了初始化和细化管道。674(a) 切割0.12-3.00(s)(f)蹦床跳跃0.60-1.56(s)(b) 锤击0.24-1.88(s)(g)骑自行车0.64-2.08(s)(c) 剃须胡须0.24-3.16(s)(h) 乒乓球击球0.64-3.20秒(d)呼拉圈0.32-0.92(s)(i) 手倒立俯卧撑0.88-4.04(s)(e)足球杂耍0.32-2.08(s)(j)赛艇1.16-4.12(s)图3:来自UCFRep基准不同类别的10个示例。我们在图像下方标注每个类别的最小和最大周期长度,指示周期长度变化。初始化。对于第一阶段,我们让中间位置的双循环{tp(N/2),tn(N/2)}等于从大尺度[μ1,N/μ2]中采样的值,然后通过网络分类确定初始尺度信心在其他阶段中,我们按照图2右侧的箭头方向传播前一阶段的预测作为初始化。特别地,每个位置找到用于初始化的先前细化的邻居。如果只有一个邻居可用(当前阶段的第一个/最后一个位置),我们直接将其用作初始化。否则,我们平均合并来自前一个邻居和下一个邻居的两个观测值。该方案在第一阶段只进行一次高计算量的搜索,有效地利用了细化结果进行所有帧的初始化。精炼。初始化后,我们对给定位置i的双循环估计进行 细 化 . 利 用 回 归 网 络 的 精 化 结 果 {tpr ( i ) , tnr(i)},采用指数移动平均机制更新位置i换句话说,我们用等式{tp(i),tn(i)}更新估计:β{tp(i),tn(i)}+(1−β){tpr (i),tnr(i)},其中β是衰减因子设置为0。5经验主义注意,可以迭代地执行细化以实现更精确的结果。在粗到细的细化之后,我们获得均匀采样位置上的周期长度预测。为了通过采样2K-1个点而不是所有N个帧来对动作进行计数,我们使用最后阶段的预测来通过修改等式2来呈现所有帧的预测:3.5. UCFRep基准之 前 的 重 复 数 据 集 YT segments[14] 和 QUVARepetition[25]仅包含100个用于评估的视频。由于缺乏标记数据,以前的深度学习工作[14]在合成数据上训练他们的模型尽管仿真的设计是量身定制的,但合成数据与实际数据之间的域差距是不可忽视的。基于此,我们提出了一个动作重复数据集,称为UCFRep基准,旨在为数据驱动模型的训练和评估提供一个环境拟议基准中的所有数据都是从广泛使用的动作识别数据集UCF 101中收集的[28]。因此,所提出的基准集中于评估人类行为的重复计数性能。尽管所有数据都标有类别,但我们发现,在基准上训练的拟议网络足够通用,可以在实验中很好地执行以前看不见的数据集YTsegments和QUVA Repetition主要从数据收集、重复标记和数据集统计三个方面数据收集。原始UCF 101[28]是动作视频的动作识别数据集。从YouTube上收集了13320个视频,并进一步分为101个动作类别。每个类别中的视频根据它们是否具有共同特征(例如相似的背景,视点等)分为25组。我们检查了数据集中的所有101个类别,并选择了23个类别,在这些类别中循环采取行动。图3中显示了10个类别的示例K−12ΣC=i=1N2K−1.0的情况。5tp(s)Σ0的情况。5+tn(s),s=、、、(2i−1)N2K,重复标记。我们注释了类似于QUVA Repetition[25]中的原则请两名注释人员标出间隔其中第K级是最后一级。(四)包含每个视频中的重复和重复帧。首先,从原始UCF101中的每个组,我们要求675YTSegQUVA我们Num.的视频100100526持续时间148717543500Num.的计数108012463506最小/最大计数4/514/633/54最小循环-0.200.12最大循环-7.696.76最大/最小循环-38.7656.33循环变动0.220.360.42表1:YT段[14]、QUVA重复[25]和拟定UCFRep的数据集统计。我们的数据集在视频数量、总时长和注释数量方面都比以前的数据集视频之间的周期长度范围很广循环变化是最小和最大循环长度之间的绝对差除以平均循环长度的平均值。注释者选择一个重复最清晰的视频如果没有发现重复,该组中的所有视频结果,49组无法找到任何重复,在我们的基准测试中收集了23·25−49= 526个视频通过这些视频,我们让注释者阻止-挖掘重复间隔。我们将间隔的第一个框架视为参考,并要求注释者标记间隔内所有重复的参考框架最后,我们使用它们的注释的平均值作为最终标签,并且重复帧的数量确定重复计数。数据集统计。我们总结了数据集统计数据,通过线性插值。在测试过程中,我们执行K =5阶段的粗到细细化。我们的初始穷举搜索是在30个尺度(从4到N/2)上进行的,在第一和第二阶段进行了4次精化,在第三阶段进行了2次精化,在第四到第五阶段进行了1次精化,得到了30 + 4·(1 + 2)+2·4 + 8 + 16 =74个正向的es-评估网络我们的方法的运行时间取决于在网络转发的时间上,1.8秒来处理一段视频。评价数据集。我们在三个视频数据集上评估我们的方法:现有的数据集YTsegments [14]和QUVA Repetition[25],以及建议的基准UCFRep。YTsegments和QUVARepetition都包含100个视频,具有广泛的重复性,如人类和动物行为的运动。我们将来自YTsegments数据集和QUVA Repetition数据集的所有视频作为测试集,所有的训练和验证都在建议的UCFRep基准上完成。因此,我们根据UCF101中的组号将UCFRep基准测试中的视频分为训练集和验证集。将组号为1-20的421个视频分为训练集,组号为21-25的105个视频在验证集中。评估指标。根据以前的工作[14,26],我们通过计数精度来评估所提出的方法。对于每个数据集,我们报告给定K个视频的平均绝对误差(MAE)和偏离一个准确度(OBOA)表1.在建议的基准中,我们总共提供了526个1ΣK|c˜−c|视频时长3500秒3506循环边界是-为训练和评估提供了丰富的数据 该基准也有较大的变量-Mae = Ki=1我吉吉(五)与以前的数据集相比。循环的最大/最小值表示不同类型的重复之间的不同时间尺度的难度,以及循环变量。1ΣKOBOA = Ki=1[|ci−ci|≤1],(6)图中显示了视频中的周期长度变化。4. 实验实施详情。我们使用Pytorch实现了所提出的网络,并使用NVIDIA GeforceGTX1080Ti GPU对其进行了测试。网络的所有输入视频帧都被调整为112×112,我们构建了一个2M=32帧的网络。序列的 对于训练,我们使用Adam优化器[12],固 定 学 习 率 为 0.00005 , 批 量 大 小 为 24 。 我 们 在UCFRep上用100个epochs训练我们的网络。我们使用与所提出的粗到细细化相同的管道来训练我们的网络。 数据扩充用于扩展注释:如果两个连续重复的变化小于0.3,我们假设它们是周期性的。然后我们自动其中,c是地面实况重复计数。平均绝对误差是一种广泛使用的直接评估计数错误。如[26]中所介绍的,偏离1精度可以计算舍入误差并显示视频两端可能的循环截止。4.1. 与其他方法与现有的时间重复计数方法的比较如表2所示。我们将我们的方法与两种手工制作的特征方法[21,26]和一种基于深度学习的方法[14]进行了比较。由于[21,26]的完整源代码不可用,我们在之前的两个测试数据集QUVA Rep- etition和YT segments上对其进行了比较。我们可以观察到,我们的方法可以优于所有以前的方法。实验结果表明,在UCFRep上训练的方法具有较好的通用性676[14]第25话我的世界,我的世界表2:与用于时间重复计数的YT段、QUVA重复和UCFRep的现有方法的比较。使用UCFRep的方法是我们在UCFRep基准上训练的重新实现版本。17.515.012.5加速度对非平稳性的敏感性10.07.55.02.50.0利维·沃尔夫Runia等人我们表3:在UCFRep基准验证集上对拟定的粗到细细化方法进行的图4:根据[25]中的实验,在YT段数据集上对加速1x、2x和4x的鲁棒性进行评估。与以前的尺度不敏感方法[25]相比,我们的方法对时间尺度更鲁棒。其他数据集的常见重复。特别是对于非平稳数据集QUVA Repetition,我们的方法在MAE和OBOA上分别获得了6.9%和14%的改进,这表明我们的尺度不敏感框架可以更好地处理具有不同周期长度的视频。为了证明这些改进主要是由所提出的框架而不是新的数据集带来的,我们使用我们的训练/验证协议在新的基准上微调了基于学习的方法[14]。请注意,其他两个竞争对手[21,26]是训练免费冰毒-耗氧物质最初的实现[14]使用一个简单的3D网络来学习 20 个 50×50 图 像 作 为 输 入 的 合 成 数 据 我 们 用Resnext101替换他们的网络,从32个112×112帧中提取信息,以适应更高维的数据。 我们移除他们的ROI检测以保持推理序列与训练数据相似,其他实现遵循已发布的官方代码。毫不奇怪,由于训练数据数量的增加,与QUVA重复数据集上的原始实现相比,UCFRep然而,它不能在周期性数据集YTsegments上很好地执行,表4:在UCFRep基准验证集上提出的上下文感知估计网络的消融研究这是因为它们的合成数据是按照限制周期性假设创建的,而我们的数据集显示了各种类型的重复。与微调和原始版本相比,我们的方法在所有数据集上都优于它们,因为它们的网络设计仅考虑固定的动作规模。这些结果也证明了我们定制的上下文感知和规模不敏感的框架的成功。我们进一步评估我们的方法的时间尺度的鲁棒性。我们遵循[25]手动加速视频以实现不同的时间尺度。如图4所示,当视频以不同的速度处理时,对固定时间尺度方法的挑战[14](6. 1x和17的5%。2x的3%)。与结果(10。1x和14的3%。7%的2x)从现有的尺度不敏感的方法[25],我们的方法是更强大的速度变化(5。3%,1x,6。2x和8的2%。4x上的0%),这意味着我们的方法可以检测具有不同的重复时间尺度4.2. 消融研究我们在UCFRep验证集上进行消融研究在表3中,我们比较了我们的系统uti的性能,原始速度2倍加速4倍加速MAE↓OBOA↑MAE↓OBOA↑MAE↓OBOA↑Pogalin等人[21日]0.385 ±0.3760.490.219 ±0.3010.68--利维和沃尔夫[14]0.482 ±0.6150.450.065 ±0.0920.90--利维和沃尔夫[14]0.237 ±0.3390.520.142 ±0.2310.730.286 ±0.5740.68Runia等人[25日]0.232 ±0.3440.620.103 ±0.1980.89--Runia等人[26日]0.261 ±0.3960.620.094 ±0.1740.89--我们的-Resnet 180.190 ±0.3270.700.062 ±0.1250.910.213 ±0.3430.69我们的-Resnet 500.167 ±0.2930.750.081 ±0.2610.940.190 ±0.2880.74我们的-Resnet 1010.148 ±0.2900.750.066 ±0.1700.940.187 ±0.3030.77我们的-Resnext 1010.163 ±0.3110.760.053 ±0.1150.950.147 ±0.2430.79平均绝对误差MAE↓OBOA↑迭代阶段30.157 ±0.2840.7850阶段40.156 ±0.2540.7858阶段50.147 ±0.2430.7974级60.151 ±0.2540.79106MAE↓OBOA↑固定0.177 ±0.2800.70固定+mAnchor0.171 ±0.2490.71免费0.157 ±0.2430.76免费+mAnchor0.147 ±0.2430.796771级第三阶段第五阶段地面实况图5:来自QUVA Repetition数据集的视频的多阶段循环长度可视化在这个视频中,一个人正在绘画(在训练过程中看不到),我们的粗到细策略可以逐步细化周期长度。公制全部HulaHoop自行车锤击足球它只涉及一个局部预测。在第三阶段,MAE-avg 0.1470.1200.1230.1540.168第五阶段,传播和细化MAE标准品0.2430.2400.0620.1700.111实现与地面实况的高度重叠,表明表5:UCFRep基准验证集上不同操作类的性能差异。将不同的阶段作为由粗到细细化的最后阶段具有6个阶段的过程将在最后阶段涉及32次迭代,因此它总共需要74+ 32= 106次迭代。此表中的结果表明,在细化过程中涉及更多的阶段和计算可以改善结果。我们平衡了精度和速度之间的权衡,并选择阶段5作为最终阶段。我们还将上下文感知网络的性能与表4中的其他网络设计进行了我们首先比较了使用两个连续重复的双时间尺度(自由)或连续重复共享的单时间尺度(固定)的性能。双时间尺度下的结果优于单时间尺度下的结果,说明自由时间尺度有助于解决周期长度的多样性。此外,多锚点设计(mAnchor)结合双时标实现了最佳性能。这意味着回归可以在很大范围内细化周期长度,从而受益于多锚点预测,侧重于不同的时间尺度。在表5中,我们进一步显示了不同操作类的性能变化。我们可以看到,同一个动作类中的变化相对较小,这表明我们的模型对实例和类不敏感。4.3. 优化结果可视化为了显示从粗到细的细化过程,我们在图5中对来自QUVA重复数据集的视频的第一阶段、第三阶段和第五阶段的预测进行了可视化我们将每个重复预测设置为等于从最近采样位置开始的周期长度的舍入平均值从结果中,我们可以发现,我们对阶段1中的所有位置给出了相同的估计,因为提出的粗到细的细化可以克服变化,在连续的重复之间。5. 结论在本文中,我们提出了一种新的上下文感知和规模不敏感的框架时间重复计数。为了解决视频之间和重复内的不同周期长度所带来的挑战,我们提出了一种从粗到细的周期细化方案。我们不是用固定的时间尺度来检测重复,而是在开始时局部地搜索宽范围的时间尺度,并以从粗到细的方式对每个时间位置的尺度进行细化。我们进一步提出了一个上下文感知的回归网络来学习上下文特征,以识别错误和未来的重复。提出的网络被设计为从两个连续的重复中提取上下文感知的特征,并且基于锚的后端被定制为检测双错误或半错误。我们对所提出的时间重复计数框架进行了评估,并与最先进的方法进行了比较,在现有的基准测试以及我们新提出的数据集上取得了更好的结果。确认本 课 题 得 到 了 国 家 自 然 科 学 基 金 ( 批 准 号 :61772206 , U1611461 , 61472145 , 61702194 ,61972162),广东国家&重点研发项目(批准号:2018 B 010107003、2020 B 010165004、2020 B 010166003),广东省高-人才培养计划(批准号:2016 TQ 03 X319)、广东省国家自然科学基金会(批准号:2017 A030311027)、广州市产业技术重点项目(批准号:201802010027,201802010036),以及CCF-腾讯开放研究基金(CCF-腾讯RAGR 20190112)。9999999999913131314149991313131212141513109810131412121321121097111314678引用[1] 布兰赞·阿布,罗伯特·贝尔格·文,还有塞巴斯蒂安·奎里 昂 。 周 期 性 人 体 运 动 的 通 用 时 间 分 割 Pat-ternRecognition,41(1):6[2] 奥斯曼·阿齐和纳兰德拉·阿胡加周期性运动目标的分割ICPR,第1-4页[3] Alexia Briassouli和Narendra Ahuja。视频序列中多周期运动的提取与分析。IEEE TPAMI,29(7):1244[4] Gertjan J Burghouts 和 J-M Geusebroek 。 Quasi-periodicspatiotemporal filtering. IEEE TIP,15(6):1572[5] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet:人类活动理解的大规模视频基准。在CVPR中,第961-970页[6] DmitryChet v eri ko v和Sa'ndorFazekas。动态纹理的运动周期性。BMVC,第167-176页,2006年[7] Ross Cutler和Larry S.戴维斯稳健的实时周期性运动检测、分析和应用。IEEE TPAMI,22(8):781[8] 詹姆斯·戴维斯,亚伦·博比克,惠特曼·理查兹。振荡运动模式的数学表示与识别。见CVPR,第628-635页[9] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。在CVPR中,第580[10] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史吗?在CVPR中,第6546-6555页[11] Shiyao Huang,Xianghua Ying,Jiangpeng Rong,ZeyuShang,and Hongbin Zha.基于行人周期运动的摄像机标定。在CVPR中,第3025-3033页,2016年。[12] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议[13] Ivan Laptev,Serge J Belongie,Patrick Perez,and JoshWills. 通过近似序列比对的周期性运动检测和分割ICCV,第816-823页,2005年[14] 奥菲尔·利维和利尔·沃尔夫实时重复计数。在ICCV,第3020-3028页[15] Xiu Li,Hongdong Li,Hanbyul Joo,Yebin Liu,andYaser Sheikh.来自循环运动的结构:从僵硬到复发。在CVPR中,第3032-3040页[16] XiaoxiaoLi , VivekSingh , YifanWu , KlausKirchberg,James Duncan,and Ankur Kapoor.重复运动估计网络:从胸部成像中恢复心脏和呼吸信号arXiv预印本arXiv:1811.03343,2018。[17] 林天威,赵旭,苏海生,王崇景,杨明。BSN:用于临时行动建议生成的边界敏感网络。在ECCV,第3-19页[18] Fuchen Long,Ting Yao,Zhaofan Qiu,Xinmei Tian,Jiebo Luo,and Tao Mei.用于动作定位的高斯时间感知网络。在CVPR,2019年6月。[19] ChunMei Lu和Nicola J Ferrier。重复运动分析:分割和事件分类。IEEE TPAMI,26(2):258[20] 科斯塔斯·帕纳吉塔基斯,乔戈斯·卡武纳斯,安东尼斯·阿吉罗斯.视频中周期性片段的无监督检测。在ICIP,第923-927页[21] Erik Pogalin,Arnold WM Smeulders,and Andrew HCThean.视觉准周期性。在CVPR,第1-8页[22] Yang Ran , Isaac Weiss , Qinfen Zheng , and Larry SDavis. 基 于 周 期 运 动 分 析 的 行 人 检 测 。 IJCV , 71(2):143[23] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn : 利 用 区 域 建 议 网 络 进 行 实 时 目 标 检 测 。 在NeurIPS,第91-99页[24] 埃文·里布尼克和尼古拉斯·帕帕尼科洛普洛斯。从单个视图3D重建周期性运动。IJCV,90(1):28[25] Tom FH Runia 、 Cees GM Snoek 和 Arnold WMSmeulders。通过div、grad和curl进行真实世界的重复估计。在CVPR中,第9009-9017页[26] Tom FH Runia 、 Cees GM Snoek 和 Arnold WMSmeulders。重复估计。IJCV,127(9):1361[27] 郑寿,王东港,张世福基于多级cnn的未裁剪视频中的时间动作定位在CVPR,第1049-1058页[28] Khurram Soomro、Amir Roshan Zamir和Mubarak Shah。Ucf101:来自野外视频的101个人类动作类的数据集arXiv预印本arXiv:1212.0402,2012。[29] 阿什温·坦加利和斯坦·斯克拉罗夫。通过空时采样的周期运动检测和估计。在WACV,第176 - 182页,2005中。[30] Christopher J Tralie和Jose A Perea。使用拓扑的视频数据中的(准)周期性量化。SIAM Journal on ImagingSciences,11(2):1049[31] 谢赛宁、罗思思·吉希克、彼得·多尔·拉尔、朱奥文·图和何开明。深度神经网络的聚合残差变换。在CVPR,第14
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功