没有合适的资源?快使用搜索试试~ 我知道了~
5999离线人员检测器动作分类前框架显示/wgr/ogrnodu-trundth-trFrFramamamemesews/wogr/oougnrod-utrundth-tUsUsedasksekyferasmesmess mes s m es m es s m esm es端到端检测器一种简单高效的端到端时空动作检测器流水线林绥2* 张晨琳1<$顾立新3韩锋31 4 Paradigm Inc.,中国北京2南京大学软件新技术国家重点实验室3DataElem Inc.,中国北京{suilin0432,zclnjucs}@ gmail.com{gulixin,hanfeng}@ dataelem.com摘要时空动作检测是视频理解的重要组成部分。目前的时空动作检测方法大多使用对象检测器来获取候选人,并将这些候选人分类到不同的动作类别中。所谓的两阶段方法是沉重的,难以在现实世界中的应用。有的存在-不(a) 前两阶段方法TLA(b) ME-STAD但是普通的一级流水线存在很大的性能下降,并且需要额外的分类模块来实现可比较的性能。在本文中,我们探索了一种简单有效的流水线来构建一个强大的单级时空动作检测器。管道由两部分组成:一种是简单的端到端空间-时间动作检测器。所提出的端到端检测器对当前基于提议的检测器具有较小的架构更改,并且不添加额外的动作分类模块。 另一部分是一种新的标记策略,用于在稀疏注释数据中保留未标记的帧。我们将我们的模型命名为SE-STAD。所提出的SE-STAD实现了大约2%的mAP提升和大约80%的FLOP降低 。 我 们 的 代 码 将 在 https://github.com/4paradigm-CV/SE-STAD上发布。1. 介绍时空动作检测(STAD)是视频理解的重要组成部分,其目的是对视频中多个人计算机视觉社区在STAD领域引起了广泛关注[36,7,42]。在先前的方法中,STAD通常被划分成两个子任务:演员定位和动作分类。先前的方法主要利用预先训练的对象检测器[33,45]并在目标数据集上对其进行微调,以获得*这项工作是在林穗在4Paradigm实习时完成的。†通讯作者图1. 与以往两阶段方法的我们的SE-STAD (一).以前的两阶段STAD方法使用重离线人检测器,其也依赖于额外的数据来执行演员定位,并且它们仅使用关键帧的注释来训练动作分类器。(b).我们的SE-STAD训练了一个端到端的时空动作检测器,其中演员本地化部分只占计算的一小部分。我们还提出了时间标签分配(TLA),以利用大规模稀疏注释数据集中的未标记帧,如AVA [13]。候选人。然后,建议被送入行动分类器网络,以获得最终的行动预测。然而,这些两阶段方法是繁重的,并且通常需要额外的数据(例如MS-COCO [24])。它们需要单独的模型和大量的计算资源。这使得当前的方法无法应用于实际应用。最近的一项工作[5]表明,在行动者定位和行动分类之间存在着一个困境。演员定位只需要单个图像,而动作检测需要整个输入序列。因此,[5]提出了一种端到端方法W00,其使用统一的主干来执行演员定位和动作检测。然而,它们仍然有一个显着的性能下降与香草结构,并需要引入一个额外的注意模块到分类头,以提高性能。在本文中,我们提出了一种新的方法命名为简单有效的时空动作检测,简称SE-STAD。SE-STAD的通用管道如图所示。1. SE-STAD由两部分组成。一种是强烈的单阶段时空作用不离线人员检测器未用作关键帧BBooxxPrrooopopsolsalTTLLAA行动不动作分类行动动作分类S行动6000检测器架构。针对检测器的定位能力,该架构对现有的两阶段方法进行了微小的架构修改。因此,我们的方法可以应用到许多现有的STAD方法具有可比的性能和更少的计算负担。通过少量添加组件和有效的训练策略,我们能够同时进行演员定位和动作分类,而不会失去准确性。与现有的工作相比,我们的工作是轻量级的,联合优化,避免了单独学习的困境。此外,我们还首次从本地化能力的角度探讨了构建端到端STAD的策略。SE-STAD也可以从其他方法中获益,例如采用基于注意力的分类头[5,29]。第二部分是一个新的范式,利用稀疏注释的时空数据集的每一个可能的信息。 稀疏标注是构建大规模STAD数据集的一种有效方法,只有关键帧才会被标注(例如,[13]第十三话巨额的框架没有注释。 因此,我们建议利用这些未标记的数据来提供更清晰的时间动作边界,并帮助检测器学习细粒度的信息。考虑到稀疏注释STAD数据集中未标记数据的独特性,我们提出了一种新颖的伪标记策略:时间标签分配(TLA)生成伪标签。在TLA的帮助下,端到端的时空动作检测器成功地充分享受了稀疏注释数据集的未标记数据的性能增益我们的贡献如下:我们提出了一个简单而有效的管道来建立端到端的时空动作检测方法。所提出的流水线可以应用于许多现有的时空动作检测方法。我们构建了一个简单的端到端动作检测架构,采用有效的训练方法,避免了额外的离线人员检测器,并实现了与两阶段方法相当的性能。提出了一种新的半监督学习策略和伪时间标记策略,以充分利用稀疏标注数据中所有可能的信息。与基于建议的方法和具有额外建议的一阶段方法相比,使用建议的管道,我们实现了2.2%/1.5%的mAP提升和大约80%/20%的FLOP减少。2. 相关作品在本节中,我们将介绍与我们的SE-STAD相关的工作,包括时空动作检测,对象检测和半监督学习。时空动作检测时空动作检测(STAD)的目的是检测输入视频片段中不同人物因此,STAD模型需要了解空间和时间信息。在大规模数据集被注释和引入后[13,19],STAD受到了研究者的极大关注。大多数现有的作品通常遵循传统的Fast-RCNN [10]管道,其中预提取建议以执行STAD [13,20,42,29,6]。以前的工作[43]表明原始R-CNN [11]流水线更适合时空动作检测。然而,这些工作是繁重和低效的。除了这两阶段方法外,研究者们还提出了一些单阶段的动作检测方法。一些作品[13,8]也采用Faster-RCNN [33] 管 道 , 但 性 能 较 低 。 早 期 的 作 品 包 括YOWO [16],ACRN [36]和Point3D [28],它们结合了预先训练的2D和3D主干来构建伪端到端检测器。最近,WOO [5]提出了一种用于端到端动作检测的单级统一网络。WOO首先利用Sparse-RCNN [37]以及关键帧来生成候选动作。 然后将候选动作输入分类器以获得最终结果。在香草结构中,WOO与基于提议的方法有很大的性能差距。因此,WOO利用一个额外的注意力模块来提高性能。相比之下,SE-STAD对当前基于建议的架构进行了简单的修改.我们只添加了一个简单的对象检测器,并利用更好的训练策略,我们取得了比WOO和基于建议的方法更好的结果。除了检测结构方面,许多研究人员还提出了新的模块来提高性能,包括特征库模块[42,29],注意力模块[29,5]和基于图形的方法[9,36,48]。然而,我们希望建立一个简单而强大的模型,用于端到端的时空动作检测。因此,我们不添加任何额外的模块到我们的SE-STAD。对象检测演员定位需要检测输入图像中人物的位置。因此,需要物体检测。目标检测一直是计算机视觉领域的热门领域。早期工程通常使用带有预定义锚点的两级管道[11,10,33]。提出了一阶段方法,特别是无锚检测器,以减少目标检测的计算负担[23,32,25,39,50]。无锚探测器易于在实际应用中使用最近的方法希望以端到端的方式训练对象检测器[3,37]。在本文中,我们采用一级无锚检测器FCOS [39]作为SE-STAD中的人员检测器。FCOS是一种简单而有效的人员检测器。半监督学习(SSL)旨在借助额外的未标记数据实现更好的性能。简而言之,最近的半监督学习主要遵循两种方式:引入一致性正则化[31,2,44]或执行伪标签[18,38,40]。 其他一些作品,如[35]也···6001∈∈{}DDLLL1M1m将这两种方法合并为一种方法。半监督目标检测(Semi-supervised object detection,SSOD)是SSL中的一个重要分支,近年来受到了广泛的关注。CSD [14]使用了预测的一致性和建议的背景消除。其他一些作品[26,47,46]构建了Mean Teacher[38]框架的变体,并实现了有希望的性能提升。然而,在传统的半监督学习任务中,未标记的数据被额外地引入而没有限制。然而,在大规模稀疏注释的STAD数据集中,如AVA [13],未标记的帧与附近的标记帧具有高度相关性。标记部分和未标记部分之间的时间约束在STAD领域尚未被探索。3. 方法在本节中,我们将详细介绍我们的SE-STAD。3.1. 符号我们将首先定义本文中使用的符号。给定时空动作检测数据集,其由总共m个视频组成:. . 、V m. 为了简单起见,我们假设所有视频都具有相同的高度h、宽度w和帧数n。因此,V iRn×h×w×3。时空动作检测需求以检测特定输入帧中的人的动作类别对于Vi中的帧Fj,我们需要为F j中的每个人检测元组(x1,y1,x2,y2,cls)。(x1,y1,x2,y2)是人的空间位置,并且cls[0,1]C是操作类别,其中C是预定义的操作类集合。在广泛使用的稀疏注释数据集中,例如AVA [13],地面实况注释以每秒一帧的速度进行注释。对于这样的数据集D,我们将标记部分记为Dl={Vl,· · ·,Vl},其中时间动作检测因此,我们希望对当前基于提议的方法进行最小的修改,以有效且高效地执行时空动作检测。 我们将我们提出的模型命名为简单有效的时空动作检测(SE-STAD)。3.3. SE-STAD我们提出的SE-STAD由三个部分组成:特征提取部分,演员定位部分和动作分类部分。我们把这三个部分合并成一个网络.我们将逐步介绍这三个部分。3.3.1特征提取在这一部分中,我们直接使用现有的动作分类骨干,即,Slow Fast [7]用于特征提取。此外,SE-STAD可以利用任何现代主干来提高性能,包括最近的基于Transformer的模型,即,[27]第27话:“我的心”,“我的心”,“我的心”。3.3.2演员本地化部分我们需要在SE-STAD中执行角色本地化预处理,单独的预训练对象检测器用于演员定位,最常用的是具有ResNeXt-101 [45]主干的Faster-RCNN [33]。然而,单独的对象检测器具有额外的沉重的计算负担,这是低效的。最近的工作WOO [5]提出将现有的物体检测头,即,将R-CNN [37]稀疏到当前的动作分类骨干中。在本文中,我们遵循WOO [5]中的建议,利用关键帧的空间特征执行演员定位针对输入分辨率和效率较低的问题,我们选择了一种流行的单级无锚点物体探测器FCOS [39]。因此,当地演员的损失符号Y1={A1,···,A1},未标记部分为1mDu ={V u,···,V u}。3.2. 动机如图所示。2.以前的STAD方法通常遵循两级流水线并利用两个网络:首先使用离线对象检测器进行人员检测,然后将检测到的感兴趣区域(ROI)馈送到transmartFast-RCNN风格的网络中以获得最终的动作预测。两级网络效率不高。此外,他们总是需要额外的数据(如MS-COCO [24])来训练额外的人员检测器。WOO [5]使用统一的主干来同时执行角色本地化和动作分类。然而,他们的统一模型导致了大的性能下降,WOO [5]提出了一个额外的嵌入交互头来提高性能。与这些额外的模块相比,我们希望构建一种统一的、端到端的、简单的方法化是:Lal=Lcls(ci,bi)+Liou(ci,bi)+L中心度(ci,bi)其中ci表示视频剪辑,bi表示ci的关键帧的地面实况边界框。cls,iou和centerness分别是二元分类(演员的存在)的Focal损失[23],边界框回归和centerness预测的GIoU损失[34]。与Sparse-RCNN [37]相比,FCOS具有密集的输出pro-prism(在后处理之前),稍后我们将展示密集的输出(没有后处理)对STAD性能的影响。节中4、我们对不同的演员定位头进行了消融实验,包括基于锚点的头和无锚点的头,以验证不同头的有效性,并提出了相应的训练策略。我们的模型使用了一个简单的演员本地化头,并且比vanilla WOO [5]表现得更好,甚至可以与具有额外注意力模块的WOO相比或更好(一)6002LLLsupNAC我 我 我CLSal我 我Res5FCOS头P5FCOS头……Res4P4分类负责人FCOS头Res3P3不视频骨干演员定位动作分类图2. 我们的SE-STAD概述。整个管道由三部分组成:视频主干、演员定位部分和动作分类部分。在演员本地化部分,我们在Res3和Res4层的关键帧特征之上构建特征金字塔。在执行演员本地化之后,FCOS头生成的建议将用于从Res5中提取特征并执行动作分类。3.3.3动作分类部分对于动作分类,由于我们希望以最小的努力建立一个端到端的时空动作检测网络,因此我们遵循通常的做法,动作分类头:我们使用传统的ROIAlign [23]层和时间池来获得每个演员建议的特征,然后连接一个简单的线性层来获得最终的动作预测,我们使用二进制交叉熵损失来训练动作分类头。因此,动作分类头的损失变为:Lac=Lbce(ci,bi,li)(2)其中L1表示分类注释,BCE是二进制交叉熵损失。为了平衡定位损失al和分类损失ac的规模,我们引入动作分类的损失权重λcls,默认设置为10。实验在SEC。4表明该模型对不同的λcls具有鲁棒性。我们的SE-STAD的整体结构非常简单。3.4. SE-STAD的半监督动作检测众所周知,稀疏标注是构建大规模时空动作检测数据集的一种然而,由于大部分数据是未标记的,稀疏注释无法提供清晰的时间动作边界。这一现象在以前的文献中已有记载[22]。利用未标记的部分是帮助检测器学习细粒度信息的自然方法。因此,我们提出了一种新的半监督训练方法稀疏注释的时空动作检测数据集。在SE-STAD中进行半监督训练此外,为了避免半监督训练中引入的归纳偏差,遵循广泛使用的MeanTeacher [38]管道,我们还建立了师生相互学习的范例。首先,为了得到检测器的良好初始化,我们首先不直接进行半监督训练。这意味着我们只使用带有注释的数据来通过等式D预热检测器D。3.第三章。L=1<$L(cs,bs,ls)+λ L(cs,bs)(3)我我们只添加一个简单的FCOS头来执行角色本地化。然而,一个简单的模型实现了与基于建议的方法[7]和最近统一的除了模型结构,我们提出了一种新的半监督训练策略,以更好地利用训练视频中的每一条可能的信息。在半监督训练阶段,我们的模型可以获得比原始训练模型更好的结果.在预热时空动作检测器D之后,D的权重将被复制到教师模型D教师和学生模型D学生作为初始化权重。然后我们使用标记数据和未标记数据来进一步训练检测器。通过梯度反向传播更新学生模型,但停止向教师模型教师模型采用指数移动平均法进行维护,消除了归纳偏差的影响,在初始阶段为学生提供了更准确的个人建议损失函数6003L LLSNQ∈ Dππ=argminπ∈MJ我 Jππ(i)我联合国粮食计划署NAC我 我 我CLSal我S我Σ我们主要使用AVA [13]和JHMDB [15]来进行所有算法1时间标签分配(TLA)输入:视频剪辑cu,最近的前一关键帧b左、l左和最近的后一关键帧b右、l右的框和标签,检测器D输出:伪边界框bu,伪标签lu其中bce、L1和iou是二进制交叉熵损失、平滑L1损失和GIoU损失。损失函数的权重设置为1。 然后,我们使用匈牙利算法[17]来计算最优标签分配策略π,以最小化Eq. 7.第一次会议。1: bu,s=D(cu)2:bgt=bleft我说的N我4:f或j=1,. . . 最后,我们可以用ππ_n来分配伪分类标号5:成本ij=Lbce(si,lgt)+LL1(bu,bgt)l>到第i个人的盒子bu. 每个地面实况边界+Liou(bu,bgt)箱子只能分配给一个人的建议。如果I j6:赋值ππ=argmin···QMN成本i,π(i)建议的数量N大于地面的数量-π∈Ni7:inds=[π(1),,π(N)]8: lu=lgt[inds]在该阶段中,由标记数据Lsup上的损失组成(等式2)。3)以及未标记数据Lunsup(等式10)。(五)。L=Lsup+λunsupLunsup(4)真值边界框M,附加背景对象将被添加。一个预测和一个预测之间的成本背景对象仅包含分类部分(即,二进制交叉熵损失)。4. 实验在本节中,我们将提供实验设置、结果和消融。4.1. 实验装置L=1<$L(cu,bu,lu)+λ L(cu,bu)(5)我4.1.1数据集其中,bu和lu是伪地面实况注释dy。我们的实验我我通过稍后将讨论的时间标签分配(TLA)动态地生成。由于时空行为检测任务往往伴随着多标签和长尾分类问题,伪标签存在较高的标签丢失和不准确风险,尤其是对于分类性能较差的稀有类别此外,我们发现时空数据的时间约束是很强的。因此,我们提出了时间标签分配(TLA)分配分类标签的未标记的数据。由于时间动作是高度限制的时间限制,我们建议TLA分配伪标签检测人的建议,利用邻居注释的关键帧。TLA过程在算法1中详述。首先,D教师为具有未标记的中心帧的视频剪辑cuu生成人物建议bu和分类分数s我们获取最接近cu的中心帧的相邻注释关键帧的地面实况边界框bleft、bright和分类标签lleft、lright以执行TLA。然后,我们借助匈牙利算法为个人建议分配在[3]之后,我们考虑了分类和回归因素,并在第i次预测和第j次注释之间建立了成本函数,如公式:六、成本ij=Lbce(si,lgt)+LL1(bu,bgt)+Liou(bu,bgt)AVA [13]是用于对时空动作检测的性能进行基准测试的主要数据集。它包含大约211k训练剪辑和57k验证视频剪辑。标签以1FPS注释。按照标准评估协议[13,8,7],我们在总共80个类别中评估了60个类别我们评估两个版本(v2.1和v2.2)的AVA注释。JHMDB [15] 由 21 个 动 作 类 和 928 个 剪 辑 组 成 。JHMDB是一个密集注释的数据集,具有逐帧注释。根据以前的工作[43,5],我们报告了IOU阈值为0.5的帧级平均精度(帧mAP)4.1.2培训详细信息我们使用一个带有8个3090 GPU的服务器来进行所有的 实 验 。 我 们 使 用 PyTorch [30] 来 实 现 我 们 的 SE-STAD。为了进行公平的比较,我们采用常用的骨干,SlowOnly和SlowFast [7]网络作为我们的骨干。我们使用SlowOnly ResNet50,SlowFast ResNet50和SlowFastResNet101与非本地[41]模块来执行实验。对于演员定位头,我们使用FCOS的改进版本[39],即,FCOS以中心采样作为我们的演员定位头。根据以前的作品[8,7],我们使用SGD与mo-作为我们的优化器。列出了超参数jijIj(六)如下所示:批量大小为48,具有8个GPU(每个GPU 6个剪辑b右,lgt=l左成本i,π(i)(7)3:对于i =1,. . . ,N6004LL表1. AVA数据集的结果。我们报告的FLOPs的动作分类网络加上FLOPs的人检测器的建议为基础的方法。我们根据[42]提供的官方配置文件计算人员检测器的FLOP。“合格”是指该方法通过320分辨率测试来报告性能。GPU)用于老化(基线)阶段,以及96个用于半监督动作检测(SSAD)阶段。在SSAD阶段,标记/未标记数据的比例为1:1。我们使用0.075的初始学习率和余弦衰减方案。我们在老化阶段用20000次迭代(大约5个epoch)训练模型,在SSAD阶段用40000次迭代(大约10个epoch)对于没有SSAD的模型,我们用40000次迭代来训练模型。采用SlowFast R50主干时,较长的训练时间表(60000或80000次迭代)将使性能降低约0.3% mAP。主干使用Kinetics-400或Kinetics-600上的预训练权重进行初始化[4]。Actor本地化头使用原始FCOS [39]论文中的初始化时间表。对于其他层,我们使用Xavier [12]初始化层。我们对视频剪辑输入执行随机缩放,我们随机将最短边的大小调整为[256,320]。然后我们随机裁剪一个256×256的视频片段,输入到模型中。对于演员本地化头,我们将在训练期间使用具有0.3评分阈值和最大100个提议在训练阶段,我们不对演员定位头然后,这些建议将被送入行动分类头。损失显示节中3. 铝的重量损失为1,铝的重量损失为10。与地面实况框具有至少50%的相交于联合(IoU)的生成建议将在动作分类阶段被视为积极建议,否则这些建议将被忽略。4.1.3试验详细信息我们的推理步骤很简单。对于输入视频剪辑,我们首先将最短边的大小调整为256,然后直接输入模型。我们将使用评分阈值为0.4的后处理步骤和IoU阈值为0.3的NMS步骤来获得测试建议。然后,这些专业人士将被送入行动分类头。我们将最终动作阈值设置为0.002,并将演员的最大输出限制为每幅图像10个。在推理过程中,我们总是使用单个视图,而不是对模型应用4.2. AVA结果在本节中,我们将提供AVA的结果和结果分析。结果列于表1中。从该表中,我们可以得到以下观察结果:多余人检测器会给时空动作检测带来巨大的计算负担·Ava模型骨干帧E2e预训练val mAPGFLOPS增值税[9]i3D64✗K40025.2N/AI3D [8]i3D64✓K60021.9N/A[43]第四十三话R50-NL64✗K40028.0N/ALFB [42]R50-NL64✗K40025.8N/ALFB [42]R101-NL64✗K40027.1N/A慢快[7]32✗K40024.797.5+406.5AVA v2.1[5]R5032✗K40025.2141.6SE-STADSE-STAD + TLA8× 83232✓✓K400系列K400系列25.026.5111.3111.3慢快[7]32✗K60027.3151.5+406.5[5]R101-NL32✓K60028.0245.8SE-STADSE-STAD + TLA8× 83232✓✓K600系列27.728.8165.2165.2SE-STAD + TLA®R10132✓K70031.8192.7TubeR [49]8× 832✓K70031.6240SlowOnly [7]4✗K40020.341.8+406.5[5]R504✓K40021.368.0SE-STADSE-STAD + TLA4× 1644✓✓K400系列K400系列21.522.055.555.5慢快[7]32✗K40024.797.5+406.5AVA v2.2中国[5]SE-STAD + TLAR508× 8323232✓✓✓K400K400K40025.425.526.9147.5111.3111.36005××∼∼方法骨干JHMDB mAP[43]第四十三话I3D R50-NL 8x879.2Woo [5]慢快R101-NL 8x880.5SE-STAD慢快R50 8x880.7SE-STAD慢快R101-NL 8x882.5表2. JHMDB数据集上的结果。模 型 探 测 器 的 FLOPs 为 406.5G FLOPs 。 这 比SlowOnly R50的FLOP(4 16)大大约7倍,并且比最重的骨干SlowFast R101-NL(8 8)大2倍以上。大的FLOP来自于人员检测器中的高输入分辨率。高输入分辨率以及高FLOP使得基于提议的方法难以应用于现实世界的场景。通过简单添加的组件,即, FCOS头,我们的模型可以有大致相当或更好的性能比基于建议的方法,甚至比最近的WOO [5],我们不使用额外的SSAD技术。这是非常令人鼓舞的,因为我们有大约70 90%的FLOP下降与基于提案的慢快,我们有大约20 35%的FLOP下降与WOO [5]。这表明我们的简单模型的有效性我们将深入到模型细节部分,找出是什么让简单的模型工作得如此之好。通过额外的SSAD技术(半监督学习阶段和时间标签分配),我们的模型可以在没有额外模块和计算成本的情况下获得额外的性能提升例如,在AVA v2.2上,SlowFast R50可以有额外的1.4% mAP/mAP提升,在AVA v2.1上有1.5% mAP提升。在SlowFastR101上观察到类似的性能差距。然而,SSAD级在SlowOnly R50上只能获得0.5%的性能增益。我们推测,这可能是由于输入能力。SlowOnly R50只有4帧作为输入。低数量的输入-把帧阻止慢只有R50有更好的性能.我们可以在AVA v2.1上实现31.8mAP,比TubeR高0.2 mAP [49],并且我们的模型的FLOP比TubeR少20%。TubeR使用额外的编码器-解码器结构和Transformers来执行端到端STAD。我们的SE-STAD,具有可比或更好的性能和简单的设计。4.3. 关于JHMDB为 了 验 证 SE-STAD 的 有 效 性 , 我 们 进 一 步 在JHMDB上评估了我们的模型[15]。由于JHMDB是密集注释的,因此我们直接应用基本的SE-STAD模型。结果在表2中。从该表中,我们可以观察到:SE-STAD模型可以使用SlowFast R101 8x8骨架实现82.5%mAP即使主链较弱,SE-STAD仍能达到80.7%mAP,仍比WOO高0.2%。这些结果表明了SE-STAD的有效性表3. 不同头部的消融研究用于演员定位。我们尝试不同的头与慢快R50骨干。我们应用基于锚的GFocalV2版本[21]。FCOS-是没有技巧的原始FCOS [39]版本。我们并不对所有的方法都使用自我/半训练。[15]《礼记》:“礼之以礼,礼之以礼,礼之以礼。4.4. 消融研究在本节中,我们将提供我们的模型的消融,包括演员定位的头部选择,损失系数,输入分辨率和训练分类头部的方法。 在本节中,除非另有说明,否则所有经验-部分采用SlowFast R50(8×8)作为骨干网络。4.4.1演员本地化在本节中,我们将改变SE-STAD的参与者本地化头部。我们尝试了不同的头,包括流行的基于锚的头:RPN + RCNN [33],RetinaNet [23]和GFocalV2 [21]。消融结果见表3。从表3中我们可以观察到,带锚钉股骨头的性能明显差于无锚钉股骨头,即,FCOS [39].两阶段RPN+RCNN [33]和Reti- naNet [23]具有较大的性能下降。即使是最新的GFocalV2头(基于锚的版本)也将与FCOS头有1.8%的AP间隙。此外,FCOS上的技巧将提高约0.6% mAP,而原始FCOS头仍将达到24.9% mAP。这可能是由于低输入分辨率和预定义的锚点形状。此外,使用简单的FCOS头,我们的模型表现略好于WOO [5]。WOO有一个额外的注意力模块。相比之下,我们的SE-STAD保持了简单的架构设计,并具有良好的性能。4.4.2动作分类训练的不同策略动作分类部分是SE-STAD的另一个重要部分。我们将使用不同的策略来训练和测试我们的模型,以消融我们的FCOS头部。我们在训练和测试之间改变动作分类头的输入,并验证我们的模型的性能。结果在表4中我们可以发现:当使用预提取的建议进行测试时,我们的模型可以比FCOS生成的盒子具有更好的性能。这并不奇怪,因为我们正在使用低分辨率输入执行演员本地化。然而,我们的模型仍然比基于建议的方法表现得更好此外,我们的模型用稀疏的输入训练-····演员头像类型mAPRPN+RCNN [33]效标21.0[23]第二十三话效标19.7[21]第二十一话效标23.7FCOS-[39]无锚24.9[5]无锚25.4FCOS [39]无锚25.56006模型骨干输入分辨率 性能FLOPs慢快WOOR50,8×825632024.7 97.5+406.525.4 147.5×表4. 不同训练输入对动作分类的消融研究。我们尝试不同的输入来训练和测试我们的模型。对于“GT Only”,我们只将地面实况框输入动作分类头。对于“FCOS输出(稀疏)",我们在训练阶段对FCOS生成的建议执行NMS。对于方法λclsλunsupval mAPSE-STAD1-25.2SE-STAD10-25.5SE-STAD20-24.7SE-STAD+TLA100.226.8SE-STAD+TLA100.526.9SE-STAD+TLA101.026.5表5. λunsup和λcls的烧蚀研究。我们研究了λunsup和λcls的影响,以验证SE-STAD的鲁棒性。puts(GT,稀疏FCOS输出)的性能比密集输入差,mAP间隙大于1%。这一结果表明,我们应该使用密集的输入,以提高分类性能。这可以解释为什么WOO在Sparse-RCNN中表现不佳[37]。4.4.3烧蚀损失系数如第二节所述。3、引入λcls来平衡角色定位和动作分类损失。我们还引入λunsup来平衡标记和未标记的损失。在这里,我们做烧蚀实验,以显示每个系数的鲁棒性。表4中的结果支持λcls和λunsup的耐用性。λcls=10可获得最佳性能。此外,在利用未标记数据时,烧蚀实验表明,4.4.4计算效率在本节中,我们将展示我们的模型在不同输入分辨率下的计算效率。我们在测试过程中改变了模型的输入分辨率。结果在表7中我们可以观察到,在默认的256输入分辨率下,我们的性能略好于WOO [5]和基于提案的SlowFast[7]。当我们使用更大的输入分辨率时,即,320,我们可以获得0.6%的性能提升和略高于WOO的FLOP[5],但远低于基于提案的SlowFast。4.4.5伪标签生成对于半监督动作检测部分,伪标签的生成是该部分的关键通过直接预测分类标签来生成伪标签是一种自然的 但是,如前所述,多-表6. AVA v2.2上为SSAD阶段生成伪标签。我们还报告了一个强大的基线:使用EMA对带注释的帧进行训练。我们25625.5111.3我们32026.1173.8表7. AVA v2.2上输入分辨率的消融研究。我们使用平方输入,例如,256 256来计算我们所有模型的FLOP。对于WOO,我们直接报告[5]的结果。标签和长尾分类问题使SSAD部分变得困难。为了展示TLA的优越性,我们探索了不同的策略来生成伪标签:硬门槛我们对所有类应用硬阈值来过滤生成的伪框。每类阈值:我们对每一个类应用一个独立的阈值来过滤伪盒. 根据训练集上的模型计算阈值。• TLA:我们在SEC中提出的方法。3.第三章。对于前两种策略,我们应用了一个时间标签的限制,另外,以提高性能:我们删除的类,是不是在工会集的周围,ING注释帧。除了这些半监督技术之外,我们还尝试了一个强大但简单的基线:我们放弃了教师模型,并在注释的子集上使用EMA学习模型。结果在表6中。从表中我们可以看到:如果考虑EMA的影响,常用的硬阈值策略在AVA数据集上不起作用。即使我们考虑数据集中的多标签和长尾问题,并且具有更强的每类阈值基线,它仍然比基线模型具有较小的相比之下,我们的TLA与SSAD具有更好的性能,这表明了TLA的有效性。5. 结论在本文中,我们提出了SE-STAD,时空动作检测的端到端的方法。SE-STAD算法设计简单,计算量小,在主要的时空行为检测数据集上取得了较好的效果。性能提升来自两个方面:一个是强大的无锚探测器头。另一个是提出了新的半监督训练模式以及标签分配策略。我们希望我们的模型,尽管它的简单性,可以照亮更广泛的问题,视频理解。我们将继续探讨时空动作检测中存在的多标签和长尾问题。培训投入建议仅GTAP提案24.7中的测试输入提议24.5仅限GT FCOS输出23.7 FCOS输出(稀疏)FCOS输出24.3 FCOS输出(密集)FCOS输出25.5 FCOS输出(密集)建议26.2伪标签性能无25. 5插值24.8EMA 26.0硬阈值26.0每类阈值26.2TLA 26.9··6007引用[1] Anurag Arnab , Mostafa Dehghani , Georg Heigold ,Chen Sun,MarioLu c. ViV iT:视频视觉Transformer。在国际会议计算中目视,第6836- 6846页[2] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch:半监督学习的整体方法。高级神经信息过程系统,32,2019。[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。以Eur.会议软件。目视,第213-229页[4] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE会议Comput. 目视模式识别,第6299[5] Shoufa Chen ,Peize Sun,Enze Xie ,Chongjian Ge ,Jianan Wu,Lan Ma,Jiajun Shen,and Ping Luo.只看一次:端到端视频动作检测框架。在国际会议计算中目视,第8178-8187页[6] Haoqi Fan,Bo Xiong,Karttikeya Mangalam,YanghaoLi , Zhicheng Yan , Jitendra Malik , and ChristophFeichtenhofer.多尺度视觉变换器。在国际会议计算中目视,第6824-6835页[7] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的SlowFast网络。在国际会议计算中目视,第6202-6211页[8] Rohit Girdhar 、 Joao Carreira 、 Carl Doersch 和 AndrewZisserman 。 更 好 的 AVA 基 线 。 arXiv 预 印 本 arXiv :1807.10066,2018。[9] Rohit Girdhar , Joao Carreira , Carl Doersch , andAndrew Zis-serman.视频动作Transformer网络。在IEEEConf. Comput.目视模式识别,第244-253页[10] 罗斯·格希克。快速R-CNN。在国际会议计算中目视第1440-1448页[11] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。 在IEEE会议Comput. 目视患者记录第580-587页[12] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。In Int. Conf. Arti.内特尔Stat. 第249-256页[13] Chunhui Gu , Chen Sun , David A Ross , CarlVondrick,Caroline Pantofaru,Yeqing Li,SudheendraVijayanarasimhan , George Toderici , Susanna Ricco ,Rahul Sukthankar,et al. AVA:时空局部原子视觉动作的视频数据集。在IEEE Conf. Comput.目视模式识别,第6047-6056页[1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功