没有合适的资源?快使用搜索试试~ 我知道了~
二合一流动作检测方法:RGB和光流嵌入一个网络中,通过运动条件层和运动调制层提取运动信息并调制低级RGB特征,提高了检测精度,具...
9935与流共舞:二合一流动作检测Jiaojiao Zhao和Cees G. M. 阿姆斯特丹斯诺克大学摘要本文的目标是检测动作的时空基于RGB和Flow的双流检测网络提供了最先进的准确性,但代价是模型尺寸大,计算量大。我们建议将RGB和光流嵌入到具有新层的单个二合一流网络中。运动条件层从血流图像中提取运动信息,运动调制层利用运动信息生成用于调制低级RGB特征的变换参数该方法很容易嵌入到现有的外观或双流动作检测网络中,并进行端到端的训练。实验表明,通过改变运动条件来调制RGB特征,提高了检测精度.我们的二合一流只需要一半的计算和参数,就可以在UCF 101 -24、UCFSports和J-HMDB上取得令人印象深刻的结果。1. 介绍本文致力于视频中人类动作的时空检测,这是自动驾驶汽车,自主护理机器人和高级视频搜索引擎的关键能力。这种具有挑战性流动图像图1:二合一流。我们建议将RGB和光流嵌入到一个单一的时空动作检测流除了效率的提高,它还有助于判断当前帧中的舞者是站着还是坐着,而不考虑未来。通过利用来自流动图像的信息,舞者被给予向上或向下的移动方向,更好地指示动作。ing [5],视觉推理[30],图像风格转换[17]和超分辨率[47]。Peretz等人[30]提出一种特征线性调制层,使输入问题上的递归神经网络能够影响一致性。问题依赖于帧级的快速检测器[29,37],然后随着时间的推移链接[1,13,37]或跟踪[48Kalogeiton等[21]Singhet al. [36]还示出了在预测动作类得分和确定包围管之前堆叠来自后续帧的特征是有利的。 大多数最先进的动作检测器采用双流架构[35],一个用于RGB,一个用于光流,它们在融合之前单独训练。然而,双流方法的双重计算和参数要求并不导致与单流方法相比的双重精度。我们建议将RGB和光流嵌入到单个流中进行动作检测。我们受到特征归一化的进展的启发,特别是条件归一化[8,10,18],它已成功地用于视觉问题答案-卷积神经网络计算的图像。它表明,功能是能够通过一个简单的特征的仿射变换的基础上条件信息进行调制。然而,由于它们的调制层对空间位置是不可知的,因此它不适合于动作检测。在[47]中,Wanget al.开发了一个空间特征转换层,该层以类别语义概率图为条件,以调制超分辨率网络。受这些工作的鼓舞,我们提出了一个运动条件层和运动调制层来调整时空动作检测的RGB流。本文主要做了以下几个方面的工作。我们建议将RGB和光流嵌入到一个单一的时空动作检测流中。它减少了传统的双流检测网络的计算成本的一半,同时保持其高精度。我们在-站起来?坐下吗流动图像9936θθθθθθθ提出了具有运动条件层和运动调制层的二合一码流,它学习了以光流为条件的外观码流特征的视频表示。如图1所示,运动条件将引导模型更多地关注移动的内容,而不是静态背景。该方法很容易嵌入到现有的外观或双流动作检测网络中,并进行端到端训练,从而在UCF 101 -24、UCFSports和J-HMDB上实现新的最新技术。2. 相关工作视频中人体动作的时空检测在计算机视觉中有着悠久的传统,例如:[3、4、22]。早期的成功来自于基于穷举长方体搜索、有效特征表示和基于SVM的学习的检测[42,43,52]。这后来被扩展为更灵活的边界框序列[24,44,51]或时空建议[19,45],以及工程化的外观和运动特征,最值得注意的是密集的投射[28]。在过去的几年里,集成检测和深度表示学习的架构一直处于领先地位[7,11,16,25,41,49,50],通常结合外观[14,15,21,37]。我们遵循这个传统。对框架的建议。Kalogeiton等[21]提出通过将多达六个帧作为其单次激发多盒检测器的输入来利用时间连续性,从而得到最先进的结果。在本文中,我们将单次拍摄多盒检测器网络作为我们的骨干,使用单个[37]或多个[21]帧作为输入,但不是将RGB和流分离,而是引入单个二合一流。Li等[26]提出了一种使用基于运动的注意力的LSTM架构的动作检测器我们的二合一流不仅将运动作为注意力,这有助于定位动作,而且还使用运动来调制RGB特征,这有助于更好地分类动作。此外,我们的方法很容易嵌入到现有的外观或双流动作检测和分类网络。3. 二合一网络我们将在用于时空动作检测的单帧上训练的RGB流网络Drgb定义为:(Lrgb,Srgb)=Drgb(Irgb)(1)其中Irgb∈RH×W×3是高度的单个RGB帧H和宽度W,宽度W是网络Drgb的输入。双流网络首先由Si引入,Lrgb∈RQ×4和Srgb∈RQ×(P+1)θ是Q盒位置Monyan和Zisserman [35]。 他们的卷积拱-结构包括一个单独的RGB流和一个流,它们通过后期融合组合在一起,用于基于SVM的动作分类。在[9]中,Feichtenhoferet al.研究了许多方法来融合RGB和流,以便最好地利用它们的融合表示进行动作分类。虽然我们在论文中专注于动作检测,但我们也对RGB和流感兴趣,但我们更喜欢单个流,而不是在后期融合中将两个流结合起来。Gkioxari和Malik [13]介绍了一种在动作检测中使用R-CNN检测器的双流架构。他们融合了RGB流和流的最后一层的特征,然后训练了特定于动作的SVM分类器。 采用维特比算法[40]将每帧的检测框链接到管中。Weinzaepfel等[48]也使用了双流R-CNN检测器,但用检测跟踪方法取代了这两种方法都不是以及用于P个动作类和背景类的对应的框分类得分。θ表示学习网络的参数。类似地,我们将用于时空动作检测的单帧上的流-流网络定义为:(Lof,Sof)=Dof(Iof)(2)∈RH×W×2的I是一个单一的光流图像,其速度的x和y分量分别在两个通道中。 双流方法包括独立地训练两个网络Drgb和Dof,并将结果融合(Lrgb,Srgb)和(Lof,Sof)。运动条件层。在我们的方法中,I的被认为是一个运动映射具有相同的分辨率作为相应的- ING RGB图像Irgb。当应用RGB流网络Drgb来估计在哪里以及可能发生什么动作时,我们将Iof作为先验信息然后,我们将我们的二合一网络公式化为条件网络:端到端可训练且仅限于修剪视频。基于Faster-RCNN的(L,S։ ։)=Dθ(IRGB |Ψ)(三)在[29,34]中提出在[29]中,Peng和Schmid per-։=Dθ(IRgB|MC(Iof))形成感兴趣的区域池化和分数融合,穿孔RGB流和流动流。在[16]中,Houet al.将2D感兴趣区域池化扩展到具有3D卷积的3D感兴趣管池化,其直接生成用于动作检测的tubelet。Singh等人在[37]中采用了双流单激发多盒检测器(SSD)[27]来Singh等人[36]还引入了一个转换矩阵来生成一组动作M=MC(I〇f)=MC((I〇fx,I〇fy))(4)MC(·)是一个映射函数,用于从血流图像中生成简单特征。 因此,二合一流D学习以运动条件层的运动信息为条件的模型。运动调制层。 我们引入了一个运动调制(M2)层来修改从RGB中学习到的特征9937Layer2Layer3第四层.回归损失conv1conv2conv3conv4置信度损失RGB图像MC层.conv+的conv运动调制()层运动条件(MC)层运动条件光流MC层conv二合一流Layer1..额外的层图2:二合一网络架构。运动条件层(粉红色立方体)将流图像映射到先验条件信息。该条件输入到运动调制层(紫色立方体)以生成用于调制RGB特征(Frgb)的变换参数该网络的计算量和参数只有双流等效网络的一半,同时获得了更好的动作检测精度。图像.M2层能够通过合并运动和加权动作区域来影响外观网络。我们首先通过函数F:<$−→(β,γ)从先验流条件中学习一对仿射变换参数(β,γ)。具体地,二合一网络进一步表示为:(β,γ)=F(λ),每个参数β和γ。通过β和γ调整来自外观网络的低级别RGB特征。运动调制层能够被添加到外观网络的任何底层,包括conv1、conv2、conv3和conv4。它们都共享运动条件层。整个网络是端到端可训练的。特征可视化。 为了直观地理解(L,S։ ։)=Dθ(IRGB |β,γ)(五)该方法,我们显示了由运动调制前后的外观网络为了调制外观网络,我们将具有学习的变换参数(β,γ)的变换函数M2(·)应用于RGB特征Frgb。M2(Frgb)=β<$Frgb+γ(6)乘法是一种逐元素乘法运算。RGB特征图Frgb具有与参数β和γ相同的维度。 由(β,γ)表示的流量信息通过特征和空间操作影响外观网络图2显示了包含运动条件层和运动调制层的完整网络。网络架构。由于流图像的稀疏性,我们采用简单的卷积层来提取低层次的运动状态信息。1×1卷积层试图保持空间像素运动矢量。然后,运动条件输入到运动调制(M2)层,在运动调制(M2)层中,运动条件被分别映射到一对变换参数β和γ。分别采用两组1×1卷积层生成图3中的条件。我们从第一行的运动条件层中随机选择一些特征图。这些特征是低层的和稀疏的,它们被作为先验条件。从第二行到最后一行,我们显示了从条件、无调制的RGB特征以及由β和γ调制的特征生成的相应尺度(β)和移位(γ)映射。有趣的是,在图3中可以看到没有调制和有调制的特征之间的差异。例如,在调制之后,特征图0和43中的运动员区域的修改的特征,特别是对于女性滑冰运动员,其被混合到常规RGB流上的背景中。在第28个特征图上,在调制之前,在两个演员身上甚至很难看到特征响应。特征图10和127示出了x方向特征和y方向特征的变化。流动条件促使模型关注移动的参与者。训练损失。为了证明该方法的通用性和灵活性,我们将运动条件层和运动调制层嵌入到9938JDJWDH血流图像运动条件图以及其宽度(w)和高度(h)。ΣNLloc(x,l,g)=ΣxksmoothL1(lm-gm)i j i ji∈Posm∈{cx,cy,w,h}gcx=(gcx−dcx)/dwgcy=(gcy−dcy)/dh0级10级规模-28规模-43规模-127jj i iiGWjj i iiGhgw=log(j我gh=log(j我)(九)移位0十档转换-28转换-43移位-127对于多帧外观流,我们遵循Kalo-geitonet al. [21]第21话网络RGB图像调制前的RGB特征二合一双流。我们的方法强调在一个流中使用RGB和光流信息。因此,可以遵循以下标准做法:联系我们2019 - 01 -10 2019 - 01 -10 2019 - 01-10 2019 - 01 - 10联系我们双流动作检测。 我们训练一个二合一的侦探调制后的特性2_1-02_1- 1 - 02_1-28 2_1-43 2_1-127图3:特征图。运动条件图、比例图、移位图、无调制的RGB特征和有调制的特征的可视化。这些被调制的特征更多地关注移动的演员。单帧出现流和多帧出现流。基本损失函数是从目标检测的损失函数导出的[27,31]。定义xpij={1,0}作为用于将第i个默认框匹配到动作类别p的第j个地面实况框的指示符。总损失函数-包含本地化(loc)损失和置信度(conf)损失:以流动图像为条件的tor,以及单独的流动de-tector,其仅将流图像作为输入。对于单帧二合一双流,我们使用平均融合方法合并来自每个流的结果,如下[37]。而对于多帧双流,后期融合[9]是一个更好的选择[21]。链接。一旦实现帧级检测或tubelet检测,我们将它们链接到构建动作管。我们采用[37]中描述的链接方法进行帧级检测,并采用[21]中的方法进行tubelet检测。代 码 可 在 https://github.com/jiaozizhao/Two- in-One-Answer Detection上获得。4. 实验4.1. 数据集、数据库实施数据集。我们在三个动作检测数据集上进行实验。UCF 101 -24[39]是UCF 101的一个子集。它包含24个体育类在3207未经修剪的视频。每个1L(x,c,l,g)=(LNloc(x,l,g)+Lconf(x,c))(7)视频包含单个动作类别。可能会出现具有相同类但空间和时间边界不同的多个动作实例我们使用修订后的注释其中N表示匹配的默认框的数量。c表示多类置信度。l和g是预测框和地面实况框。置信度损失应用softmax损失如下:UCF 101 -24来自[37]。UCF-Sports[32]包含10个体育课程,150个剪辑视频。我们遵循[24]来划分训练和测试部分。J-HMDB[20]在928个修剪视频中包含21个动作类别。我们报告三次分裂的平均结果。ΣNLconf(x,c)=−xplog(cp)−Σ log(c)指标. 在[34,38,48]之后,我们利用视频平均平均精度(mAP)来评估动作检测ac。IJi∈Pos我i∈Neg我(八)牧师 我们计算每帧交叉点的平均值-pexp(cp)ci=ippexp(ci)定位损失在预测框和地面实况框之间应用平滑L1损失[12]网络回归到默认框(d)的中心(cx,cy)的偏移管之间跨时间的过度联合(IoU)检测是如果它与地面真值管的IoU大于阈值并且它的动作标签被正确分配,则它是正确的。我们计算每个类的平均精度,并报告所有类的平均值。实施. 我们采用实时单次多盒检测器(SSD)网络[27]作为骨干。我们)993928.27.20.1520.0919.9319.927.27.27.27.26.9926.9326.926.8526.精度#参数。26.动作检测动作分类方法mAP效率Top1精度效率%秒/帧# param.(男)%秒/帧# param.(男)水流11.600.0426.8281.651.1058.35RGB流18.490.0426.8284.991.1058.35双流19.790.0953.6491.142.10116.70二合一流20.150.0426.9386.941.1558.48二合一双流22.020.0953.7592.002.13116.83表1:UCF 101 -24上的动作检测和UCF 101上的动作分类的二合一与基线。具有运动调制的二合一适用于动作检测和动作分类。将开发的运动层插入到两个最先进的外观SSD网络中,一个基于单帧[37],另一个基于多帧[21]。我们在ImageNet上使用VGG- 16预训练权重作为模型初始化。这两个的输入大小都是300x300我们遵循[21]使用6个连续帧作为多帧SSD的输入在所有三个数据集上,单帧网络的初始学习率设置为0.001,多帧网络的初始学习率设置为0.0001,并通过应用步长衰减策略来改变我们训练了一个流,一个RGB流和我们的两个在-21.020.520.1520.019.519.018.518.026.8317.520.0326.919.5727.028.0 027.8 827.6 619.4727.4 427.1827.2 227.0 026.8 826.6 6一个流分别持续13.2、13.2和15.5小时另外,我们考虑使用外观信息-17.01 2 3 4(a) Conv层11 21 2 31-2-3-4(b) Conv层以调节流动流。然而,它并不工作得很好。似乎难以使用更密集的RGB图像来调制来自稀疏的流动图像的特征4.2. 消融研究图4:在哪里添加调制层? UCF 101 -24和# param上的准确度。不同的:(a)单个调制层,以及(b)多个调制层。conv1处的单个调制层获得最佳结果。1x1 conv 3x3 conv所有消融研究均在UCF 101 -24上进行。我们仅在最具挑战性的高IoU阈值0.5:0.95(步长0.05)下报告mAP。最初,为了保持空间逐像素运动矢量,我们将1x1卷积核应用于运动条件中的所有层22.021.521.020.520.4221.5120.6720.04运动层和运动调制层。我们使用层参数stride来控制β和γ的大小。然后将运动调制层应用于SSD的conv1。流20.020.1520.0319.519.019.5719.47使用[2]中的方法生成图像,我们将其称为BroxFlow。二合一与基线。我们在表1中将二合一流与其对应的 RGB 流 、 流 动 流 和 双 流 进 行 比 较 。 #param 和 #param。的效率进行了比较我们唯一的二合一-一个流超过单个RGB流1。百分之五值得注意的是,二合一甚至优于相应的双流,只有一半的计算成本和#param。我们还考虑了UCF101上的动作分类。我们遵循[46],以ResNet152为骨干。表1中显示的前1名准确性和效率说明我们的策略也适用于动作分类,并通过VGG16推广到SSD之外。对于训练,我们的二合一流在第100个历元处收敛,但是RGB和流1 2 3 4Conv层图5:如何设计条件层?在UCF 101 -24上比较将1x 1conv或3x 3 conv应用于运动条件层的最后一层3x3Conv的性能更好。流分别在第200个和第300个历元处会聚。我们的运动调制策略更好地为检测任务,这需要本地化表示,是修正变量,相比,有利于翻译不变性的分类任务。在哪里添加调制层?利用运动条件层生成低级别运动特征,因为血流图像更稀疏。我们加入动议mAP@IoU=0.5:0.95(%)#参数。(男)mAP@IoU=0.5:0.95(%)9940(a)UCF 101 -24(b) UCFSports(c) J-HMDBRGB图像BroxFlow FlowNet RealTimeFlow0 51015200 20 40mAP@IoU=0.5:0.95(%)010203040图6:什么流程? 生成的血流图像示例不同的流动方法。水流RGB流双流二合一流二合一双流图7:概括能力。 精度比较关于:(a)UCF 101 -24,(b)UCFSports,(c)J-HMDB,不同的方法二合一流甚至在UCF 101 -24和UCFSports上优于双流。二合一流与流流融合在所有三个数据集上获得最佳精度。表2:什么流量?无论在UCF 101 -24上应用什么样的流图像,我们的二合一流都优于相应的流、RGB流和双流。我们使用BroxFlow获得了最佳结果。调制层到具有低级RGB特征的底部卷积层。我们进行了两个实验,在哪一层添加调制。我们比较了精度和#param 。 在 将 调 制 层 施 加 到 图 4 ( a ) 中 的conv1 、conv2、conv3和conv4之后。精度降低,# param.对于更深的层,略微增加。接下来,我们在图4(b)中同时将调制层添加到多个应用多个调制层不会对结果产生太大的改变。因此,我们更喜欢使用单个调制层。请注意,当我们使用1x1卷积核来处理流图像时,更深层的准确性会下降,从而导致更深层的感受野更小。如何设计条件层?为了进一步改进该方法,我们考虑用于运动条件层的1x1卷积核是否是最佳选择。除了保持空间逐像素运动之外,可能需要考虑运动的一些上下文以更好地适应RGB特征。我们将3x3卷积核用于条件网络的最后一层。图5表明,考虑运动上下文可以提高所有层的准确性 当使用较大的感受野时,conv2模型的结果最好,约为1。与1x1卷积内核相比,提高了5%对于更深的层,运行时间几乎没有增加,仍然是每帧0.04秒。# param。conv1、conv2、conv3和conv4的平均浓度分别为26.85、26.92、27.01和27.19 M。考虑到结果和参数之间的权衡,我们认为conv 2提供了最佳的精度/效率权衡。什么流动?当我们利用流信息作为先验条件时,我们想知道模型如何受到流图像的影响。在这里,我们采用三种不同方法生成的血流图像(见图6),并评估如何我们的策略奏效了我们使用BroxFlow [2](精确流方法),Flownet [6](深度网络方法)和实时但不太精确的光流方法[23](RealTime-Flow)。从表2可以得出结论,无论应用哪种流图像,我们的二合一流都优于RGB流和相应的双流。我们还注意到,流动图像越准确 , 二 合 一 流 获 得 的 即 使 当 使 用 有 点 嘈 杂 的RealTimeFlow图像时,二合一流仍然改善了RGB流。然而,在这方面,基于RealTimeFlow的双流获得了与RGB流几乎相同的精度,这说明双流取决于流图像的质量。我们的二合一流对流图像的质量更加稳健。此外,我们报告了三种流量方法的流量计算(以秒/帧为单位):BroxFlow(0.098)、FlowNet(0.183)和RealTimeFlow(0.014)。Re-alTimeFlow仅需要0.014秒来生成一个流图像,代价是略低的mAP。泛化能力。为了强调我们的建议的推广能力,我们比较了三个不同的数据集上的结果根据我们迄今为止的消融结论,我们使用BroxFlow图像生成条件,并将3x3内核应用于运动条件层的最后一层。运动调制层仅用于外观流的conv2层我们在图7中报告了结果。显然,所提出的二合一流比其他单流网络性能更好。值得注意的是,我们的二合一流甚至比UCF 101 -24和UCFSport上的传统双流网络的性能高出2%,而参数只有双流网络的一半。在J-HMDB上,二合一比RGB流高3%,但比双流低3%。我们研究了J-HMDB,发现数据集中的大多数视频都有相邻的重复帧。为了公平比较,我们只下载[21,37]中使用的Brox- Flow图像。然而,在两个重复的RGB帧之间提供的Brox-Flow图像不是0,因为它应该是0,而是类似于最后一个流帧。这个问题影响了我们的二合一流,因为我们需要11.4233.2728.4418.4948.2235.8219.7949.6141.7821.5151.6938.7222.0252.3243.2BroxFlowFlowNetRealTimeFlow水流11.607.133.58RGB流18.4918.4918.49双流19.7919.7518.53二合一流21.5119.9719.169941mAP@IoU=0.5:0.95(%)24222018161412(a) RGB流结果:未检测到(置信度分数<0.5)1080.0 0.1 0.2 0.3 0.4 0.5(a) 推理时间(秒/帧)2422(b) RGB流热图:动作器20上的低激活181614(c) Two-in-one结果:正确检测(悬崖跳水得分> 0.5)(d) Two-in-one热图:参与者图8:来自(a)(b)中的RGB流网络和(c)(d)中的二合一流网络的conv4层上的检测和热图的可视化我们添加绿色虚线框来指示操作。二合一流对动作具有更高的激活,从而导致正确的检测。校正流图像作为相应RGB帧的条件。我们期望在校正流动图像之后,二合一将在J-HMDB上呈现更好的结果。正如预期的那样,向我们的二合一流中添加单独的流可以在所有数据集上提供最佳的准确性。4.3. 定性分析运动条件层和运动调制层有利于生成用于时空动作检测的更好的视频表示。但是,这些外行人是如何对外貌网络产生影响的呢?为了理解这种行为,我们在图8中可视化了RGB流网络和二合一网络的检测结果。此外,我们可视化了梯度加权类激活热图[53],以便更好地理解运动条件如何影响外观网络的行为我们选择了一个具有挑战性的悬崖跳水案例。图像分辨率低,演员很小。杂乱的背景显然增加了难度,1210850 100 150 200 250 300 350(b)#param. (男)图9:与最先进技术的效率比较。准确度与(a)推理时间(每帧秒)和(b)# param。(M)在UCF 101 -24上我们的二合一数据流最佳地平衡了准确性和效率。检测动作。我们手动覆盖绿色虚线框来指示演员的位置,并放大到动作发生的高光位置。第二行显示RGB流未能检测到任何动作。从相应的热图可以看出,外观网络更关注背景而不是动作。在作用位置上只有微弱的反应。我们手动叠加红色虚线框来突出显示热图上演员的位置。从最后一行的二合一网络的热图中,我们清楚地看到它能够平衡动作和背景的激活。加强了对行动立场的反应正如预期的那样,二合一流的性能优于RGB流。它在所有帧(第四行)上输出悬崖跳水的正确检测。4.4. 与最新技术精度为了公平的比较,我们只是使用原始图像,就像所有最先进的技术一样,没有去除相机我们在表3中比较了可变IoU阈值下的mAP。考虑到最具挑战性的高IoU阈值0.5:0.95,我们观察到,对于单帧设置,我们的二合一流在UCF 101 -24和UCF上实现了比现有双流方法悬崖跳水0.785悬崖跳水0.716悬崖跳水0.711单帧PengSchmid [29] Saha etal.[34个]Behl et al. [1]Singh et al.[37]第三十七届本文:二合一本文介绍的是:二合一双流多帧Saha等人[33个]Kalogeiton等人[21]本文:二合一本论文:二合一双流mAP@IoU=0.5:0.95(%)9942UCF101-24 UCFSports J-HMDB0.200.500.750.50:0.950.500.750.50:0.950.500.750.50:0.95单帧彭·施密德[29]71.8035.901.608.8094.8047.3051.0070.6048.2042.20Saha等人[34个]66.7035.907.9014.40–––71.5043.3040.00Behl等人[1]第一章71.5340.0713.9117.90––––––Singh等人[37]第三十七届73.5046.3015.0020.40–––72.0044.5041.60本文:二合一75.1347.4717.2121.5187.4657.8151.6960.9947.2338.72本文介绍:二合一双流77.4949.5417.6222.0287.8162.6752.3270.0052.0043.20多帧Saha等人[33个]63.0633.060.5210.72–––57.31––Kalogeiton等[21日]76.5049.2019.7023.4092.7078.4058.8073.7052.1044.80Singh等人[36个]79.0050.9020.1023.90––––––本文:二合一75.4848.3122.1223.9092.7483.6459.6057.9642.7834.56本文介绍:二合一双流78.4850.3022.1824.4796.5290.4163.5974.7453.2845.01表3:与最新技术水平的准确度比较。粗体表示最高精度,斜体表示第二高精度。对于mAP@IoU=0.5:0.95的高重叠设置,对于所有三个数据集,我们的二合一流在单帧和多帧网络中都工作良好当我们添加一个额外的流来获得一个二合一的两个流时,我们进一步提高了准确性。体育例如,二合一流优于Singh等人。[37]使用相同的SSD检测器超过1%,Peng和Schmid [29]使用Faster-RCNN检测器在UCF 101 -24上绝对12%。如前所述,由于所提供的BroxFlow图像的数据问题,二合一流在J-HMDB上的性能适中。当我们通过融合流将二合一组合成一个规则的双流网络时,它在所有三个数据集上都 产生了良 好的结果 与二合 一流相比 ,它在J-HMDB上获得了约5%的改进。此外,如Kalogeitonetal.[21],我们的二合一流在UCF 101 -24和UCFSports上的性能略优于双流[21],只有一半的计算和参数数量。我们的二合一流与流动流融合进一步提高了结果,优于Singh等人最近的工作。[36]第30段。效率 除了良好的检测精度外,我们的方法还具有减少推理时间和减少#参数的优点。在这里,我们比较我们的方法从效率方面的国家的最先进的UCF 101 -24。我们在一个NVIDIA GTX 1080 GPU上测试我们的模型。图9显示了准确性和推理时间以及参数之间的权衡。在单帧方法中,我们的二合一流具有最快的运行时间,每帧0.04s,比[1]和[37]快两倍,比[34]和[29]快得多(约每帧0.5s)。此外,# param.我们的二合一流是最小的,大约26.93米虽然我们的二合一精度甚至优于[1,29,34,37]的双流方法。将我们的二合一流与标准流相结合,以更多的计算为代价提高了准确性和参数。我们的二合一替代方案甚至在精度上略优于形式[21],参数只有一半。二合一双流进一步改善了结果,具有几乎相似的推理时间,但参数略多。我们得出结论,二合一流网络提供了良好的精度/效率权衡。5. 结论我们提出了一个有效的和高效的二合一流网络的时空动作检测。在训练RGB流网络时,以流图像作为先验运动条件.网络的运动条件层和运动调制层解决了动作检测中的两个问题:帧级RGB图像缺乏运动信息,并且(静态)背景上下文可能主导所学习的表示。我们的二合一流在高IoU阈值下实现了最先进的准确性,仅使用了双流替代方案的一半参数和计算除了运动之外,我们认为其他信息,如深度图或红外图像,可以帮助定位演员,并可以作为训练二合一流的额外先验条件鸣谢由情报高级研究项目活动(IARPA)通过内政部/内政部商业中心(DOI/IBC)合同号D17 PC 00343支持。美国政府被授权复制和分发再版政府的目的noý standing- ing任何版权注释。免责声明:本文所载的观点和结论是作者的观点和结论,不应被解释为必然代表IARPA,DOI/IBC或美国政府的明示或暗示的认可。政府。9943引用[19]第十九话 Jan C. 埃尔韦?范格默特我也是,帕特里克[1] Harkirat S Behl , Michael Sapienza , Gurkirt Singh ,Suman Saha,Fabio Cuzzolin,and Philip HS Torr.用于人体动作检测的增量管结构。在BMVC,2018年。1、8[2] ThomasBrox , Andre 'sBruhn , NilsPapenberg ,andJoachimWeickert.基于翘曲理论的高精度光流估计。见ECCV,2004年。五、六[3] Liangliang Cao,Zicheng Liu,and Thomas S Huang.跨数据集动作检测。CVPR,2010。2[4] Navneet Dalal、Bill Triggs和Cordelia Schmid。使用流量和外观的定向直方图进行人体检测。在ECCV,2006年。2[5] HarmDeVries,FlorianStrub,Je're'mieMary,HugoLarochelle,Olivier Pietquin和Aaron C Courville。通过语言调节早期视觉处理。在NIPS,2017年。1[6] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流在ICCV,2015年。6[7] 凯文·杜阿尔特,约格什·拉瓦特和穆巴拉克·沙阿。视频- capsulenet:用于动作检测的简化网络。NeurIPS,2018。2[8] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。对艺术风格的博学的表现。在ICLR,2017。1[9] ChristophFeichtenhofer、AxelPinz和AndrewZisserman 。 卷 积 双 流 网 络 融 合 视 频 动 作 识 别 。 在CVPR,2016年。二、四[10] Golnaz Ghiasi , Honglak Lee , Manjunath Kudlur ,Vincent Dumoulin,and Jonathon Shlens.探索实时、任意神经艺术风格化网络的结构。在BMVC,2017年。1[11] RohitGirdhar,JoaoCarreira,CarlDoersch,andAndrewZisserman.一个更好的ava基准。arXiv预印本arXiv:1807.10066,2018。2[12] 罗斯·格希克。快速R-CNN。在ICCV,2015年。4[13] Georgia Gkioxari和Jitendra Malik。 找活动管。CVPR,2015。一、二[14] ChunhuiGu,Chen Sun,Sudheendra Vijayanarasimhan,Caroline Pantofaru ,David A Ross,George Toderici,Yeqing Li,Susanna Ricco,Rahul Sukthankar,CordeliaSchmid,et al. Ava:时空局部原子视觉动作的视频数据集。在CVPR,2018年。2[15] Jiawei He,Zhiwei Deng,Mostafa S Ibrahim,and GregMori.动作本地化的通用tubelet建议。在WACV,2018。2[16] Rui Hou,Chen Chen,and Mubarak Shah.用于视频中动作检测的管状卷积神经网络。InICCV,2017. 2[17] Xun Huang和Serge J Belongie.实时任意样式传输,具有自适应实例规范化。InICCV,2017. 1[18] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。1Bouthemy和Cees G. M.斯诺克 Tubelets:无监督时空超体素的行动建议。IJCV,124(3):287-311,2017。2[20] Hueihan Jhuang , Juergen Gall , Silvia Zuffi , CordeliaSchmid , and Michael J Black. 对 行 动 识 别 的 理 解 。InICCV,2013. 4[21] Vicky Kalogeiton,Philippe Weinzaepfel,Vittorio Ferrari和Cordelia Schmid。用于时空动作定位的动作小管检测器。 InICCV,2017. 一二四五六八[22] Alexander Klaser , Marcin Marszałek , and CordeliaSchmid.一种基于三维梯度的时空描述子。BMVC,2008年。2[23] Till Kroeger,Radu Timofte,Dengxin Dai,and Luc VanGool.使用密集逆搜索的快速光流在ECCV,2016年。6[24] Tian Lan,Yang Wang,and Greg Mori.用于联合动作定位和识别的有区别的以见ICCV,2011年。二、四[25] 董立、赵凡秋、齐岱、姚婷、陶梅。再流tubelet建议和识别网络的行动检测。在ECCV,2018。2[26] Zhenyang Li,Kirill Gavrilyuk,Efstratios Gavves,MihirJain,and Cees G.M.斯诺克Videolstm卷积,参加和流动的行动识别。CVIU,166:41-50,2018。2[27] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C Berg. Ssd:单发多盒探测器。在ECCV,2016年。二、四[28] Dan Oneata,Jakob Verbeek,and Cor
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 达梦数据库DM8手册大全:安装、管理与优化指南
- Python Matplotlib库文件发布:适用于macOS的最新版本
- QPixmap小demo教程:图片处理功能实现
- YOLOv8与深度学习在玉米叶病识别中的应用笔记
- 扫码购物商城小程序源码设计与应用
- 划词小窗搜索插件:个性化搜索引擎与快速启动
- C#语言结合OpenVINO实现YOLO模型部署及同步推理
- AutoTorch最新包文件下载指南
- 小程序源码‘有调’功能实现与设计课程作品解析
- Redis 7.2.3离线安装包快速指南
- AutoTorch-0.0.2b版本安装教程与文件概述
- 蚁群算法在MATLAB上的实现与应用
- Quicker Connector: 浏览器自动化插件升级指南
- 京东白条小程序源码解析与实践
- JAVA公交搜索系统:前端到后端的完整解决方案
- C语言实现50行代码爱心电子相册教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功