没有合适的资源?快使用搜索试试~ 我知道了~
11 23停止停止或前进:用于有效动作识别的动态层跳过钟贤善1黄在东2钟焕门3韩宝亨1首尔国立大学2麻省理工学院3Kakao Brain{sunutf,bhhan}@ snu.ac.krkakaobrain.comjdhwang@mit.edu摘要分析视频内容的挑战之一(例如,动作)是高计算成本的,特别是对于需要处理长视频中的密集采样帧的任务。我们提出了一种新的有效的动作识别算法,它分配的计算资源自适应的各个帧取决于他们的相关性和重要性。具体来说,我们的算法采用基于LSTM的策略模块,并根据它们的中间表示顺序地估计每个帧的有用性。如果某个帧不太可能有助于识别动作,则我们的模型停止将特征转发到其余层,并开始考虑下一个采样帧。我们进一步降低我们的方法的计算成本,通过引入一个简单而有效的提前终止策略在推理过程中。我们在三个公共基准上评估所提出的算法:ActivityNet-v1.3、Mini-Kinetics和THUMOS'14。我们的实验表明,该方法在动作识别的准确性和效率之间取得了突出的平衡。1. 介绍随着存储在私人和公共存储库中的视频数量的爆炸式增长,近年来人们对分析和理解视频内容的兴趣越来越大。动作识别是视频理解中最基本的任务之一,现有的方法[2,8,19,20,31,35]通常对一系列帧或剪辑执行密集预测,即,几秒钟的短时间间隔。具体来说,他们通过滑动窗口方案从视频中的一组帧(或剪辑)中提取特征,使用深度神经网络处理单个帧,并最终通过聚合所有帧的预测分数来识别动作标签 这种昂贵的过程在现实世界的场景中是不切实际的,其中算法需要在资源有限的环境中运行。降低视频分析的计算成本在实际应用中至关重要。有效动作识别的关键思想来自于这样一种直觉,即视频中的所有帧并不是平等的,停止预测推断图层跳过图层图1:我们的方法概述,在ActivityNet-v1.3数据集的Throwing Darts类中有一个示例视频。我们的模型通过自适应地跳过分类网络中间不太重要的帧来实现有效的动作识别,图中的帧1和7。所提出的算法减少了计算成本,因为它跳过了许多层。重要的。因此,模型不需要观察所有帧,并且可以跳过不相关或重复的帧,而不会有任何损失。几种动作识别技术通过帧选择(或采样)[6,12,16,43]或自适应资源分配[21]来追求高效处理。帧选择方法利用外部网络来1) 确定当前帧是否值得转发到完整的骨干模型进行推理[12,16,19]或2)对下一个输入帧的位置进行采样,同时跳过冗余帧[6,43]。另一方面,自适应计算模型使用具有不同容量的网络[21]处理多个分辨率的帧,或者根据其估计的重要性选择帧中的裁剪补丁[37]然而,许多帧选择方法仅适用于录制的视频,这是由于使用了全局分类[43]或预处理的视频特征[6,16]。这些特性阻碍了在线处理环境(诸如实时监控系统和流服务)中的适用性。本文提出了一种基于动态跳层的自适应计算算法SoF-Net(Stop-or-Forward Network),该算法能够有效地识别动作。3361框架7框架4框架13362通过在推断时根据层的重要性跳过层来降低计算成本。 我们的方法可用于在线处理,如图1所示。层跳过的决策依赖于用一组LSTM实现的策略模块,其被应用于骨干网络中的若干中间层。策略模块使分类网络能够仅基于一部分输入帧进行最终预测,同时在转发过程中跳过不相关或重复的帧。我们还介绍了一种简单但有效的方法,通过在观察所有帧之前完全终止推理,进一步降低据我们所知,这是第一次尝试展示如何确定帧本文的贡献概括如下:• 我们提出了一种自适应的资源分配方法,有效的动作识别,它降低了计算成本,跳过不太重要的帧在中间的转发过程和终止的推理过程,甚至在观察所有帧。• 我们引入了一个简单而有效的自监督学习方法,通过学习LSTM为基础的政策模块,负责提出的动态层跳过。• 我们的方法在多个基准测试(包括ActivityNet-v1.3、Mini-Kinetics和THU- MOS'14)上实现了准确性和效率之间的出色权衡。2. 相关作品本节概述了深度神经网络的高效动作识别2.1. 有效的动作识别方法虽然3D CNN架构[2,31]已广泛用于视频理解,但它们因联合处理时空信息的复杂操作而产生大量计算成本。为了应对这一挑战,一些方法依赖于基于2D CNN的模型[35]或通过合并时间移位模块[20]或使用时间差[46]对其进行扩展。设计轻量级动作识别模型的另一个研究方向是将时空信息分解为多个子空间,例如,空间和时间信息[4,11,17,18,23,25,32,33,44]。尽管高效网络在行动识别方面是成功的,但它们仅限于关注建筑,真实的设计,而不考虑输入视频的特性有效的帧选择一些动作识别技术通过自适应地选择输入视频中的帧子集进行预测来实现效率[1,15]。这些方法采用轻量级网络[16]或多个强化学习代理[40]来识别用于传递到完整骨干模型的例如,AdaFrame [43]使用从指定神经网络[28]获得的全局上下文选择下一帧进行观察。FrameExit[7]通过帧的非顺序处理提出了一种提前终止方法。这些方法的主要缺点是默认情况下它们是为离线处理而设计的.另一方面,有几种方法在推理过程中执行顺序决策[3,6,21,42,43,45]。LiteEval[42]使用粗略和精细LSTM来传播特征,其中条件门控模块确定何时为特征计算分配更多资源。AR-Net[21]使用了一个轻量级的策略网络,该网络选择输入帧和相应分类网络的正确解决方案,以减少不重要帧的计算。AdaFocus[37]还通过应用轻量级网络来 降 低 成 本 , 该 网 络 从 每 个 帧 中 选 择 裁 剪 的OCSampler[19]采用强化学习从候选帧中选择固定数量的帧以减少计算。与以前的方法不同,我们的算法利用CNN中的中间表示来停止处理不必要的帧并降低计算成本。2.2. 自适应计算技术自适应计算用于降低计算成本和提高性能,用于许多领域,如图像识别[26,38,41],自然语言处理[29]和语义对应[22]。大多数方法[22,34,41]根据输入帧的重要性选择活动层。一些方法采用策略网络,通过使用强化学习[36,41]或Gumbel-Softmax [34]来决定是否删除或保留图像分类应用的每个层块。ACT[5]基于所谓的停止分数自适应地选择ResNet[9]的每个残差块中的层子集进行处理。最近在基于变换器的模型DynamicViT [26]中提出了类似的方法,该方法通过将预测模块插入到变换器中来选择突出的标记在自然语言处理中,Skim-RNN[29]决定将当前输入的单词发送到小RNN进行略读或大RNN进行校对。另一方面,[10,30,38]与随时预测技术共享这一思想它们将分类器合并到多个层中,3363--不不·Qn不不CΣnt xt<$置信度,并且可选地计算预算,并且在处理网络中的所有层之前根据分类器的输出进行预测但他们由第n个策略模块总结如下:x<$(n)=AvgPool(xln),(1)t t仅限于设计用于图像,还没有应用于视频。h(n)=LSTM(n)(W(n)x<$(n),h(n)),(2)q(n)=W(n)h(n),(3)t g t3. 该方法g(n)=Gumbel-Softmax(q(n)),(4)t t3.1. 概述其中,x(n)是第n个给定具有T帧的视频,V=v1,v2,...,有效动作识别的目标是以GFLOPS、存储器使用等方面的低计算成本来识别视频的动作标签y。为了有效的动作识别,我们采用了自适应资源分配框架,旨在分配不同数量的不第t帧的LSTM,而t'和h(n)分别表示最后一个非跳过帧的索引x和该帧的第n个可学习的嵌入矩阵Wx和Wg分别对应于图2中的FC和门控FC层。采样动作,每个帧的计算成本取决于其重要性,(个)不∈{0,1},从Gumbel-Softmax(·)表示钱。对于自适应资源分配,我们的主要假设是,不相关的或冗余的帧通常可以使用较低层中的表示来识别。基于这一假设,我们提出了一种动态的跳层策略,允许模型自适应地停止对中间层输入帧的评估。为此,我们采用策略模块来控制骨干网络的推理流程,其中骨干网络和策略模块联合优化,以通过我们的分层决策技术最小化不必要帧的成本,对于第n个策略,停止或前进;如果采样动作为0,则跳过考虑中的帧,否则继续推断。在所有的T帧中,我们计算在第t帧,如果不跳过该帧,则由下式zt=MLP(xL),(5)其中MLP()表示多层感知器。通过如下将softmax函数应用于聚合logit来获得最终预测pT相关框架TSoftmax .1 ΣTSsz、(6)3.2. 停止或转发网络(SoF-Net)所提出的方法的总体框架是IL-P=不t ttt=1如图2所示。SoF-Net由L层骨干网络和多个基于LSTM的策略模块组成;骨干网计算每一层的可视特征,并由相关的策略模块负责做出决策停止推理(即,跳过输入帧)或将特征转发到后续层。注意,在预选的N( ρ,(7)使用当前cc的两个选项的概率分布池化可视特征和包含历史的隐藏状态非跳过帧的实际信息,然后使用Gumbel-Softmax技巧[13]对动作进行采样,该技巧使采样操作可区分。决策过程其中pT表示在pro之后动作标签c的概率如在等式(1)中那样处理第T帧。(6)是预测概率的阈值。 注意T > Tmin,其中TminG3364政策政策政策P政策停止政策政策奥利内分类器政策政策政策Avg池FC LSTM门廷足球俱乐部停止政策门控运算符停止隐藏向量政策政策政策政策政策政策停止政策政策政策政策政策平均准备面食n·ΣT· N内不图2:所提出的算法的运行时过程。在骨干分类模型的几个预定义的中间层,我们采用基于LSTM的策略模块来确定它是否停止或继续推理过程。学习策略模块以预测不相关或冗余帧的停止信号,同时鼓励分类网络遍历重要帧的所有层视频的最终预测是通过在完全处理的帧上聚合预测分数来获得的是提前终止的最小帧数,以避免过于仓促的决定。所提出的提前终止方案被纳入顶部的动态层跳过技术,这导致了一个理想的组合的架构和时间优化有效的动作识别。此外,与[7]相反,我们的完整算法顺序处理视频帧并在线运行。3.3. 培训我们使用三个损失项来训练模型,其中包括1)动作分类损失Lcls,2)效率损失Leff,以及3)政策指导损失Lpg.总损耗由下式给出L=αLcls+(1−α)Leff+Lpg,(8)其中α平衡了识别准确度和计算成本之间的权衡。3.3.2效率损失为了使我们的模型有效地运行,学习策略模块以最小化具有T帧的输入视频的总体计算量(GFLOPS)。为此,我们构建一个查找表,其中存储每个策略模块的预期GFLOPS;第n个策略模块的预期GFLOPS由GFLOPS定义,用于推断第l层之后的剩余层,其由下式给出:flookup(n)=fGFLOPS(L)-fGFLOPS(ln),(10)其中,fGFLOPS(l)表示当推断直到第l层时根据GFLOPS的计算成本,并且flookup()是查找表值。基于T帧和N个策略模块上的预期GFLOPS的效率损失如下:T N3.3.1 动作分类损失为了预测由独热编码向量表示的正确动作标签y,使用标准交叉熵损失(LCE)学习骨干网络,如下所示:Lcls=LCE(p,y)=−yclogpc,(9)c∈C其中C表示标签集。Leff=1(n)n(n)=0.(十一)3.3.3政策引导损失为了更好地学习策略模块,我们为每个模块引入了一个政策指导损失定义为Lpg=βLcls+(1−β)Lself,(12)时间t=1n=13365不CLSLL×不T·(N−1)L不不1ΣΣ−(n)(n)其中,inner和self分别表示内鉴别损失和自我监督损失,并且β控制识别准确度和计算成本之间的权衡。内部分类损失为了生成策略模块的自我监督,我们训练附加的内部分类器,附加到各个策略模块,如图2所示。只有当相关的策略模块产生一个前向信号,即,g(n)=1,由下式给出:视频10秒我们使用训练集训练模型THUMOS验证集和测试集分别包含1,010和1,574个未修剪的视频,验证集用于训练。为了进行评估,我们采用ActivityNet-v1.3和THU的平均精度(mAP)T N MOSLinner=1g(n)LCE(p(n),y),(13)G另一方面,为了比较模型的效率,我们CLS特鲁恩(个)不t tt=1n =1测量每帧的GFLOPS(GFLOPS/f),每帧的视频(GFLOPS/V)和每个视频的运行时间(RPM/V)。其中p(n)=W(n)h(n)是基于预测分布的tclst关于第n个策略中的可学习嵌入矩阵W(n)4.2.实现细节第t帧处的模块。CLS作为骨干网络,我们采用ResNet-50[9]预处理,自我监督损失我们训练策略模块使用伪标签g(n),其由内部分类器估计具体来说,如果来自内部分类器的分类分数在层上逐渐增加,则我们继续观察后续层,其中相应策略模块的伪标签由下式定义:在ImageNet[27]数据集上训练。我们统一采样T=16帧,从每个视频在训练和测试,并调整为168 168分辨率。策略模块被附加到每个剩余块的末尾(即,res1、res2、res3、res4和res5),因此我们使用N=5个策略模块。策略模块由具有512维隐藏状态的单层LSTM我们设定(个).1如果p(n+1)(y)>p(n)(y)Gumbel-Softmax的初始温度为5 ℃,t=不0否则t.(十四)在[13]之后的每个历元中,以-0.045的指数衰减因子对其进行ally退火。我们设定损失然后,训练除最后一个策略模块之外的策略模块的自我监督损失由下式给出:不N1Lself=LBCE(g ,g),(15)t=1i =1其中BCE表示具有两个向量化输入值的二进制交叉熵损失函数。4. 实验我们在三个标准基准上评估所提出的方法并报告结果。4.1. 实验装置数据集我们在三个动作识别数据集上进行实验:ActivityNet-v1.3 [1] 、 Mini-Kinetics [2] 和 THUMOS'14[14]。ActivityNet-v1.3由未修剪的长视频组成,分为200个动作类的10,024视频的平均时长为117秒。Mini- Kinetics包含200个类和131,082个修剪视频,121,215个用于训练,9,867个用于测试,从原始Kinetics数据集中采样[2]。的平均长度当α=0时。9,β=0。9在我们的训练中对于条件性提前终止,阈值ρ和Tmin分别设置为0.999和3。我们使用SGD优化器训练主干和策略模块,初始学习率为0.001,权重为衰变为0.00001,动量为0.9。注意到在30个epoch之后,学习率降低到0.0001。 由于初始训练步骤中的随机策略会阻碍学习骨干网络,因此我们分两个阶段训练算法。我们首先在修复策略模块的同时预热骨干网络15个epoch,然后开始训练包括策略模块 在 内 的 整 个 网 络 60 个 epoch 。 我 们 的 模 型 使 用PyTorch[24]实现,所有模型都在4个Titan XP GPU中训练,每个GPU的请注意,TSN[35]的结果是用与SoF-Net相同的超参数复制的。为了测量TSN[35], AR-Net[21], AdaFocus[37]和SoF-Net的运行时间,我们在相同的环境设置中测试了每个模型,使用ActivityNet-V1.3验证集中的4,921个视频的16个均匀采样我们报告五次运行的平均运行时间。3366†×表1:与ActivityNet-v1.3和Mini-Kinetics上的最新方法的性能比较。请注意,前五个方法离线运行,而其他方法(包括SoF-Net)是在线算法。我们实现的FrameExit(在线)不使用其原始的帧采样策略,但顺序输入帧均匀采样。MV 2和R#分别表示MobileNet-V2[28]和ResNet的层数,T是运行每个算法的默认输入帧数。其他方法的结果复制自[19],而表示我们的再现。最佳结果以粗体显示。类型方法骨干决议不ActivityNet-v1.3微型动力学地图GFLOPS/f GFLOPS/VTop1 GFLOPS/f GFLOPS/VAdaFrame[43]MV2+R1012242571.53.1679.0---[6]第六话MV2+R1522241672.35.0981.4---线下SCSampler[16]FrameExit[7]MV2+R50R50224224161072.976.12.622.6142.026.170.872.82.621.9742.019.7FrameExit[7]R502241676.1†2.19†35.1†---OCSampler[19]MV2+R502241077.22.5825.873.72.1621.6LiteEval[42]MV2+R1012242572.73.8095.161.03.9699.0在线AR-Net[21][7]第七届全国政协委员MV2+R50/R32/R18R50224/168/112224161073.873.7†2.092.76†33.527.6†71.7-2.00-32.0-AdaFocus[37]MV2+R501281675.01.6626.672.21.6426.3SoF-Net(我们的)R501681675.31.7127.472.81.7528.0表2:THUMOS方法地图GFLOPS/f GFLOPS/VTSN[35]46.64.1265.9AR-Net[21]47.41.6726.7SoF-Net47.81.6025.64.3. 与其他方法我们将所提出的SoF-Net与两个分支中最先进的高效动作识别技术进行比较:帧选择方法,如AdaFrame[43] , LiteE-val [42] , ListenToLook [6]SCSampler[16],FrameExit [7]和OCSampler [19],以及自适应计算框架,如AR-Net [21]和AdaFocus [37]。表1和表2总结了ActivityNet-v1.3、Mini-Kinetics和THUMOS'14的结果。在THUMOS'14中,我们使用224224im-年龄和样本16帧从每个视频训练TSN[35]模型。我们还将我们的方法与在线版本的FrameExit[7]进行了比较,删除了其启发式帧采样策略,即在时间上从中心到两侧观察帧。我们的方法优于所有竞争的方法在精度较小或可比的计算成本和参数。为了比较算法的效率,我们另外在表3中给出了我们的方法和其他方法的运行时间和帧使用率。结果表明,SoF-Net在推理速度上比同类方法快,无论输入分辨率如何,它都使用较少的帧;我们只使用不到60%的帧来预测视频中的动作。请注意,AR-Net[21]不仅使用70%的帧,而且还使用四个骨干网络和每个骨干网络的四个分辨率来处理帧,导致高延迟。表3:ActivityNet-v1.3验证集上运行时和帧使用率的比较。SoF-Net中的数字表示输入图像大小。方法V/V(毫秒)总运行时间(s)框架使用(%)TSN[35]110.5543.6100.0AR-Net[21]120.8594.670.1AdaFocus[37]165.1812.3100.0SoF-Net(168)74.6367.254.3SoF-Net(192)82.0403.461.0SoF-Net(224)83.9412.859.0AdaFocus[37]在使用128x128裁剪图像作为输入时,在GFLOPS方面似乎是有效的这些运行时的比较表明,我们的模型是更适当的比其他方法被应用到实际问题,涉及在线处理的要求。我们认为,SoF-Net的出色表现SoF-Net基于单一主干网络,流程简单,利用多个语义层次的特征区分冗余帧和噪声帧,进行帧选择。这一特性使得所提出的方法比依赖于单个预定义语义级别的决策的其他方法更强大。4.4. 讨论为了更好地理解我们的算法,我们对ActivityNet-v1.3数据集进行了深入分析。3367×表4:在ActivityNet-v1.3验证集上测试的算法中单个组件的消融研究。政策模块时间建模政策指导早期term.地图(%)GFLOPS/V----73.740.3✓---74.332.2✓✓--75.031.6✓-✓-74.732.6✓✓✓-75.631.7✓✓✓✓75.327.4表5:ActivityNet-v1.3验证集上不同输入大小的性能比较。决议无提前终止地图GFLOPS(f/V)w/提前终止地图GFLOPS(f/V)168 ×168192 ×192224 ×22475.6 1.98 /31.776.4 2.73 /43.777.1 3.48 /55.775.3 1.71 /27.476.3 2.34 /37.476.9 3.04 /48.6我们的模型分析我们进行消融研究,以调查我们的算法中各个组件的贡献。在这个实验中,我们训练了我们模型的四个变体,其中我们按照时间建模、策略模块、具有自我监督的策略指导和提前终止的顺序添加了各个模块。没有时间建模的策略模块是通过用FC层替换LSTM来实现的。表4总结了结果,其中我们观察到以下情况。首先,没有时间建模的结果意味着非跳帧的历史信息对于提高准确性和效率至关重要。第二,策略模块的应用提供了21.3%(40.3 GFLOPS/V至31.7 GFLOPS/V)效率改进。第三,内部分类器的自我监督有助于策略模块识别噪声帧,从而提高准确率.最后,提前终止策略确实使SoF-Net更高效。跳帧率图3显示了策略模块所做决策的统计信息。总体而言,我们的策略模块学习使用54.3%的帧,同时平均跳过32.3%,其中对应于res1和res5的第一个和最后一个策略模块是做出跳过决定的两个公共最后ResBlock的跳帧通过防止混淆帧参与推理来提高准确性。除跳帧外,帧的提前终止通过跳过13.4%的帧而大大提高了效率。输入分辨率我们在各种大小的输入帧(168,192,224)上训练SoF-Net,有和没有早期终端。图3:帧使用统计。我们将停止转发的帧的比率通过其停止决策位置显示为“res#”的形式 表示被提前终止跳过的帧的比率灰色数字表示每个类别的百分比。民族如表5所示,随着输入帧的大小增加,模型的准确性提高,同时相应的计算成本也增加。与224 224的分辨率,我们的模型实现了更高的精度比国家的最先进的离线算法。在所有的解决方案中,提前终止一致地减少了计算,精度下降可以忽略不计。4.5. 定性分析为了更好地理解SoF-Net的工作原理,我们在图4中展示了输入框架及其决策结果。对于每个示例,底行示出了每个帧是用于预测还是跳过; RES #意味着模型在第#个策略模块处停止预测,并决定跳过该帧,而EXIT表示通过“提前终止”跳过帧,而策略模块认为重要的帧被表示为原始帧。每个案例底部的蓝色条表示ActivityNet-v1.3数据集中提供的动作本地化注释注意,考虑到动作定位注释,SoF-Net有效地捕获重要帧并跳过重复或不相关的帧。5. 结论提出了一种新的高效动作识别算法SoF-Net,该算法根据各个帧的重要性为它们分配自适应的计算资源。具体而言,每层中的策略模块决定停止将当前帧转发到后续层并过滤掉不太重要的帧,从而降低计算成本并提高识别性能。该模型通过效率损失和政策导向损失进行3368Res5res3Res5Res5res1Res5res1Res5Res5res1Res5Res5res2Res5Res5出口出口出口出口出口出口出口出口res5图4:SoF-Net的决策结果可视化。对于每个示例,顶行显示原始输入帧,底行说明如何在SoF-Net中处理帧。跳过的帧指定停止层的位置(res#),而我们为用于预测的帧呈现原始帧。带有单词“exit”的黑框通过比较当前层和下一层中的内部分类器的分类得分此外,我们还采用了一个简单而有效的提前终止策略,决定终止给定视频的推理。总之,SoF-Net具有简单的在线(顺序)过程,用于有效预测,而无需使用多个骨干网络(例如,AR-Net[21], LiteEval[42], OC-Sampler[19])或采用依赖于全局存储器的离线预测(例如,AdaFrame [43])。SoF-Net采用多个中间层中的表示进行帧选择,有效地识别潜在的冗余或冗余。不同语义层次的噪音。该属性使得所提出的方法比依赖于单个预定义语义级别的决策的其他方法更有效。据我们所知,这是第一次尝试展示如何确定帧致谢本研究得到了三星高级技术研究所和韩国政府(MSIT)资助的国家研究基金会(NRF)的部分支持。2021M3A9E4080782号2022R1A5A708390811]。res2res1Res5res1res2出口出口出口出口出口雕刻南瓜灯制备意大利面漂流航行3369引用[1] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet:人类活动理解的大规模视频基准。CVPR,2015。[2] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。[3] 范和合,徐仲文,朱林超,严成刚,葛建军,杨毅。看一小部分就像看全部一样好:朝向有效的视频分类。在IJCAI,2018。[4] 克里斯托夫·费希滕霍夫。X3d:扩展架构以实现高效的视频识别。在CVPR,2020年。[5] Michael Figurnov,Maxwell D Collins,Yukun Zhu,LiZhang , Jonathan Huang , Dmitry Vetrov , and RuslanSalakhutdinov.残差网络的空间自适应计算时间。在CVPR,2017年。[6] Ruohan Gao , Tae-Hyun Oh , Kristen Grauman , andLorenzo Torresani.听听看:通过预览音频识别动作。在CVPR,2020年。[7] AmirGhodrati , BabakEhteshamiBejnordi , andAmirhos-sein Habibian. FrameExit : 有 条 件 的 早 期 退出,有效的视频识别.在CVPR,2021年。[8] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史吗?在CVPR,2018年。[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[10] Gao Huang , Danlu Chen , Tianhong Li , Felix Wu ,Laurens van der Maaten,and Kilian Q Weinberger.多尺度密集网络用于资源有效的图像分类。在ICLR,2018年。[11] Noureldien Hussein,Efstratios Gavves,and Arnold WMSmeulders.复杂动作识别的时间感受。在CVPR,2019年。[12] Noureldien Hussein ,Mihir Jain ,and Babak EhteshamiBe- jnordi.时间门:长距离活动中分段的条件门控.arXiv预印本arXiv:2004.01808,2020。[13] Eric Jang , Shixiang Gu , and Ben Poole. 使 用 gumbel-softmax进行分类重新参数化。在ICLR,2017。[14] Y.-- G. Jiang,J.Liu,中国粘蝇A.Roshan Zamir,G.托代里奇岛拉普捷夫M. Shah和R.苏克坦卡THUMOS挑战:动作识别与大量的类。网址://crcv.ucf.edu/THUMOS14/,2014年。[15] Yu-Gang Jiang , Zuxuan Wu , Jun Wang , XiangyangXue,and Shih-Fu Chang.利用正则化深度神经网络在视频分类中利用特征和类别关系TPAMI,40(2):352[16] Bruno Korbar , Du Tran , and Lorenzo Torresani.Scsampler:从视频中采样突出片段,以实现高效的动作识别。在ICCV,2019年。[17] Chao Li,Qiaoyong Zhong,Di Xie,and Shiliang Pu.协同时空特征学习用于视频动作识别。在CVPR,2019年。3370[18] Yan Li , Bin Ji , Xintian Shi , Jianguo Zhang , BinKang,and Limin Wang. Tea:动作识别的时间激发和聚合。在CVPR,2020年。[19] Jintao Lin,Haodong Duan,Kai Chen,Dahua Lin,andLimin Wang.Ocsampler:使用单步采样将视频压缩为一个剪辑。在CVPR,2022年。[20] 纪林、闯乾、宋涵。Tsm:用于高效视频理解的时间移位模块。在ICCV,2019年。[21] 岳萌、林忠清、拉梅什瓦·熊猫、普拉萨纳·萨提格里、列昂尼德·卡林斯基、奥德·奥利瓦、凯特·萨恩科和罗杰里奥·费里斯。Ar-net:用于有效动作识别的自适应帧分辨率。在ECCV,2020年。[22] Juhong Min , Jongmin Lee , Jean Ponce , and MinsuCho.学习为视觉对应编写超列。在ECCV,2020年。[23] Bowen Pan,Rameswar Panda,Camilo Fosco,Chung-Ching Lin,Alex Andonian,Yue Meng,Kate Saenko,Aude Oliva,and Rogerio Feris. Va-red2:视频自适应冗余减少。ICLR,2021年。[24] Adam Paszke , Sam Gross , Francisco Massa , AdamLerer , James Bradbury , Gregory Chanan , TrevorKilleen , Zeming Lin , Natalia Gimelshein , LucaAntiga,et al. Pytorch:命令式的高性能深度学习库。NeurIPS,2019。[25] 赵凡秋,姚婷,陶梅。用伪三维残差网络学习时空表示。InICCV,2017.[26] 饶永明,赵文良,刘本林,陆纪文,周杰,谢卓瑞。Dynamicvit:具有动态令牌稀疏化的高效视觉转换器。2021年的诺伊利普[27] Olga Russakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein,Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。IJCV,115(3):211[28] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、AndreyZh-moginov和Liang-ChiehChen。Mobilenetv2:反演残差和线性瓶颈。在CVPR,2018年。[29] 徐敏俊,徐敏元,阿里·法哈迪,汉娜·哈吉希尔齐.通过skim-rnn的神经速度读取。在ICLR,2018年。[30] Surat Teerapittayanon 、 Bradley McDanel 和 H.T. 阿 坤Branchynet:通过早期存在的深度神经网络进行快速推理InICPR,2016.[31] Du Tran 、 Lubomir Bourdev 、 Rob Fergus 、 LorenzoTorresani和Manohar Paluri。用3d卷积网络学习时空特征。在ICCV,2015年。[32] Du Tran ,Heng Wang,Lorenzo Torresani,and MattFeis-zli.使用通道分离卷积网络的视频分类。在ICCV,2019年。[33] Du Tran , Heng Wang , Lorenzo Torresani , JamieRay,Yann LeCun,and Manohar Paluri.动作识别的时空卷积的详细研究在CVPR,2018年。[34] Andreas Veit和Serge Belongie。具有自适应推理图的卷积网络。在ECCV,2018。[35] Limin Wang,Yuanjun Xiong,Zheng Wang,Yu Qiao,Dahua Lin,Xiaoou Tang,and Luc Van Gool.时间片段3371网络:为深度行动识别提供良好实践。在ECCV,2016年。[36] Xin Wang,Fisher Yu,Zi-Yi Dou,Trevor Darrell,andJoseph E Gonzalez. Skipnet:学习卷积网络中的动态路由。在ECCV,2018。[37] 王玉林,陈兆喜,姜浩俊,宋世济,韩一增,高晃。自适应聚焦,实现高效的视频识别。ICCV,2021。[38] Yulin Wang,Kangchen Lv,Rui Huang,Shiji Song,LeYang,and Gao Huang.扫视和聚焦:一种动态的方法来减少图像分类中的空间冗余。聂鲁普斯,2020年。[39] Yulin Wang,Yang Yue,Yuanze Lin,Haojun Jiang,Zihang Lai,Victor Kulikov,Nikita Orlov,HumphreyShi,and Gao Huang. Adafocus v2:用于视频识别的空间动态网络的端到端训练在CVPR,2022年。[40] Wenhao Wu,Dongliang He,Xiao Tan,Shifeng Chen,and Shilei Wen.基于多智能体强化学习的帧采样用于有效的未修剪视频识别。在ICCV,2019年。[41] Zuxuan Wu , Tushar Nagarajan , Abhishek Kumar ,Steven Rennie,Larry S Davis,Kristen Grauman,andRogerio Feris.Blockdrop:残差网络中的动态推理路径。在CVPR,2018年。[42] Zuxuan Wu,Caiming Xiong,Yu-Gang Jiang,and LarryS Davis. Liteeval:一个从粗到精的框架,用于资源有效的视频识别。NeurIPS,2019。[43] Zuxuan Wu , Ca
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功