没有合适的资源?快使用搜索试试~ 我知道了~
1TSM:用于高效视频理解的吉林MITjilin@mit.edu庄干MIT-IBM Watson AI实验室ganchuang@csail.mit.edu宋涵MITsonghan@mit.edu摘要视频流的爆炸式增长对高精度和低计算成本的视频理解传统的2D CNN在计算上是便宜的,但不能捕获时间信息。通道Ct=0t=1t=2t=3…通道C关系;基于3D CNN的方法可以实现良好的性能,但计算密集,使得其部署昂贵。在本文中,我们提出了一个通用和有效的时间移位模块(TSM),享有高效率和高性能。具体来说,它可以实现3D CNN的性能,但保持2D CNNTSM沿着时间维度移动部分通道;从而促进相邻帧之间的信息交换它可以插入到二维CNN中,以实现零计算和零参数的时间建模。我们还将TSM扩展到在线设置,从而实现实时低延迟在线视频识别和视频对象检 测 。 TSM 准 确 高 效 : 在 发 布 后 , 它 在Something-Something排行榜上排名第一;在Jetson Nano和GalaxyNote 8上,它实现了13 ms和35 ms的在线视频识别低延迟 。 代 码 可 以 在 : https : //github 上 找 到 。com/mit-han-lab/temporal-shift-module。1. 介绍硬件高效的视频理解是实现云和边缘部署的重要一步。例如,每天有超过105小时的视频上传到YouTube,以进行推荐和广告排名处理;医院中TB级的敏感视频需要在边缘设备上本地处理,以保护隐私。所有这些行业应用都需要准确和高效的视频理解。多年来,深度学习已经成为视频理解的标准[45,48,4,49,61,53,58]。视频识别和图像识别之间的一个关键区别是需要时间建模。例如,为了区分打开和关闭盒子,颠倒顺序将得到相反的结果,因此时间建模是至关重要的。(a) 最初的十- (b)离线时间(c)在线时态排序而不移位。移位(双向)。移位(单向)。图1. 时间移位模块(TSM)通过沿时间维度移动特征图来执行高效的时间建模。它在2D卷积之上是计算自由的,但实现了强大的时间建模能力。TSM有效地支持离线和在线视频识别。双向TSM将过去和未来的帧与当前帧混合在一起,适合于高吞吐量的离线视频识别。单向TSM只将过去帧和当前帧混合在一起,适用于低延迟的在线视频识别。现有的高效视频理解方法直接使用2D CNN [24,39,48,58]。然而,在单个帧上的2D CNN3D CNN[45,4]可以联合学习空间和时间特征,但计算成本很大,使得在边缘设备上的部署很困难;它不能应用于实时在线视频识别。有一些工作在时间建模和计算之间进行权衡,例如事后融合[13,9,58,7]和中级时间融合[61,53,46]。这种方法牺牲了低层次的时间建模的效率,但许多有用的信息是在时间融合发生之前的特征提取过程中丢失在本文中,我们提出了一个新的观点,有效的时间建 模 在 视 频 理 解 提 出 了 一 个 新 的 时 间 移 位 模 块(TSM)。具体地,视频模型中的激活可以表示为RN×C ×T×H ×W,其中N为批量,C为数量。信道的BER,T是时间维度,H和W是空间分辨率。传统的2D CNN在维度T上独立运行;因此没有时间建模生效 ( 图 1a ) 。 相 比 之 下 , 我 们 的 时 间 移 位 模 块(TSM)沿着时间维度向前和向后移位通道如图1b所示,来自相邻帧的信息在移位之后与当前帧混合。我们的直觉是:会议-7083不 H,WC截形零垫时间T时间移位7084解算操作由移位和乘法-累加组成。我们在时间维度上移位±1,并将乘法-累加从时间维度折叠到信道维度。对于实时在线视频理解,未来的帧因此,我们使用单向TSM(图1c)来执行在线视频理解。尽管移位操作的零计算性质,但我们根据经验发现,简单地采用图像分类中使用的空间移位策略[51]会为视频理解带来两个主要问题:(1)效率不高:移位操作在概念上是零FLOP,但会引起数据移动。数据移动的额外成本是不可忽略的,并且将导致延迟增加。这种现象在视频网络中加剧,因为它们通常具有大的存储器消耗(5D激活)。(2)这是不准确的:在网络中移动太多的通道将严重损害空间建模能力,并导致性能下降。为了解决这个问题,我们做了两个技术上的贡献。(1)我们使用时间部分移位策略:而不是移动所有的通道,我们只移动一小部分的通道进行有效的时间融合。 这种策略显著 降低了数据移 动成本(图2a)。(2)我们将TSM插入残余分支内部而不是外部,使得当前帧的激活被保留,这不会损害2D CNN主干的空间特征学习能力。本文的贡献概括如下:• 我们提供了一个新的视角,高效的视频模型设计的时间转移,这是计算自由,但具有很强的时空建模能力。• 我们观察到,朴素移位不能实现高效率或高性能。然后我们提出了两个技术修改部分移位和剩余移位实现了高效率的模型设计。• 我们提出了双向的TSM离线视频理解,站立,实现国家的最先进的性能。它出版后在Something-Something排行榜上排名第一• 我们提出了一种用于在线实时视频识别的单向TSM,它具有很强的时间建模能力,在边缘设备上具有低延迟。2. 相关工作2.1. 深度视频识别2D CNN。使用2D CNN是一种简单的方法进行视频 识 别 [24 , 39 , 48 , 11 , 8 , 9 , 2] 。 例 如 ,Simonyanet al. [39]为 RGB输入(空间流)和光流[55]输入设计了双流CNN(时间流)分别。时间段网络(TSN)[48]从跨步采样帧中提取平均特征与3D对应物相比,这样的方法更有效,但不能推断时间顺序或更复杂的时间关系。3D CNN。3D卷积神经网络可以联合学习时空特征。Tran等人[45]建议基于VGG模型的3D CNN,称为C3D , 用 于 从 帧 序 列 中 学 习 时 空 特 征 。 Carreira 和Zisserman [4]提出将Inception V1模型[43]中的所有2D卷积滤波器膨胀然而,3D CNN计算量大,使得部署困难。它们也比2D对应物具有更多的参数,因此更容易过拟合。另一方面,我们的TSM具有与3D CNN相同的时空建模能力,同时享有与2D CNN相同的计算权衡已经有人尝试权衡表达性和计算成本。 Lee等[27]建议运动滤波器,用于从2D CNN生成时空特征。Tran等人[46]和Xieet al. [53]提出研究混合的2D和3D网络,首先使用3D和后来的2D(底部重)或首先使用2D和后来的3D(顶部重)架构。ECO [61]也使用类似的头重脚轻的架构来实现非常高效的框架。另一种节省计算的方法是将3D卷积分解为2D空间卷积和1D时间卷积[46,33,42]。对于混合的2D-3D CNN,它们仍然需要去除低级时间建模或高级时间建模。与分解卷积相比,我们的方法完全消除了时间建模的计算成本,具有更好的硬件效率。2.2. 时间建模用于时间建模的直接方式是使用如上所述的基于3DCNN的方法。Wang等人[49]提出了一种时空非局部模块来捕获长范围依赖性。Wang等人[50]提出将视频表示为时空区域图。建模时间关系的替代方式是使用2DCNN +事后融合[13,9,58,7]。一些作品使用LSTM[19]来聚合2D CNN特征[54,7,41,10,12]。Atten- tion机制也被证明是有效的时间建模[37,28,32]。Zhou等[58]提出了时间关系网络来学习和推理时间依赖性。前者计算量大,而后者无法捕获在特征提取过程中丢失的有用的低级信息。我们的方法以2D CNN为代价提供了一种高效的解决方案,同时实现了低级和高级时态建模,就像基于3D-CNN的方法一样。7085我我我2.3. 高效神经网络2D CNN的效率已经被广泛研究。一些作品专注于设计一个有效的模型[21,20,36,56]。最近,神经架构搜索[62,63,31]已经被引入以自动地找到有效的架构[44,3]。 另一种方法是修剪、量化和压缩现有模型,以实现高效部署。百分之十五百分之十二百分之九占6%百分之三0%的百分比P100百分之七十五百分之七十三百分之七十一二维基线百分之六十九就地TSM剩余TSM百分之六十七[16,15,29,59,18,47]。地址移位,这是一个硬件友好的原语,也被用于图像识别任务的紧凑2DCNN设计[51,57]。0 1/8 1/4 1/2 1调档比例(a) 开销与比例。0 1/8 1/4 1/2 1调档比例(b) 残差与就位然而,我们观察到,由于视频数据的复杂性,在视频识别任务上直接采用移位操作既不能保持3. 临时移位模块(TSM)我们首先解释TSM背后的直觉:数据移动和计算可以在卷积中分离。然而,我们观察到,这种幼稚的移位操作既不能实现高效率也不能实现高性能。为了解决这个问题,我们提出了两种技术,最大限度地减少数据移动和增加模型容量,这导致高效的TSM模块。3.1. 直觉让我们首先考虑一个普通卷积运算。为了简洁起见,我们使用了内核大小为3的一维卷积作为示例。假设卷积的权重是W=(w1,w2,w3),输入X是一个无限长的一维向量。 卷积算子Y = Conv(W,X)可以写为:Yi=w1Xi−1+w2Xi+w3Xi+1。我们可以将卷积的操作解耦为两步:移位和乘法累加:我们将输入X移位-1,0,+1再分别乘以w1,w2,w3,其总和为是Y。形式上,移位操作为:X−1=Xi−1,X0=Xi,X+1=xi+1(1)所述乘累加运算为:Y=w1X−1+w2X0+w3X+1(2)第一步移位可以在没有任何乘法的情况下进行。虽然第二步的计算成本更高,但我们的时间偏移模块将乘法累积合并到下面的2D卷积中,因此与基于2D CNN的模型相比,它不会引入额外的成本。所提出的时间移位模块在图1中描述。在图1a中,我们描述了具有C通道和T框架的张量。不同时间戳处的特征在每行中被去注释为不同的颜色。沿着时间维度,我们将一部分通道移动-1,另一部分通道移动-1。由+1,留下其余的未移动(图1b)。为在线视频识别设置,我们还提供了一个在线版本(图1C)。在联机设置中,我们无法访问低acc.朴素的转变:我们的选择我们的选择朴素的转变:大的开销TX2CPU延迟开销精度7086图2.(a)由于数据移动导致的TSM的延迟开销(b)剩余TSM比就地移位实现更好的性能。我们选择1/4比例残差偏移作为默认设置。它以可忽略的开销实现更高的精度因此,未来帧,我们仅以单向方式从过去帧转移到未来帧。3.2. 天真的转变不起作用尽管所提出的模块背后的原理很简单,但我们发现直接将空间移位策略[51]应用于时间维度无法提供高性能或效率。具体来说,如果我们将所有或大部分渠道转移,它会带来两个灾难:(1)由于大量数据移动而导致效率降低。移位操作不需要计算,但涉及数据移动。数据移动会增加硬件上的内存占用和推理延迟。更糟糕的是,由于大的激活大小(5D张量),这种影响在视频理解网络中加剧。当使用朴素移位策略移动每个映射时,我们观察到CPU延迟增加13.7%,GPU延迟增加12.4%,使得整体推理变慢。(2)由于空间建模能力较差而导致的性能下降。通过将通道的一部分移位到邻近帧,通道中包含的信息对于当前帧不再是可访问的,这可能损害2D CNN主干的空间建模能力。与2D CNN基线(TSN)相比,我们观察到当使用朴素移位实现时2.6%的准确度下降。3.3. 模块设计为了解决这两个问题,从朴素的移位实现,我们讨论了两个技术贡献。减少数据移动。为了研究数据移动的影响,我们首先测量了不同硬件设备上的TSM模型和2D基线的推理延迟。我们移动不同比例的通道并测量延迟。我们使用无移位(2D基线)、部分移位(1/8、1/4、1/2)和全部移位(移位所有通道)测量具有ResNet-50骨干和8帧输入的模型时间是在服务器GPU(NVIDIA TeslaP100),移动 GPU( NVIDIA Jetson TX 2 )和CPU(Intel Xeon E5- 2690)上测量的。我们报告的平均延迟从1000运行后7087……ytyt+1yN中缓存(a) 就地TSM。(b) 残留TSM。Conv存储器移出替换Conv…移出取代Conv图3.残差移位优于原地移位。就地移位发生在卷积层(或残差块)之前残差移位融合残差分支内的时间信息。200次热身我们将移位操作的开销显示为原始2D CNN推理时间的百分比ConvFt...Conv…Ft+1ConvFN在2a.我们观察到不同设备的开销趋势相同。如果我们移动所有通道,延迟开销占CPU推理时间的13.7%,这是确定的。在推理过程中不可忽略。另一方面,在一项研究中,如果我们只移动信道的一小部分,例如,1/8,我们可以将延迟开销限制在3%。因此,我们在TSM实现中使用部分移位策略来显著降低内存移动成本。保持空间特征学习能力。我们需要平衡空间特征学习和时间特征学习的模型容量。应用TSM的直接方式是在每个卷积层或残差块之前插入TSM,如图3a所示。我们称这种实施方式为就地转移。它损害了骨干模型的空间特征学习能力,特别是当我们移位大量信道时,因为存储在移位信道中的信息对于当前帧丢失。为了解决这样的问题,我们提出了一个变型的移位模块。我们不是将TSM插入原位,而是将TSM放在残差块中的残差分支内部。我们将移位的这种版本表示为残余移位,如3b中所示。残差移位可以解决退化的空间特征学习问题,因为原始激活中的所有信息在时间移位之后通过身份映射仍然是可访问的为了验证我们的假设,我们比较了Kinetics [25]数据集上原位移位和残差移位的性能。我们研究了不同换挡比例设置下的实验。结果示于2b中。我们可以看到,残差移位实现了更好的性能比就地移位的所有移位比例。即使我们将所有通道移位到相邻帧,由于快捷连接,残余移位仍然实现比2D基线更好的性能。另一个发现是时间推理的性能与移位通道的比例有关:如果移位通道的比例太小,时间推理的能力可能不足以处理复杂的时间关系;如果太大,则可能损害空间特征学习能力。对于残差偏移,我们发现,当1/4(每个方向为1/8)的信道偏移时,性能达到峰值。因此,我们在论文的其余部分使用此设置。图4.用于在线视频识别的单向TSM。4. TSM视频网络4.1. 具有双向TSM的我们插入双向TSM来构建离线视频识别模型。给定视频V,我们首先对T个帧Fi,F1,.,视频中的T。帧采样后,2D CNN基线单独处理每个帧,并对输出logit进行平均以给出最终预测。我们提出的TSM模型具有与2D模型完全相同的参数和计算成本。在卷积层的推理过程中,帧仍然像2D CNN一样独立运行不同之处在于,针对每个残差块插入TSM,这使得能够在没有计算的情况下进行时间对于每个插入的时间移位模块,时间感受野将被放大2,就像沿着时间维度运行具有3的核大小的卷积一样。因此,我们的TSM模型有一个非常大的时间感受野进行高度复杂的时间建模。在本文中,除非另有说明,否则我们使用ResNet-50 [17]作为主干。TSM的一个独特优势是它可以轻松地将任何现成的2D CNN模型转换为可以处理空间和时间信息的伪3D模型,而无需添加额外的计算。因此,我们的框架的部署是硬件友好的:我们只需要支持2D CNN中的操作,这些操作已经在框架级(CuDNN [6],MKL-DNN,TVM [5])和硬件级(CPU/GPU/TPU/FPGA)上进行了很好的优化。4.2. 具有单向TSM的从在线视频流中理解视频在现实生活场景中是重要的。许多实时应用需要低延迟的在线视频识别,例如AR/VR和自动驾驶。在本节中,我们将展示我们可以调整TSM来实现在线视频识别,同时进行多级时间融合。如图1所示,离线TSM双向地移位部分信道,这需要来自未来帧的特征如果我们只移动的特征从以前的帧到当前帧,我们可以实现在线识别与单向TSM。X平移conv+Y移位转换器X+Y特征特征特征特征特征特征…7088用于在线视频识别的单向TSM的推理图如图4所示。在推断期间,对于每一帧,我们保存每个残差块的前1/8特征图并将其缓存在存储器中。对于下一帧,我们用缓存的特征图替换当前特征图的前1/8。我们使用7/8当前特征图和1/8旧特征图的组合来生成表1.我们的方法在多个数据集上始终优于2D对应的零额外计算(协议:ResNet-50 8 f输入,10个片段用于Kinetics,2个用于其他,全分辨率)。数据集模型Acc1Acc5动力学TSN 70.6 89.2 +3.5我们的74.1 91.2TSN 91.7 99.2下一层,然后重复。使用单向TSM进行在线视频识别具有几个独特的优点:1. 低延迟推理。对于每一帧,我们只需要替换和缓存1/8的特征,而不会产生任何额外的计算。因此,给予每个人的延迟帧预测几乎与2D CNN基线相同像[61]这样的现有方法使用多个帧来给出一个预测,这可能导致大的延迟。UCF101HMDB51V1的东西V2的东西我们的95.9 99.7TSN 64.7 89.9我们的73.5 94.3TSN 20.5 47.5我们的47.3 76.2TSN 30.4 61.0我们的61.7 87.4+4.2+8.8+28.0+31.32. 低内存消耗。由于我们只在内存中缓存一小部分特征,因此内存消耗很低。对于ResNet-50,我们只需要0.9MB的内存缓存来存储中间功能。3. 多层次时间融合。大多数在线方法仅在特征提取后启用后期时间融合,如[58]或中级时间融合[61],而我们的TSM启用所有级别的时间融合。通过实验(表2),我们发现,多层次的时间融合是非常重要的复杂的时间建模。5. 实验我们首先证明了TSM可以显着提高2D CNN在视频识别上的性能,同时具有计算自由和硬件效率。它进一步展示了时间相关数据集的最新性能,达到了更好的精度计算帕累托曲线。与[50]的传统I3D模型相比,TSM模型在测量的GPU吞吐量方面实现了一个数量级的加速。最后,我们利用单向TSM对视频识别和对象检测进行低延迟和实时5.1. 设置培训测试。我们对视频动作识别任务进行了实验。Kinetics数据集的训练参数为:100个训练时期,初始学习率0.01(在时期40 80衰减0.1&),权重衰减1 e-4,批量大小64,以及dropout 0.5。对于其他数据集,我们将训练时期扩展一半。对于大多数数据集,模型是从ImageNet预训练的权重进行微调的;而HMDB-51 [26]和UCF-101 [40]太小,容易过度拟合[48],我们遵循常见的做法[48,49]从Kinetics [25]预训练的权重进行微调,并冻结Batch Normalization [22]层。为了测试,当追求高精度时,我们遵循[49,50]中的常见设置,每个视频采样多个剪辑(10个用于Kinetics,2个用于其他)并使用全分辨率图像JesterTSN 83.9 99.6+11.7我们的97.0 99.9用于评估的较短侧256,以便我们可以给出直接比较;当我们考虑效率(例如,如表2所示),我们每个视频仅使用1个剪辑,并使用中心224×224裁剪进行评估。我们对同一表中比较的方法保持相同的方案。模型为了与最先进的方法[50]进行比较,我们在数据集(Something-Something- V1 [14])上使用了相同的骨干(ResNet-50)。该数据集专注于时间建模。不同之处在于[50]使用3D ResNet-50,而我们使用2D ResNet-50作为主干来证明效率。数据集。动力学数据集[25]是一个具有400个类的大规模动作识别数据集如[58,53]所指出的,像Something-Something(V1V2)[14],Cha- rades [38]和Jester [1]这样的数据集更专注于建模时间关系,而UCF 101 [40],HMDB 51 [26]和Kinetics [25]对时间关系不太敏感由于TSM专注于时态建模,因此我们主要关注具有较强时态关系的数据集,如Something-Something 。尽管如此,我们也在其他数据集上观察到了强有力的结果,并报告了它。5.2. 改进2D CNN基线我们可以无缝地将TSM注入到普通的2D CNN中,并提高其在视频识别方面的性能。在本节中,我们证明了2D CNN基线可以显著受益于TSM,具有两位数的准确性改进。我们选择TSN [48]作为2D CNN基线。我们对TSN和TSM使用了相同的训练和测试协议。唯一的区别是有或没有TSM。比较不同的数据集。我们比较了表1中的几个动作识别数据集的结果。图表分为两部分。上半部分包含数据集Kinetics [25],UCF 101 [40],HMDB 51 [26],其中时间关系不太重要,而我们的TSM仍然多个时间较少时间7089表2.将TSM与其他方法在Something-Something数据集上进行比较(中心裁剪,1个剪辑/视频,除非另有说明)。模型骨干#框架FLOPs/视频#参数。Val Top-1Val Top-5测试顶部-1TSN [58]BNInception816G10.7M19.5--TSN(我方实施)ResNet-50833G24.3M19.746.6-[58]第五十八话BNInception816G18.3M34.4-33.6TRN-多尺度(我们的实施)ResNet-50833G31.8M38.968.1-双码流TRNRGB+流[58]BNInception八加八-36.6M42.0-40.7ECO [61]BNIncep+3D Res18832G47.5M39.6--ECO [61]BNIncep+3D Res181664G47.5M41.4--[61]第六十一话BNIncep+3D Res1892267G150M46.4-42.3[61]第61话我的世界BNIncep+3D Res18九二加九二-300M49.5-43.9I3D来自[50]3D ResNet-5032×2clip153G1×228.0M41.672.2-来自[50]的3D ResNet-5032×2clip168G1×235.3M44.476.0-非本地I3D + GCN [50]3D ResNet-50+GCN32×2clip303G2×262.2M246.176.845.0TSMResNet-50833G24.3M45.674.2-TSMResNet-501665G24.3M47.277.146.0TSMEnResNet-502498G48.6M49.778.5-TSMRGB+FlowResNet-50十六+十六-48.6M52.681.950.7表3. TSM可以在Kinetics数据集上一致地提高不同主链的性能。R-50 RX-101 NL R-50TSN 66.5 72.4 74.6TSM 69.5 74.1 76.3 75.7访问量+3.0 +3.4 +3.9 +1.1在没有额外计算的情况下,该方法始终优于2D TSN基线 。 对 于 下 半 部 分 , 我 们 提 出 了 关 于 Something-Something V1和V2 [14]和Jester [1]的结果,这在很大程度上依赖于时间关系。2D CNN基线不能达到很好的精度,但一旦配备TSM,性能提高了两位数。在主干上扩展。TSM可以很好地扩展到不同大小的主干。我们在表3中显示了使用MobileNet-V2 [36]、ResNet-50 [17]、ResNext-101 [52]和ResNet-50 +非本地模块[49]主干的Kinetics top-1准确度。TSM一致地提高了不同主干上的准确性,即使对于已经具有时间建模能力的NL R-50也是如此。5.3. 与艺术TSM不仅显著改善了2D基线,而且优于严重依赖3D卷积的最先进方法。我们比较了我们的TSM模型与最先 进的方 法在 Something-Something V1 V2 上的 性能,因为这两个数据集专注于时间建模。1我们报告了[50]中描述的NL I3D的性能,这是原始NL I3D的变体[49]。它使用较少的时间维池来实现良好的性能,但也会导致较大的计算量。2包括区域建议网络的参数和FLOP。什么东西V1Something-Something-V1是一个具有挑战性的数据集,因为不能仅从单个帧推断活动(例如,从右到左推东西)。我们在表2中比较了TSM与当前最先进的方法。除非另有说明,否则我们在测试期间仅应用中心裁剪以确保效率发布后,TSM在排行榜上获得第一名我们首先展示了基于2D的方法TSN [48]和TRN [58]的结果。由于缺乏时间建模,具有不同主干的TSN未能实现良好的性能(20% Top-1)对于TRN,虽然在特征提取之后添加了后期时间融合,但是性能仍然显著低于最先进的方法,这表明了跨所有级别的时间融合的重要性。第二部分展示了最先进的高效视频理解框架ECO[61]。ECO使用早期2D+晚期3D架构,其实现中等级别的时 间融合。与 ECO相比 ,我们 的方法 在较 小的FLOPs下实现了更好的性能。例如,当使用8帧作为输入时,我们的TSM在33 G FLOP下实现了45.6%的top-1精度,这是4.2%的高精度比ECO少1.9倍的计算量。ECO的集合版本(ECOEnLite和ECO EnLiteRGB+Flow,使用{16,20,24,32}帧的集合作为输入)确实实现了竞争性结果,但是计算和参数是不确定的。对于部署来说太大了。虽然我们的模型更有效:我们只使用{8,16}帧模型进行集成(TSM En),该模型以2.7倍的计算量和3.1倍的参数获得了更好的性能。第三部分包含先前的最先进的方法:非局部I3D +GCN [50],其实现所有级别的时间融合。GCN需要一个在MSCOCO对象检测数据集上训练的区域建议网络[34][30]7090表4.关于Something-Something-V2的评论我们的TSM实现了最先进的性能。方法确认试验5148464341380 100 200 300 400 500 600 700浮点数/视频(G)图5.TSM在Something-Something-V1 [14]数据集上比I3 D系列和ECO系列具有更好的精度-成本权衡(GCN包括ResNet-50RPN的成本,以生成区域提案。生成边界框,这是不公平的比 较,因为外部数据(MSCOCO)和额外的训练成本的介绍。因此,我们将TSM与其CNN部分进行了比较:非本地I3D。我们的TSM(8f)实现了1.2%的精度提升,与非本地I3D网络相比,验证集上的FLOP减少10倍请注意,非本地技术模块[49]与我们的工作是正交的,这也可以添加到我们的框架中以进一步提高性能推广到其他模式。我们也证明了我们所提出的方法可以推广到其他模态,如光流为了提取帧之间的光流信息,我们遵循[48]使用在OpenCV中使用CUDA实现的TVL 1光流算法[55]。我们在Something-Something V1和V2数据集上进行了双流实验,并且它始终改善了RGB性能:引入光流分支在V1和V2上带来了5.4%和2.6%的top-1改进。什么东西V2 我们还展示了Something-Something-V2数据集的结果,这是其先前版本的更新与其他现有技术方法相比的结果示于表4中。在Something-Something-V2数据集上,我们在仅使用RGB输入的情况下实现了最先进的性能。成本与精度我们的TSM模型实现了非常有竞争力的性能,同时享受高效率和低计算成本的快速推理。我们在表2中显示了每个模型的FLOP。虽然GCN本身很轻,但该方法使用了基于ResNet-50的区域建议网络,表5.TSM具有低GPU推理延迟和高吞吐量的特点.V/s表示每秒视频数,越高越好(在NVIDIA Tesla P100 GPU上测量)。模型效率统计精度FLOPs参数。延迟吞吐量。某事动力学I3D来自[50] 306G 35.3M165.3ms 6.1V/s41.6%-ECO 16 F[61]64G47.5M30.6ms 45.6V/s 41.4%-I3D来自[49]33G29.3M25.8ms 42.4V/s-73.3%I3 D取代48 G 33.0M28.0ms 37.9V/s 44.9%-TSM 8F33G24.3M17.4ms77.4V/s45.6%74.1% TSM 16 F65 G24.3 M29.0ms39.5V/s47.2% 74.7%工作[34]提取边界框,其成本也在图表中考虑。注意,光流提取的计算成本通常大于视频识别模型本身。因此,我们不报告基于双流的方法的FLOP。我们在图5中显示了准确度、FLOP和参数数量的权衡。在Something-Something-V1数据集的验证集上测试准确性,参数的数量我们可以看到,我们的基于TSM的方法具有比以前最先进的高效模型(基于ECO的模型)和高性能模型(基于非局部I3D的模型)更好的Pareto曲线。TSM模型既高效又准确。它可以以高效率实现最先进的精度它实现了更好的性能,同时消耗的计算量比ECO系列少3倍。 考虑到ECO已经是面向效率的设计,我们的方法享有高度竞争力的硬件效率。5.4. 延迟和吞吐量加速测量的推理延迟和吞吐量对于大规模视频理解是TSM具有低延迟和高吞吐量。我们在单个NVIDIATesla P100 GPU上进行了测量。 我们使用批量大小为1的延迟测量;用于吞吐量测量的批大小为16。我们做了两个比较:(1) 与[50]中的I3D模型相比,我们的方法速度快了一个数量级,精度高出1.8%(表5)。 我们还将我们的方法与最先进的有效模型ECO [61]进行了比较:我们的TSM模型具有1。75×更低的延迟(17.4msvs. 30.6ms)、1. 7倍高通过-并提高了2%的精度。ECO有两个-分支(2D+3D)架构,而TSM只需要价格低廉的2D主干。(2) 然后,我们将TSM与高效的3D模型设计进行了比较。一种方法是只膨胀每个块中的第一个1×1卷积,如[49]所示,在表中表示为“来自[ 49 ]的虽然由于池化,FLOP相似,但它的延迟高出1.5倍,吞吐量仅为55与TSM相比,精度较差我们推测原因是TSM模型仅使用针对硬件高度优化排除这些因素[50]第61话我的世界TSMEnTSM16FECOEnLiteNL I3D+GCNTSM8FNL I3DECO16Fi3DECO8F#参数30M 10 0 米150米准确度(%)Top-1Top-5Top-1Top-5TSN(我方实施)30.060.5--[58]第五十八话48.877.650.979.32-[58]第五十八话55.583.156.283.2TSM8F59.185.6--TSM16F63.488.564.389.6TSMRGB+Flow66.090.566.691.37091表6.比较离线TSM和在线TSM在不同数据集上的准确性在线TSM带来的延迟开销可以忽略不计。表7.ImageNet-VID上的视频检测结果模型在线需求延迟mAP模型Latency Kinetics UCF101 HMDB51 Something流整体慢中快969288848010 20 40 60 80 100视频观察%图6.在UCF101上的早期识别TSM在仅观察视频的一小部分之后给出高在骨干网设计中,我们用3×1×1卷积来替换每个TSM基元,并将此模型称为I3D替换。它仍然比TSM慢得多,性能更差。5.5. 使用TSM进行在线vs.离线在线TSM模型单向移动特征图,以便它可以实时给出预测。我们比较了离线和在线TSM模型的性能,表明在线TSM仍然可以实现可比的性能。遵循[61],我们使用从所有帧平均的预测来与离线模型进行比较,即,我们在观察整个视频后比较性能。性能见表6。我们可以看到,对于时间相关性较低的数据集,如Kinetics,UCF101和HMDB51,与离线模型相比,在线模型实现了可比较的,有时甚至更好的性能。而对于更多时间相关的数据集Something-Something,在线模型的性能比离线模型差1.0%。尽管如此,在线模型的性能仍然明显优于2D基线。我们还比较了纯2D骨干(TSN)和我们的在线TSM模型的每帧预测延迟我们在GPU上使用TVM [5]编译这两个模型我们的在线TSM模型每帧仅增加不到0.1ms的延 迟 开 销 , 同 时 带 来 高 达 25% 的 准 确 性 提 高 。 它demonstrates在线TSM是硬件高效的延迟关键的实时应用程序。早期识别早期识别的目的是在只观察一小部分帧的情况下对视频进行分类。它对输入的视频流有快速的响应。在这里,我们比较了UCF101数据集上的早期视频识别性能(图6)。与ECO相比,TSM提供了更高的准确性,特别是当仅观察帧的一小部分时。例如,当只观察前10%的视频帧时,TSM模型可以达到90%的准确率,比最好的ECO模型高6.6%。表8.TSM以低延迟在边缘设备上高效运行器械Jetson Nano Jetson TX2骨锉。Note 8 Pixel 1CPU GPU CPU GPU延迟(ms)47.8十三点四 36.4 8.5 69.6 34.5 47.4功率(瓦)4.8 4.5 5.6 5.8 3.8--实时在线视频对象检测是自动驾驶汽车、机器人等领域的重要应用。通过将我们的在线TSM注入主干,我们可以很容易地以可忽略的开销考虑时间线索,以便模型可以处理运动模糊,遮挡,散焦等不良对象外观。我们在ImageNet-VID [35]数据集上使用ResNet-101主干对R-FCN [23]检测器进行了实验我们将单向TSM插入主干,同时保持其他设置不变。结果示于表7中。与2D基线R-FCN [23]相比,我们的在线TSM模型显著提高了性能,特别是在快速移动的物体上,其中TSM将mAP提高了4。百分之六。我们还比较了强基线FGFA [60],其使用光流来聚合来自21帧(过去10帧和未来10帧)的时间信息以进行离线视频检测。与FGFA相比,TSM在实现在线识别的同时,可以达到类似或更高的性能 以更小的延迟。我们在补充材料中可视化了一些视频片段,以表明在线TSM可以利用时间一致性来纠正错误预测。边缘部署TSM对移动终端友好。 我们建立了一个基于MobileNet-V2主干的在线TSM模型,在Kinetics上达到了 69.5% 的 准 确 率 。 NVIDIA Jetson Nano TX 2 、Raspberry Pi 4 B 、 Samsung Galaxy Note8 和 GooglePixel-1上的延迟和能量如表8所示。这些模型是使用TVM编译的[5]。功率用功率计测量,减去静态功率。TSM在边缘设备上实现了低延迟和低功耗6. 结论我们提出了时间移位模块的硬件效率视频识别它可以插入到2D CNN主干中,以实现联合时空建模,而无需额外成本。该模块沿着时间维度移动部分信道以与相邻帧交换信息我们的框架既高效又准确,能够在边缘设备上实现低延迟视频识别。感 谢MIT Quest for Intelligence 、 MIT-IBM Watson AILab、MIT-SenseTime Alliance、Sam- sung、SONY、AWS、Google对本研究的支持我们感谢橡树岭国家实验室的Summit超级计算机。ECO(s=12)ECO(s=20)TSMTSN4.7ms70.6%百分之九十一点七百分之六十四点七百分之二十点五R-FCN [23]FGFA [60]CC1×2.5倍74.775.983.684.072.574.451.455.6准确度%7092引用[1] 20bn-jester 数 据 集v1.https://20bn.com/datasets/jester. 五、六[2] Hakan Bilen , Basura Fernando , Efstratios Gavves ,Andrea Vedaldi,and Stephen Gould.用于动作识别的动态图像
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功