变压器编码器-解码器框架用于在线动作检测

155 浏览量更新于2023-10-13 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7565OadTR：使用变压器进行在线动作检测王翔1张世伟2 *志武卿1邵元杰1左正荣1高长新1农桑1 *1人工智能与自动化中国华中科技大学2阿里巴巴集团，中国{wxiang，qzw，shaoyuanjie，zhrzuo，cgao，nsang} @ hust.edu.cn，zhangjin. alibaba-inc.com摘要大多数最近的在线动作检测方法倾向于应用递归神经网络（RNN）来捕获长范围的时间结构。然而，RNN遭受非并行性和梯度消失，因此很难进行优化。在本文中，我们提出了一个新的编码器-解码器框架的基础上变压器，命名为OadTR，以解决这些问题。附加任务令牌的编码器旨在捕获关系和全局交互。1.61.310.70.40.1损失曲线04812162024训练时期（一）110958065503520推理速度（帧/秒）TRNIDNOadTR（b）第（1）款性能(mAP%的百分比）58555249464340TRNIDNOadTR（c）第（1）款历史观察之间的关系。解码器通过聚合预期的未来剪辑表示来提取辅助信息。因此，OadTR可以通过编码历史信息并同时预测未来上下文来识别当前动作我们在三个具有挑战性的数据集上广泛评估了所提出的OadTR：HDD、TVSeries和THUMOS14。实验结果表明，OadTR实现了更高的训练和推理速度比目前基于RNN的方法，并显着优于国家的最先进的方法在两个mAP和mcAP。代码可从https：//github.com/wangxiang1230/OadTR网站。1. 介绍在线动作检测的目的是正确识别流视频中正在进行的动作，而无需访问未来。最近，该任务由于其在现实生活中具有多种应用前景的巨大潜力而受到越来越多的关注，例如自动驾驶[24]，视频监控[45]，异常检测[37，38]等。这项任务的关键挑战是，我们需要检测的时刻，视频帧到达与inade-quate观察的行动。为了解决这个问题，重要的是要学习的长程时间依赖性。*通讯作者。图1：OadTR和现有技术的在线动作检测方法（即，TRN [54]和IDN [15]）：（a）训练速度的比较;（b）推理速度的比较;（c）在挑战THUMOS 14数据集上的性能比较。目前的方法倾向于应用RNN来建模时间依赖性，并且已经取得了令人印象深刻的改进[11，13，15，16，28，54]。通常，信息识别网络（IDN）[15]设计了一个类似RNN的架构来编码长期的历史信息，然后在当前时刻进行动作识别。然而，RNN类架构具有非并行性和梯度消失的问题[33，39]。因此，很难优化架构，这可能导致不理想的性能。这对于当前方法来说是一个具有挑战性的问题，但解决它的努力要少得多。为了进一步提高性能，我们需要设计一个新的高效和易于优化的框架。为此，我们建议应用变压器[48]。变换器通过自我注意模块具有强大的长距离时间建模能力，并且在自然语言处理[12，48，57]和各种视觉任务[14，58]中都取得了显着的性能。现有的工作已经证明，变压器具有比RNN架构更好的收敛性[23，26]，并且它们也是计算效率高的。以上是Trans的特点。SOTATRNIDNOadTR7566×前者自然可以为在线动作检测任务提供替代方案上述观察激发了这项工作。特别是，我们提出了一个精心设计的框架，称为OadTR，通过引入变压器的力量在线动作检测任务，如图2所示。所提出的OadTR是一种编码器-解码器架构，它可以同时学习远程历史关系和未来信息来对当前动作进行分类。第一步是通过标准CNN从给定视频中提取剪辑级特征序列。然后，我们将任务令牌嵌入到剪辑级特征序列中，并将其输入到编码器模块。通过这种方式，任务令牌的输出可以对历史观测之间的全局时间关系进行编码。相比之下，解码器被设计为预测可能在未来时刻发生的动作。最后，我们将任务令牌和解码器的输出连接起来我们在图1中将OadTR与其他基于RNN的方法进行了比较，这表明所提出的OadTR既高效又有效。为了进一步证明OadTR的有效性，我们在三个公共数据集上进行了大量实验，包括HDD [41]，TVSeries [10]和THUMOS14 [22]，并在mAP和mcAP指标方面实现了显着改进总的来说，我们做出了以下三方面的贡献：据我们所知，我们是第一个将变形金刚引入在线动作检测任务，并提出一个新的框架，即。、OadTR;我们专门设计了OadTR的编解码器，它可以聚合远程历史信息和未来预期，以提高在线动作检测;我们进行了大量的实验，结果表明，所提出的OadTR显着优于形式的最先进的方法。大规模、全面的消融研究可以进一步剖析OadTR的内在特性。2. 相关工作在本节中，我们将回顾我们的方法的相关方法，如下所示：在线操作检测。给定实时视频流，在线动作检测旨在识别正在发生的动作，即使只能观察到部分动作。DeGeest等人[10]首次明确引入了在线动作检测任务，并提出了TVSeries数据集。在那之后，他们还提出了一个使用LSTM [20]的双流反馈网络来建模时间结构[11]。RED [16]设计了一个增强型编码器-解码器网络以及一个鼓励尽早做出正确决定的模块。最近的几种方法[17，44]专注于检测动作开始并最小化识别动作开始点的时间延迟。IDN [15]直接操纵GRU单元[8]来模拟过去的信息和正在进行的动作之间的关系。受人类经常通过考虑未来来识别当前动作的启发[9]，TRN[54]使用LSTM递归地预测未来信息，并将其与过去的观察相结合来识别动作。在本文中，我们还介绍了未来的信息，以协助确定当前的行动，但在平行。注意，上述方法采用RNN来对输入动作序列进行建模，这是低效的并且缺乏特征之间的交互，导致对长期依赖的建模能力差。时间动作检测。时间动作检测的目标是定位未修剪视频中所有动作实例的开始时间点和结束时间点。一阶段方法[27，31，50]在对象检测中借鉴SSD [35]方法，并设计具有多层特征金字塔结构的端到端动作检测网络。两阶段方法[7，53]采用Faster-RCNN [42]架构，包括建议生成子网和建议分类子网。最近的方法集中在生成高质量的时间动作建议。这些方法[2，29，30，32，40，51，55]通常以高概率定位时间边界，然后将这些边界组合为建议，并通过评估建议是否包含其区域内的动作的置信度来检索建议然而，上述方法假设可以观察到整个输入视频，这在在线任务中不可用。变压器. 自从基于Transformer的模型在自然语言处理领域取得成功[12，48，57]以来，有许多尝试来探索Transformer在视觉任务中的可行性。DETR [5]及其变体[58，61]通过采用变压器有效地消除了对许多手工设计的组件（如非最大抑制程序和合唱生成）ViT [14]将图像分为 16 个 16 块，并将它们输入标准的Transformer在语义分割[52，59]、车道形状预测[34]、视频帧合成[36]等方面也有一些尝试。据我们所知，我们是第一个将变压器引入在线动作检测任务的。特别地，与原始自回归Transformer不同，OadTR采用非自回归变换器来并行地生成序列以提高效率。3. 方法在本节中，我们将首先介绍问题定义，然后详细介绍所提出的OadTR。···7567未来y~未来...1y~2未来y~d喝平均池化分类器编码器...逐元素加法前馈解码器N×逐元素加法逐元素加法多头自注意......+位置编码逐元素加法M×特征提取器特征提取器(task代币）逐元素加法多头自注意......多头交叉注意前馈...concat分类器0.220.20.160.180.160.130.150.150.120.130.09{}t联系我们∈{}t∈（T+1）×D特征提取器特征提取器F-Tf-2f-1f0（y0=Drink）Q1Q2Qd图2：所提出的在线动作检测Transformer（OadTR）的图示给定输入流视频V=f0t=−T 任务令牌被附加到由特征提取网络输出的视觉特征那么令牌特征序列被输入到标准的Transformer的编码器中，以模拟长期的历史时间依赖性。之后，OadTR的解码器并行地预测未来的上下文信息。最后，在对当前动作进行分类时涉及注意，包括编码器和解码器的OadTR是端到端并行框架。3.1. 问题描述给定可能包含多个动作的视频流，t =-5t =-4t =-3t =-2t =-1t = 0（一）y0=用户电话（部分可见）任务的目标是确定当前正在采取的行动特征相似性分布0.31实时的地方。我们将V={f}0表示为输入无任务令牌tt=−Tw/任务令牌流视频，需要对当前帧进行分类块f0. 我们用y表示的操作类别t =-5 t =-4 t =-3 t = -2 t = -1 t = 0当前帧块f0和y00，1，... C，其中C是动作类别的总数，索引0表示背景类别。3.2. OadTRt =-5 t =-4 t =-3 t = -2 t = -1 t = 0w/o任务令牌w/ task令牌为了探索Transformer的潜在好处，我们将自我注意力的力量引入在线动作检测任务。在本节中，我们提出了OadTR，编码器-解码器构象。OadTR采用注意机制来捕获特征的时间维度中的长范围上下文信息OadTR的示意图如图2所示。3.2.1编码器图3：分类特征（即，在发送到分类器之前的特征）和输入特征序列F~。注意，w/o任务令牌：输出分类特征对应于f〇输入的令牌;w/任务令牌：输出分类特征对应于任务令牌。在编码器，我们延伸一可学习符记类研发嵌入特征序列F，得到组合特征序列给定流视频V={ft}0，该功能前-F~=Stack（{tok en}0，token）∈R（T +2）× D.t=−Ttt=−T类tractor [49]通过折叠空间维度来提取1D特征序列。然后一个额外的线性投影层进一步将每个矢量化帧块特征映射到D维特征空间中，并且F=令牌0t=-TR表示结果令牌序列。注意，令牌类用于学习与在线动作检测任务相关的全局判别特征。直观地说，如果这里没有标记类，则由其他标记获得的最终特征表示将不可避免地偏向于这个指定的标记作为一个整体，因此特征相似性分布零点二十九0.240.180.15零点0.15零点一七0.170.120.080.120.19（b）第（1）款y0=Use计算机编码层解码层7568N.Σi∈DK˜ ˜ ˜˜∈N不能用于表示该学习任务（即，w/o tasktoken（图3中的任务令牌）。相反，语义嵌入H=MSA（Norm（X0））（6）m′1=H+X0（7）通过自适应地与编码器中的其他令牌交互，可以获得令牌类的最大值，这更适合于mn= FFN（范数（m′n−1））+m′n−1（八）特征表示（即，w/ task token）。我们将在第4.3节中进一步确认令牌类的必要性。由于在编码器中没有帧顺序信息位置编码可以采取两种形式：正弦输入和m′n= MSA（Norm（mn−1））+mn−1（9）其中n=1，2，…N，N是编码层的数量，并且m NR（T+2）× D表示编码器的最终输出特征表示。为了方便前-可训练嵌入。我们添加位置编码Epos∈平面化，我们使用m标记∈RD来表示输出表示。R（T+2）×D到令牌序列（即，逐元素添加）以保留位置信息：X0=F+Epos（1）通过这种方式，尽管存在无序的自我注意，位置信息也可以被保持。多头自我关注（MSA）是Transformer的核心组成部分。直观地说，自我注意背后的想法是每个令牌可以与其他令牌交互，并且可以学习更有效地收集有用的语义信息，这非常适合于捕获长距离依赖性。我们用所有键计算查询的点积一般来说，自我注意力的公式定义为：X′=范数（X0）（2）我发送对应于任务令牌的编码器。3.2.2解码器当一个人在看电影时，他不仅会回忆过去，而且会对不久的将来会发生什么做出预测[3]。因此，OadTR的解码器利用对过去信息的观察来预测将在不久的将来发生的动作，以便更好地学习更具区分性的特征。预测查询Q iRD’，i=1，2，…d也是able，其中D’是查询通道的数量。这是一个很大的问题。与原始Transformer [48]的参考是，我们的解码器在每个解码层处并行地解码预测查询。允许解码器通过编码器-解码器交叉注意机制利用来自编码器的语义信息。这里，我们使用Q∈i∈RD′，i=1，2，.，d代表Attention（Qi;Ki;Vi）=softmaxQ KT√dkVi（3）解码器后的序列输出3.2.3培训Hi=注意力（Qi;Ki;Vi）（4）其中Qi=X′Wq，Ki=X′Wk和Vi=X′Wv是线性的。i iqiv在OadTR中，我们主要使用编码器来识别当前帧块f〇，并且使用解码器来预测即将到来的未来。同时，将预测结果作为耳层应用于输入序列，并且W，Wk，W∈D×D我我我辅助信息以更好地识别动作。RN头。注意，查询、键和值都是向量，Nhead是头的数量。1是一个缩放因子，并且dk通常被设置为D。比例因子可以使训练更加稳定并加速收敛。随后，磁头H1、H2、…H、N个头被级联并馈送到线性层中。公式如下：（T+2）×D对于当前帧块的分类任务，我们首先将编码器中的任务相关特征与解码器中的合并预测特征连接起来。然后，得到的特征经过完整的连接层和softmax操作进行动作分类：Q=平均池（Q1，Q2，…（10）p0=softmax（C_onca_t[m到k_e_n，Q~]W_c）（11）其中Wd是线性投影。多头自注意H=S粘性（H1，H2，…，HNhead）Wd∈R（五）7569其中，Wc表示用于分类，且p0∈RC+1。允许编码器关注多个不同的模式，这有利于提高编码器的鲁棒性和容量。随后，其之后是具有GELU [19]激活的双层前馈网络（FFN）同时，也应用了layernom [1]和残差连接[18]。最终的多个公式可以表示为：除了估计的当前动作之外，OadTR还输出下一个时间步长的预测特征。由于未来信息在离线训练期间可用，为了确保学习到良好的特征表达，我们还对未来预测特征进行监督训练：i′p~=softmax（Q~iWc），i=1，2，...，中国（12）7570Σ˜Σ方法参考输入最大平均接入点（%）美国有线电视新闻网[10]ECCV'1622.7LSTM [41]CVPR'1823.8教育署[16]BMVC'17传感器27.4[54]第五十四话ICCV'1929.2OadTR-29.8表1：我们的OadTR与HDD [41]数据集上的其他最先进的在线动作检测方法在mAP（%）方面的比较。方法参考输入mcAP（%）红色[16]BMVC'1779.2[54]第五十四话印尼文[15]ICCV'19CVPR'20TSN-Anet83.784.7OadTR-85.4印尼文[15]CVPR'20TSN-动力学86.1OadTR-87.2表2：我们的OadTR和其他最先进的在线动作检测方法在TVSeries [10]数据集上的mcAP（%）方面的比较。请注意，我们使用相同的双流特征进行公平比较。方法参考设置最大平均接入点（%）美国有线电视新闻网[47]ICLR'1534.7美国有线电视新闻网[46]NIPS'1436.2LRCN [13]CVPR'15线下39.3MultiLSTM [56]IJCV'1841.3CDC [43]CVPR'1744.4红色[16]BMVC'1745.3[54]第五十四话ICCV'19在线47.2印尼文[15]CVPR'20（TSN-Anet）50.0OadTR-58.3印尼文[15]CVPR'20在线60.3OadTR-（TSN-动力学）65.2表3：THUMOS 14 [22]数据集上mAP（%）的性能比较。OadTR、IDN [15]、TRN [54]和RED [16]使用相同的双流特性。因此，最终的联合训练损失为：普卢德损失=CE（p0，y0）+λCE（pi，yi）（13）的137个部分，并提供由车辆的控制器局域网总线收集的各种非视觉传感器我们使用100个切片进行培训，37个切片进行评估。电视系列。TVSeries包含六部热门电视剧，每部约150分钟，总计约16小时。该数据集总共包括30个动作，每个动作在数据集中至少发生50次。TVSeries包含了许多不受约束的观点和各种各样的背景。THUMOS 14. 该数据集有1010个验证视频和1574个测试视频，共20个类别。对于在线动作检测任务，有200个验证视频和213个测试视频标记有时间注释。与之前的作品[15，54]一样，我们在验证集上训练我们的模型，并在测试集上进行评估。实作详细数据。对于特征提取器，遵循以前的工作[15，16，54]，我们采用在ActivityNet v1.3 [4]（TSN-Anet）上预训练的双流网络[49]（3072维），其中空间和时间子网络分别采用ResNet-200 [18]和BN-Inception[21]。为了与[15]进行公平的定量比较，我们还使用在Kinetics [6]上预训练的相同TSN特征（4096维）进行实验（TSN-Kinetics）。在训练方面，我们在PyTorch中实现了我们提出的没有这些花里胡哨的东西，我们使用Adam [25]进行优化，批量大小设置为128，学习率设置为0.0001，权重衰减为0.0005。除非另有说明，否则我们将HDD数据集的T设置为31，将TVSeries和THUMOS14数据集的T设置为63。评价指标。为了评估OadTR的性能，遵循先前的方法[10，15，16，54]，我们报告了HDD和THUMOS14数据集上的每帧平均平均精度（mAP），以及TVSeries上的每帧平均校准平均精度[10]（mcAP）。mAP应用广泛，需要对平均精度其中CEi=1是交叉熵损失，yi就是实际行动（AP）每个动作类。校准的平均精度类别，并且λ是平衡系数，在实验中设置为0.5。（cAP）可以被公式化为：TPcPrec=TP+FP（十四）4. 实验在本节中，我们将在三个基准数据集上评估所提出的OadTR：[ 41 ][42][43][44][45][46][47][48][49][49][49]cAP=WkcPrec（k）×I（k）TP（十五）MOS14 [22]用于在线动作检测。首先，我们比较了我们的OadTR和最先进的方法之间的结果然后，我们进行更详细的消融研究，以评估OadTR的有效性。Σ75714.1. 数据集和设置硬盘。该数据集包括在旧金山湾区收集的大约104小时的驾驶动作，总共有11个动作类别。数据集包括其中，如果帧K是TP，则I（k）等于1。系数w是负帧和正帧之间的比率4.2. 与最先进的方法为了评估性能，我们在 HDD ， TVSeries 和THUMOS14数据集上比较了我们提出的OadTR和其他最先进的方法[15，16，54]。注意到我们使用相同的网络参数设置（例如， N=3，M=5）比较不同的数据集时。作为插图-7572#方法最大平均接入点（%）LSTM [41]23.8仅编码器（基线）28.7基线+TT29.0基线+DE29.2#方法mcAP（%）LSTM [15]80.9仅编码器（基线）84.8基线+TT85.0基线+DE85.1基线+ TT + DE（OadTR）85.4#方法最大平均接入点（%）LSTM [15]46.3仅编码器（基线）55.8基线+TT56.9基线+DE56.7方法作用部分0%-10%10%-20%20%-30%30%-40%40%-50%50%-60%60%-70%70%-80%80%-90%90%-100%美国有线电视新闻网[10]61.061.061.261.161.261.261.361.561.461.5LSTM [10]63.364.564.564.365.064.764.464.464.464.3FV-SVM [10]67.068.469.971.373.074.075.075.476.576.8[54]第五十四话78.879.680.481.081.681.982.382.782.983.3印尼文[15]80.681.181.982.382.682.882.682.983.083.9OadTR79.583.986.485.486.487.987.387.385.984.6[15]第十五话81.781.983.182.983.283.283.283.083.386.6OadTR（动力学）81.284.987.487.788.289.988.988.887.686.7表4：TVSeries数据集上动作的不同部分在mcAP（%）方面的性能比较。注意，动作的对应部分仅用于在以在线方式检测到所有帧块上的当前动作之后计算mcAP。4.2.1 在HDD数据集上对我们提出的组件的有效性进行消融研究。4.2.2 在TVSeries数据集上对我们提出的组件的有效性进行消融研究。4.2.3 在THU-MOS 14数据集上对我们提出的组件的有效性进行消融研究。#位置编码最大平均接入点（%）头部数量最大平均接入点（%）#暗淡最大平均接入点（%）#泛化m（c）AP（%）没有立场28.8头部= 157.4尺寸= 12856.4Vanilla Transformer（HDD）29.8固定位置29.3头部= 257.7尺寸= 25657.1稀疏Transformer（HDD）29.6学习位置29.8头部= 458.3尺寸= 51257.3Vanilla Transformer（TV系列）85.4头部= 857.7尺寸= 102458.3稀疏Transformer（TV系列）85.0头部= 1657.8尺寸= 153657.7香草Transformer（THUMOS14）58.3头部= 3257.4尺寸= 204857.6稀疏Transformer（THUMOS14）58.1(d)消融研究不同(e)消融研究(f)消融研究(g)泛化评价。的结果表明HDD数据集上的位置编码方式。THUMOS14数据集上的头号。THUMOS14数据集上的查询维度。我们的模型设计的通用性和优越性。表5：消融研究。如表1所示，我们的OadTR实现了最先进的性能，并将HDD数据集上的mAP从29.2%提高到29.8%，表明我们的OadTR可以实现在线动作检测的整体性能提升。这可以归因于我们的OadTR引入了Transformer，以有效地获取全局历史信息和未来上下文表2比较了TVSeries数据集上最近的在线动作检测方法。为确保公平比较，我们采用相同的视频功能。实验结果表明，OadTR算法在不同的视频特征输入下都能取得较好的性能。TSN-动力学的较好结果的原因可能是动力学的类别更加多样化，并且包含许多共同的可概括的表示。如表3所示，我们还对THUMOS14数据集进行了全面比较。具体而言，在TSN-Anet特征输入下性能提高了8.3%（50.0%对58.3%），在TSN-Kinetics特征输入下性能提高了4.9%（60.3%对65.2%上述结果表明我们提出的OadTR的有效性。当只考虑每个动作的一小部分时，我们将OadTR与以前的方法进行了比较。表4显示，我们的OadTR在大多数时间阶段显著优于最先进的方法[15，54]。具体而言，这表明OadTR在识别早期阶段以及所有阶段的动作方面的优越性。这可以归因于我们的OadTR有效地建模时间依赖性的能力。4.3. 消融研究为了便于我们对模型的分析，我们将没有任务令牌的编码器作为我们的基线。我们进一步进行了详细的消融研究，以评价拟定框架的不同组成部分，包括以下内容：仅编码器（基线）：我们采用原始Transformer [48]中的编码器，并将其直接应用于在线动作检测任务。请注意，与我们的OadTR的编码器相比对应于Transformer的编码器的f〇Baseline + TT：我们合并了Baseline和任务令牌7573数据集任务解码器步骤（d）2 4 8 16HDD在线动作检测28.328.429.828.8行动预期27.226.223.016.9电视系列在线动作检测85.385.285.485.2行动预期81.880.477.874.3THUMOS14在线动作检测57.457.858.358.0行动预期53.551.045.940.7表6：我们提出的OadTR的在线动作检测和动作预测结果，其中解码器步长为d=2、4、8、16。方法数据集1编码层2 3s（N，4M=55）6HDD28.829.0 29.829.528.428.4OadTR电视系列85.485.5 八十五点四85.384.885.0THUMOS1457.5 56.9 五十八点三57.456.956.6(a) 不同编码层的在线动作检测结果注意，为了简单起见，我们固定M=5cal组件在这里，我们研究的影响，不同的头数的解码器上的性能。我们可以发现，当头的数量为4时，实现了最佳结果（表5（e））。查询维度的影响。我们进行实验，研究如何不同的查询维度影响在线动作检测性能。如表5（f）所示，当特征尺寸的数目相对较小（例如，128），模型容量有限，性能相对较差。随着特征维数的逐渐增加，模型容量增加，性能提高。然而，当它超过特定值（例如，1024），则可能发生过拟合。可推广性。为了进一步研究我们的 OadTR 对许多Transformer变体的推广，我们将标准Transformer [48]替换为稀疏Transformer。方法数据集解码层（M，1 2 3 4N=3）5 6前[60]。如表5（g）所示，我们可以发现更换后性能仍然良好。一般而言，HDD27.728.029.5二十九点五29.8 二十八点六Sparse Transformer可以减少计算消耗OadTR TV系列84.884.885.285.485.485.5THUMOS14 五十七点四五十七点九分五十六点九 57.2 五十八点三56.6(b) 不同解码层的在线动作检测结果注意，为了简单起见，我们固定N=3表7：使用TSN-Anet特征的编码层N和解码层M(TT)这是我们的OadTR的编码器。该方法增加了一个任务相关的令牌，我们使用消融实验来说明这个令牌的必要性。Baseline + DE：在该方法中，我们将OadTR中预测任务的解码器（DE）添加到baseline方法中，以测试和验证解码器的功能。Baseline + TT + DE（OadTR）：这是本文提出的方法，在Baseline方法的基础上增加了任务令牌和解码器。在表5（a-c）中，我们报告了上述方法在HDD、TVSeries和THUMOS 14数据集上的性能比较实验。Baseline + TT的结果表明，使用额外的任务标记有助于动作分类。基线+DE的结果解释了辅助预测任务的显著功效。当结合上述两个改进时，我们的OadTR（即，基线+TT + DE）在三个数据集上实现了最佳结果具体来说，与基线方法，我们的 OadTR 方法在 HDD ， TVSeries 和THUMOS14数据集上分别提高了1.1%，0.6%和2.5%位置编码的重要性。为了证明使用位置编码的重要性，我们组织了一些比较实验。如表5（d）所示，位置编码是必要的，并且可学习的位置编码实现了最佳结果。头数的影响多头自我关注是一个关键-但导致了少许性能下降。解码器步数的影响用于预测未来的步长大小也会对性能产生影响。在表6中，我们比较了四个步长（即，2、4、8和16），并且结果表示步骤=8在三个数据集上实现最佳结果。编码层N和解码层M的效果。为了进一步研究不同的编码和解码层对性能的影响，进行了额外的实验，结果如表7所示。在大多数情况下，当N=3、M=5时实现最佳结果。然而，也会有波动，比如TVSeries数据集。功能聚合类型。我们还进行实验，探索不同类型的聚合未来和当前的功能。我们可以注意到，Avg-pool优于Max-pool（表9）。原因可能是不同时间步长的预测深度语义表示都对当前分类有特定的促进作用。同时，w/o编码器的结果也表明了编码器学习鉴别特征的必要性。4.4. 动作预期在我们提出的OadTR中，我们引入预测的未来信息来识别当前的动作。为了证明我们的预测的准确性，我们还进行了实验，与其他方法进行比较。表8表明，OadTR的性能大大优于当前最先进的方法[54]。特别是，OadTR的性能比TVSeries数据集上的TRN [54]高2.1%，比THUMOS14高7.0%此外，当对Kinetics进行预训练时，还可以进一步提高OadTR的性能。7574方法OadTR数据集HDD电视系列THUMOS14设置最大池平均池无编码器29.285.157.929.885.458.326.180.853.5预测未来的时间（秒）方法0.25s0.5s0.75s1.0s1.25s1.5s1.75s2.0sAvg教育署[16]78.578.076.374.673.772.771.771.074.5红色[16]79.278.777.175.574.273.072.071.275.1[54]第五十四话79.978.477.175.974.973.973.072.375.7OadTR81.980.679.478.277.176.075.274.377.8OadTR（动力学）84.182.681.380.178.977.776.775.779.14.4.1TVSeries数据集的mcAP（%）结果。预测未来的时间（秒）方法0.25s0.5s0.75s1.0s1.25s1.5s1.75s2.0sAvg教育署[16]43.840.938.736.834.633.932.531.636.6红色[16]45.342.139.637.535.834.433.232.137.5[54]第五十四话45.142.440.739.137.736.435.334.338.9OadTR50.249.348.146.845.343.942.441.145.9OadTR（动力学）59.858.556.654.652.650.548.646.853.54.4.2THUMOS14数据集的mAP（%）结果。表8：与使用相同双流特征的现有技术方法相比，我们的OadTR的动作预期结果表9：不同融合方法的比较和编码器特征编码的必要性。图4：分类嵌入逻辑的t-SNE可视化。不同的颜色对应于来自THUMOS14数据集的不同动作类别。相互的颜色对应包括：悬崖跳水，跳高，撑杆跳和铅球. 更好地查看彩色PDF。4.5. 定性评价为了更好地分析，我们在图4中可视化分类结果。显然，通过可视化四个动作类别的所有测试样本，我们可以观察到我们的OadTR与当前最先进的IDN相比具有更好的可分性 [15]。此外，我们在图5中示出了OadTR5. 结论在本文中，我们提出了一个新的在线动作检测框架，建立在变压器，称为OadTR。（y0=写入）（y0=饮酒）图5：注意力可视化地图。它们指示对输入流视频的部分给予了多少关注与现有的基于RNN的方法，一个接一个递归地处理序列，难以优化，我们的目标是设计一个直接的端到端的并行网络。OadTR可以通过编码历史信息和预测未来上下文来识别当前动作。大量的实验验证了OadTR的有效性。特别是，OadTR实现了比当前基于RNN的方法更高的训练和推理速度，并且与最先进的方法相比获得了更好的性能。在未来，我们将扩展我们的OadTR模型到更多的任务，如动作识别，时空动作检测等。确认本文的研究得到了国家自然科学基金项目61871435 、中央高校基础研究基金项目2019kfyXKJC024和“111计划”计算智能与智能控制项目B18024的资助。头1头2头3头1头2头37575引用[1] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。4[2] 白悦然，王莹莹，童云海，杨洋，刘启月，刘俊辉。边界内容图神经网络用于临时动作建议生成。参见ECCV，第121-137页。Springer，2020年。2[3] Andreja Bubic ， D Yves Von Cramon ， and Ricarda ISchubotz. 预测，认知和大脑。 Frontiers in HumanNeuroscience，4：25，2010. 4[4] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。在CVPR中，第961-970页，2015年。5[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。参见ECCV，第213-229页。Springer，2020年。2[6] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR中，第6299-6308页5[7] Yu-Wei Chao ， Sudheendra Vijayanarasimhan ， BryanSey-bold ， David A Ross ， Jia Deng ， and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在CVPR中，第1130-1139页，2018年。2[8] KyunghyunCho，BartVanMerrieenboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv：1406.1078，2014。2[9] 安迪·克拉克。接下来呢？预测大脑、情境代理和认知科学的未来。Behavioral and brain sciences，36（3）：181-204，2013. 2[10] Roeland De Geest，Efstratios Gavves，Amir Ghodrati，Zhenyang Li，Cees Snoek，and Tinne Tuytelaars.在线动作检测。见ECCV，第269-284页。施普林格，2016年。二、五、六[11] Roeland De Geest和Tinne Tuytelaars。基于lstm的在线动作检测时间结构建模WACV，第1549-1557页。IEEE，2018年。一、二[12] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。一、二[13] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络在CVPR，第2625-2634页一、五[14] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. ICLR，2021年。一、二[15] Hyunjun Eun，Jinyoung Moon，Jongyoul Park，ChanhoJung和Changick Kim。学

下载后可阅读完整内容，剩余1页未读，立即下载