没有合适的资源?快使用搜索试试~ 我知道了~
动作识别中的视觉节奏建模与时间金字塔网络的研究
1591用于动作识别的杨策源<$,1,徐英豪<$,1,石建平2,戴波1,周伯磊11香港中文大学,2商汤科技集团有限公司{yc019,xy119,bdai,bzhou}@ ie.cuhk.edu.hk,shijianping@sensetime.com摘要视觉速度表征了动作的力度和时间尺度。对不同动作的这种视觉节奏进行建模有助于它们的识别。以前的作品通常通过以多种速率对原始视频进行采样并构建输入级帧pyra来捕捉视觉节奏类内(a)以快节奏向下移动某物(b)以缓慢的速度移动某物中,这通常需要一个昂贵的多分支网络来处理。在这项工作中,我们提出了一个通用的时间金字塔网络(TPN)的功能级别,它可以灵活地集成到2D或3D骨干网络中的即插即用的方式。TPN的两个基本组成部分,特征源和特征融合,形成了主干的特征层次,以便它可以捕获动作实例1600类间类别399不同的节奏在几个行动识别数据集上,TPN还显示出与其他具有挑战性的基线相比的持续具体而言,当配备TPN时,具有密集采样的3D ResNet-50在Kinetics-400的验证集上获得2%的增益进一步的分析还表明,TPN获得了大部分的改进行动类,有很大的差异,在他们的视觉节奏,验证TPN的有效性。11. 介绍虽然深度神经网络在提高视频动作识别的准确性方面取得了很大进展[5,32,33,36,30],但在这些识别网络的设计中,表征不同动作的一个重要方面往往被遗漏视觉速度实际上描述了一个动作的速度,它往往决定了识别的时间尺度上的有效持续时间如图1底部所示,动作类自然具有不同的视觉节奏(例如,(鼓掌和走路)。在某些情况下,区分不同动作类别的关键是它们的视觉节奏,因为它们可能在视觉外观上具有高度相似性,例如步行,慢跑和跑步。此外,如图1的顶部所示,当执行相同的动作时,每个执行者1代码和型号可在此链接。†表示相等的贡献。图1. 班级内和班级间的视觉速度变化。上面的动作例子表明,即使是同一个动作,人们也倾向于以不同的方式行动下面的图显示了不同的动作类别,按视觉节奏的差异排序。具体来说,翻筋斗在其实例的视觉节奏中具有最大的方差,而剪羊毛具有最小的方差。变化测量的细节可以在实验部分找到由于年龄、情绪和能量水平等各种因素,可能会以他/她自己的视觉节奏行动。e.G. 老年人往往比年轻人走得慢,体重较重的人也精确的建模,这种内部和类间的变化,在视觉节奏的动作实例,可能会带来显着的改进,动作识别。先前用于提取动作实例的动态视觉节奏的尝试[5,35,33]主要依赖于构建帧金字塔,其中每个金字塔级别以不同的时间速率对输入帧进行采样例如,我们可以分别在间隔16和2处从视频实例的总共64帧中采样,以构造由4帧和32帧组成然后,将每一层的帧送入不同的骨干子网,并将它们的输出特征进一步组合在一起,以进行最终的预测。通过以不同速率采样帧作为输入,[5,35]中的骨干网络能够提取不同感受野的特征,并以不同的视觉节奏表示输入动作实例。这些骨干翻腾剪羊毛方差1592因此,子网络联合聚集快节奏和慢节奏的时间信息,处理不同时间尺度的动作实例。先前的方法[5,35,33]已经获得了动作识别的显著改进,但是在输入帧级别处理动作实例的动态视觉节奏仍然在计算上是昂贵的。在输入帧金字塔中预先定义节奏,然后将帧馈送到多个网络分支中,这是不可扩展的另一方面,视频识别中许多常用的模型,如C3D和I3D [26,1],通常会堆叠一系列时间卷积。在这些网络中,随着层的深度增加,其时间感受野也增加。因此,单个模型中不同深度的特征已经捕获了快节奏和慢节奏的信息因此,我们建议建立一个时间金字塔网络(TPN)聚合的信息,各种视觉节奏在特征水平。通过利用网络内部形成的特征层次结构,所提出的TPN能够与以单一速率馈送的输入帧一起工作。作为一个辅助模块,TPN可以以即插即用的方式应用于各种现有的动作识别模型,以带来一致的改进。在这项工作中,我们首先提供了一个建议的TPN的一般公式,其中引入了几个组件,以更好地捕捉在多个视觉节奏的信息。然后,我们评估TPN的三个基准:Kinetics-400 [1]、Something-Something V1& V2 [10]和Epic-Kitchen [2]进行了全面的消融研究。TPN与2D和3D网络结合使用时,无需任何附加功能,即可带来一致的此外,消融研究表明,TPN的改善主要来自视觉节奏差异显著的动作类别。这一结果验证了我们的假设,即在单个模型中聚合特征足以捕获视频识别的动作实例的视觉节奏。2. 相关工作视频动作识别。视频动作识别的尝试可以分为两类。第一类方法通常采用2D +1D范式,其中2D CNN应用于每帧输入,然后是聚合每帧特征的1D模块。具体地说,[24,7,6,16]中的双流网络分别在每帧视觉外观和光流上使用两个单独的CNN,以及用于时间聚合的平均池化操作。在其变体中,TSN [31]提出通过从均匀划分的片段中采样来表示视频剪辑。TRN [38]和TSM[18]分别用可解释的关系模块代替但由于对于这些方法中的2DCNN的部署,输入帧的语义在早期阶段不能彼此交互,这限制了它们捕获视觉节奏的动态的能力。第二类中的方法[26,15沿着这条研究路线,非局部网络[32]引入了一种特殊的非局部操作,以更好地利用视频帧之间的长距离时间依赖性。除了非局部网络之外,对3D CNN的不同修改,包括膨胀的2D卷积核[1]和分解的3D卷积核[21,28,34],也可以提高3D CNN的性能其他效果[30,36,29,22,23]是对不规则卷积/池进行的,以更好的特征对齐或以细粒度的方式研究动作实例。虽然上述方法可以更好地处理时间信息,视觉节奏的大变化仍然被忽视。动作识别中的视觉速度建模。动作实例的复杂时间结构,特别是在各种视觉节奏方面,对动作识别提出了挑战近年来,研究者们开始探索这一方向.SlowFast [5]使用具有以不同速率采样的逐层帧的输入级帧金字塔对视觉节奏的方差进行硬编码。金字塔的每一层也分别由一个网络处理,这些网络的中间层特征交互式地组合在一起。在框架金字塔和特定层次网络的帮助下,SlowFast可以鲁棒地处理视觉节奏的变化。视频内部复杂的时间结构,特别是节奏变化,对动作识别提出了DTPN [35]还以不同的每秒帧(FPS)对帧进行然而,这种硬编码方案往往需要多个帧,尤其是当金字塔按比例放大时受特征级金字塔网络[11,19,20,17]的启发,该网络处理对象检测中的大尺度变化,我们转而利用骨干网络的特征层次结构,处理特征级视觉节奏的变化。通过这种方式,我们可以在单个网络中隐藏对视觉节奏的关注,并且我们只需要在输入级以单一速率采样的帧。3. 时间金字塔网络动作实例的视觉速度是识别动作实例的关键因素之一,特别是当其他因素不明确时。例如,我们无法根据动作实例的视觉外观来判断它属于步行、慢跑还是跑步然而,由于不同视频之间的类间和类内差异,很难捕获视觉节奏。以前的作品[5,35,33]解决这个问题1593基地R1基地RM骨干空间调制时间调制信息流最终预测视频剪辑H图2. 主题方案网络的框架:骨干网络提取多层次的功能。空间语义调制在空间上对特征进行下采样以对齐语义。时间速率调制在时间上对特征进行下采样,以调整级别之间的相对速度信息流在各个方向上聚合功能,以增强和丰富级别表示。“最终预测”沿通道维度重新缩放并注意,为了简洁起见,省略了所有模块中的通道尺寸和(e)中的对应操作。在投入层面。他们利用框架金字塔,作为由{F(1)、...、 F(M)}包含以预定义速率采样的帧,以表示尺寸{C×T×W×H,...,C×T×W×H}。Fea-以各种视觉节奏输入视频实例。由于帧金字塔的每个层级需要单独的骨干网络来处理,因此这种方法可能在计算上是昂贵的,特别是当金字塔的层级按比例增加时。受单个网络中多个深度的特征已经覆盖各种视觉节奏的观察的启发,我们提出了一种用于建模视觉节奏的特征级时间金字塔网络(TPN)。主题方案网络可以只在一个网络上运作,而不管该网络包括多少层。此外,TPN可以以即插即用的方式应用于不同的架构。为了充分实现TPN,必须正确设计TPN的两个基本组件,即1)特征源和2)特征聚合。我们提出了空间语义调制和时间节奏调制来控制Sec中特征源的相对差异3.1,并构造多种类型的信息流的特征聚合在第3.1节。3.2.最后,我们展示了如何采用TPN的动作识别在SEC。3.3,以[5]为例的骨干网。3.1. TPN的特征源分层特征的集合。虽然TPN是建立在一组M个分层特征的基础上的,这些特征具有从底部到顶部逐渐增加的时间感受野,但有两种替代方法可以从主干中收集这些特征以这种方式收集的纹理可以减轻融合的工作量,因为它们除了时间维度之外还具有相同的形状。然而,它们可能会限制有效性,因为它们仅以单个空间粒度表示视频语义2)多深度金字塔:更好的方法是收集一组M深度增加的特征,导致TPN由{F1,F2,..., FM}的尺寸{C1× T1× W1× H1,., CM×TM×WM×HM},其中通常尺寸满足{Ci1≥Ci2,Wi1≥Wi2,Hi1≥Hi2;i1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功