没有合适的资源?快使用搜索试试~ 我知道了~
1基于UntrimmedNets的弱监督动作识别与检测王利民1熊元军2林大华2吕克·范古尔11瑞士苏黎世联邦理工学院计算机视觉实验室2香港中文大学资讯工程学系,香港摘要目前的动作识别方法严重依赖于修剪视频进行模型训练。然而,获取大规模修剪的视频数据集是昂贵且耗 时 的 。 本 文 提 出 了 一 种 新 的 弱 监 督 架 构UntrimmedNet,它能够直接从未修剪的视频中学习动作识别模型,而不需要动作实例的时间注释。我们的UntrimmedNet耦合了两个重要的组件,分类模块和选择模块,分别学习动作模型和动作实例的持续时间的原 因 。 这 两 个 组 件 是 用 前 馈 网 络 实 现 的 , 因 此UntrimmedNet是一个端到端的可训练架构。我们利用学习模型的动作识别(WSR)和检测(WSD)的未修剪的视频数据集的THUMOS14和ActivityNet。虽然我们的UntrimmedNet只采用弱监督,但我们的方法在这两个数据集上实现了优于或与强监督方法相当的性能。11. 介绍视频中的动作识别在过去的几年中引起了广泛的研究关注,并且在计算机视觉社区中已经取得了很大的进展,无论是手工制作的表示[27,45,46,48]还是深度学习的表征[23,40,42,50]。一般来说,动作识别通常被视为分类问题,其中每个动作实例在训练阶段期间从长视频序列手动修剪,并且学习的动作模型被用于修剪片段中的动作识别(例如,HMDB51 [25]和UCF101 [41])或未经修剪的视频(例如,Thumos14 [22]和ActivityNet [16])。虽然这些精确的时间标注可以减轻学习动作模型的困难,但可能难以适应更真实和更复杂1代码和模型可在https://github.com/wanglimin/UntrimmedNet上获得。图1. 弱监督的动作识别和检测:在训练阶段,我们简单地使用没有时间注释的未修剪视频,并直接从这些未修剪视频中训练动作模型;在测试阶段,学习到的动作模型可以应用于未裁剪视频中的动作识别和检测。由于几个原因,具有挑战性的场景。首先,注释每个动作实例的持续时间是昂贵和耗时的。同时,Youtube网站上的大量视频在自然情况下是临时未修剪的,并且以这种规模修剪视频是不切实际的。更重要的是,与对象边界不同,甚至可能没有关于动作的确切时间范围的合理定义[37,38]。因此,这些时间注释可能是主观的,并且在不同的人之间不一致。为了克服使用修剪视频进行训练的上述限制,我们引入了一种更有效的设置,即从未修剪视频中直接学习动作识别模型,如图1所示。在这种新的设置中,在训练过程中只有视频级别的动作标签可用,目标是从未修剪的视频中学习模型,这些模型可以应用于新视频以执行动作识别或检测。由于我们在训练中没有精确的动作实例的时间注释,我们称这个新问题为弱监督动作识别(WSR)和检测(WSD)。不需要精确的时间4325培训测试未修剪的视频仅带标签弱监督动作识别保龄输入视频篮球识别结果棒球眼部化妆的包容作用弱监督动作检测输入视频UntrimmedNet行动模型检测结果在这里找到应用眼部化妆的行动4326通过对动作实例的注释,WSR和WSD的建立将大大减少构建大规模数据集的人力。然而,这种弱监督的设置也带来了新的挑战,因为我们的学习算法不仅需要学习每个动作类的视觉模式,而且还需要自动推理可能的动作实例的时间位置因此,在设计方法时应同时考虑水资源需求和水资源可持续发展两方面的问题。在这项工作中,我们提出了一个新的端到端的架构,称为UntrimmedNet的WSR和WSD问题的挑战。在没 有 动 作 实 例 的 时 间 注 释 的 情 况 下 , 我 们 的UntrimmedNet直接将未修剪的视频作为输入,并简单地利用其视频级标签来学习网络权重。考虑到上述要求,概括地说,我们的Untrimmed- Net主要由两个部分组成,即分类模块和选择模块,分别处理学习动作模型和检测动作实例的问题分类和选择模块的输出被融合以产生未修剪视频的预测结果,该结果可以用于以端到端的方式调整UntrimmedNet参数。具体来说,我们的UntrimmedNet从生成剪辑建议开始,这些建议可能包含动作实例,通过使用统一或基于镜头的采样。然后,这些剪辑pro-pronounts被送入UntrimmedNet进行特征提取。基于这些剪辑级表示,分类模块旨在预测每个剪辑建议的分类分数在实践中,分类模块的设计基于标准Softmax分类器,并且选择模块利用两种替代机制来实现:硬选择和软选择。对于硬选择,利用top-k池化方法来确定最多k个有区别的剪辑,对于软选择,学习注意力权重来对不同剪辑的重要性进行最后,分类和选择模块的结果与加权求和乘法融合通过这种视频级预测和全局视频标签,我们能够使用标准的反向传播算法联合优化分类模块、选择模块和特征提取我们在两个具有挑战性的未修剪视频数据集上进行实验,即THUMOS 14 [22]和Activivi-tyNet [16],以检查UntrimmedNet在弱监督动作识别(WSR)和检测(WSD)任务上的表现。虽然我们的UntrimmedNet不采用动作实例的时间注释,但与使用强监督进行训练的最先进方法相比,它在动作识别和动作检测方面获得了2. 相关工作用于动作识别的深度学习。自ILSVRC 2012 [36]上卷积神经网络(CNN)[29]在图像分类方面取得突破[ 24 ]以来,一些作品一直在尝试设计有效的深度网络架构,用于视频中的动作识别[23,40,42,11,50,47]。Karpathy等人 [23]首先在大规模数据集(Sports-1M)上测试了深度网络,并实现了比传统特征更低的性能[45]。 Simonyan等人 [40]通过显式利用预训练模型和光流计算设计了两个包含空间和时间网络的流CNN。Tran等人 [42]在现实和大规模视频数据集上研究了3D CNN [ 20 ]。与此同时,一些作品[32,44,7,50]试图为动作理解建模长期时间信息。Ng等人 [32]Donahue et al. [7]利用递归神经网络(LSTM)来捕获动作识别的长期动态。 Wang等人 [50]设计了一种稀疏采样策略,对整个视频信息进行平均聚集建模。此外,已经提出了几种深度学习方法用于行动建议生成和 检 测 [14 , 49 , 30 , 10 , 43 , 39] 。 我 们 的UntrimmedNets与 那些 深度 网络 的不 同之 处在 于,UntrimmedNets将未修剪的视频作为输入,并且只需要弱超视来指导模型训练,而以前的架构都使用修剪的剪辑进行训练。视频中的弱监督学习弱监督学习在对象识别和检测中得到了广泛的研究[1,4,9,34],并且有几项工作采用这种方法从视频中学习动作模型[28,8,2,3,17,26,12,13]。第一类弱监督是电影剧本,它为动作实例提供不确定的节奏注释。例如,Laptev et al.[28]提出从电影脚本中学习动作模型以进行动作识别,Duchennel等人[8]试图在脚本的帮助下将电影中的动作实例本地化。与我们的工作相比,电影剧本监督表现出两个不同点:(1)电影脚本通常与帧对齐,因此它们可以提供实例的近似时间标记,而我们的弱监督不提供关于动作实例的任何时间信息,(2)电影剧本监督只适用于电影视频,而我们的方法适用于所有类型的视频。第二种类型的弱监督是视频中发生的动作类的有序列表。 例如,Bojanowski等人[3]提出了一种用于弱监督动作标记的判别聚类方法,Huang等人 [17]将连接主义时间分类[15]的框架从语 音 识 别 调 整 到 弱 监 督 动 作 标 记 。 我 们 的UntrimmedNet与它们的不同之处在于,我们的弱监督不包含任何关于包含动作实例的顺序信息。4327我我我i=1图2. 从未修剪视频中学习的管道:我们的UntrimmedNets从剪辑建议生成开始,我们从连续的未修剪视频中采样一组短剪辑。然后,这些剪辑建议被分别输入到预先训练的网络中进行特征提取。在此之后,分类模块被设计为独立地执行每个剪辑建议的动作识别,并提出了一个选择模块,以检测或排名重要的剪辑建议。最后,分类模块和选择模块的输出被组合以产生视频级预测。3. 从未经修剪的视频中学习在本节中,我们将介绍从未经裁剪的视频中学习的管道首先,我们描述了为UntrimmedNet生成剪辑建议的方法。其次,详细描述了UntrimmedNet的体系结构设 计 。 最 后 , 我 们 提 出 了 学 习 算 法 来 调 整UntrimmedNet的参数在一个端到端的方式。3.1. 剪辑采样动作实例通常描述连续站姿着重于一个镜头内的一致动作提出了一种基于镜头变化检测的采样方法具体来说,我们提取HOG特征为每帧,并计算相邻帧之间的HOG特征差异。然后,我们使用这个差异的绝对值来衡量视觉内容的变化,如果它大于阈值,镜头变化将被检测到。在此之后,在每个镜头中,我们建议以顺序方式对K帧的固定持续时间的镜头剪辑进行采样(实际上K设置为300),这有助于分解具有非常长持续时间的镜头假设我们有一个镜头,记为si=(sb,se),其中(sb,se)代表开始和结束和具有特定意图的连贯运动模式,这可能持续几秒钟并且不包含镜头变化。然而,一个未经修剪的视频往往表现出极其复杂的运动动态,动作 实 例 可 能 只 占 它 的 一 小 部 分 。 因 此 , 我 们 的UntrimmedNet从未修剪的视频中生成短片开始,这些短片可以作为UntrimmedNet培训的行动建议。形式上,给定一个未修剪的视频V与T帧的持续时间,我们的方法生成一组剪辑prov。我们从这个镜头中如C(si)={(sb+(i−1)×K,sb+i×K)}i:sb+i×K
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功