没有合适的资源?快使用搜索试试~ 我知道了~
© 2013由Elsevier B.V.发布。由美国应用科学研究所负责选择和/或同行评审可在www.sciencedirect.com在线获取ScienceDirectAASRI Procedia 6(2014)111 - 1172013第二届AASRI计算智能与生物信息学基于场景模型的视频人体动作识别张逸飞+,曲文,王东北大学,沈阳110819摘要在视频监控、基于内容的视频管理等实际应用中,真实感视频中的人体动作识别越来越受到人们的关注。由于真实感视频中背景设置复杂,单动作识别往往无法区分相似的动作类别。本文提出了一种新的动作场景模型来学习真实感视频中动作和场景之间的上下文关系。在场景类别先验知识很少的情况下,直接基于视觉词,使用生成概率框架从背景中进行动作推理。真实视频数据集上的实验结果验证了动作场景模型的有效性,从背景设置的动作识别。对不同的特征提取方法进行了大量的实验,结果表明,学习模型具有良好的鲁棒性,当特征噪声。© 2014作者。出版社:Elsevier B. V.CC BY-NC-ND许可下的开放访问。美国应用科学研究所关键词:动作识别,情境线索,视频处理,动作场景模型*国家自然科学基金重点项目(资助号:61033007)和中央高校基础研究基金(资助号:N100304004)资助。+通讯作者。联系电话:电话:024 -83687776电子邮件地址:zhangyifei@mail.neu.edu.cn2212-6716 © 2014作者出版社:Elsevier B.诉 在CC BY-NC-ND许可下开放访问。美国应用科学研究所科学委员会负责的同行评审doi:10.1016/j.aasri.2014.05.016112Yifei Zhang等人/ AASRI Procedia 6(2014)1111. 介绍随着越来越多的视频监控系统出现在各行各业,从真实视频中自动识别人体动作已经成为学术研究人员和商业公司的主要关注点。在动作识别中,一个基本的问题是识别一个动作是否属于给定的动作类别。虽然在受控环境中收集的数据集上取得了大量令人印象深刻的结果,例如KTH [1],WEIZMEN [2],但由于复杂的背景设置和逼真视频的动作交替,在逼真视频上取得的进展要少得多。然而,复杂的背景和各种各样的动作同样给了我们一个线索,探索动作和场景之间的上下文关系,在现实的视频动作识别。由于人类的动作总是发生在特定的场景下,其中将呈现丰富的上下文线索源,背景设置的上下文关系可以被学习作为动作识别的补充。虽然基于场景检测器的识别在相关文献中已经变得司空见惯[3,4],但是基于检测器的方法的主要问题是如何为所有视频选择通用场景和动作类别。否则,训练检测器是耗时的,并且识别性能将受到学习的检测器的影响。在本文中,我们打算学习上下文线索使用生成框架,很少有先验知识的场景类别。动作和场景之间的上下文关系可以用于从背景设置推断动作。提出了一种动作-场景模型,该模型能够自动地建立动作、场景和背景特征之间的关系,只需要给出场景的数目而不需要给出场景的类别。首先,将视频分割成人物区域和背景区域。然后,一个给定的动作类别和场景的关系将使用动作场景模型建模。最后,基于该模型计算了一个度量学习到的上下文线索重要性的因子,并由此模型给出了动作类别的响应概率。本文的其余部分组织如下。第2节回顾了相关工作。第三部分描述了特征提取和视频表示的过程。第四节提出了一种场景模型,第五节给出了实验结果。最后,我们在第6节提出结论和未来的工作。2. 相关工作人体动作识别一直是计算机视觉领域的一个重要研究方向。从单一场景到复杂场景,动作识别方法多种多样,以满足不同的应用需求。早期的工作集中在单一场景的动作识别[5]。然而,这种情况过于理想,无法在现实情况下出现。随着人们对复杂场景的关注越来越多,最近的一些方法[3,6,7,8]试图处理“野生”视频。Laptev等人使用多通道非线性SVM自动注释电影视频[6]。Liu等人提出了一个框架来识别结合了运动和静态特征的动作[7]。这些基于外观的学习方法努力选择适合所有视频的一般场景类型和对象类别。为了处理复杂的真实感视频,上下文语义在许多工作中被使用。Ikizler-Cinbis等人在多实例学习框架中结合了对象,场景和动作的特征[9]。然而,他们没有学习对象,动作和场景之间的关系,以识别动作。Marszalek等人利用电影剧本的上下文,通过训练多个场景检测器开发了一个基于场景动作SVM的联合分类器[4]。然而,由于缺乏所有潜在对象和场景的训练数据,为每个类别收集注释数据非常耗时。此外,在从文本中学习到的语境线索和Yifei Zhang等人/ AASRI Procedia 6(2014)111113视觉特征在本文中,我们提出了一种新的方法,不同于基于检测器的方法在学习上下文线索,没有使用的动作和场景类别。受最近静态图像中的动作识别工作[10]和[2]中的无监督学习方法的启发,我们使用生成模型来表示视频中的动作和场景。底层动作场景依赖性直接从视觉特征捕获到动作场景模型上。3. 视觉特征提取与视频表示3.1. 体检测视频中的人体检测基于Felzenszwalb的对象检测器[11]和均值漂移跟踪[12]。我们首先使用对象检测器从每帧图像中找到候选人区域。由于存在大量的误报和漏报,采用基于滑动窗口的方法剔除误报,并跟踪人员区域进行漏报检测。如果边界框重叠超过40%,则两个检测被视为相似。窗口大小根据经验设置为15帧,阈值为窗口大小的一半。然后,使用均值漂移算法,用来自前一帧的跟踪填充未命中检测。人物检测提供了每帧人物位置的绑定框。3.2. 特征提取 以人为中心的特征提取。 我们使用Dollar提出的时空兴趣点检测器[13] 来捕捉空间和时间上有趣的运动。在从视频片段中提取出以人为中心的特征后,我们用HOG(Histograms of oriented contricents)描述每个兴趣点[14] 描述符 背景特征提取。非人区域被视为背景区域。为了捕获背景的颜色,形状和局部特征,我们从关键帧中提取颜色特征的颜色直方图,形状特征的Gist描述符[15]和静态特征的SIFT描述符[16]。3.3. 特征袋视频表示基于特征袋的视频表示已被证实对无应变视频中的动作识别有效[7]。特征袋模型将视频剪辑表示为特征词汇表或“视觉码本”上的向量。通过聚类从所有视频中检测到的视觉特征来构建“视觉码本”。每个聚类的中心被定义为码本中的码字或视觉字。因此,可以将视频剪辑中的每个检测到的特征分配给具有最近距离的唯一聚类。特征袋的第i个仓是分配给视频中的第i个4. 情景关系基于检测器的上下文学习需要知道关于场景类别的先验知识,这通常依赖于数据集。因此,基于检测器的方法通常对一般数据集不灵活,并且检测器的性能不稳定容易影响准确性。在本文中,我们的目标是识别动作类的视频场景特征与较少的先验知识。与数据集中出现的场景类别相比,场景类别的近似数量更容易获得。根据视频、动作、场景和视觉词汇之间的关系,我们自然地推导出一个114Yifei Zhang等人/ AASRI Procedia 6(2014)111vvCZV阿WS公司简介ZVSZWSZVWSSZ生成概率模型来模拟它们之间的上下文线索。在动作场景模型中,每个视频可以被视为动作类别的混合,其中每个动作是场景上的概率分布,并且每个场景与视觉词上的分布相关联。每个视频片段被看作是一个动作的分布,每个动作是一个视觉词的分布。动作场景模型不仅可以发现视频中发生的动作,还可以发现与动作相关的场景。假设我们有一个V个视频片段的集合,每个视频v都表示为一组视觉单词。每个词属于包括W个唯一视觉词的视觉码本。假设我们有K个动作类别,S个场景类别。现在我们可以将生成每个视频v的过程描述为:1) 对于每个剪辑v,在K个动作类别上有一个多项分布<$v~ Dirichlet(n)。2) 对于剪辑v的每个视觉词vi:a) 根据多项分布选择一个操作类别zvi。b) 从p(svi)中选择场景s vi| zvi,z),以作用zvi和z为条件的多项式概率。在这里,是场景svi上的动作的多项式分布,其中Dirichlet(?)c) 从p(w vi)中选择一个视觉词wvi| svi,s),以场景s vi和s s为条件的多项式概率。其中,dfs是场景在视觉词上的分布,dfs~ Dirichlet(dfs)。在此,m、m和m是与视频剪辑v、场景s和动作z相关联的多项式分布。在这种生成处理下,视频语料库在视觉词集w上的概率,条件是:NP(w,z,s,,n)|,|Svi,svi)p(svi|)第一章1N(w vi)|z vi,zvi)p(zvi|)第一章1(一)VN vP (z vi|p( 1)|)v1i 1该动作场景模型包括以下参数:视频剪辑的动作分布Z、动作场景分布Z、场景分布Z以及将各个词分配给动作z和场景s。在本文中,我们使用Gibbs抽样[17]来评估z和场景s上的后验分布。 然后,可以从z和s的结果推导出、和。给定z、s、w、ω、ω、ω和ω,计算ω、ω和ω的后验分布很简单。使用狄利克雷与多项式共轭的假设,我们可以用以下公式估计ε,ε和ε布雷兹夫CZV中国茨夫河ZVCWS中国WSSZSZSZSZ(二)其中C ZV是来自视频v的被分配给动作z的单词的数量, C WS是一个词在被分配到一个场景s,和Csz是场景s被分配给动作z的时间,并且、VWS和VSZ分别表示视频v中的总字数,分配给场景s的场景总数,以及分配给动作z的场景总数。然后,对于每个单词,吉布斯采样器的基本方程为:WSYifei Zhang等人/ AASRI Procedia 6(2014)111115P(zvi 阿克斯岛J|wm,svi,zvi,wvi,)zvwssz(三)其中zvi=z,svi=s表示视频剪辑中的第i个词分别分配给动作z和场景s。wvi=w表示第i个字是码本中的第w个字的观察,并且z-vi、s-vi表示不包括第i个字的所有动作和场景分配。由于视觉词对动作和场景的分配将由等式3快速给出,因此识别处理将通过跟踪三个计数矩阵C ZV、C WS和C SZ。在训练阶段,对训练集中的所有视觉词进行Gibbs采样,同时计算并保存计数矩阵。当对新的视频片段进行分类时,吉布斯采样在该片段中的视觉词上运行。视觉词汇对动作和场景的分配将由公式3进行评估。计数矩阵将从每次赋值中更新。视频剪辑被分类与类别索引具有最大的概率,在BTV。由于BASEV只绘制动作类别的索引,而不知道索引的实际动作类标签,因此通过使用训练数据集中的地面真值标签将动作类标签分配给索引。对于每个动作索引,它被命名为属于该索引的视频中最流行的动作类标签。5. 实验结果我们在Liu等人[7]提供的具有挑战性的YouTube数据集上评估了我们的方法,该数据集由Liu等人收集的1168个视频组成。该数据集涵盖11个动作类:篮球射击,骑自行车,潜水,高尔夫挥杆,骑马,足球杂耍,挥杆,网球挥杆,蹦床跳跃,排球扣球和遛狗。每一类动作都是在几个不同的场景下进行的,并分为25个子集。基于训练集估计隐藏参数λ、λ和λ。对于所有模型,我们将动作的数量固定为K=11,S设置为数据集中场景类别的实际数量。通过实验分析,确定了其它参数为:φ=50/K,φ= 0.3,φ我们将我们的动作场景模型与LDA进行比较[18]。两种型号的平均性能如表1所示。我们看到,所提出的方法实现了所有的动作类别的改进。其中与场景关系较强的动作提高尤为显著:篮球(15.13%)和跳蹦床(10.72%)。它表明,场景线索是翔实的和互补的识别现实视频中的动作。116Yifei Zhang等人/ AASRI Procedia 6(2014)111io是crepegeravE公司简介百分百百分之九十百分之八十百分之七十60.00%50.00%40.00%百分之三十百分之二十百分之十0.00%类别Fig. 1. Youtube数据集为了评估人检测器对识别性能的影响,我们比较了使用手动注释的人区域和第3.1节中的人检测器的区域的结果,表1中的结果表明,当人区域被精确注释时,LDA的性能可以获得比动作场景模型更好的性能,而当人区域被自动检测时,LDA的性能较差。当特征有噪声时,动作场景模型比LDA具有更好的鲁棒性。表1.不同特征提取方法识别模型注释检测器LDA百分之七十八点三百分之六十二点四现场直播百分之七十三点五百分之七十六点八6. 结论在本文中,我们探索识别人类的行动,从背景设置的现实视频。提出了一种动作场景模型,该模型能够在几乎没有场景类别先验知识的情况下,对动作和场景之间的关系进行建模和学习。生成学习方法用于根据一定的分布从场景中推断动作。实验结果表明,上下文线索的加入确实提高了识别精度。此外,我们提出的动作场景模型具有良好的鲁棒性时,应用于现实的视频数据集。动作识别的研究有着广泛的应用前景。为了进一步的工作,我们打算将我们的方法与已知的方法相结合,从大量的现实视频中学习应用程序指定的上下文线索。引用[1] C.Schuldt,I.Laptev,and B.Caputo,[2] J.Niebles,H.Wang和L.Fei-Fei,埃瓦雷热·珀西西Yifei Zhang等人/ AASRI Procedia 6(2014)111117时间的话,79,问题3,pp.299-318,2008年。[3] T.Motwani,R.Mooney,“Improving video activity recognition using object recognition and textmining”,ECAI,2012年。[4] M.Marszalek,I.Laptev,C.Schmid,[5] M.布兰克湖Gorelick,E. Shechtman,“作为时空形状的动作”,Phil。翻译罗伊。Soc. London,vol.A247,pp. 529-551,1955年4月。[6] Laptev,M.Marszalek,C.Schmid,B.Rozenfeld,“Learning realistic human actions from movies,”inCVPR,2008.[7] J.Liu,J.Luo,M.Shah,[8] D.Han,L.Bo,C.Sminchisescu,[9] N.Ikizler-Cinbis,S. Scaroff,[10] B.Yao,L.Fei-Fei,[11] P. F.费尔岑斯瓦尔布河B. Girshick,D. McAllester和D. Ramanan,模式肛门。马赫内部:2010年。[12] D. Comaniciu,V. Ramesh,P. Meer,[13] P.Dollar,V.Rabaud,G.Cottrell,S.贝隆吉“Behavior recognition via sparse spatio-temporalfeatures,” in 2nd joint IEEE International workshop on visual surveillance and performance evaluation oftracking and surveillance,[14] N.达拉尔湾Triggs,[15] A.Oliv,A.Torralba,“场景形状建模:空间包络的整体表示”,国际计算机视觉杂志,第42卷,第3期,第10页。142-175,2001年。[16] D.Lowe.“独特的图像特征形成尺度不变的关键点”,国际计算机视觉杂志,第60卷,第2期,第123页。第91-110页,2004年。[17] B.Schölkopf,A.Smola,Learning with Kernels:Support Vector Machines,Regularization,Optimization and Beyond,MIT Press,2002。[18] D.Blei,A.Ng,M.Jordan,“Latent Dirichlet allocation”,Journal of Machine Learning Research,第3期,第100页。993-1022,2003。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功