人体行为分类的顺序词袋模型方法及性能评估

102 浏览量更新于2023-12-05 收藏 2.54MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

可在www.sciencedirect.com在线获取ScienceDirectCAAITransactions on Intelligence Technology 1（2016）125e136http://www.journals.elsevier.com/caai-transactions-on-intelligence-technology/原创文章用于人体行为分类的刘红a，b，c，*，唐昊a，b，魏晓a，b，郭子怡d，吕天a，b，袁高ea北京大学电子与计算机工程学院，深圳研究生院，518055b北京大学深圳研究生院物联网智能感知工程实验室（ELIP），518055c北京大学机器感知重点实验室，100871d北京大学软件与微电子学院，100871，中国计算机科学研究所，Christian-Albrechts-University，24118，Germany2016年10月21日在线发布摘要近年来，利用时空特征构建词袋模型的方法以其简单有效的特点取得了巨大的成功。但是，他们仍然有困难时，区分行动之间的高度歧义。其主要原因是它们用无序的特征包来描述动作，而忽略了视觉词的时空结构信息。为了提高分类性能，我们提出了一种新的方法称为顺序的词袋。它通过将整个动作分割成子动作来捕获时间序列结构。同时，通过对各个子动作进行分类，对每个动作的各个部分进行区分，并利用子动作对最终结果进行投票。在具有挑战性的数据集和真实场景上进行了大量的实验来评估我们的方法。具体来说，我们比较我们的结果，一些国家的最先进的分类方法，并确认我们的方法来区分类似的行动的优势结果表明，我们的方法是强大的，优于大多数现有的BoWs的分类方法，特别是在复杂的数据集与互动活动，杂乱的背景和类间的行动模糊。Copyright© 2016 ，重庆理工大学 . Elsevier B. V. 制作和托管这是 CC BY-NC-ND 许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：动作分类;序贯词袋; STIP;概率1. 介绍人体行为分类是计算机视觉和模式识别领域的一个重要研究课题。在计算机视觉和图像分析中，视频数据的自动分析和解释是一个越来越具有挑战性的问题，值得研究。它在智能监控、基于内容的视频检索、人机交互等方面有着重要的应用。作为计算机视觉领域的一个热点和难点问题，动作分类已经研究了很多年，* 通讯作者。北京大学电子与计算机工程学院，深圳研究生院，518055。电子邮件地址：hongliu@pku.edu.cn（H.Liu），haotang@sz.pku.edu.cn （ H.Tang ）， xiaoweipkusz@pkusz.edu.cn （ W.Xiao），1401210562@pku.edu.cn（Z.Guo），lutian@sz.pku.edu.cn（L.Tian），yuan. stu.uni-kiel.de（Y. Gao）。同行评议由重庆理工大学负责具有挑战性的任务。它仍然有许多挑战，如类内和类间的变化，身体遮挡，摄像机运动，环境变化等。在动作识别中，性能往往容易受到干扰下的背景变化，可变照明，摄像机运动和缩放，和类内的不均匀性或变化。为了缓解这些困难，区别性描述器是至关重要的。这些视频描述符对失真、遮挡等多种噪声干扰具有不变性，同时还需要对时空信息进行有效、鲁棒的编码。最困难的问题之一是区分具有高歧义的动作。把一个动作看作是子动作的连接，有些动作类由相似的子动作组成，这大大增加了分类的难度（图1）。 3）。最近在动作识别方面的工作一般分为四类：http://dx.doi.org/10.1016/j.trit.2016.10.0012468-2322/Copyright© 2016，重庆理工大学由爱思唯尔公司制作和主持这是一篇基于CC BY-NC- ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。126H. Liu等人/CAAI Transactions on Intelligence Technology 1（2016）125e 136图1.一、子部分和子操作。每个部分称为子操作。所有动作的第i个子动作组成第i个子部分。图二.不同层次的动作，从左到右分别是“子动作”、“动作原语”、“动作”、“活动”。它们被它们的复杂性分开。● 时空形状[8，20];● 光流[23，24];● [11，12，19];● 当地的科技创新政策[4，14]。例如，Blank等人[2]将人类行为视为由时空体积中的sihouettes引起的3D形状。Efros等人。[5]利用光流描述符之间的互相关。Ali等人[1]将脚、手和身体的轨迹应用到动作识别框架中。一般来说，前三类是经常依赖于记录环境的全局表示方法。同时，对于最后一类，Dollar et al.[4]Leptev et al.[9]集中于视频序列中STIP的局部表示Dollar等人[4]开发了一种检测器，该检测器在空间维度中应用线性2D高斯内核，在时间维度中应用1D Gabor滤波器。STIPS周围的局部区域所描述的建议的描述符。最后将视频序列编码为视觉词的频率直方图。在[9]中，HarrisH. Liu等人/CAAI Transactions on Intelligence Technology 1（2016）125e 136127图三.两个容易混淆的动作的例子：“摇”和“推”。将它们分成5个部分，前几部分几乎相同。这导致它们的BoW直方图之间存在很大的模糊性。但是如果我们把注意力集中在行为的突出部分，分类就会容易得多检测器扩展到空时域。兴趣点定位使用扩展的Harris检测器。所得到的点可以被视为时空角点。虽然BoWs模型很流行，但它有一个本质的缺点，即只关注单词的数量，而忽略了时空信息，这导致不同类别的动作之间的歧义。例如，一些类似的子动作发生在不同的相对时间段，例如在动作开始或结束时站起来BoWs模型无法区分它们。此外，BoWs模型对所有的视觉词进行了同等的处理，因此没有将重点放在最显著的部分。类之间相似子动作的比例越高，使用原始BoW的分类过程就越困难。因此，引入时序BoWs模型是非常重要和必要的。Dollar等人[4]提出了STIPs（Spatial-Temporal InterestPoints，时空兴趣点）的梯度描述子，并在实验中与光流描述子、亮度描述子等描述子进行了比较，获得了更好的性能。首先，在不同尺度下对时空长方体进行平滑，并计算图像梯度。然后将得到的梯度值连接成梯度向量，通过主成分分析（PCA）将这些向量投影到低维空间，得到这些低维向量的表示，以供进一步应用。Laptev等人。[10]应用定向梯度直方图，以HOG作为STIPS描述符。通过使用HOG描述符，局部对象形状和外观能够被通过局部强度梯度来表征。一般来说，功能描述分为两个步骤：1. 长方体被划分为一个个小的时空区域;2. 累积每个区域的像素上的梯度方向的局部1D直方图此外，Laptev还结合了操作流直方图（HOF）和HOG，形成了一个新的描述符，称为HOG-HOF，它优于每一个单独的方法。Scovanner等人。[21]提出了三维尺度不变特征变换（3D SIFT）描述符，它准确地捕捉了视频序列的时空性质，并将BoW范式从2D扩展到3D，其中第三个维度是时间轴。在3D SIFT描述符[21]中;梯度幅度和方向由m3D（x，y，t）、q（x，y，t）和f（x，y，t）表示。每个角度用一个唯一的ue（q，f）表示，每个象素用两个值表示三维梯度方向。最后，方向被连接到每个3D子区域的直方图中，并且子直方图被形成为期望的描述符。Zhao等人。[16，22]开发了三个正交平面上的局部二进制模式（LBP-TOP）。LBP-TOP已成功应用于动态纹理描述和识别，并在人脸表情分析中取得了良好的效果。该算法提取LBP[15]从三个正交XY、XT、XT平面。这样，一方面空间信息在XY平面上被编码对128H. Liu等人/CAAI Transactions on Intelligence Technology 1（2016）125e 136另一方面，时空共现信息被编码在XT和YT平面上。Shao等人[13]提出扩展LBP的计算和计算直方图LBP[7]，分别命名为扩展LBP-TOP和扩展CSLBP-TOP。所提出的方法可以提取更多的时空长方体内部的动态信息，并适用于梯度长方体。然而，只有一小部分以前的工作集中在捕捉视觉词的时间关系。在一些方法中[8，12，20];局部特征的时空相关性被学习为邻域或相关图，以捕获视觉词的时空关系。虽然这些方法仍然过于局部化，无法捕捉单词之间的长期关系。其他作品[11，23，24]计算了词与词之间的共现，但他们将范围限制在很小的时间段内。最近Ryoo[17]将活动表示为时空特征的积分直方图，有效地建模了特征分布如何随时间变化，但它无法处理在相同相对时间具有相似子动作的类之间的模糊性。Glaser等人[6]在BoWs模型中引入了时间上下文来捕捉单词之间的上下文序列，但仍然无法专注于动作的独特部分。而不是直接包括在视觉词汇的时间信息，我们考虑到时间维度分割成小部分的整个行动。每个部分称为子操作. 所有动作的第i个子动作组成第i个子动作如图1所示。然后采用序列BoWs模型进行视频表示，将视频分类问题描述为一系列子类分类问题。通过这种方式，我们可以将我们的方法应用于原始BoW和空间改进的BoW，例如我们以前的工作[11，24]中的方法。Satkin等人。[19]根据训练分类器的准确性提取视频中最具区分力的部分进行训练受此启发，动作的区别部分通过赋予它们高权重和显着值来强调。权重表示子动作属于某类的概率，显著性表示子动作与其他子动作的区别程度。然后，相似子动作的影响被最小化，因此我们可以专注于类之间的差异（图中的突出部分）。 3）。一方面，如果相似的子动作发生在不同的相对时间，它们将被划分在不同的子区段中并被单独分类。另一方面，如果它们不能被分离，则给予它们低显著性值以减小它们的影响。最后，将子动作单独分类，并通过投票将结果实验在UT交互数据集和更具挑战性的结果表明，我们的方法可以实现强大的和准确性超过大多数相关的方法。本文的其余部分组织如下。在第2节中，我们介绍了使用子动作的原因，并说明了我们的方法的框架。第3节和第4节分别描述了分割和分类方法。在第5节中，我们在UT交互和罗切斯特数据集上进行实验，并将我们的方法与其他基于BoW的方法进行比较。最后，在第6节中得出结论。2. 拟议框架如图2所示，人类运动可以在各种复杂程度上进行描述[16]。通常，一个活动是指一系列动作的整体表达，如“打网球”。动作是活动的元素，如“跑”或“跳”。它通常很短，表示较少的运动信息。至于动作原语，它是一个很短的时间内的动作，不能单独执行。动作原语是动作的组成部分，动作也是活动的组成部分。例如，“左腿向前“是动作原语，而“跑步“是动作。“跨栏“是一项包含起、跳、跑三个动作的活动。通常，在前两个级别执行动作分类。许多不同的动作类共享相似或相同的动作原语是不可避免的。这在很大程度上增加了区分不同类别的难度。然而，在原始级别的动作分类也是不切实际的。原因在于，由于人类运动的灵活性，存在无数的动作基元。而且，不同的动作类可能由不同数量的动作原语组成，这不适合对所有动作类进行统一的预处理。为了解决这个问题，我们定义了子动作而不是动作原语。子动作也是一个小的动作周期，但它不是预先定义或固定的每个动作类。子动作根据某个动作自动分割。所有要分类的动作类将具有相同数量的子动作。这种方法不仅可以解决上述问题，而且更快，更灵活和自适应。在计算机视觉领域，将图像特征作为词来处理，可以将词袋模型（BoWs模型）应用于图像分类。在文档分类中，词袋是词的出现计数的稀疏向量，即词汇表上的稀疏直方图。在计算机视觉领域，视觉词袋是一个局部图像特征词汇表出现次数的向量。为了使用BoWs模型表示图像，可以将图像视为文档。同样，图像中的“词”也需要定义。要做到这一点，通常包括三个步骤1. 特征检测;2. 特征描述;3. 码本生成。BoW模型的定义可以是如图4所示，从动作视频中提取第一局部特征。然后，视频被视为大量的视觉词汇。为了提取子动作，我们根据动作的强度将体积切成小片段。剪辑之间的距离将累积。然后将累积的距离分割成相等的部分，即，的子动作。对每个动作分别建立序列直方图来描述动作。在分类之前，利用训练数据计算同一子段中的子动作之间的相似度。这些相似性可以被视为投票的权重。同时H. Liu等人/CAAI Transactions on Intelligence Technology 1（2016）125e 136129j13.1.视觉词提取见图4。我们的方法框架。首先，视频被转换成大量的视觉文字。其次，进行两阶段分割。第一阶段根据词的密度将卷切割成片段，第二阶段将片段之间的累积距离等分。第三，分别对每个子段进行正态分类，结果记为cj。最终结果由投票决定。根据预分类精度计算出每个部分的显著性值。最后进行分段分类，得出投票方案。测试实例A的类别由以下等式决定：演员最佳分割可以缩小分类范围，并消除在不同相对时间发生的相似子动作的歧义。我们在3.1小节中简要介绍了视觉词提取方法，在3.2小节中，我们提出了分割方法来获取子动作。XNs。 - 是的Σ其中，C表示所有可能的类别，Ns表示子部分的数量，cj表示A在子部分j中的子分类结果，并且uj（i，cj）是当属于类别i的第j个子动作被分类到子类别cj时该子动作的权重。最后的sj（cj）代表第j个子动作的显著性。实例将被分类到具有最高分数的类别3. 动作分割我们的方法利用当地的时空特征来表示行动。从视频序列中提取视觉词的局部特征后，进行两阶段分割，避免了由于尺度、范围、速率等个体差异而导致的分割结果不如图5所示，基于局部特征的表示因其抗杂波和噪声而广泛用于人体动作分析首先，检测时空兴趣点（STIPs）然后生成描述符来表示本地信息。有许多不同的本地检测器和描述符被提出。由于子动作的平均长度较短，我们的方法避免使用那些过于稀疏的检测方法高密度探测器[18，25]是一个很好的选择。具体而言，Dollar等人[4]提出的长方体检测器和Willems等人[25]提出的尺度不变检测器。我们的实验中使用了Dol- lar典型地，Dollar[4]提出了用于动作识别的替代时空特征检测器。的图五.提取视觉词汇。¼的最大I2 Cuji;cj sj cj;130H. Liu等人/CAAI Transactions on Intelligence Technology 1（2016）125e 136：203202>：¼检测器基于一组可分离的线性滤波器，其以不同的方式考虑空间和时间维度。在[4]中，为了从视频序列I中提取STIP，8>>h>甚至-t2第二次世界大战后的第二次世界大战-t响应函数由下式给出：RI*g *h偶数2I*g*h奇数2;2其中g（x，y，s）是沿空间维度应用的2D高斯平滑核，并且heven、hodd是时间上应用的1D Gabor滤波器的正交对，其表示为：h奇数t;t; u奇数t; t ;u奇数t; t;u奇数t; t-sinn 2ptu奇数t2在等式（3）中，u表示Gabor滤波器中余弦的下划线频率。当u4/t时，方程（2）中的响应函数R中的参数的数量减少到两个：s，t，大致对应于检测器的空间和时间尺度。图第六章两个演员扮演的“接电话”的关键形象（a）、（b）、（c）、（d）、（e）、（f）对应于图1中的六个分割点A、B、C、D、E、F。第七章（a）和（f）是视频的开始和在第一部分中，动作从（a）变为（b），两个演员的手都向前去拿电话。在第二部分（b）至（c）中，电话被拉近。在第三部分（c）至（d）中，演员打开翻盖手机。在第四部分（d）至（e）中，演员举起电话。在最后一节（e）至（f）中，演员听电话。最后两个部分都很长，因为演员动作很少。H. Liu等人/CAAI Transactions on Intelligence Technology 1（2016）125e 136131.XX然后利用k-均值聚类算法建立视觉词典，并将每个特征描述符分配给词汇表中最接近的词。最后，如图5所示，具有N帧的视频被描述为具有视觉词的帧序列：视频1/2f1;f2;其中，fi½w1i;w2i;wni表示第i帧中的第n个可视字3.2. 子动作分割为了有效地分割动作，我们应该实现两个目标。首先，确保相同操作类的相同子部分中的子操作具有相同类型，忽略参与者之间的速度差异。其次，所有子动作都应该捕获足够的运动信息用于分类。两阶段分割可以很好地达到上述目标，下面详细介绍。3.2.1. 印章夹在第一个分割阶段，整个视频被切割成具有近似相等数量的特征点的归一化片段。第k个剪辑在第xk个帧中结束，xk应满足以下等式：然后将整个动作的累计距离等分，计算出子动作的运动范围：T¼ dist=1; Nc= Ns; N9其中，Ns表示子动作的数量。T用作分割片段序列的阈值。事实上，剪辑之间的距离不仅推断运动的范围，而且推断动作基元类型的变化程度。最后，子动作由以下等式分割：disti;j≤Tdisti;j1;10<其中i、j是子部分的开始和结束剪辑。通过将相邻的片段连接在一起来实现对类的稳定分割。分割示例在图6中示出，并且对应的累积距离曲线在图7中示出。通过像这样分割动作，我们可以消除实例之间的速度和范围差异。因此，对于某个类，相同的子动作基本上可以被分割到相同的子部分，忽略实例之间微妙的长度差异。对每个子动作分别形成顺序BoW，进行权值计算和顺序分类. 所有分割步骤如算法所示1.该算法着重于子动作的分割，以实现不同部分之间的均匀分布。xk-11/1ni

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

人体行为分类的顺序词袋模型方法及性能评估

基于词袋模型的图像分类算法研究

什么是词袋模型？词袋模型存在哪些问题？

词袋模型和视觉词袋模型定义

说明 词袋模型 200字

词袋模型和空间向量模型

句向量的分布式词袋模型

利用词袋模型将文本转换为离散的词向量

TF-IDF和词袋模型的区别

词袋模型原理 400字

什么是词袋模型，词袋模型和字典之间又该如何转换，请举例说明

请分别解释并阐述独热编码与词袋模型两个概念及其主要表示方法与原理

贝叶斯垃圾检测中词袋模型是什么

词袋模型和tf-idf定义原理

CountVectorizer 创建词袋模型

liwc和词袋的区别

编写一个程序证明词袋模型是否能区分下列句子：不是不行 不 是不行 不优秀 优秀不

怎么把顺序字符串输入分类算法

需要根据具体任务实现设计词袋向量的构建步骤具体细节

有序logistic回归模型性能评价

最新资源

说明词袋模型 200字

编写一个程序证明词袋模型是否能区分下列句子：不是不行不是不行不优秀优秀不