没有合适的资源?快使用搜索试试~ 我知道了~
“基于语义的人体动作识别方法”-Egyptian Informatics Journal(2015)16,187
Egyptian Informatics Journal(2015)16,187开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com原创文章基于语义表示的人体动作识别海阿姆河Abdul-Azima,*, Elsayed E.赫迈德湾a埃及Ain Shams大学妇女艺术、科学和教育学院物理系b埃及开罗大学工程学院计算机工程系接收日期:2015年1月16日;接受日期:2015年摘要在过去的几年里,由于其在现实世界中的应用,识别视频序列中的人的动作一直是一个具有挑战性的问题。为了提高动作识别的性能,人们提出了许多动作表示方法尽管受欢迎的地方基于特征的方法与用于动作表示的“词袋”模型一起,它未能捕获足够的空间或时间关系。为了克服这一问题,人们提出了一种基于概率的局部表示方法来捕获时间信息。本文介绍了一种改进的基于语义的人类动作识别方法,以捕捉歧视性的时间关系。在我们的方法中,我们通过跟踪检测到的时空兴趣点(称为“长方体特征”)并在连续帧上匹配其SIFT描述符来提取特征。我们还提出了一种链接和探索的方法,以获得有效的轨迹在现实条件下的运动表示。然后基于词袋模型对轨迹点周围的体积进行描述,以表示人的动作。最后,使用支持向量机对人体动作进行分类。在三个流行的数据集(KTH,Weizmann和UCF体育)上评估了所提出的方法的有效性。实验结果表明,所提出的方法产生了相当大的性能改善的国家的最先进的©2015由Elsevier B.V.代表开罗大学计算机与信息学院制作和主办。 这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。*通讯作者。联系电话:+20 1272588373;传真:+20 224157804。电 子 邮 件 地 址 : haiamadel@yahoo.com ( H.A.Abdul-Azim ) ,hemayed@ieee.org(E.E. Hemayed)。开罗大学计算机和信息系负责同行审查。1. 介绍在过去的几年里,视频中的人类动作识别一直是计算机视觉研究的一个不断增长的领域,具有许多现实世界的应用,例如视频监控,视频索引/浏览,识别手势,人机界面和体育赛事分析。然而,由于背景杂乱、光照变化、人的体质不同、http://dx.doi.org/10.1016/j.eij.2015.05.0021110-8665© 2015由Elsevier B. V.代表开罗大学计算机与信息学院制作和主办。这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier关键词人体动作识别;时空特征;长方体检测器;基于轨迹的特征描述;词汇袋188 H.A. Abdul-Azim,E.E. 赫迈德服装、摄像机运动、部分遮挡、视点变化、视频屏幕的比例变化等。通常,人类动作识别过程包括两个主要步骤:动作表示,动作学习和分类。现有的动作识别方法由Weinland等人[1]基于动作表示分为两种主要方法:全局表示和局部表示。全局表示方法通过使用背景减除或跟踪来检测人的整个身体。剪影、轮廓或光学阴影通常用于表示局部化的人。这些表示对视点变化、个人外观变化和部分遮挡更敏感。在局部表示方法中,视频被表示为小的独立补丁的集合。这些斑块涉及在空间和时间域中高度变化的区域。斑块的中心被称为时空兴趣点(STIP)。通过从它们的补丁中捕获外观和/或运动信息来描述检测到的点,并聚类以形成原型或视觉词的字典。然后,每个动作序列由词袋模型(BOW)表示[2]。最近,这些方法已经成为非常成功的人类动作识别方法。它们克服了全局表示法对噪声和部分遮挡的敏感性以及必须通过背景减除和跟踪进行精确定位的局限性。已经提出了几种STIPs检测器来确定视频中的时空兴趣位置。例如,Laptev[3]扩展了时空情况下的Harris角点检测器,并提出了Harris 3D检测器,Dollar等人。[4]通过在时间上应用1-D Gabor滤波器提出了Cuboid检测器,Willems等人。[5]提出了Hessian检测器,其通过3DHessian矩阵的行列式来测量显着性,Wang等人。[6]介绍了密集采样检测器,它在空间和时间上以规则的位置和尺度提取STIP。此外,已经提出了用于STIP的各种描述符,诸如梯度描述符[4]、定向相干分量直方图(HOG)和光流直方图(HOF)描述符[2]、3D尺度不变特征变换(3DSIFT)[7]、3D相干分量描述符(HOG3D)[8]和扩展加速鲁棒特征描述符(ESURF)[5]。尽管局部表示方法很受欢迎,但它也有一些缺点。其中一个主要的缺点是忽视了地方特征之间的空间和时间关系。这可能是人类动作识别中的一个主要问题。所检测到的低级动作部分之间的空间和/或时间连接对于引入动作的固有特性是必要的。为了削弱基于BOW模型的局部表示方法的这一局限性,人们进行了大量的尝试。为了捕捉这些关系,引入了早期的工作,例如Laptev等人[2],Liu和Shah[9],Gilbert等人[10],Zhang等人[11]和Bregonzio等人。[12]第10条。本文介绍了最近提出的方法的增强,称为基于概率的局部表示方法[13这些方法通过在整个视频中跟踪检测到的兴趣点来捕获它们之间的一些时间关系。它们在轨迹生成和表示方法上有所不同。在此框架下,我们跟踪了Cuboid检测器检测到的STIP使用SIFT匹配,然后经过一些改进,我们使用跟踪点来形成动作轨迹,然后我们描述这些轨迹点周围的体积。这些特征用词袋(BOW)模型表示。最后,使用支持向量机对人类行为进行分类。为了评估所提出的方法,我们在三个流行的数据集KTH[20],Weizmann[21]和UCF Sports[22]上训练和识别动作模型。本文的组织结构如下。第二节回顾了以往的相关工作。第3节描述了所提出的基于冗余的视频表示方法。第4节介绍了实验装置,数据集,并讨论了所获得的结果。最后,第五部分对本文进行了总结。2. 相关工作最近的工作[13-19]显示了良好的结果,其中通过使用视频序列中的兴趣点的轨迹来确定局部时空体积的动作识别。这些基于几何的方法利用从时空体积中提取的运动信息,并利用不同的方法进行表示。Messing等人[13]允许特征袋模型通过使用Pyramid Lucas-Kanad e-Tomasi(KLT)跟踪器[23]跟踪Harris 3D兴趣点[3]来对于动作分类,轨迹通过计算随时间变化的量化速度来表示,称为Matikainen等人[14]介绍了一种基于随机性的运动特征,称为使用标准KLT跟踪器生成轨迹。对于轨迹表示,使用K-means执行轨迹聚类,然后为每个聚类中心计算一个仿射变换矩阵。Sun等人。[15]通过基于产生良好运动轨迹的唯一匹配约束在连续帧之间匹配SIFT描述符来生成它们的轨迹。然后,以分层的方式描述动作,其中利用三个层次的上下文信息。Sun等人。[16]还通过结合KLT跟踪器和SIFT描述符匹配来提取长持续时间轨迹。此外,随机点被采样用于在现有轨迹的区域内进行跟踪,以捕获更显著的图像结构。对于动作表示,使用轨迹的时空统计。Raptis和Soatto[17]提出了时空特征描述符,用于捕获图像在边界周围的局部结构。这些描述符是沿着轨迹的HOG或HOF描述符的计算。最终描述子应用于动作建模和视频分析。 Bregonzio等人。[18]提出了一种基于融合KLT跟踪器和SIFT匹配生成的轨迹与提取的时空局部特征的动作表示。这种融合增强了基于语义的动作表示方法,使其能够在诸如小相机移动、相机缩放和阴影等现实条件下识别动作。Wang等人。[19]引入了密集轨迹,并使用运动边界直方图(MBH)[24]作为轨迹描述符。点由密集采样检测器检测,并通过Shi和Tomasi标准[25]进行检查,然后使用密集的光场进行跟踪。用四种不同的描述符(轨迹形状、HOG、HOF和MBH)来描述轨迹。¼人体动作识别189为了生成可靠和鲁棒的轨迹,有必要提取好的关键点并准确地跟踪它们。hevent;s;x=1 /2-cos= 2/2ptx=1/2-t2=s2;以及在[14然而,在低-h奇数t;s;x对于具有杂乱背景和快速运动的高分辨率视频,产生的关键点的数量远远不够,这增加了冗余和噪声水平。由于其备用的表示基础,跟踪Harris3D STIP(如[13]中所示)增强了生成的轨迹,但使用KLT跟踪器并不能保证下一帧中的对应点是特征点。此外,3D兴趣点的时间可缩放性被限制为仅捕获短(简单)移动。最后,跟踪密集采样的STIP取得了很大的成功[19],但由于提取的轨迹数量及其计算消耗量很大,因此仍然不够有区别。由于大量的特征点,在密集的轨迹中,使用光学跟踪的效果在本文中,我们将进一步对基于语义的方法,局部表示人类的行动。我们的轨迹的特点是它的生成。我们选择长方体检测器作为点检测器,以生成更密集的序列,并在连续帧上匹配检测到的STIP的空间信息,以提取它们的实际移动。此外,为了克服检测到的STIP的短时可扩展性,将光流向量计算用作短轨迹的链接器和/或探测器。3. 该方法所提出的方法的目标是表示动作提取本地时空特征丰富的运动信息,从视频。作为第一步,使用Cuboid检测器检测STIP[4]。然后,在每个点周围,计算2D SIFT描述符[26]以使用连续帧中STIP之间的SIFT匹配来构建轨迹。提取的轨迹增强和描述。最后,每个视频序列表示使用袋的功能模型。 系统架构如图所示。1.一、3.1. 特征提取在这种方法中,我们首先提取STIP在每个视频序列。在过去几年提出的不同检测器中,我们选择了Dollar等人提出的Cuboid检测器[4]。它克服了稀疏性STIP检测器(例如Harris3D和3D Hessian)的缺点,这些检测器检测到少量稳定的兴趣点[1]。此外,Cuboid探测器的时空体积采样Dollar等人[4]通过应用一组可分离的线性滤波器(在空间域应用高斯滤波器,在时间上应用一维Gabor滤波器)检测局部周期性运动。由I(x,y,t)表示的图像堆叠的响应函数由下式给出:与x4 =s。响应的两个参数r和s函数R大致对应于检测器的空间和时间尺度。响应函数的局部最大值是兴趣点。这些兴趣点对应于发生复杂运动模式的局部区域。 在所提出的实验中, 我们在r={2,4}的多个尺度上检测兴趣点作为空间尺度,s={2, 4}作为每个视频序列的时间尺度,捕捉人类行为的本质3.2. 基于轨迹的特征描述在所提出的方法的第二阶段包括四个步骤来描述检测到的兴趣点,通过他们的轮廓,在整个视频帧。这些步骤描述如下:3.2.1. 轨迹生成通过使用SIFT描述符[26]描述检测到的STIP的空间信息,然后搜索它们在连续帧之间的匹配,从每个视频中提取轨迹。由于SIFT描述符对视觉条件变化具有鲁棒性,因此在连续帧中使用SIFT描述符进行STIP匹配和跟踪。为了减轻不正确匹配的影响,我们遵循Sun等人提出的窗口匹配方法。[15]。这样的方法考虑到帧i中的任何点p可以与帧i+1中的一个可以匹配的点p0匹配,并且必须位于点p周围的空间窗口M·M内。这种考虑基于对不能非常快的最真实运动的观察来丢弃相距太远的匹配。通过这种开窗方法生成的轨迹可以在到达镜头边界或具有相当大的遮挡时自动结束。实验结果表明,32· 32的空间匹配窗口在测试数据集上给出了良好的结果。3.2.2. 轨迹增强(链接和探索)在所有帧上跟踪STIP之后,生成不同长度的运动轨迹。图2中示出了生成的轨迹的示例。可以观察到,存在为运动表示生成的非常短和长的轨迹。由于匹配误差、兴趣点遮挡、摄像机运动、视点变化和视频屏幕尺度变化等因素的影响,短轨迹可以被视为不完整轨迹。因此,必须探索这些未完成轨迹的未来。通过KLT方法估计下一帧的光学光流矢量来[23]在大小为W·W的窗口内。然后,用SIFT描述子描述估计位置,并再次搜索其RIωgωh偶þ ðIωgωhoddÞð1Þ在下一帧中匹配。找到一个匹配意味着一个链接-在两个轨迹之间进行了比较爆炸-其中g(x,y;r)是2D空间高斯平滑核,heven和hodd是时间上应用他们被定义为通过KLT方法进行的定量继续,直到找到SIFT匹配或达到有限的帧长度。图3示出了所提出的链接和探索方法。实验22190H.A. Abdul-Azim,E.E. 赫迈德图1所提出的人类动作识别方法的示意图。图2为四个动作生成的轨迹示例。第一排是步行动作,第二排是摆杆运动,第三排是跑步动作,第四排是顶起动作。Jn人体动作识别191[2]和MBH(运动边界直方图)[19]。每个描述符捕捉视频内容的一些特定特征。在我们的实验中,当我们将轨迹长度固定为10帧时,轨迹形状描述符的最终维度为18。它通过计算轨迹的位移 矢 量 来 获 取 轨 迹 的 形 状 信 息 此 外 , 沿 着 大 小 为32· 32· 10的提取轨迹的体积3· 3· 2用于HOG、HOF和MBH描述符。为了描述体积内的外观信息,为每个单元计算梯度方向的4箱直方图(HOG),其产生长度为72的特征向量此外,5箱直方图的光学光流(HOF)被用来包围的网格单元,以捕捉运动信息。HOF描述符向量长度为90。MBH是轨迹的另一个运动描述符,它分别描述了x和y方向上的运动对于每个方向,使用光学光流的5-bins直方图对轨迹体的网格单元进行离散化。最后的特征向量维数是180。3.3. 表示分类图3链接和探索过程的图示结果表明,W=10在测试数据集上给出了良好的结果在所有呈现的实验中,小于10帧长度的轨迹在轨迹长度达到10帧后,探测过程终止。图4示出了在链接和探索之前和之后生成的轨迹。从图4中可以观察到,所提出的链接和探索方法在不同的视频条件下表现良好,例如第一行中所示的变化的视频尺度和具有小的背景的复杂背景相机运动如第二行所示而且我们遵循基于本地的动作表示方法的一般框架,并使用标准的词袋模型进行视频表示。利用欧氏距离的k均值聚类算法从训练数据中构造视觉词(或码书)。然后,每个视频被表示为码本元素的频率直方图。在我们的实验中,码本建立在60,000个随机选择的训练特征的子集上,以限制复杂性。由于k-均值聚类算法的随机初始化,我们报告了超过10次运行的最佳结果。当使用不同的描述符进行动作描述时,分别构建每个描述符的码本。对于分类,我们使用具有v2内核的非线性支持向量机(SVM)[2];在受控视频环境下生成可靠的轨迹,如图中最后两行所示。 四、K.H; H.-1XV. h在-h12!i j2A n1h在金3.2.3. 轨迹修剪在链接和探索轨迹之后,短轨迹仍然存在。这些轨迹可以被认为是有噪声的轨迹,并且可以被修剪。此外,不具有运动信息的静态轨迹被移除。此外,具有突然大位移的轨迹被修剪。 我们遵循Wang等人的方法[19],通过测量两个连续轨迹点之间的位移矢量来检测此类轨迹。如果任何位移大于总位移的70%,则删除轨迹。修剪阶段的效果如图5所示。最后,长于预定义最小长度(10帧)的轨迹被自动分割成更小的固定长度轨迹(L=10帧)。再次,任何短轨迹段被移除。现在我们的轨迹可以描述了。3.2.4. 轨迹描述在这项工作中,我们采用了Wang等人的方法。[19]来描述我们的轨迹。对于每个运动轨迹,计算四个描述符:轨迹形状描述符[19],HOG(方向梯度直方图)[2],HOF(直方图其中H i={h in}和H j={h jn}是单词出现的直方图,V是码本大小,A是平均值 所有训练样本之间的距离。报告所有类别的平均准确度用于性能测量。C参数权衡了训练样本的错误分类和决策面的简单性。低C使决策表面平滑,而高C旨在正确分类所有训练样本。最佳分类参数C和A通过对所有值为2x,其中x在-5至16的范围内,以及2y,其中y分别在3到-15的范围内。4. 实验装置和结果该方法首先基于四个描述符的分类准确度进行评估:TD,HOG,HOF,MBH及其在不同码本大小下的组合。其次,对轨迹参数:匹配窗口大小、探测窗口大小、轨迹长度、邻域大小和单元格结构大小的影响进行了进一步的实验研究。最终评估已由192 H.A. Abdul-Azim,E.E. 赫迈德图4链接和探索四个动作之前和之后生成的轨迹的示例。第一列是链接之前第二列在后面。第一排是步行动作,第二排是摆杆运动,第三排是跑步动作,第四排是顶起动作。将我们的结果与最先进的结果进行比较。这些评估是在三个流行的数据集上进行的:Weizmann,KTH和UCF体育。这些数据集被选择来测试我们所提出的方法在具有不同条件的约束和非约束环境上的性能。4.1. 数据集KTH数据集是用于动作识别方法评估的最常用数据集[20]。1它由600个视频组成,由25个不同的演员表演六个基本动作:步行,慢跑,跑步,拳击,挥手和拍手(见图6,顶部)。这些行动被捕获,不同的场景:室内、室外、具有比例变化的室外以及具有不同 衣服 的室 外。 每个 视频 以25 fps 采样 , 分辨率 为160·120像素。根据作者的原始设置,多类SVM分类器已经在16个演员的序列上进行了训练,并根据5倍交叉验证通过剩余9个演员的序列进行了评估。Weizmann数据集[21]2包含93个视频序列,显示9个不同的演员,每个演员执行10个动作:弯曲,跳跃,跳跃,两条腿向前跳跃,两条腿原地跳跃,侧面飞奔,单手挥动,双手挥动, 跑步和步行(见图6,中间)。它们具有180· 144像素的空间分辨率,并使用固定相机拍摄一 静态 相机 下 约束 环境 在四2http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions。1http://www.nada.kth.se/cvap/actions/。HTML.人体动作识别193图5四个动作修剪前后生成的轨迹示例。第一列是修剪前,第二列是修剪后。第一排是步行动作,第二排是摆杆运动,第三排是跑步动作,第四排是顶起动作。在 相 同 的 光 照 条 件 下 , 25 fps 。 Leave-One-Out Cross-Validation(LOOCV)用于训练SVM分类器。UCF体育数据集[22]3包含体育广播视频中十种不同类型的人类动作的150个视频样本:潜水,高尔夫挥杆,踢球,举重,骑马,跑步,滑板,摆动1(在鞍马和草地上),摆动2(在高杠上)和步行(参见图6底部的示例)。视频具有不同的帧速率和高图像分辨率。我们遵循Wang等人的设置。[6],通过将每个序列的水平压缩版本添加到数据集来扩展数据集,并且每个序列被二次采样到其一半的空间分辨率以降低高分辨率。3http://www.crcv.ucf.edu/data/UCF_Sports_Action.php。内 存 需 求 。 为 了 评 估 , Leave-One-Out 交 叉 验 证(LOOCV)用于训练SVM。4.2. 分类准确度表1显示了所提出的方法在三个数据集(KTH,Weizmann和UCF sports)上针对不同描述符的最佳性能。此外,三个数据集在不同码本大小下的分类准确度如图所示。 八、对于KTH数据集:我们的方法的最佳结果95.36%是用码本大小为3000的HOF描述符获得的,如图7(a)所示。在第二位,MBH和组合报告94.9%,在码本大小3000。最后,TD和194 H.A. Abdul-Azim,E.E. 赫迈德图6来自KTH(上)、Weizmann(中)和UCF Sports(下)人类动作数据集的样本帧HOG描述符在码本大小为4000时达到88.42%的准确度。KTH数据集上最佳分类结果的混淆矩阵见表2。有趣的是,与腿相关的动作(“慢跑”,“跑步”,“步行”)彼此之间更容易混淆。在“wave”和“clap”之间有2.77%的比例存在小的混淆Weizmann数据集:根据表1(第二列)和图7(b)中的结果,HOG描述符在码本大小为2000的测试描述符中达到97.77%的最佳结果。排在第二位的是HOF描述符和组合,分别在码本大小1000和3000时为96.66%。MBH描述符在码本大小1000处获得95.55%。最后,TD描述符在码本大小为3000时达到94.44%。可以观察到,Weizmann数据集比KTH数据集需要更小的视觉词来进行视频表示。这可能是因为这个数据集的变化很小。表3中给出了在Weizmann数据集上HOG描述符识别结果的混淆矩阵。3000号。TD和HOG描述符分别在码本大小为1000和4000时达到74.82%和84.26%的TD描述符在小码本大小1000处的高性能可以通过其用短维度向量(18维)描述动作来解释,这在不同动作表示之间产生了许多UCF体育数据集上最佳分类结果的混淆矩阵如表4所示。可以观察到,动作“潜水”、“踢腿”、“抬起”、“行走”、“摆动1”和“摆动2”的识别准确率另一个观察结果是,在动作“骑”、“跑”和“滑”之间发生了高度混淆。值得注意的是,这些行动的视频背景杂乱,其中一些是用移动摄像机拍摄的。因此,通过使用组合来减少这种混淆。4.3. 弹道参数在本节中,评估了不同参数设置对建议轨迹的影响。选择KTH数据集报告结果,因为它的中间水平表 1 所 提 出 的 方 法 使 用 不 同 的 描 述 符 并 应 用 于 KTH ,Weizmann和UCF Sports数据集的动作识别准确率。在操作“jump "和”skip“之间发生混淆当使用所提出的基于概率的方法与HOG描述符时,比率为11.11%。我们的方法还测试了更复杂的行动,第k魏茨曼UCF体育背景视频变化对UCF体育数据集。TD88.4294.4475根据表1(第三列)中列出的结果生猪88.4297.7784.26以及图7(c),计算的描述符Hof95.3696.6688.152是UCF数据集的高级描述符,mbH94.995.5586.77准确率89.97%在 码本 大小 4000. HOF描述符组合94.9 96.6689.97在码本上获得了88.15%和86.77%的MBH描述符人体动作识别195(一)(b)第(1)款(c)第(1)款98969492908886848280781000 2000 3000 4000码本大小99989796959493929190891000 2000 3000 4000码本大小9390878481787572696663601000 2000 3000 4000码本大小HOGHOFMBHTD组合HOGHOFMBHTD组合HOGHOFMBHTD组合表2HOF描述符在KTH数据集上的最佳分类结果的混淆矩阵。(%)框鼓掌波慢跑运行走框10000000鼓掌01000000波02.7797.22000慢跑00094.445.550运行00016.6983.330走0002.77097.22轨迹描述根据分类精度评估轨迹参数。图8(a)中的匹配窗口大小(M)的评估结果表明,通过增加窗口大小直到达到大小32·32,分类精度得到提高。在此大小之后,观察到分类准确性下降。这是因为使用大的窗口尺寸会导致高比例的匹配误差,并生成大量的不良轨迹。同样的原因可以解释图1所示的探测窗口大小(W)的评估结果。 8(b).轨迹长度(L)的评估结果如图所示。 8(c)表明,当长度超过L= 10时,分类精度会降低。应该指出的是,大多数的STIPs提取与不同的检测器代表的区域的短距离运动,并随时间迅速变化。因此,根据所使用的检测器和轨迹生成方法,错误路径的比率增加到超过预定义的轨迹长度。基于同样的原因,用于轨迹描述的合适邻域尺寸为32· 32,网格单元结构为3· 3· 2,图7不同描述符的分类准确度(a)KTH数据集、(b)Weizmann数据集和(c)UCF体育数据集的不同码本大小。困难。我们研究了匹配窗口大小、探测窗口大小、轨迹长度、邻域大小、网格结构等因素的影响。每次对一个参数进行所有评估,其他参数固定为默认值,即,匹配窗 口 大 小 M=32 , 轨 迹 长 度 L=10 , 探 测 窗 口 大 小W=10,邻域大小N=32,单元网格结构nx,y=3,nt=2。根据图1中给出的实验结果, 8、码本大小固定为3000,HOF描述符用于如图8(d)和(e)所示。4.4. 最新技术水平比较KTH数据集:在先前发表的基于概率的局部表示方法[13,16,17,19]的结果中,我们的方法实现了95.36%的最高识别准确率,如表5所示(第一列)。Messing等人[13]报告了74%的使用速度历史描述其轨迹。Sun等人[16]使用轨迹统计描述获得了86.8%。当我们与我们的轨迹的TD描述进行比较时,比Messing等人[13]获得了14.42%的改进,比上面的改进1.62%。表3 在 Weizmann 数据集上HOG描述符的最佳分类结果的混淆矩阵。(%)弯曲杰克跳P-Jump运行侧Skip走WAVE1Wave2弯曲100000000000杰克010000000000分类准确度(%)分类准确度(%)分类准确度(%)跳001000000000P-Jump000100000000运行000088.88011.11000侧000001000000Skip0011.1100088.88000走000000010000WAVE1000000001000Wave2000000000100196 H.A. Abdul-Azim,E.E. 赫迈德表4UCF体育数据集上描述符组合的最佳分类结果的混淆矩阵。潜水高尔夫踢电梯骑运行滑冰SWING1SWING2走潜水100000000000高尔夫088.88000000011.11踢001000000000电梯000100000000骑0000758.3316.66000运行000015.469.230007.7滑冰0000016.6666.660016.66SWING1000000010000SWING2000000001000走000000000100(一)(c)第(1)款969594939216 24 32 4048匹配窗口M(像素)9694929088865 10 15 20 25轨迹长度L(帧)(b)第(1)款(d)其他事项95.59594.59493.59395.59594.59493.5935 10 15 20 25探索窗口W(像素)16 24 32 40 48邻域大小N(像素)(五)95.59594.59493.5932× 2 × 22 × 2 × 33 × 3 × 13 × 3 × 23 × 3 × 3网格结构nx×ny ×nt图8轨迹参数评估(a)匹配窗口大小,(b)探索窗口大小,(c)轨迹长度,(d)邻域大小,(e)网格结构。Sun et al.[16]. 此 外 , Raptis 和 Soatto[17] 使 用 HOG/HOFtracklets描述报告了94.8%。与Wang等人提出的密集轨迹相比[19](参见表6,第二列),在MBH描述符的情况下,我们的轨迹实现了0.1%的低性能。HOG描述符和HOF描述符分 别 提 高 了 1.4% 和 2% 。 TD 描 述 的 建 议 trajec-tories 报 告1.4%,低于密集轨迹获得的准确性。我们的轨迹的描述符组合的结果在0.7%的改善密集的轨迹。我们必须注意,密集轨迹的长度是固定的,分类准确度(%)分类准确度(%)分类准确度(%)分类准确度(%)分类准确度(%)[19]中的15帧和码本大小=4000。它比我们的轨迹长,这解释了TD描述符的较低结果。此外,由于使用长方体检测器(比密集采样更密集)和SIFT匹配,生成的轨迹的数量低于密集轨迹并且更弯曲。所提出的方法比Wang等人[19]中计算的传统KLT和SIFT轨迹有很大改进。拟定方法与文献中最新技术水平的其他比较见表7。在KTH数据集上,我们用HOF描述符获得了95.63人体动作识别197表明我们的轨迹在不受控制的环境下从视频中捕获良好的运动信息。 如表7(第三列)所示,所提出的基于轨迹的方法获得了比当前最先进的方法更好的结果。5. 结论这与现有技术相当,即,95.7%[27]。注意,文献中的几个人体动作识别的工作是使用不同的方法和不同的条件进行评估的。将我们在Weizmann数据集上的方法与最先进的结果进行比较表明,我们使用HOG描述符与[28]获得了97.77%的可比结果,如表7所示(第二列)。对 于 UCF 体 育 数 据 集 , 如 表 5 ( 第 二 列 ) 所 示 ,Bregonzio等人。[18]通过将KLT和SIFT轨迹与检测到的时空点相结合,报告了86.90%的识别准确率。当比较所提出的方法与密集轨迹[19](见表6,第三列),我们观察到在密集轨迹上实现了很大的改进。最大的改进是HOF描述符提高了11.35%。MBH描述符的性能提高了约3%,描述符组合的性能提高了约2%。建议的轨迹的HOG描述符给出了类似的结果,密集的轨迹。 TD描述符再次报告比密集轨迹低0.4%。运动描述符的改进本文提出了一种基于概率的局部动作表示方法。目的是探索在视频序列中的时空感兴趣的位置之间的时间关系,表征人类的行动。我们的方法不同于以往的基于概率的方法中提取的关键点和跟踪方法。时空兴趣点的选择,以减少冗余和噪声水平。另一方面,跟踪方法的目的是提取可靠的和强大的轨迹,能够描述下的遮挡,摄像机运动,视点变化,尺度变化的运动信息。在词袋模型和非线性支持向量机的框架下,在三个流行的数据集(KTH,Weizmann和UCF体育)上进行了实验。实验结果表明,当在UCF体育数据集上进行评估时,与Wang等人提出的最新基于轨迹的方法(密集轨迹)相比,所提出的方法实现了2%的改进[19]。此外,在KTH数据集上进行评估时,与密集轨迹方法相比,实现了0.4%的改善。与传统的基于局部的动作表示方法相比,该方法在KTH和Weizmann数据集上获得了相当的结果,并改进了UCF体育数据集上的现有结果.表6与Wang 等人提出的密集轨迹方法的比较。[19]对于KTH和UCF体育数据集。描述方法第kUCF体育密集轨迹(%)我们的轨迹(%)密集轨迹(%)我们的轨迹(%)TD89.888.475.475生猪87.088.484.384.26Hof93.395.3676.888.152mbH95.094.984.286.77组合94.294.988.089.97表7所提出的方法与三个数据集的最新技术的比较。第k魏茨曼UCF体育Dollar et al. [4]美国81.20%Bregonzio等人[12个]96.66%Laptev等人[二]《中国日报》91.80%[28]第二十八话百分之九十七点五Gilbert等人[10个国家]百分之九十四点五Wang等人[30个]96.70%[29]第二十九话94.53%Wang等人[6]美国85.60%Gilbert等人[27日]百分之九十五点七[29]第二十九话87.27%我们的方法百分之九十五点三六我们的方法百分之九十七点七七我们的方法百分之八十九点九七表5与以前基于概率的比较KTH和UCF体育数据集的局部动作表示方法。KTH UCF体育Messing等人[13]Sun et al.[16个]Raptis和Soatto[17] Wang74.00%86.80%94.80%百分之Bregonzio等人[18个国家]Wang等人[19个]86.90%88.00%我们的方法95.36%我们的方法89.97%198 H.A. Abdul-Azim,E.E. 赫迈德引用[1] Weinland D,Ronfard R,Boyer E.基于视觉的动作表示、分割和识别方法综述。Comput.目视图像理解2 0 1 1 ;115(2):224-41.[2] 放大图片Laptev I,Marszalek M,Schmid C,Rozenfeld B. 从电影中学习真实的人类动作。IEEE Conf Comput Vis PatternRecognit; 2008.[3] 拉普捷夫岛关于时空兴趣点。国际计算机Vision2005;64(2-3):107- 2 - 3.[4] Dollar P,Rabaud V,Cottrell G,Belongie S.基于稀疏时空特征的行为识别。2005年,IEEE国际工作组进行了评估跟踪调查。[5] 张文辉,王文辉,王文辉.一个有效的密集和尺度不变的时空兴趣点检测器。ComputVision- ECCV 2008。[6] 王H,Ullah MM,Klaser A,Laptev I,Schmid C.局部时空特征在动作识别中的应用。In:Proceedings br mach vis conf;2009.p. 十一岁[7] 放大图片作者:J.三维SIFT描述子及其在动作识别中的应用。2007年:第15届多媒体国际会议。pp. 357比60[8] Kl A,Schmid C,Grenoble I.一种基于三维梯度的时空描述子。在:英国机器视觉会议; 2008。[9] 刘J,Shah M.通过信息最大化学习人类行为。第26届IEEE计算机视觉与模式识别会议。CVPR; 2008年。[10] 杨伟杰,李伟杰.利用密集时空特征进行快速真实多动作识别。在:IEEE计算机视觉国际会议论文集; 2009年。pp. 925-31[11] 张智,胡毅,陈松,贾良泰.运动上下文:一种新的人类动作识别表示方法。计算机视觉- ECCV 2008,第5305卷。Springer,Berlin/Heidelberg; 2008.p.817-29.[12] Bregonzio M,Gong S,Xiang T.将行动识别为时空兴趣点的云。在:IEEE计算机协会计算机视觉和模式识别研讨会会议。CVPR研讨会; 2009年。p. 1948-55年。[13] 作者:Messing R,Kautz H.使用跟踪的关键点的速度历史进行活动识别。在:IEEE计算机视觉国际会议论文集; 2009年。pp. 104比11[14] 放大图片创作者:Matikainen P,Hebert M.轨迹:通过跟踪特征的运动分析进行动作识别。在:IEEE第12届计算机视觉工作室国际会议。ICCV研讨会; 2009年。pp. 514-21[15] 孙军,吴旭,严S,Cheong LF,Chua TS,Li J.用于动作识别的分层时空上下文建模。在:IEEE计算机协会计算机视觉会议和模式识别研讨会。CVPR研讨会; 2009年。pp. 2004-11.[16] Sun J,MuY,Yan S,Cheong LF.使用密集的长持续时间轨迹的活动识别。上一篇:Multimed国际电气和电子工程师学会国际会议展览会(ICME); 2010年。[17] Raptis M,Soatto S.用于动作建模和视频分析的Tracklet描述符。于:计算机科学讲义(包括人工智能子系列讲义和生物信息学讲义),第6311卷LNCS(第1部分); 2010年。pp.577-90[18] 李俊,龚S,李俊.用于动作特征选择和识别的判别性主题建模。In:Proceedings br mach vis conf; 2010. pp. 8.1-8.11.[19] 王宏,柯拉瑟A,施密德C,刘春良. 用于动作识别的密集轨迹和运动边界描述符。 Int J ComputVis 2013;103(1):60-79.[20] Schuldt C,Laptev I,Caputo B.识别人类行为:局部SVM方法。In:Proc 17th Int Conf Pattern Recognition,vol.3; 2004.[21] [10]张文辉,张文辉,张文辉.作为时空形状的动作。IEEETrans Pattern Anal Mach Intell2007;29:2247-53.[22] Rodriguez MD,Ahmed J,Shah
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功