基于上下文关系的群体活动识别模型

155 浏览量更新于2024-01-07 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程科学与技术，国际期刊22（2019）47完整文章基于上下文关系S.A.北卡罗来纳州瓦霍拉肖汉湾aCharusat大学，印度b公元前帕特尔技术学院，新V.V.天气-古吉拉特邦，印度阿提奇莱因福奥文章历史记录：2018年4月9日收到2018年7月30日修订2018年8月23日接受在线发售2018年保留字：群体活动识别卷积神经网络长短时记忆门控递归单元上下文学习A B S T R A C T在本文中，我们提出了基于上下文关系的学习模型，使用深度神经网络识别视频序列中一组人的活动。所提出的模型包括使用自下而上的方法的上下文学习，从个人的人类行为学习到群体水平的活动，以及从场景信息中学习。我们构建深度卷积神经网络模型来捕获给定输入视频序列的人类动作姿势特征。为了捕获组级别的时间流变化，上下文区域内的人的聚合动作姿势特征被馈送到深度递归神经网络，其提供时空组描述符。在此基础上，建立了场景级卷积神经网络，提取场景级特征，提高了群体活动识别的性能。概率推理模型作为深度神经网络的附加层，用于集成模型并提供统一的深度学习框架。实验结果表明，该模型在标准基准集体活动数据集上的群体活动识别的有效性。我们还通过改变不同的学习参数，优化器，特别是循环神经网络模型的长短期记忆和门控循环单元的基准集体活动数据集上的评估结果©2018 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍尽管计算机视觉领域的许多研究试图了解监控视频中的人类活动，但仍然存在具有挑战性的问题和限制，例如不同人类活动类别内的不一致性，活动类别之间的相似性，背景杂波等等。与视频中涉及的个体数量[1]一致，人类活动的不同类型是单一人类活动识别、群体活动识别和拥挤场景分析。单一人类活动识别描述单个人的动作，如拍手，挥手，踢[2]等。群体活动识别描述由许多人但不是人群执行的活动，如一起行走，在一组中交谈，在不同的地方排队[3]，如地铁，火车站，机场航站楼，交通枢纽等。拥挤场景分析，识别和分析朝圣者，车站，体育场的场景如不正常的人群行为[4]。*通讯作者。电子邮件地址：safvan465@gmail.com（S.A.Vahora），gmail.com（北卡罗来纳州）。Chauhan）。由Karabuk大学负责进行同行审查在这些观察的启发下，我们考虑了在这项工作中通常被称为集体活动的人类群体的识别活动的问题通过分析作为全局运动信息的个人的动作、焦点人的社会背景区域内的人的动作群体活动识别的最新方法集中在社会背景上。背景可以被描述为与焦点人物有社会联系的人的数量，这种联系的潜力提供了关于他们与焦点人物有多强联系的信息[5深度神经网络、深度卷积神经网络（CNN）、深度递归神经网络（RNN）、深度自动编码器等深度学习模型在计算机视觉、医学和卫星图像处理的众多应用中显示出了令人鼓舞的结果，特别是对象识别、活动识别、异常乳房识别[8]、酒精中毒检测[9]、从视频中自动提取高光[10]、人脸检测[11]等等。深度模型使用原始级别输入来提供更丰富的特征向量[12]，编码动作级别，姿势级别和场景级别的深度CNN模型[13]，然后是用于群体活动识别的消息传递阶段https://doi.org/10.1016/j.jestch.2018.08.0102215-0986/©2018 Karabuk University.出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：www.elsevier.com/locate/jestch48S.A. 瓦霍拉，北卡罗来纳 Chauhan /工程科学和技术，一个国际杂志 22 （2019）47本文的主要贡献是提出了一个时空层次深度神经网络模型，用于使用上下文关系进行群体使用优化的预训练深度卷积神经网络的人体动作姿势分类将检测到的人体边界框分为16个不同的类别。人类动作姿势的学习特征聚集并馈送到最有前途的递归神经网络，门控递归单元（GRU）神经网络进行序列学习。此外，CNN-GRU架构模型和场景级CNN模型的分类得分提供给概率推理模型以对群体活动进行分类。所提出的基于深度学习的统一框架在基准数据集上实现了最先进的性能。本文的其余部分组织如下。在第二节中，我们介绍了相关的工作。在第3节中，我们回顾了我们提出的群体活动识别模型的架构。在第4节中，我们提出了实验设置，实施细节，结果分析和比较与国家的最先进的性能。最后，在第5节中，我们总结了我们的论文并得出结论。2. 相关工作引入并调整了许多低级功能，以描述视频监控中的人类活动。在这个方向上探索，基于用于群体活动识别的特征描述符的特性，特征描述符被归类为手工和自学习特征描述符[14]。各种低级特征，如方向梯度直方图（HOG）、光流直方图（HOF）、主成分分析（PCA）、可变形零件模型（DED）、尺度不变特征变换（SIFT ）、时空局部（STL）、小波等，用于开发手工特征描述符。在自学习特征描述子中，特征学习通过提供训练、优化各种学习参数、生成模型和最后验证模型的性能来实现。Vish-wakarma等人提出的一种新的尺度和旋转不变的Gabor小波变换（GWT）以及基于方向相关脊波变换（RT）的图像序列表示。[15]。基于多特征融合的方法显示了KTH[16]数据集上单个人类活动识别的性能。在Mohammadi等人提出的视觉词袋框架（BoVW）中，通过将3D离散小波变换作为预处理步骤进行运动特征提取。[17]所提出的混合分类器使用具有多项式或sigmoid核的SVM，其在KTH[16]、Weizmann[2]和URADL[18]数据集上取得了可测量的结果。基于上下文的组描述符，由Lan等人提出的动作上下文（AC）[5]，其使用低级特征HOG提供焦点人的动作得分以及上下文区域内的所有人的动作得分，结合到特征向量中以识别群体活动。Kaneko等人提出的相对动作上下文（RAC）描述符[6]其对焦点人物和上下文区域内的人物的动作和视点不变姿态信息进行编码。Kaneko等人提出的多尺度关系特征，如焦点人与上下文区域内的人的大小，时间，形状和距离以及AC和RAC描述符[19]在背景区域内的人之间进行个体动作得分和相互动作电位的装袋，Lan等人。[20]提出了结构级和特征级方法的混合版本。基于潜在结构的群体活动识别，使用Hajimirsadeghi等人提出的增强梯度隐藏条件随机场（HCRF），该随机场通过输入，输出和中间潜在变量进行学习[21]。通过计算个人的动作，对上下文区域内的基数关系进行编码，Hajimirsadeghi等人[22]提出了一种用于群体活动识别的视频包的基数内核Choi等人提出的时空局部（STL）[3]Choi等人[7]提出的层次模型，利用人类个体的姿态观察和活动识别，人与人之间的交互潜力，并包含群体人的行为。Amer等人提出了正确检测包（BORD）[23]，这是一种用于识别参与目标群体活动的人数的视频特征，以及该BORD特征在一段时间内的帧链模型，随后是用于群体活动识别的最大后验概率算法。Amer等人提出的基于多层AND-OR图的方法[24]，它使用最大后验概率在使用三个参数优化的稀疏图上作为直接活动检测器，基于活动部分的自底向上方法和基于上下文的自顶向下方法。此外，在这个方向上，通过添加在一段时间内跟踪活动的第四个参数，时空AND-OR图推理[25]使用Amer等人提出的蒙特卡洛树搜索模型。将组中的人表示为图结构，Noceti等人提出了用于组活动识别的新内核[26]，使用由低级特征HOG[27]表示的人的方向，每个组活动的人速度的均值和方差，然后是多类支持向量机（SVM）。Tran等人。[28]提出了一种基于图的聚类算法，用于基于组内人员之间的运动和交互潜力来识别参与目标组活动的人数和组活动描述符，使用SVM对其进行分类。推导基于距离的上下文区域，Kim等人提出的群体交互区[29] 在一段时间内在相互作用区域内使用基团相互作用能和Deep CNN和Deep RNN已经展示了一个显着的性能-通过从视觉输入和序列中提取特征来管理的视觉输入。门控递归单元（GRU）[30]和长短期记忆（LSTM）[31]是最常用的RNN，它们处理香草RNN最常见的长距离依赖性问题[32，33]。对于大规模视觉识别，具有可变长度输入映射到可变长度输出，Don- ahue等人提出了长期递归卷积网络，设计[34]作为预训练的CNN，然后是使用caffe库[35]在UCF 101[36]数据集上实现的LSTM堆栈。视觉输入序列的语义表示由LSTM 堆栈生成，条件随机场上具有最大后验概率。使用在ImageNet[37]数据集上训练的预训练CNN模型alex-net网络，Deng等人提出了深度结构化模型，该模型具有用于姿势级别，动作级别和场景级别的三个CNN以及两步消息传递神经网络[13]。而在我们的方法中，我们提出了在基准数据集上训练的场景级CNN。Ibrahim等人提出的具有时间动态的分层深度模型[38] 使用预训练的CNN模型alexnet网络，然后是两级LSTM来识别一段时间内个人和群体的行为。在这个框架中，CNN的输出，来自alexnet网络的fc7特征被馈送到第一级LSTM，第一级LSTM的输出被聚合并作为输入馈送到第二级LSTM，然后是softmax分类器。Wei et al.[12]提出了一种混合方法，将深度模型与手工制作的上下文特征相结合，该特征使用组的运动特征、局部和全局水平上下文特征以及深度神经网络。3. 拟议模式概述在这项研究中，我们的目标是识别人类活动发生在一组视频序列。我们提出了基于深度神经网络的模型架构，具有CNN和RNNS.A. 瓦霍拉，北卡罗来纳 Chauhan /工程科学和技术，国际杂志 22 （2019）47-5449概率推理模型。图1表示所提出的深度神经网络架构的概述。该模型的第一步是预处理，即从视频序列中检测出人物。然后，使用inceptionV3 CNN模型[39]学习CNN模型进行动作姿势分类。在上下文区域内检测到人，聚集并馈送到RNN模型进行序列学习。这个顺序上下文特征使用softmax分类器进行训练，并为每个组活动生成活动评分。输入序列帧被馈送到场景级CNN、inceptionV3网络，然后是用于组活动标签的softmax分类器。概率推理模型使用最大后验概率对群体活动进行分类。我们提出的模型的技术细节将在以下章节中介绍。3.1. 人体动作姿态特征提取在本节中，我们将介绍使用深度CNN的动作姿势分类。对于给定的输入视频帧I和场景中每个检测到的人的边界框的集合，我们提取第i个人的空间特征xi用于动作姿势分类，如图2所示。视频帧I中的人被表示为Pi，被分类为16类，如Pis{站在右边，站在左边，站在前面、站在后面、站在右前面、站在左前面、站在右后面、站在左后面、向右行走、向左行走、向前行走、向后行走、向右向前行走、向左向前行走、向右向后行走和向左向后行走}。人类动作姿势分类模型使用预训练的inceptionV3 CNN模型和随机梯度下降（SGD）优化器进行训练。InceptionV3使用2012年的数据集[37]为ImageNet大型视觉识别挑战进行训练，将整个图像分类为1000个类。与其他不同的模型（如VGG，AlexNet，Inception（GoogLeNet）CNN模型）相比，它提供了可衡量的良好结果。使用INRIA数据集[27]并在16个不同的类中注释动作姿势分类的数据集。由场景中的人pi的该训练模型xi生成的动作姿势特征将被用作用于使用RNN模型的上下文学习的输入特征。图二. 人体动作姿势分类。Fig. 1. 提出了深度神经网络架构。50S.A. 瓦霍拉，北卡罗来纳 Chauhan /工程科学和技术，一个国际杂志 22 （2019）47不3.2. 基于递归神经网络的上下文学习人P1的动作姿势特征X1包含与目标组活动相关联的人在时间t的区别信息。为了描述视频序列中的群体活动，从深度CNN模型InceptionV3中提取的动作姿势特征，对于所有的可以使用池化操作来聚集上下文区域内的人以描述组上下文特征。在时间t的组上下文特征描述为yt 1/4/2W gc gt Whc ht-1ct<$ftct-1ityt 6hto t/ct其中r和f分别表示S形函数和双曲正切函数。变量it;ft;ot和yt分别表示输入门、for- get门、输出门和输入调制门，gt¼x1tx2t* *x ktð1Þ时间t此外，gt是LSTM的输入，ht是隐藏状态c t 就是记忆细胞的功能是元素方面的这里，xtk定义了在时间t的第k人的动作姿势特征。k是场景中的总人数。gt表示为时间t处的组上下文特征，其将被馈送到RNN模型以用于序列学习，以定义组级动态。尽管从单个视频帧表示群体活动，但是视频帧的序列表示更好的群体动态，因为使用RNN模型的群体动态在一段时间内的变化可以被认为是群体活动识别的重要证据。RNN模型通过具有递归隐藏状态来处理可变长度的输入序列，该状态每次的初始化都依赖于上一次的初始化[40]。使用RNN模型的上下文学习的整体架构如图3所示。RNN模型的序列长度被定义为sq1/2b 1/ 1，因此总sq帧的累积效应序列用于对群体活动进行3.2.1. 长短期记忆乘法3.2.2. Gated recurrent unit门控递归单元（GRU）是另一个臭名昭著的门控架构，最初由Cho等人提出的一种RNN模型。[30]，它自适应地捕获不同时间尺度的依赖关系。GRU在许多应用程序中表现出更好的性能，特别是在较小的数据集上[40]。与LSTM相比，在GRU中，输入门和遗忘门被连接起来以提供单个更新门，而重置门则在先前隐藏的状态上起作用。因此，GRU需要更少的数据进行学习，因此它比LSTM更快。组上下文特征gt作为GRU单元的输入，t和细胞的活化可以表示为ztrWgzgtWhzht-1bz8rt¼rWgrgtWhrht-1br9长短期记忆（LSTM）模型是一种不常见的模型。h~¼/kW格萨尔河中国 þbÞ ð10Þ具有三个不同门的RNN设计，例如输入门，获取门和输出门屏蔽控制单元状态，GH不t t-1h h适合采用Hochreiter提出的长期依赖性等[31]。组上下文特征gt作为LSTM单元ht1-zht-1zth~ð11Þ在时间t，细胞的激活可以表示为itrWgigtWhiht-1bi2ft¼rWgfgtWhfht-1bf3otrWgogtWhoht-1bo4其中zt;rt;ht和ht表示更新门、复位门、候选门，激活状态和激活新状态。从RNN模型LSTM/GRU生成的组活动描述符，馈送到用于组活动识别的softmax分类器softmax分类器使用交叉熵损失为多类提供归一化类概率作为输出为了解决过拟合问题，我们使用了dropout图三. 使用递归神经网络模型进行时空上下文学习的说明。不S.A. 瓦霍拉，北卡罗来纳 Chauhan /工程科学和技术，国际杂志 22 （2019）47-54511/4fg正则化作为dropout层，概率为0.5。由softmax分类器提供的每个类别的概率分数被馈送到概率推理模型以分类群组活动。3.3. 使用场景级特征的步行和过街这两种活动更希望发生在露天、户外环境中，排队更希望发生在商店、食堂或订票窗口。许多活动与周围环境有着牢固的关系，为了将这些活动与视频序列区分开来，周围场景信息起着至关重要的作用。在本文中，我们使用场景级CNN提取场景上下文特征。而不是使用低级别的本地人的视觉特征，我们使用组级的全局，场景的视觉特征。我们使用预训练的 InceptionV3模型训练场景级CNN 。使用softmax分类器分类CNN模型生成的场景级上下文描述符。对于给定的输入图像I，场景级描述符可以表示为在时间t处的sit，被馈送到softmax分类器。由softmax分类器提供的每个类别的概率得分被馈送到概率模型以推断组活动标签。3.4. 推理模型考虑N 组活动标签班级，表示作为对于每个类别，由动作姿势分类器提供的概率得分，接着是使用RNN模型r的上下文学习和使用场景级CNN模型s的上下文学习，分别表示为p_yr=l_i_n和p_ys=l_i_n对于给定的输入帧，I，我们的推理模型通过找到-最大后验概率Yω¼argmaxPyk=li¼ argmaxwkωpyk=li 12基于人们在场景中所做的大多数事情来分配4.2. 实现细节使用Python，OpenCV和深度学习API Keras与Tensorflow[41]作为一个后端。该实验使用具有4992个Nvidia Cuda内核的Nvidia Tesla K80 GPU进行。所提出的模型分为两个阶段。第一阶段是使用CNN模型的上下文学习，然后是LSTM/GRU模型，第二阶段是使用CNN模型的场景上下文学习。所提出的模型中的CNN模型，用不同的CNN架构模型进行了实验，如AlexNet，VGG 16和Incep-tionV 3，它们具有不同数量的隐藏层。这些CNN公司简介其中，wr和ws分别是r和s4. 实验及结果在本节中，我们描述了用于评估所提出的模型的性能的数据集，所提出的模型的实施细节与所需的库支持，所提出的模型的变量数量与结果分析伴随着与最先进的方法的比较。4.1. 数据集描述我们评估了所提出的模型的整体性能，并与基准集体活动数据集上的几种已发表的基线方法进行了比较[3]。该数据集被认为适合我们的评估，因为它包括许多人在自然环境中进行的活动以前的大多数工作都是在KTH[16]，Weizman[2]数据集上进行的，这些数据集专注于单个人执行的操作集体活动数据集广泛应用于计算机视觉任务中，用于评估群体活动识别的性能，该数据集由说话，交叉，等待，排队和步行等五种活动类别组成。该数据集中的视频是从低分辨率手持摄像机在低边缘处记录的，以在现实条件下观看，如人的遮挡、摄像机抖动和背景杂乱。数据集的地面实况是可用的，就视频的每一帧而言，用人的姿势、组活动和人的矩形边界框信息来标记。一组活动标签见图4。混淆矩阵使用建议的深度神经网络模型与LSTM。图五. 混淆矩阵使用建议的深度神经网络模型与GRU。52S.A. 瓦霍拉，北卡罗来纳 Chauhan /工程科学和技术，一个国际杂志 22 （2019）47¼用0：1到0：0001的不同学习率测试结构，以选择优化的CNN模型。在第一阶段，使用学习率为0： 001的微调优化InceptionV3 CNN模型进行人体动作姿势分类InceptionV3 CNN在上下文区域内的所有人上的输出特征使用MAX池化操作池化在一起，并作为输入提供给RNN模型。我们已经实验了LSTM和GRU RNN网络的所有可能组合，每个单元都可以选择LSTM/GRU层具有N单位，其中N为16; 32; 64和128。此外，对于LSTM和GRU的每种组合，测试了不同的优化器，例如随机梯度下降（SGD），RMSprop[42]和Adam[43]优化器，并选择返回序列。LSTM/ GRU模型的序列长度sq在此实现中使用25。为了训练这个模型，我们尝试了从0： 1到0：0001的不同学习率来选择最优模型。所提出的模型的第二阶段是使用场景特征的上下文学习，如我们使用的优化微调预训练的InceptionV3 CNN，用于场景分类和建议的场景级CNN。在这个阶段中使用的不同优化参数是SGD优化器，学习率为0：0001，动量为0： 9。通过对所提出的深度神经网络模型的不同权重值wr和ws进行测试，得出推理模型的最优权重参数wr和ws分别为0： 6和0：4.3. 实验评价与对比分析为了评估我们提出的模型的性能并与最先进的方法进行比较，在基准集体活动数据集上，我们以Hajimirsadeghi等人提供的相同方法[22]第20段。使用LSTM和GRU的拟议模型获得的混淆矩阵如图所示。 4和图 5分别。混淆矩阵表明，即使我们包含了场景级信息，交叉和行走也是密切相关的群体活动见图6。不同学习率下的性能比较。见图7。不同优化器的性能比较。S.A. 瓦霍拉，北卡罗来纳 Chauhan /工程科学和技术，国际杂志 22 （2019）47-5453¼¼图8.第八条。不同数量的LSTM/GRU单元的性能表1对所提出的模型与最先进的方法进行比较分析方法准确度AC-RAC与多类SVM的全局词袋[20]79.70深度结构模型，2阶段MP[13]80.60[21]第二十一话势核函数[22]83.40深度时间模型[38]81.50使用LSTMRNN的建议方法82.94使用GRURNN 83.45的以及时空组描述符。使用RNN模型LSTM/ GRU在不同学习率下获得的最佳结果如图所示。结果表明，RNN模型GRU优于RNN模型LSTM，除了0：0001。比较结果分析所提出的模型作为不同的优化器SGD，Adam和RMSprop的选择与RNN模型LSTM/GRU的学习网络如图所示。7.第一次会议。此外，Fig. 图8通过改变LSTM/GRU单元内的单元数量来呈现比较结果分析。我们观察到，具有Adam优化器的LSTM模型，学习率0： 001，LSTM单元中的单元数为N64，具有RMSprop优化器的GRU模型，学习率0：001，GRU单元中的单元数为N32，与其他变体相比，性能有所表1提供了所提出的模型与最先进的方法的比较。所提出的模型与RNN模型LSTM和GRU的性能在表中列出与其他深度学习模型（如深度时间模型[38]，具有两步消息传递的深度结构化模型[13]以及手工制作的特征描述符模型（如视觉基数势核[22]，HCRF-boost[21]等）相比，具有GRU的提议模型表现出色5. 结论在本文中，我们提出了一种新的基于深度神经网络的统一框架，用于视频中的群体活动识别监视通过使用多层深度架构作为人类动作姿势级别的CNN，然后使用RNN模型，我们通过时空上下文学习来学习组级别的时间动态。此外，为了区分与周围环境密切相关的模糊群体活动，我们捕获场景信息作为场景特征，并使用场景CNN学习场景级别语义。为了处理简单RNN模型的长程依赖性问题，我们使用LSTM模型和GRU模型，并通过改变各种学习参数来比较两种模型的结果。所提出的模型的结果相比，国家的最先进的方法表明，我们的架构提供了有前途的结果，为标准的基准集体活动数据集上的群体活动识别。引用[1] J. Aggarwal ， M. Ryoo ，人类活动分析， ACM Comput 。监视器 43 （ 3 ）（2011）1https://doi.org/10.1145/1922649.1922653[2] C. 舒尔特岛拉普捷夫湾 Caputo ， Recognizing human actions ： a local SVMapproach，in：Proceedings of the 17th International Conference on PatternRecognition，2004.ICPR2004，IEEE，2004，https://doi.org/10.1109/icpr.2004.1334462。[3] W.崔，K.沙希德河Savarese，他们在做什么？：使用人与人之间的时空关系的集体活动分类，在：2009 IEEE第12届计算机视觉研讨会国际会议，ICCV研讨会，IEEE，2009，https://doi.org/10.1109/iccvw.2009.5457461。[4] M.K. Lim，V.J. Kok，C.C. Loy，C.S. Chan，Crowd显着性检测通过全局相似性结构，在： 2014 年第 22 届国际模式识别会议， 2014 年，https://doi.org/10.1109/icpr.2014.678。[5] T. 兰岛，澳-地Wang，G.Mori，S.N.Robinovitch，Retrieving actions in groupcontext ， in ： Trends and Topics in Computer Vision ， Springer ， BerlinHeidelberg，2012，pp.181https://doi.org/10.1007/978-3-642-35749-714[6] T. Kaneko，M. Shimoeli，S.小田岛河Fukui，T. Sato，具有相对动作上下文的视点不变集体活动识别，计算机视觉- ECCV 2012 年。研讨会和演示，施普林格，柏林海德堡， 2012 年， pp 。253https://doi.org/10.1007/978-3-642-33885-426[7] W.崔，S。Savarese，多目标跟踪和集体活动识别的统一框架，在：计算机视觉-ECCV2012 ， Springer ，柏林海德堡， 2012 年， pp.215-https://doi.org/10.1007/978-3-642-[8] Y.-- D. Zhang C.，中国古猿科平移X。Chen，F.Wang，通过具有参数校正线性单元和基于秩的随机池化的九层卷积神经网络识别异常乳房，计算科学杂志27（2018）57https://doi.org/10.1016/j.jocs.2018.05.00554S.A. 瓦霍拉，北卡罗来纳 Chauhan /工程科学和技术，一个国际杂志 22 （2019）47[9] S.- H. 王玉-D. Lv、Y.Sui，S.刘氏J. 王玉-D. Zhang，通过数据增强和随机池化卷积神经网络进行酒精中毒检测， J. Med. Syst. 42 （ 1 ）（ 2017 ），https://doi.org/10.1007/s10916-017-0845-x。[10] A. Karpathy，G. Toderici，S.谢蒂，T。良河，巴西-地苏克坦卡尔湖Fei-Fei，Large- scale video classification with convolutional neural networks，in：2014IEEE Conference on Computer Vision and Pattern Recognition，IEEE，2014，https：doi.org/10.1109/cvpr.2014.223.[11] X. Sun，P.Wu，S.C.Hoi，Face detection using deep learning：an improvedfasterRCNNapproach，Neurocomputing299（2018）42https://doi.org/10.1016/[12] L. Wei，S.K.Shah，使用具有上下文信息的深度神经网络进行人类活动识别，载于：第12届计算机视觉，成像和计算机图形理论与应用国际联合会议论文集，SCITEPRESShttps://doi.org/10.5220/0006099500340043[13] Z. 邓，M.翟湖，加-地Chen，Y.Liu，S.Muralidharan，M.J.罗什特哈里湾Mori，Deep structured models for group activity recognition ， in ： Procedure of theBritish Machine Vision Conference 2015，British Machine Vision Association，2015，https://doi.org/10.5244/c.29.179。[14] S.A.北卡罗来纳州瓦霍拉Chauhan，视频中群体活动识别方法的综合研究，IndianJ.Sci.10（23）（2017）1https://doi.org/10.17485/ijst/2017/v10i23/113996[15] D. Vishwakarma，P. Rawat，R. Kapoor，使用Gabor小波变换和脊波变换的人体活动识别，ProcediaComput。Sci.57（2015）630https://doi.org/10.1016/j.procs.2015.07.425[16] M.布兰克湖Gorelick，E. Shechtman，M.伊拉尼河Basri，作为时空形状的动作，在：第十届 IEEE 计算机视觉国际会议（ICCV 05），第1卷， IEEE ，2005 ，https://doi.org/10.1109/iccv.2005.28。[17] E.作者声明：J.杨，M. Saif，小波和混合分类对动作识别的影响，在：2017IEEE国际图像处理会议（ICIP），IEEE，2017，https://doi.org/10.1109/2017.8296589。[18] R. 梅辛角 H.H. ， H. Kautz ， Activity recognition using the velocity histories oftracked keypoints，in：2009 IEEE 12th International Conference on ComputerVision，IEEE，2009，https://doi.org/10.1109/iccv.2009.5459154。[19] T. Kaneko，M. Shimoeli，S.小田岛河Fukui，T. Sato，视频中一致集体活动识别的全连接模型，Patternn。Lett.43（2014）109https://doi.org/10.1016/j.patrec.2014.02.002[20] T.兰岛，澳-地Wang，W. Yang，S.N. Robinovitch，G. Mori，识别上下文群体活动的判别潜在模型，IEEE Trans.模式肛门。马赫内特尔34（8）（2012）1549https://doi.org/10.1109/[21] H. 哈吉米尔萨代吉湾 Mori ， Learning ensembles of potential functions forstructured prediction with latent variables ， in ： 2015 IEEE InternationalConferenceonComputerVision（ICCV），IEEE，2015，https://doi.org/10.1109/iccv.2015.462。[22] H. Hajimirsadeghi，W. Yan，中国山核桃A. Vahdat湾Mori，Visual recognitionby counting instances：a multi-instance cardinality potential kernel，in：2015IEEE Conference on Computer Vision and Pattern Recognition （ CVPR ），IEEE，2015，https://doi.org/10.1109/cvpr.2015.7298875。[23] M.R. Amer，S. Todorovic，一种用于在视频中定位群体活动参与者的链模型，在： 2011 年计算机视觉国际会议， IEEE ， 2011 年，https://doi.org/10.1109/iccv.2011.6126317。[24] M.R. Amer，D.Xie，M.Zhao，S.Todorovic，S.C. 朱，多尺度活动识别的成本敏感自上而下/自下而上推理，在：计算机视觉- ECCV 2012，施普林格，柏林海德堡，2012年187-https://doi.org/[25] M.R. Amer ，S. Todorovic ，A. Fern ，S. C. Zhu ，Monte Carlo tree search forscheduling activity recognition ， in ： 2013 IEEE International Conference onComputer Vision，IEEE，2013，https://doi.org/10.1109/iccv.2013.171。[26] N. Noceti，F. Odone，《群体中的人类：情境信息对理解集体活动的重要性》，PatternQuinn。47（11）（2014）3535https://doi.org/10.1016/j.patcog.2014.05.008[27] N.达拉尔湾Triggs，Histograms of oriented gradients for human detection，in：2005 IEEE Computer Society Conference on Computer Vision and PatternRecognition（CVPR05），IEEE，2005，https://doi.org/10.1109/cvpr.2005.177。[28] K. Tran，A.加拉岛Kakadiaris，S. Shah，在拥挤的环境中使用社会线索进行群体发现和人类互动建模的活动分析，模式分析。 Lett. 44 （ 2014 ）49https://doi.org/10.1016/[29] Y.-- J. Kim，N.- G. Cho，S.- W. Lee，Group activity recognition with groupinteraction zone ， in ： 2014 22nd International Conference on PatternRecognition，IEEE，2014，https://doi.org/10.1109/icpr.2014.605。[30] K. 乔湾，巴西-地van Merrienboer，C.Gulcehre，D.Bahdanau，F.布加雷斯湾施温克，Y. Bengio ，使用 RNN 编码器 - 解码器进行统计机器翻译的学习短语表示https://doi.org/10.3115/v1/d14-1179[31] S.胡志华，长时记忆与短时记忆的关系，国立成功大学，硕士论文。9（8）（1997）1735https://doi.org/10.1162/neco.1997.9.8.1735[32] A. Graves ， Supervised sequence labeling ， in ： Studies in ComputationalIntelligence，Springer，Berlin Heidelberg，2012，pp. 5-https://doi.org/[33] Y. Bengio，P. Simard，P. Frasconi，学习梯度下降的长期依赖性是困难的，IEEETrans. Neural Networks 5（2）（1994）157https://doi.org/10.1109/72.279181[34] J. Donahue，洛杉矶Hendricks，S.瓜达拉马湾Rohrba

下载后可阅读完整内容，剩余1页未读，立即下载