双流卷积网络在行为识别中的应用与进展

版权申诉

145 浏览量更新于2024-06-27 收藏 162KB DOCX 举报

"基于多阶信息融合的行为识别方法研究" 在智能监控、人机交互以及视频检索等现代科技领域，行为识别技术起着至关重要的作用。由于行为视频的多样性，如不同的拍摄视角、复杂背景以及尺度变化，导致行为间的边界模糊，同一行为的内在差异显著，这使得基于视频的行为识别成为一个极具挑战性的研究问题。 2012年，Hinton团队通过卷积神经网络（CNN）模型AlexNet在ILSVRC比赛中取得了突破，开启了CNN在计算机视觉领域的广泛应用。然而，尽管CNN在静态图像任务上表现出色，但其在处理视频数据时无法有效地捕捉时间序列信息，因此在一段时间内，基于CNN的行为识别效果并不理想。 Simonyan等人在2014年提出了双流卷积神经网络模型，这一创新性方法将CNN应用到视频分析中。模型由两个独立的网络组成：空间信息网络处理单帧图像，捕获环境和物体的空间位置；时间信息网络则利用堆叠光流图像来表示行为的动态变化。通过结合两部分的输出信息，提高了行为识别的准确性。双流CNN模型的成功催生了许多后续研究，如Feichtenhofer等人的工作，他们尝试在最后一层融合连续帧的时空特征，并进行了3D卷积和3D池化，以增强特征表达能力。进一步，Feichtenhofer等人探索了在双流模型中使用残差网络（ResNet）结构，并引入短连接来增强时空信息的交互。ST-ResNet直接将时间流信息注入空间流，而ST-multiplier则通过乘法门函数来控制时间信息的传递。这两种方法都采用了3D卷积核，扩展了对视频局部特征的时间建模。 Wang等人的研究引入了空间和时间的二阶统计信息，并以金字塔形式融合双流网络，形成更丰富的特征表示。这种方法考虑了更多的上下文信息，提升了行为识别的鲁棒性。行为识别的研究不断推进，从最初的单一特征提取到多阶信息融合，尤其是卷积神经网络和双流网络的发展，极大地推动了这一领域的进步。未来的研究将继续探索如何更有效地捕捉和融合视频中的时空信息，以实现更加准确和泛化的行为识别模型。

特征进行协方差池化, 再对协方差矩阵进行幂正规化处理, 将输出作为全连接层的输入.

iSQRT-COV 是 MPN-COV 的快速近似算法.

本文以嵌入了 iSQRT-COV 结构层的网络为基础建立二阶双流网络模型. 使用在

ImageNet 上训练好的 iSQRT-COV-ResNet-50-2K 网络在行为识别数据集的 RGB 数据和光

流数据上进行微调, 双流网络微调的过程为: 将 iSQRT-COV-ResNet-50-2K 网络中的最后一

层分类层的 1 000 个节点替换成目标数据集的类别数, 其中 UCF101 数据集的类别数为 101,

HMDB51 数据集的类别数为 51. 随机初始化该层参数, 并以很小的学习率继续训练网络,

网络收敛后即得到二阶空间流网络和二阶时间流网络. 二阶双流模型将作为特征提取器, 提

取在视频序列中均匀采样的 NN 帧图像空间和时间特征的二阶信息.

经过微调后的二阶空间流和时间流网络, 其输入端的单帧 RGB 图像及单组堆叠光流

图像的尺寸分别为: 224×224×3224×224×3 和 224×224×20224×224×20, 经过残差单元, 最

后一层输出的卷积特征进入 iSQRT-COV 结构层, 首先经过一个卷积核大小为 1×11×1, 通

道数为 64 的卷积层, 使通道数由 2 048 减少到 64, 相当于特征维度由 2 048 降低到 64, 以

降低计算复杂性. 这一卷积层使得正规化协方差形成的特征表达维度降低, 从而减少全连接

层的参数, 同时又不损失性能. 将该特征记为 X={xx1,xx2,⋯,xxM}X={xx1,xx2,⋯,xxM}, 其中

MM 代表特征描述子的数目, 此时 M=49M=49. XX 首先经过协方差池化

C=XI¯¯¯XTC=XI¯XT

(2)

其中, I¯¯¯=1M(I−1MaaaaT)I¯=1M(I−1MaaaaT). II 是 M×MM×M 的单位矩

阵, aa=[1,⋯,1]Taa=[1,⋯,1]T 是 MM 维单位向量. 然后, 经过 iSQRT 结构层, 此结构层用于

近似求协方差矩阵的平方根. 协方差矩阵平方根的计算方法如下: 样本协方差矩阵是半正定

对称矩阵, 其本征分解为

C=Udiag{λi}UT, i=1,⋯,MC=Udiag{λi}UT, i=1,⋯,M

(3)

其中, UU 是正交矩阵. diag(λi)diag(λi)是 CC 的特征值矩阵, 且为对角矩阵. 则矩阵 CC

的平方根正规化结果为

Q=Udiag{λi12}UT, i=1,⋯,MQ=Udiag{λi12}UT, i=1,⋯,M

(4)

式(4)对协方差矩阵进行了平方根正规化. 由于矩阵进行本征分解的过程不能充分利用

GPU 的计算资源, 所以 iSQRT-COV 结构层使用迭代法近似求解协方差矩阵的平方根, 其输

出 QQ 经过上三角阵的向量化操作后记作 zzzz, 是单帧 RGB 图像的表达, 即基于二阶统计

信息的视频局部特征, 维度为 20802080 (约为 2 K).

2. 基于二阶聚合的视频多阶信息融合

为了验证多阶信息融合的有效性, 首先对一阶和二阶双流模型中不同网络流的组合进

行融合, 共得到 8 种不同的组合, 分别计算各组合分类器分数的均值得到最终预测. 第 3.2

节在 UCF101 和 HMDB51 数据集上对这种多阶信息融合方式进行了评估, 实验结果表明一

阶、二阶空间和时间网络流之间具有一定的互补性, 初步验证了多阶信息的有效性. 在此基

剩余17页未读，继续阅读

罗伯特之技术屋

粉丝: 4459
资源: 1万+

双流卷积网络在行为识别中的应用与进展

"基于低秩约束的多视角模糊聚类算法综述

"深度学习下的多模态情感识别：情感状态解读与交流挑战

新兴产业专项：工业互联网与应用软件关键技术

基于优化PSO-BP的多特征融合图像识别算法研究.docx

基于多参数融合的行为安全监测研究.docx

人体行为识别研究综述.docx

基于机器学习的信息融合故障诊断模型研究.docx

基于张量的KFLD-SIFT与RVM模糊积分融合的人体行为识别方法.docx

基于多特征融合的行人检测方法.docx

融合运动轨迹特征的多模态群体行为识别方法.docx

最新资源