基于RGB-D的场景流动作识别中的新表示

31 浏览量更新于2023-10-15 收藏 677KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

595场景流到动作映射：一种基于RGB-D的卷积神经网络动作识别新表示澳大利亚伍伦贡大学高级多媒体研究实验室2中国地质大学计算机科学学院，中国武汉pw212@uowmail.edu.au，wanqing@uow.edu.au，{zg126，yz606} @uowmail.edu.auhappytangchang@gmail.com，philipo@uow.edu.au摘要场景流描述了真实世界中三维物体的运动，是三维动作识别的基础。然而，它用于动作识别，特别是在卷积神经网络（ConvNets）的背景下，以前没有研究过。在本文中，我们提出了从RGB-D数据中提取和使用场景流进行动作识别。先前的工作已经将深度和RGB模态考虑为单独的通道，并提取特征用于稍后的融合。我们采取不同的方法，并考虑作为一个实体的模态，从而允许在开始时的动作识别的特征提取提出了利用场景流进行动作识别的两个关键问题：如何组织场景流矢量和如何基于场景流表示视频的为了在可用数据集上正确计算场景流，我们提出了一种有效的自校准方法，在不知道相机参数的情况下在空间上对齐基于场景流矢量，我们提出了一种新的表示方法，即场景流到动作映射（SFAM），它描述了动作识别中的几种长期时空动态我们采用一个通道变换核来将场景流矢量变换到一个类似RGB的最佳颜色空间这种转换比ImageNet更好地利用了经过训练的ConvNets模型。实验结果表明，这种新的表示方法在两个大型公共数据集上的性能可以超过最1. 介绍从RGB-D数据中识别人类动作已经在计算机视觉社区中产生了新的兴趣，这是由于最近可用的易于使用和*通讯作者图1：来自M2I数据集[21]的动作“Bounce Basketball”的SFAM 变体示例。对于左上至右下，图像对应于SFAM-D 、 SFAM-S 、 SFAM-RPf 、 SFAM-RPb 、SFAM-AMRPf 、 SFAM-AMRPb 、 SFAM-LABRPf 、SFAM-LABRPb。低成本深度传感器（例如，Microsoft Kinect TM传感器）。除了由常规RGB相机捕获的三刺激视觉数据之外，在RGB-D相机中还提供深度数据，从而对整个场景的丰富3D结构信息进行编码。以前的工作[28，16，10，58，61，13]显示了融合两种模态用于3D动作识别的有效性。然而，所有之前的方法都将深度和RGB模态视为单独的通道，从中提取特征并将其融合在动作识别的后期阶段。由于深度和RGB数据是同时捕获的，因此将它们共同视为一个实体来提取特征将是有趣的。用于2D动作识别的基于光流的方法[48，18，31，30，50]多年来一直提供最先进的结果。与提供场景运动到图像平面上的投影的光流相反，场景流[41，6，26，8，11，37，32]估计实际的3D运动场。因此，我们建议使用场景流的3D动作识别。继基于光流的RGB和深度的596数据，场景流提取真实的3D运动，并且还显式地保留包含在RGB和深度模态中的空间结构信息采用场景流进行动作识别需要解决两个关键问题：如何组织场景流矢量和如何有效地利用时空动态特性。可以识别两种运动表示：拉格朗日运动[48，18，31，50，30，56]和欧拉运动[2，25，60，51，52，1]。拉格朗日运动集中在单个点上，并分析它们随时间的位置变化。这种轨迹需要长期可靠的点跟踪，并且容易出错。欧拉运动考虑图像中的一组位置，并分析这些位置随时间的变化，从而避免了点跟踪的需要。由于场景流矢量可能会受到噪声的影响，为了避免拉格朗日运动的长时间点跟踪的困难此外，两个连续的RGB-D帧对（两个RGB图像和两个对应的深度图像）之间的场景流是一个简单的拉格朗日运动，其中仅两个帧匹配/跟踪。该属性提供了比从原始像素获得的欧拉运动更好的表示。然而，目前尚不清楚如何有效地表示视频并将其馈送到深度神经网络进行分类。例如，人们可以传统地将视频视为具有某种形式的时间平滑度的静止图像序列，或者视为图像或图像特征的子空间，或者视为神经网络编码器的输出。在这些可能性和其他可能性中，哪一种可能性会在动作识别的背景下产生最佳表示，这一点还没有得到很好的理解。现有时间编码工作[51，52，56，1]的有前途的性能提供了动力来源。这些工作将时空信息编码为动态图像，并允许直接使用现有的ConvNets模型，而无需重新训练整个网络。因此，我们建议将基于场景流的RGB-D视频序列编码成一个运动映射，称为场景流到动作映射（SFAM），用于3D动作识别。直观地说，类似于彩色图像的三个通道，场景流矢量的三个元素可以被认为是三个这样的考虑允许两个连续的RGB-D帧对之间的场景流被重组为一个三通道场景流图（SFM），并且RGB-D视频序列可以被表示为SFM序列。根据欧拉运动和秩池方法的思想[5，1]，我们提出将SFM序列编码为SFAM。开发了SFAM的几种变体。它们从不同的角度捕捉时空信息，并相互补充，以最终识别。然而，两个问题这些手工制作的SFAM出现：1）直接组织场景流矢量可能会牺牲三个元素之间的关系; 2）为了利用在ImageNet上训练的可用模型，输入需要类似于RGB图像;也就是说，Con vNet的输入需要具有与训练的过滤器中使用的传统RGB图像相似的属性。基于这两个观察结果，我们提出使用秩池化方法和ConvNets来学习通道变换通过这种变换，动态SFAM可以描述给定视频的空间和时间信息。它可以用作可用的和已经训练好的ConvNets的输入以及微调。本文的贡献概括如下：1）所提出的SFAM是第一次尝试，据我们所知，通过场景流，从深度和RGB模态中提取特征：2）我们提出了一种有效的自校准方法，可以从未注册的捕获RGB-D数据中估计场景流; 3）提出了几种从不同角度编码时空信息并相互补充的SFAM变体，用于最终的3D动作识别; 4）我们引入通道变换核，其学习SFM的三个通道之间的关系，并将场景流向量转换为RGB类图像，以利用训练的ConvNets模型;5）所提出的方法在两个相对较大的数据集上取得了最先进的结果。本文件的提醒内容如下。第2节描述了相关的工作。第3节介绍了SFAM及其变体，并提出了拟议的通道变换内核。在第4节中提供了两个数据集上的实验结果。第5节总结了本文，并讨论了未来的工作。2. 相关工作2.1. RGB D数据的特征提取自从第一项关于从由商品深度传感器捕获的深度数据进行3D动作识别的工作[20]以来（例如，MicrosoftKinectTM）在2010年提出，已经提出了许多基于深度、RGB或灰度数据的动作识别方法这些方法从一种模态中提取特征：深度[49，60，29，59，24，51，52]或RGB[27，33]或骨架[43，55，56，4，34，19]，或融合的功能，前，在以后的阶段[28，16，10，58]分别从他们。这两种方法都没有考虑深度和RGB模式的特征提取联合。相反，我们建议采用场景流进行3D动作识别，并从RGB-D数据中联合提取特征。597FZ场景流量估计RGB-D视频SFM序列图2：SFAM-RP的多评分融合图示2.2. 场景流通常，场景流被定义为在不同时刻观察到的场景的密集或半密集非刚性运动场[41，37，32]。“场景流”一词最早是由Vedula等人提出的。[41]他建议从计算卢卡斯-卡纳德光流开始，并在稍后阶段应用范围流约束方程。自从这项工作以来，已经提出了基于立体或多视图相机系统的几种方法[64，57，44]随着可负担得起的RGB-D相机的出现，也提出了用于RGB-D数据的场景流方法[41，8，37，32]。然而，大多数现有的方法招致高计算负担，花费从几秒到几个小时来计算每帧的场景流因此，限制了它们在实际应用中的实用性。最近，已经提出了用于实时密集RGB-D场景流的原始-对偶框架[11]。一个原始-对偶算法被应用到解决场景流问题的变分形式。它是一个迭代求解器，执行逐像素更新，可以在GPU上有效实现。在本文中，我们使用该算法的场景流计算。2.3. 基于深度学习的动作识别现有的用于动作识别的深度学习方法通常可以根据视频如何表示和馈送到深度神经网络而分为四类。ral网络第一类将视频视为一组静止图像[62]或类似帧之间的短暂而平滑的过渡[35]，图像的每个颜色通道虽然显然是次优的，但将视频视为一袋静态帧表现得相当好。第二类将视频表示为卷，并扩展了ConvNets顺序地帧并在存储器中编码帧级信息。然而，使用RNN并没有改善卷积特征的时间池[62]，甚至没有改善手工制作的特征。最后一类表示一个或多个紧凑图像中的视频，并采用可用的训练ConvNet架构进行微调[51，52，56，1，9，53，54]。该类别在许多RGB和深度/骨架数据集上的动作识别中取得了最先进的结果。本文提出的方法属于这最后一类。3. 场景流到动作贴图SFAM基于场景流矢量对RGB-D序列的动态进行编码。为了使我们的描述自包含，在第3.1节中，我们简要介绍了用于实时密集RGB-D场景流计算的原始-对偶框架（以下称为PD流[11]）。对于场景流计算，我们假设深度和RGB数据是预对齐的。如果不是这种情况，视频可以快速重新对齐，如第3.2节所述。然后，在第3.3节中，我们提出了几种手工构建的SFAM，并在第3.4节中提出了一种通过通道变换内核进行SFAM的端到端学习方法。3.1. 局部放电流PD流使用由RGB-D相机提供的RGB和深度图像来估计在时间t和t+ 1这个运动场M：（R∈R2）→R3定义在图象域R上，相对于照相机参考来描述帧，并以米每秒表示为了简单起见，M和s=（μ，ω，ω）T之间的双射关系Γ：R3→R3由下式给出：到第三个时间维度[12，39]，取代2D滤波器3D等价物。到目前为止，这种方法几乎没有产生什么好处，可能是由于缺乏注释的训练-Z fxM= Γ（s）=100 ZyXZµ中国，（1）ing数据。第三类将视频视为序列并将序列馈送到递归神经网络（RNN）[3，4，42，34，22，23]。 RNN是典型的-通常被认为是记忆细胞，它对短期和长期模式都很敏感。它解析视频0 0 1ω其中，μ、ω表示光流，ω表示距离流;f x、f y是相机焦距值，X、Y、Z是观察点的空间坐标。因此，在本发明中，VUWWWVUWVVUUWW双向秩池SFAM-RPfSFAM-RPb得分向量ConvNetConvNet得分向量BGR多分数融合0RGB598我我我我我′估计光流和距离流等效于估计3D运动场，但是导致简化的实现。为了计算运动场，制定了s上的最小化问题，其中施加了光度和几何一致性以及解的正则性我们提出了一种有效的自校准方法来执行空间对准，而无需知道相机参数。对齐是基于针孔模型，通过该针孔模型，深度图被变换成RGB视频的相同视图。设pi是RGB帧中的点，p′是深度图中的对应点所述2Di′min{E D（s）+E R（s）}。（二）S由方程式E D（s）是数据项，表示帧对之间的强度和深度匹配的双重限制;E R（s）是正则化项，满足pi=Hpi的单应映射H是一个3 ×3用于对齐的投影变换。后在[7]中的方法中，我们选择了RGB帧中的一组匹配点利用四对对应点，通过直接线性化得到H转型设p′=（x′，y′，1）T，hT为我我Ij平滑流场并约束解空间。对于数据项ED（s），光度控制的L1H和0= [0，0，0]T。向量叉积方程pi×Hp′=0写为[7]：sizeiρI（s，x，y）和几何一致性ρz（s，x，y）是最小化为：T−pTy′pT第1章阿吉第2章n=0，（5）pT0T− x′ pTED（s）=|+ ε（x，y）|ρz（s，x，y）|dxdy，（3）|dxdy, (3)i i ih3其中，ε（x，y）是一个正函数，它对几何一致性和亮度恒定性进行加权;ρI（s，x，y）=I0（x，y ） −I1（ x+μ ，y+μ ）和ρz（s，x ，y ） =ω−Z1（x+μ，y+μ）+Z0（x，y），其中I0、I1是强度图像其中省略了按比例放大的方程。通过最小化（例如，使用Levenberg-Marquardt算法[15]）具有更多匹配点的以下目标函数，可以实现H的更好估计Σ而Z0、Z1是在时刻t和t+ 1拍摄的深度图像。正则化项ER（s）基于总变量，argminH，pi，pi′[d（p，p）2+d（p′，p′）]我并考虑场景的几何体其公式为：S.T. pi=Hpi为（6）由方程式（6），d（·）是距离函数，H是最优距离函数。当p≠ 0和p≠ 0时单应映射的数值估计∂µ ∂µ∂υ ∂υ ′i iER（s）= λI|+的|（r x x，r y y）|dxdy|dxdyΩ ∫是从{pi，pi}估计的匹配点。因为选择匹配点的过程可能不可靠，+ λ|（r∂ω ∂ω、r）|dxdy，（4）随机抽样一致性（RANSAC）算法是一种DΩx∂x于伊排除异常值通过变换深度图1使用2D投影变换H，RGB视频其中λ I，λ D是常数权重，r x=。22及其相应的深度视频在空间上对齐。X+r y=.1 .一、Y2+Z2x3.3. 手工制作的SFAM结构∂y ∂y作为能量函数（Eq. （2）基于线性-数据项（Eq. （3））和凸TV正则化器（Eq. （4）），可以使用凸解器来求解能量函数。迭代求解器可以通过导出能量函数（等式（Eq.（2））作为其原始-对偶公式并在GPU上并行实现。有关更多实现细节，建议热心读者阅读[11]。3.2.自校准场景流计算要求RGB和深度数据在空间上对齐并在时间上同步。本文所考虑的数据是由Kinect传感器捕获的，并且是时间同步的。然而，如果在记录数据之前没有正确地执行校准，则RGB通道和深度通道可能不会在空间上配准。对于具有空间未对准的RGB-D数据集，′599SFAM将视频样本编码为单个动态图像，以利用标准ConvNets架构的可用预训练模型，而无需重新训练数百万有几种方法可以将视频序列编码成动态图像[2，25，60，51，52，1]，但如何将场景流矢量编码成一个动态图像仍然需要探索。如第3.1节所述，通过将当前帧中的一个点与参考帧中的另一个点进行匹配/跟踪来获得一个场景流矢量s =（μ，ω，ω）T;这是一个简单的拉格朗日运动为了避免在长时间跟踪拉格朗日运动时产生误差，我们采用欧拉运动方法构造了SFAM如前所述，场景流向量s中每个点的三个条目（μ，ω，ω）可以被认为是三个通道。因此600我我两对RGB-D图像（I0，Z0和I1，Z1）之间的场景流可以被重组为一个三通道SFM（Xμ，Xω，Xω），并且RGB-D视频序列可以被表示为SFM序列。基于SFM序列，有几种方法来构建SFAM。∗d= ρ（X1，.， X T（d）= arg min E（d），DλE（d）=d2+ 22Σ3.3.1SFAM-DT（ T−1）×q>tmax{0，1−S（q|d）+S（t|d）}。（九）受深度运动图（DMM）[60]构造的启发，我们累积连续SFM之间的绝对差并将其表示为SFAM-D。它被写为：TΣ−1这个目标函数中的第一项是SVM中常用的二次正则项。第二项是铰链损失软计数有多少对q > t未被评分函数正确排序。特别要注意的是，只有当得分由至少一个单位余量分开，即， S（q|d）> S（t|d）+1。SFAM-D i=|X t+1−X t|i∈（μ，ω，ω），（7）我我t=1优化的上述方程限定的函数ρ（X1，.，X; T; N），其将T个SFM的序列映射到sin，∗其中t表示地图编号，T表示地图总数（以下章节相同）。该表示表征了所描述的运动差能量的分布。3.3.2SFAM-S类似于SFAM-D，我们通过累加连续的SFM之间的和来构造SFAM-S（S在这里表示和）这可以写为：TΣ−1SFAM-S i=（X t+1+X t）i∈（μ，μ，ω）.（八）t=1这种表示主要捕捉归一化后动作的大运动。3.3.3SFAM-RP角矢量d.因为这个向量包含了足够的信息-为了对SFM序列中的所有帧进行排名，它增加了门控来自所有它们的信息，并且可以用作序列描述符。在我们的工作中，以双向的方式应用秩池，将每个SFM序列转换为两个动作映射，SFAM-RPf（向前）和SFAM-RPb（向后）。该表示捕获与一个动作中的帧相关联的不同类型的重要性，并为最近的帧分配更多权重。3.3.4SFAM-AMRP在前面的章节中，所有三个通道都被认为是构建SFAM的独立通道然而，它们之间的为了研究这种关系，我们采用了一种简单的方法，即。利用场景流矢量s的幅值来表示三个分量之间的关系。对于每个三元组（Xµ，X，Xω），我们可以得到：.得到一个新的振幅图，Xam。根据Xam=X2+X2+X2，将秩合并方法应用于µ υ ω受文献[1]工作的启发，本文采用秩池方法将SFM序列编码为一幅动作图像。设X1，. X T表示SFM序列，其中每个X t包含三个通道（X μ，X ω，Xω），并且X（X t）∈Rd是从每个通道提取的表示或特征向量。个体图，Xt.这里，我们直接将秩池应用于X ，因此，X（·）等于单位矩阵。设V= 1公吨（X）是这些特征向上不不τ =1 τ时间t。排序函数将分数S（t）与每个时间t相关联|d）=，其中d∈Rd是参数向量。函数参数d被学习，使得分数反映视频中的映射的顺序在gen-通常，更近的帧与更大的分数相关联即q >tS（q|d）> S（t|d）. 使用RankSVM将学习d公式化为凸优化问题[36]：将场景流图编码成两个动作图SFAM-AMRPf和SFAM-AMRPb。该表示基于运动幅度利用帧的权重。3.3.5SFAM-LABRP为了进一步研究三元组（Xμ，Xω，Xω）之间的关系，将它们非线性地变换到另一个空间中，类似于将RGB颜色空间变换到Lab空间的方式。实验室空间的设计是为了接近人类的视觉系统。在此基础上，采用秩池方法将序列编码为两个动作映射 SFAM-LABRPf 和SFAM-LABRPb。图1显示了M2I中动作601通道转换内核XωY3XνY2输入SFMXµY1图3：使用ConvNets构建具有通道变换内核的SFAM的框架。数据集[21]。可以看出，SFAM的不同变体捕获SFM序列并将其编码为具有大的视觉差异的动作图。3.4. 用信道变换核构造SFAM（SFAMCTKRP）在前面的章节中，我们介绍了SFAM的概念及其几种变体。然而，经验上观察到，它们中没有一个可以针对所有数据集或场景实现最佳其中一个原因是在SFAM的构建过程中，三元组（Xµ，X，Xω）之间的要了解三元组（Xµ，从ConvNets的数据中，我们提出了一个通道变换核，如下所示。设Y1，Y2，Y3是来自原始三元组（Xµ，Xω，Xω）的新学习映射，它们之间的关系可以公式化为：Y1=ω1（ω1Xµ+ω2Xµ+ω3Xω）Y2=ω2（ω4Xμ+ω5Xμ+ω6Xω）（10）Y3=ω3（ω7Xµ+ω8Xµ+ω9Xω）其中Y与X大小相同，ω是标量值，ω表示需要学习的变换学习的框架如图3所示。有不同的方式来学习这些通道变换内核。为了简单起见，在这项工作中，我们通过三个连续的卷积层来近似变换，其中每个卷积层层由9个卷积核组成，大小为1 ×1然后进行ReLU非线性变换，如图所示。图4. 基于用于时间编码的RankPool层[1]，我们可以使用ConvNets构建具有所提出的通道变换核的SFAM3.5. 多评分融合分类在构造了几种不同的SFAM算法后，我们提出采用一种有效的后期分数融合方法，即多分数融合方法，以提高最终的识别精度。以SFAM-RP为例，如图2所示，针对一对RGB-D视频生成两个SFAM-RP，一个SFAM-RPf和一个SFAM-RPb图4：使用卷积核和非线性变换的通道变换核近似计算的并且它们被馈送到两个不同的经训练的ConvNets通道中。两个ConvNet输出的分数向量按元素相乘，结果向量中的最大分数该最大分数的索引对应于所识别的类别标签。这个过程可以很容易地扩展到多个通道。4. 实验根据对RGB-D数据集的调查[63]，我们选择了两个公共基准数据集，它们包含RGB+深度模态并且具有相对较大的训练样本来评估所提出的方法。具体来说，我们选择了ChaLearn的IsoGD数据集[46]和M2 I数据集[21]. 在下文中，我们继续简要描述的实施细节，然后提出的实验和结果。4.1. 实现细节对于场景流计算，我们采用了[11]提供的公共代码。对于秩池，我们遵循[1]中报告的工作，其中每个通道生成为一个通道动态图，然后将三个通道合并为一个三通道图。从[1]开始，我们使用双向秩池。对于ChaLearn ISOGD数据集，为了最小化背景的干扰，假设深度图直方图中的背景占据表示远距离的最后一个峰值。具体地，其深度值大于由深度直方图的最后峰值减去固定容差（在我们的实验中设置为0.1）定义的阈值的像素被认为是背景，并且通过将其深度值设置为零而从场景流的计算中去除通过这个简单的过程，大部分背景可以被去除，并对SFAM有很大的贡献本文采用了AlexNet[17]。手工制作的SFAM的训练程序与[17]中描述的类似。网络权重使用小批量随机梯度下降学习，动量设置为0.9，权重衰减设置为0.0005。所有AlexNet等级池层近似通道转换内核（1，1，3，3，）Conv内核ReLU（1，1，3，3，）Conv内核ReLU（1，1，3，3，）Conv内核ReLU602隐藏的权重层使用校正（rectification，ARMU）激活函数。在每次迭代中，通过对256个混洗训练样本进行采样来构建256个样本的小批量所有图像的大小均调整为256× 256。学习速率设置为10−3，用于使用预训练模型进行在ILSVRC-2012上，然后根据一个固定的时间表，这是保持相同的所有训练集。不同的数据集根据其训练样本的数量进行不同的迭代。对于所有实验，为了减少网络中神经元的复杂的协同适应，该实现源自基于一个NVIDIA Tesla K40 GPU卡的公开可用的Caffe工具箱[14]除非另有说明，否则所有网络都是用ImageNet训练的模型初始化的[17]。对于SFAM-CTKRP，我们基于MatConvNet [40]修改了文献[1]的代码。在两个数据集上，将多值融合方法与另外两种常用的后期融合方法，平均值融合和最大值融合进行这验证了SFAM可能是统计独立的，并提供补充信息。4.2. ChaLearn ISOGD数据集ChaLearn ISoGD数据集[46]包括47933个RGB-D深度序列，每个RGB-D视频代表一个手势实例。有249个手势由21个不同的人完成。此数据集在其深度视频中不提供真实的深度值。为了使用该数据集进行场景流计算，我们使用为CGD数据集提供的平均最小值和最大值来估计深度值数据集分为训练集、验证集和测试集。由于测试集不可用于公共用途，我们报告验证集的结果。对于这个数据集，训练经历了25K次迭代，每10K次迭代，结果表1显示了SFAM的六种变体的结果，并将其与文献[45，46，1，52]中的方法进行了比较。在这些方法中，MFSK将3D SMoSIFT[47]与（HOG，HOF和MBH）[48]描述符相结合。MFSK+DeepID还包括深度隐藏身份（Deep ID）功能[38]。因此，这两种方法不仅利用了手工制作的特征，还利用了深度学习特征。此外，他们分别从RGB和深度中提取特征，将它们连接在一起，并采用词袋（BoW）模型作为最终的视频表示。其他方法，WHDMM+SDI[52，1]，表现出特征，并分别从深度和RGB使用ConvNets进行分类，并采用多分数融合进行最终识别。与这些方法相比，所提出的SFAM方法的性能明显优于所有方法.值得注意的是，建议的标准财务机制所采用的所有深度值均为而不是精确的实际深度值。尽管可能的估计误差，我们的方法仍然取得了可喜的成果。有趣的是，所提出的SFAM变体是互补的，并且可以通过使用多分数融合来很大程度上改善彼此。尽管这个数据集很大，平均每个类有144个视频剪辑，但与ImageNet中每个类1200个图像相比，它仍然要小得多。因此，直接从头开始训练无法与ImageNet上的训练模型进行微调竞争，这在表1中报告的结果中很明显。通过比较不同类型的SFAM，我们可以看到，简单的SFAM-S方法取得了最好的结果，在所有类型的手工设计的SFAM。由于训练数据相对较大，SFAM-CTKRP在所有变体中获得了最佳结果，尽管[1]中报告的工作中的近似秩合并显示出比RankSVM [36]解决的秩合并更差。造成这两种现象的原因可能如下：在深度值估计不准确的情况下，场景流计算会受到影响，基于这种不准确的场景流向量，秩池不能充分发挥其功效。换句话说，秩池化方法对噪声敏感。相反，所提出的信道变换核不仅可以利用信道之间的关系，而且可以减少信道变换后噪声的影响方法精度MFSK[45，46]百分之十八点六五MFSK+DeepID[45，46]18.23%SDI[1]百分之二十点八三WHDMM[52]25.10%WHDMM+SDI[52，1]25.52%SFAM-D（从头开始培训）百分之九点二三SFAM-D18.86%SFAM-S（从头开始培训）18.10%SFAM-S25.83%SFAM-RP23.62%SFAM-AMRP百分之十八点二一SFAM-LABRP百分之二十三点三五SFAM-CTKRP27.48%最大分数融合全部33.24%平均分数融合所有34.86%多目标分数融合全部36.27%表1：ChaLearn的ISOGD数据集的结果和比较。4.3. M2I数据集多模态多视图交互（M2I）数据集[21]提供人与人交互动作和人与物交互动作。它包含了603前视图和侧视图 ; 表示为前视图（ FV ）和侧视图（SV）。它由22个动作类别和总共22个独特的个人组成。每个动作分20组进行两次（每组两人）。合计，M2I数据集包含1760个样本（22个动作×20组×2次查看×2次运行）。为了评估，将所有样品相对于组分成训练集（8组）、验证集（6组）和测试集（6组）。利用测试集得到了最终的动作识别结果。对于这个数据集，训练经历了6K次迭代，每3K次迭代学习率就会下降。结果我们遵循[21]中的实验设置，并比较了两种情况下的结果：单个任务方案和交叉视图方案。基线方法基于从opti生成的iDT特征[48]calflow，并已被证明是非常有效的二维动作识别。具体地，对于BoW框架，提取了一组局部时空特征，包括 iDT-Tra ， iDT-HOG ， iDT-HOF ， iDT-MBH ， iDT-HOG+HOF，iDT-HOF+MBH和iDT-COM（所有描述符的级联）;对于fisher vector框架，他们只使用iDT-COM功能进行评估。为了进行比较，我们只显示了基线方法在每个场景中获得的几个最佳结果。表2显示了M2I的比较单一任务场景的数据集，即学习和测试-在同一视图中，而表3给出了交叉视图方案的比较。由于缺乏训练数据，SFAM-CTKRP不能稳定收敛，结果变化很大，因此，我们没有显示其结果。对于该数据集，SFAM-AMRP在侧视图方面取得了最佳结果，而SFAM-LABRP在正视图方面取得了最佳结果从表2中可以看出，对于基于真实真实深度值的场景流估计，基于秩池化的方法比SFAM-D和SFAM-S获得了更好的结果，这与[21]中的结论一致。SFAM-AMRP在两个交叉视图场景中获得了最佳结果，从表3中可以看出。有趣的是，即使我们提出的SFAM没有像[21]中那样解决任何迁移学习问题，而是直接用侧视图/正视图进行训练，并在正视图/侧视图中进行测试，它仍然是在SV→ FV设置下，最佳基线方法的效果显著这种额外的优势反映了所提出的方法的有效性。5. 结论和未来工作提出了一种基于场景流的动作识别方法特别是，场景流矢量估计从注册的RGB和深度数据。本文提出了一种新的基于场景流矢量的表示方法SFAM，并提出了几种从不同角度获取时空信息的方法用于三维动作识别。为了利用场景流图的三个通道之间的关系，我们建议学习Chan-方法精度SVFV[21]第二十一话69.8%百分之六十五点八[21]第二十一话百分之七十六点九百分之七十五点三[21]第二十一话百分之八十点七百分之七十九点五[21]第二十一话百分之七十七点二百分之七十九点六SFAM-D71.2%83.0%SFAM-S百分之七十点一百分之七十五点零SFAM-RP79.9%百分之八十一点八SFAM-AMRP百分之八十二点二百分之七十八SFAM-LABRP72.0%83.7%最大分数融合全部百分之八十七点六88.8%平均分数融合所有88.2%百分之八十九点一多目标分数融合全部百分之八十九点四91.2%表2：M2I数据集上单任务场景的比较（在同一视图中学习和测试）.方法精度SV →FVFV →SV[21]第二十一话百分之四十三点三39.2%iDT-COM[21]百分之七十点二67.7%[21]第二十一话百分之七十五点八百分之七十一点八iDT-HOG+HOF百分之七十八点二72.1%SFAM-D66.7%65.2%SFAM-S68.2%百分之六十点二SFAM-RP71.6%65.2%SFAM-AMRP百分之七十七点七66.7%SFAM-LABRP百分之七十六点九65.9%最大分数融合全部百分之八十四点七百分之七十三点八平均分数融合所有百分之八百分之七604十五点三十五点三多目标分数融合全部百分之八十七点六76.5%表3：M2I数据集的交叉视图比较。(SV→FV：侧视学习，正视测试; FV→ SV：正视学习，侧视测试。）nel Transform Kernels，端到端，ConvNets来自数据。在两个基准数据集上的实验证明了该方法的有效性在以后的工作中，我们将对基于场景流矢量的时域编码方法进行改进.确认作者要感谢英伟达公司捐赠的特斯拉K40 GPU卡用于本研究。605引用[1] H. 比伦湾Fernando，E.Gavves，A.Vedaldi和S.古尔德。用于动作识别的动态图像网络。在CVPR，2016年。[2] A. F. Bobick和J. W.戴维斯利用时间模板识别人体运动。IEEE Transactions on Pattern Analysis and MachineIntelligence，23（3）：257[3] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach，S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。在CVPR，第2625-2634页[4] Y.杜，W. Wang和L.王.基于骨架的动作识别的层次递归神经网络。在CVPR，第1110-1118页[5] B. Fernando，S.加夫韦斯岛Mogrovejo，J. Antonio，A.Ghodrati和 T.Tuytelaars 用于动作识别的排名池 IEEETransactionsonPatternAnalysisandMachineIntelligence，2016。[6] S. Hadfield和R.鲍登场景粒子：基于非正则化粒子的场景流估计。 IEEE transactions on pattern analysis andmachine intelligence，36（3）：564[7] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，2003年。[8] M. Hornacek，A. Fitzgienic和C.罗瑟Sphereflow：来自RGB-D对的6 DoF场景流。在CVPR，第3526- 3533页[9] Y.胡，Z. Li，P. Wang，and W.李使用卷积神经网络的基于骨架光学光谱的动作识别。IEEE Transactions onCircuits and Systems for Video Technology，2016。[10] J. - F.胡伟S. Zheng，J. Lai，and J.张某联合学习用于RGB-D活动识别的异构特征。在CVPR中，第5344-5352页[11] M. Jaimez，M.Souiai，J.Gonzalez-Jimenez和D.克莱姆斯用于实时密集RGB-D场景流的原始-对偶框架。在ICRA，第98-104页[12] S.吉，W. Xu，M. Yang和K. Yu.用于人类动作识别的3D卷积神经网络。 Pattern Analysis and MachineIntelligence，IEEE Transactions on，35（1）：221[13] C. Jia和Y.Fu. 低秩张量子空间学习用于rgb-d动作识别。IEEE Transactions on Image Processing ， 25 （ 10 ）：4641[14] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地B. Girshick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构在proc ACM国际多媒体会议（ACM MM），第675-678页，2014年。[15] C. Kanzow，N. Yamashita和M.福岛撤回：Journal ofComputational and Applied Mathematics，173（2）：321[16] Y. Kong和Y.Fu. 用于RGB-D动作识别的双线性异构信息在CVPR中，第1054[17] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在proc 神经信息处理系统年会（NIPS），第1106-1114页，2012年。[18] Z.兰，M。Lin，X. Li，长穗条锈菌A. G. Hauptmann和B.Raj. Be-yond高斯金字塔：用于动作识别的多跳特征堆叠。在CVPR，第204-212页[19] C. Li，Y.Hou，P.Wang和W.李基于卷积神经网络的联合距离图IEEE Signal Processing Letters，2017。[20] W. Li，Z. zhang和Z.刘某基于一袋3D点的动作识别。见CVPRW，第9-14页[21] 答：A. Liu，N. 徐，W.- Z. 聂，Y.- T. Su，Y. 黄，以及M. 坎坎哈利为人类动作识别的多模态、多视图和交互式数据集设定基准IEEE Transactions on Cybernetics，2016。[22] J. Liu，A. Shahroudy，D. Xu和G.王.具有信任门的时空LSTM用于3D人类动作识别。在proc 欧洲计算机视觉会议，第816- 833页，2016年。[23] J.Liu和G.王.用于3d动作识别的全局上下文感知注意lstm网络。在CVPR，2017年。[24] C. Lu，J. Jia和C.- K.唐用于动作识别的范围样本深度特征。在CVPR，第772-779页[25] J. Man和B.巴努利用步态能量图像进行个体识别。IEEE模式分析与机器智能学报，28（2）：316[26] M. Menze 和 A. 盖革自动驾驶车辆的对象场景流在CVPR，第3061-3070页[27] B. Ni，P. Moulin，and S.燕.用于人体动作分析的姿势自适应运动特征池。 International Journal of ComputerVision，111（2）：229[28] S.聂，Z. Wang和Q.纪一种用于高维运动数据建模的基于生成式受限玻尔兹曼机的方法。计算机视觉和图像理解，第14-22页[29] O. Oreifej和Z.刘某HON4D：用于从深度序列识别活动的定向4D法线直方图。在CVPR，第716-723页[30] X.彭湖，澳-地Wang，X. Wang和Y.乔用于动作识别的视觉词和融合方法包：全面学习，善

下载后可阅读完整内容，剩余1页未读，立即下载