生成式多视角人体动作识别的挑战与方法

28 浏览量更新于2023-10-12 收藏 958KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4321生成式多视角人体动作识别王立晨1，丁正明2，陶志强1，刘云宇1，付云11美国东北大学2印第安纳大学-普渡大学美国印第安纳波利斯wanglichenxj@gmail.com，zd2@iu.edu，zqtao@ece.neu.edu，liu.husky.neu.edu，yunfu@ece.neu.edu摘要View1子空间多视角动作识别的目标是整合不同视角的互补信息以提高分类性能。这是一项具有挑战性的任务，异质特征域之间的明显差距此外，大多数现有的方法忽略了考虑不完整的多视图数据，这限制了它们在现实世界中的应用的潜在兼容性。在这项工作中，我们提出了一个生成式多视图动作识别（GM-VAR）框架来解决上述挑战。对抗性生成网络被用来生成一个视图1：RGB视图2：深度训练集View2子空间视图1：RGB视图2：深度测试集视图条件化对另一视图的影响，这充分探索了视图内和跨视图方面的潜在联系。我们的方法通过采用对抗训练来增强模型的鲁棒性，并通过估算缺失数据来自然地处理完整视图的情况此外，提出了一种有效的视图相关发现网络（VCDN），以进一步融合多视图信息，更高级别的标签空间。大量的实验证明，我们提出的方法的有效性，通过比较与国家的最先进的算法1。1. 介绍多视图方法[58，30，29，62，40]探索不同视图之间的互补信息，其中视图涉及各种特征表示，模态或传感器。大多数现有方法集中于分析静态多视图数据（例如，图像、描述和属性），而最近，随着越来越多的多模态传感器被广泛部署在大量的现实世界应用中，多视图动作识别[10，4，18，在多视图动作识别场景中存在两个类别。第一类是探索由多个传感器捕获的动作序列，这些传感器属于1 代码可用于： https://github.com/wanglichenxj/Generative-Multi-View-Human-Bidirectional-Recognition图1.我们的GMVAR方法的插图，该方法在RGB和深度视图上进行了训练然而，在测试阶段，GMVAR能够处理不同的场景，包括完整的多视图，部分丢失的视图，甚至单视图。这是由于我们模型中的生成机制显著扩展了我们方法的潜在应用。相同的视觉模态（例如，监控系统通常使用仅RGB摄像机捕获视频）。这些方法假设由不同视点记录的动作（例如，前面、后面和顶部）或距离可以为识别任务提供不同的方面[4，18，22]。第二类方法分析从不同类型的传感器捕获的动作序列（例如，RGB、深度、骨架、加速度、轨迹、3D和肌电图[26、32、34、50、52、53]），并尝试整合各种模态之间例如，Kinect传感器[61，33]同时提供高质量的RGB、深度和灰度序列，其中深度[1，54]和骨架[39，44，59]模态已被证明可为动作识别提供有效和独特的运动知识。反映骨骼肌产生的电活动的肌电图（EMG）信号用于动作/运动分析[3，50]。声学和加速度也用于多视图事件检测和动作识别任务[11，9]。在本研究中，我们重点关注第二类。如图1所示，RGB和景深视图都可以在6212特征互补扩充6213......图2.我们提出的模型框架RGB和深度视图首先分别经过特征编码器E1（·）和E2（·），以在潜在子空间Z1和Z2中获得更有特色的表示。两个生成器G1（·）和G2（·）基于另一个子空间有条件地生成表示这种生成机制充分探索了Z1和Z2上的特征分布。训练两个视图特定的分类器C1（·）和C2（·）以从每个视图获得初始识别预测，然后利用所提出的视图相关发现网络（VCDN），CVCDN（·）我们的模型充分揭示了在隐子空间中通过生成模型实现视图间的连接，并进一步探索标签空间中的高层视图相关知识由于生成模型，我们的模型是兼容的多视图和单视图的场景。在训练阶段，完整或不完整的视图在测试阶段可用。由于深度/3D传感器和相应应用的普及，RGB-D动作识别是最重要的研究方向之一[61，23，19]。这是一个具有挑战性的任务，由于异构模态之间的单纯地融合多视图特征（例如，级联或求和）可能引起负面影响并损害性能。以前的研究工作[6，60，25，20，5]主要利用有效的特征提取方法首先获得视图特定的表示，然后部署融合机制将这些表示整合在一起。然而，这些方法假设数据对于所有视图都是可访问的，而没有考虑实际的和常见的不完整视图场景（例如，传感器故障、设备缺陷和数据转换中的信号丢失）。因此，当处理部分多视图数据时，它们的性能不可避免地下降此外，不同的视图可以提供类级别的独特性，并且探索动作类和视图之间的相关性以进一步提高学习性能是至关重要的。在这项工作中，我们提出了一个生成式多视图动作识别（GMVAR）框架，该框架采用生成式对抗训练以及简单而有效的视图相关发现网络（VCDN）来解决上述挑战。特别地，两个生成网络被开发用于学习实例级的成对视图间连接知识，该知识可以充分利用视图间的互补信息。更具体地说，每个视图的生成器都经过训练，以复制自己的潜在表示，并以其他视图的信息为条件。通过这种方式，我们的方法能够有效地丰富多视图表示，并处理错过，形式的情况下。此外，设计了视图相关发现网络（VCDN）来学习标签空间中的高层视图间相关性，从而进一步挖掘视图的类层次区别性。在三个RGB-D视频数据集上的实验结果证明了该模型的优越性。我们的方法的主要贡献如下：• 我们提出了一个生成式多视图动作识别框架，它可以同时处理完整视图、部分视图和缺失视图场景。iOS使用统一的策略。• 对抗训练被封装到我们的模型中，以探索不同模态共享的互补信息，它作为正则化器，提高模型的准确性和鲁棒性。• 提出了一种简单有效的视图关联发现网络（VCDN），用于在更高级别的网络中学习视图内和视图间的标签关联贝尔空间它进一步探索了标签信息，并显着提高了模型性能。2. 相关工作2.1. 多视角动作识别多视图动作识别使用从多视图/资源获取的数据它认为不同的观点是互补的，它们提供了额外的信息，有助于区分行为。 DA-Net [42]获得了独立于视图和特定于视图的表示，并利用视图分类器来组合每个视图的分类得分。PM-GANs [49]采用生成和特征融合策略，RGB子空间最终标签预测视图1：RGBG1查看特定分类器视图特定编码器生成循环初始预测G2深度子空间交叉视图发现矩阵查看关联发现网络视图2：深度……………R/FR/F6214trtrtrtetetrte动作识别[38]提出了一种共享特定特征分解网络，它有效地融合了RGB和深度信息。[20]提出了一种联合学习模型，以同时探索共享和特定功能的组件，以提高学习性能。[17]通过用于图像分类的共享权重神经网络实现模态幻觉。[41]提出了一种级联的残差自动编码器来处理丢失视图的情况。[4]通过利用多视图超向量融合动作描述符。[18]设计了一种新的方法，用于将光学小波与增强的3D运动矢量场相结合，以实现特征融合。[13]提出了基于3D手部姿势和RGB视图的第一人称手部[63，43]探索了一种视图不变特征提取方法，其对于从不同视图捕获的动作是鲁棒的。在[1，54]中考虑了深度视图，并且存在基于骨架的识别方法[39，44，59]，用于视图问题。与其他生成模型相比，我们的模型建立了跨视图的连接，旨在补充/提高分类目标的特征多样性。具体而言，与其他生成模型相比，有两个主要区别：首先，我们的方法被提出来探索多视图场景中的生成策略。此外，我们将生成策略部署在潜在子空间而不是原始特征空间，希望探索数据结构并获得更有区别的特征表示;其次，将三元组丢失部署到自动编码器中，充分利用可用的监督信息来获得高质量的子空间。3. 我们的方法3.1. 企业动机动作识别给定多视图训练数据X1和X2，其中与现有的方法相比，我们的方法是dif-1∈Rd1×ntr和X2∈Rd2×ntr是特征矩阵在以下两个方面有所不同首先，它是一个将军多视图动作识别方法，可以在统一的框架中处理完整视图，部分视图和丢失视图的场景;第二，而不是在fea中融合视图在两个视图中，其中每一列表示一个实例，NTr是训练实例编号，并且D1、D2是视图1和视图2的特征尺寸。Ytr∈ RDl×ntr是独热标签矩阵，其中dl是标签的维数在真实的空间中，我们的方法探索了空间相应地，X1∈Rd1×nte，X2 ∈Rd2×nte，在高层次的标签空间，可以提供更多的交流，策划认可结果。2.2. 生成对抗网络和Yte∈ RDl×nte是测试特征和标号矩阵. 考虑到一些测试样本只包含单视图数据，因此，我们的方法的目标是预测标签矩阵Yte，当只有单视图（X1或X2）或两个视图（X1和X2）都可用。Gener-GAN [15]由两个网络组成：发电机和热电特特鉴别器。生成器被训练以生成生成样本，而生成器尝试验证样本。竞争战略促使双方网络公司不断提高自身能力.最近提出了许多GAN变体。Mode-RegularizedGAN [8]介绍了显着稳定训练过程的方法。Con-GAN（CGAN）[28]通过添加额外的条件信息（例如，标记知识）以规则化生成过程。辅助分类器GAN（AC-GAN）[31]将辅助分类器与CGAN结合用于图像合成应用。Ding等人探索了用于零射击学习的两阶段条件生成模型[12]。小目标检测GAN（SOD-MTGAN）[2]生成高分辨率小目标，以提高多类检测性能。[55]部署生成策略来处理缺失视图聚类任务，[40]使用集成策略来实现最终聚类结果。Cycle GAN [64]利用生成方法及其逆方向来实现不成对的图像风格翻译。然而，当前的模型主要是（例如，GAN，CGAN），其被设计为主观地使图像多样化并利用人类感知方面（例如，MS-SSIM [56]）来评估多样性;而我们想要生成从一个视图到另一个视图的表示，以解决多视图，部分视图和错过的问题。事实上，特征空间比标签更多样化尤其是在多视图动作识别场景中。为此，我们的目标是补偿视觉特征，并减轻训练样本和测试样本之间的差距，特别是当其他视图不可用时。3.2. 子空间条件特征生成受生成模型思想的启发[15，28，31]，我们提出了生成网络来合成一个以另一个视图为条件的视图。通过这种方式，生成器学习交叉视图连接，并从其他动作中借用共享的运动分量，从而有效地使生成的表示多样化。此外，考虑到原始视觉特征包含高水平噪声，直接生成以视觉空间为条件的特征为此，我们进一步提出了一个子空间条件生成机制，利用投影到相应的子空间的视图补充/增强的样本。我们建议模型如图2所示。我们的方法包含两个生成器， G1（·）和G2（·），以及它们相应的判别器，D1（·）和D2（·），它们是在相反的方向上训练的;同时，两个特定于w的编码器E1（·）和X6215tr特里特里trtrF引入E2（·）对从原始特征空间到潜在子空间Z1和Z2的两个视图分别进行编码。最大化LD1：.ΣLD =EXp（X）logD1 E2（X2）活泼地此外，为了使投影样本1X..tr中国（4）因此，与三重损失函数[37]相关的可用标签信息在视图中更有区别。+Ezpz（z）log1 −D1 G1（z|E1（X1））。其中，三重丢失的目标是使投影表示更接近于相同动作的样本，而不是更接近于任何其他动作。为此，下面介绍E1（·）和E2（·）的目标：在我们的实现中，D1（·）是一个三层网络。的第一层是带有LeakyReLU activa的全连接层[57]. 第二层是mini-batch [35]层，它增加了假样本的多样性。激活ΣMLE=Max.[Em（Xa）−Em（Xp）<$2两层的函数都是LeakyReLU，最后一层是Sigmoid函数，用于输出真假概率Mi=1特里I2对输入表示进行排序。在生成的表示之后，− <$Em（Xa）−Em（Xn）<$2+α]，0，特里特里2（一）在子空间中获得，真实和虚假表示-对于维特定分类器C1（·），其中M表示在给定的嵌入和标签，m={1，2}表示E1（·），和C2（·）来获得初始标签预测。目标-分类器的有效功能包括两个目标。的E2（·）。X ap特里，则Xn表示第i次训练第一个是训练，让分类器预测标签，样本分别作为锚点、阳性和阴性。 α是在正对和负对之间强制执行的裕度。通过这种方式，学习子空间可以获得实际样品：LC=<$Ytr−Cm（Em（Xm））<$2，（5）更独特和强大的特征表示，其中m={1，2}表示分类器C（·），C（·）和与原始特征12相空间E1（·）和E2（·）都是通过两层全连接网络实现的，LeakyReLU激活部署在第一层。然后，我们构造了两种结构，包括G1（·），D1（·），G2（·）和D2（·）是为交叉视图表示而设计的编码器E1（·）、E2（·）。第二个进一步获得与条件子空间相关联的生成样本表示，以提高分类器的鲁棒性和通用性：LC= Ytr− C1（G2（z|E2（X2））2，（6）1g生成目标。由于这两个网络是对称的，trF测量位置并具有相同的目标方程，LC= Ytr− C2（G1（z|E1（X1））（七）2gtrF因此，本节只讨论G1（·）和D1（·）。在我们的模型，第一个术语是竞争的方法，D1（·），并使生成的样本尽可能真实为此，Cm （ ·）的目标函数是LCm=βLCmr+（1-β）LCmg，其中β是折衷参数，我们可以设置β=0。5在我们的实验。Cm（·）目标LG d=−Ezp（z）log.1 −D1 .ΣΣG1（z|E1（X1）），基于真实特征和生成特征最小化LC1个ZTR（二）从增强的功能中受益。其中z是噪声矩阵，E1（X1）是作为G1（·）的生成条件的学习表示。由于在优化编码器E1（·）和E2（·）时子空间Z1和Z2发生变化，因此很难直接获得稳定的生成结果。因此，我们包括相似性约束其将所生成的样本和真实样本拉到子空间中相似。客观条件如下所示3.3. 查看关联发现网络（VCDN）现有的多视图分类方法[58，29，30]要么学习每个视图的得分权重，要么尝试在低级特征空间中融合多视图特征。然而，这很难很好地协调各种观点，容易造成负面影响.然而，在多视角动作识别场景中，我们注意到一些动作在一个场景中是独特的，LG s=Ezp（z） .ΣG1（z|E1（X1））− E2（X2）<$2。视图（例如，在RGB视图中转向），其他则是1个ZTRtrF（三）tr，XMR6216在另一个视图中是独特的（例如，深入了解电话视图）。因此，简单地学习每个视图的权重可以-为此，将 G1 （ · ）的总体目标 i v 表示为LG1=LG1d+λLG1s，其中λ是用于平衡相似性损失和相似性损失的尺度的折衷参数. G1（·）是一个三层神经网络，具有一个批处理归一化层[21]，用于归一化输入向量并稳定训练过程。D1（·）的目标是区分子空间Z2中的生成样本和真实样本。目标函数如下所示，没有充分利用视图特定的运动特性，而探索隐藏在标签[45，48]内部的潜在关系对于获得更高的性能至关重要。为此，我们进一步提出了一种简单而有效的视图相关性发现网络（VCDN），CVCDN（·），以通过探索跨视图的标签级知识来细化动作预测。而不是天真地平均/加权视图特定的分类分数，6217我特里特里特里特里特里特里特里特里LCFiFiCV CDN2CFiC特里菲特里trifi2VCDN探索初始分数并发现不同视图之间的潜在相关性。为此，最终预测基于视图特定预测和学习的跨视图标签相关性知识。CVCDN（·）的结构如图2所示。在初始分类结果通过y1=另一种观点，充分挖掘了两种观点之间的潜在联系;其次，提出了视图关联发现网络（VCDN），以充分挖掘视图间的标签关联，提高学习性能。这种策略是有效的，因为不同视图之间的操作高度C1（E1（x1））和y2=C2（E2（x2），其中y1∈Rdl三义特里特里和y2∈Rdl 这是最初的预测，4. 实验从两个视图x1和x2中响应第i个样本。4.1. 多视图操作数据集我们从这两种观点的预测中进行转换1特里和y2，以获得跨视图标签级邻接伯克利多模态人类行为数据库矩阵ci通过乘以y2和y1的转置来表示为ci=y2·y1，其中ci∈Rdl×dl是邻接矩阵。通过这种方式，c i中的元素是成对预测得分的乘法。然后，将得到的ci整形为d个2维向量并转发到CVCDN（·）来预测最终预测。为此，CVCDN（·）可以恢复两个视图之间的潜在相关性曼斯。由于两个标签向量都是从真实样本获得的，因此，目标函数可以写为：n.无（MHAD）[32]是一个全面的多模态人类行为数据集。它包含RGB 、深度、骨架、加速度和音频视图。MHAD包含由12名受试者执行的11个动作，每个动作重复5次，总共产生660个动作序列UWA3D多视图活动（UWA）[34]是由Kinect传感器收集的多视图数据集。有10个子程序以连续的方式执行30项人类活动，没有中断或暂停。数据集是具有挑战性的-不同的观点，自我封闭和活动之间的高度相似性的原因。21 ⊤2LRRV CDN =i=1yi−CVCDN（ytri·ytri）<$2，（8）包含深度的人类行为数据集（DHA）[26]是一个RGB-D多模型数据集，包含23个类别其中yi∈Rdl是第i个样本的真实标签向量，并且rr表示实-实设置。此外，由于G1（·）和G2（·）也包含有效的横视结构信息，因此，我们也希望将这些知识转移到CVCDN（·）。为此，我们将伪表示的预测标签向量 y1=C1 （ G2 （ z|E2 （ X2 ）和 y2=C2 （ G1（z|E1（X1）be在 VCDN 训练过程中使用，其中 y1∈Rd1 ，并且y2∈Rd1。我们部署了真假和真假组合来设计目标函数：n.无由21名受试者进行，有483个视频片段，培训和测试的总费用每个动作都有RGB图像，人类面具和深度数据在我们的实验中，我们利用大约一半的可用样本进行训练，另一半用于测试。在UWA数据集上，有254个样本用于训练，253个样本用于测试.在MHAD数据集中，244个样本用于训练，283个样本用于测试。240个样本用于训练，其余243个样本用于DHA数据集的测试。在训练过程中，RGB和深度特征都被利用。在测试程序中，有三种设置，包括单视图（RGB或深度）和多视图（RGB-D）场景。Lrf=yi−CVCDN（y2·y1）2，（9）CVCDNLfrV CDNi=1n=1=i=1fitri2yi− CVCDN（y2·y1（十）4.2. 多视图识别基线我们在多视图（RGB-D）场景中测试我们的方法。在每种情况下，我们还部署了最先进的方法然后，我们得到CVCDN（·）的最终对象ive：1−γ来证明我们模型的有效性比较基准简要介绍如下。最小二乘LCV CDN=γLCrr+（LrfV CDN +LfrV CDN ）的情况下，（十一）回归（LSR）是一种简单的线性回归模型多视图要素连接在一起其中γ是平衡用于训练分类器的真实和假标签实例之间的权重的权衡参数。 CVCDN（·）是一个两层全连y6218接网络，在第一层激活了Leak-ReLU。我们的模型是端到端模型，所有网络都是同时训练的。它也可以很容易地部署到广泛的应用。与其他方法相比，有两个主要区别：首先，利用生成机制来合成来自LSR学习特征空间和标签空间之间的线性映射。支持向量机（SVM）[36]是一种经典的鲁棒分类器，它在高维空间中构建一个或多个超平面来实现分类，回归或其他任务。我们使用[7]中的实现作为基线。局部聚集描述符（VLAD）的动作向量[14]是一种有效的动作表示，它通过6219Net-VLAD层的扩展它集成了两个流网络，并且可以在端到端框架中进行训练。时间段网络（TSN）[51]提出了一种将稀疏时间采样与视频级监督相结合的策略。通过这种方式，有效地学习了整个视频，同时仍然实现了准确和稳定的性能。加权深度运动映射（WDMM）[1]旨在从深度视图中识别人类手势，其基于时空信息的线性聚合。提出了一种基于层次表示的视频摘要方法，该方法在提高类内相似度的同时，也有效地降低了类间相似度。自动加权多图学习（AMGL）[30]是一种多视图分类方法。该算法不需要引入任何附加参数就能自动学习每个图的最优权值，具有凸性，在半监督学习的情况下容易得到全局最优结果。具有自适应邻居的多视图学习（MLAN）[29]设计了一种基于自适应图的方法，该方法同时执行半监督和局部结构学习。它学习每个视图的理想权重，而无需任何参数调整。部分模态生成对抗网络（PM-GANs）[49]基于部分模态学习全模态表示，并为红外动作分类任务实现特征级融合。4.3. 执行我们部署TSN [51]结构来提取RGB特征。每个视频分为5个片段。从每个片段中随机选择在ImageNet上预先训练权重的ResNet-101[16]为每个片段生成类在训练过程之后，我们从每个视频中采样3个片段，而不是TSN中使用的25个片段，因为我们没有观察到显着的改进（小于0。5%），这两种配置之间。我们通过连接最后一层的输出来获得最终特征为此，每个视频被表示在6144维特征向量中。我们利用WDMM [1]提取深度特征。WDMM在三个投影视图中对每个视频进行采样。然后，HOG和LBP被用来提取与VLAD和PCA的特征降维。我们遵循与WDMM [1]类似的方案，并获得110维特征向量。如图2所示，与将随机噪声设置为G1（·）和G2（·）的输入。我们将批量大小设置为64。Adam优化器[24]用于优化，学习率设置为0。00002，0。0001，0。0002，对于Cm（·），D1/2（·）和G1/2（·），分别为。 λ限制特征相似度尺度，其被设置为0。1.一、在训练过程中，D1/2（·）和G1/2（·）被预先训练以获得稳定的初始化，而G1/2（·）首先通过最小化LG1/2s而不包括LG1/2d来优化，并且方法RGB R→D深度D→RR+DLSR67.59 69.1745.45 37.7368.77SVM [36]69.44 68.5334.92 34.3372.72VLAD [14]七十一点五四-- --TSN [51]71.01-- --WDMM [1]- -46.58--AMGL [30]69.17 71.5439.92 35.9668.53MLAN [29]67.1933.28 33.6166.64PM-GAN [49]-71.36-49.01-我们-73.53-50.3576.28表1.UWA数据集上的动作识别性能[34]方法RGB R→D深度D→RR+DLSR96.46 97.1747.63 42.5197.17SVM [36]96.09 96.8045.39 45.1396.80VLAD [14]97.17-- --TSN [51]97.31-- --WDMM [1]- -66.41--AMGL [30]96.46 97.1130.03 29.9694.70MLAN [29]96.05 96.1041.48 41.2596.46PM-GAN [49]-96.76-66.84-我们-98.23-68.3298.94表2.MHAD数据集上的动作识别性能[32]方法RGB R→D深度D→RR+DLSR65.02 65.4382.30 48.5677.36SVM [36]66.1170.2478.92 78.1883.47VLAD [14]67.13-- --TSN [51]67.85-- --WDMM [1]- -81.05--AMGL [30]64.61 59.0572.84 67.3374.89MLAN [29]67.9172.96 72.8376.13PM-GAN [49]-68.72-76.02-我们-69.72-83.4888.72表3.DHA数据集上的动作识别性能[26]在50个时期之后，我们将LG1/2切换回K并且训练D1/2（·）与其他网络同时。该模型是IM-使用带有GPU加速的TensorFlow实现由于VLAD和TSN是专门为RGB视图（单视图）中的动作识别而设计的，因此，我们遵循相同的协议来预处理动作数据并运行作者提供的代码，并报告最高性能。同样的策略也被用来评估WDMM的深度视图。对于一般的分类算法，我们利用从TSN中提取的RGB特征和WDMM中的深度特征，因为这些方法是新的，并且分别在RGB和深度表示学习中实现了高性能为了评估多视图场景中的SVM和LSR性能，我们在归一化后连接由于AMGL和MLAN是为多视图学习而设计的，因此，我们分别输入RGB和深度特征并评估性能。PM-GANs在测试阶段利用一个视图来补充另一个视图进行分类，我们遵循相同的原则。62200.80.70.60.50.40.3表4.我们的模型和改进的融合策略在低级特征空间和高级标签空间中的识别性能。实验证明了VCDN框架的有效性，大大提高了系统的性能.（请注意，性能低于我们的完整模型，因为我们0.20.10 20 406080 100120140160180 200迭代时期删除了生成模块以进行公平比较。）图3.识别性能随着UWA3D数据集中训练时期的增加而增加[34]。阴影线表明了数据集1层2层3层4层VCDN每次迭代的性能它表明我们的VCDN框架UWA74.3174.7073.5275.1076.28在数十次迭代后达到最高性能，MHAD97.8397.8896.4795.7698.94最终稳定它证明了鲁棒性和稳定性，DHA86.0187.2485.1982.7288.72在这个多视图场景中的VCDN。表5.我们的VCDN模型与多层神经网络的分类性能。在我们的实验设置和评价。4.4. 性能分析实验结果如表1、表2和表3所示，其中RGB、Depth和R+D分别表示单个RGB视图、单个景深视图和RGB-D视图的因为我们的模型条件-基于可用的视图来自动生成另一视图，因此我们示出了指示这些设置的R→D和D→R（例如，R→D意味着深度视图由RGB视图有条件地视图中，我们部署伪特征，这是训练样本的平均特征，作为结果也显示在表格的同一列中。从结果中，我们观察到，在单视图场景中，我们的模型实现了最高的性能。在D→R场景中，我们的生成策略在所有基线数据集中平均获得3%的改进对于其他伪特征基线，只有部分结果略有改善-部件（例如，0的情况。5%），而其他甚至低于单一视图场景。因此，一致的伪特征不能提供任何额外的区别性信息来提高分类性能，并且直接连接可用的和生成的特征（有/没有归一化）甚至可能损害数据结构并降低最终识别性能。这些结果证明了我们的模型的生成策略的有效性。对于多视图识别场景，这意味着RGB和深度视图都可用，生成策略进一步增强了特征分布，有助于视图特定分类器和VCDN框架。列R+D中显示的结果表明，我们的模型进一步提高了准确性，这比任何单一视图场景都要高得多。4.5. 消融研究为了证明VCDN的有效性，我们利用几种特征/标签融合策略来实现多视图分类。此外，为了避免来自生成组件的增强样本的干扰，我们首先在不包括任何生成样本的情况下评估我们的模型。结果示于表4中。前两行显示视图特定分类器C1（·）和C2（·）的单视图基线性能;RGBD-Fea-Ori-Con表示处理直接特征关联方法时的性能;RGBD-Fea-En-Con表示所获得的特征从E1（·）、E2（·）连接在一起，然后经过与CVCDN（ · ）具有相同结构的网络 ; 而RGBD-Lab-Con从C1（·）、C2（·）记录连接的标签，并且也经过与CVCDN（·）相同的结构分类器;同时，RGBD-Lab-Con显示了当从C1（·）和C2（·）获得的标签是平均的时的性能;此外，RGBD-Lab-Wei显示了C1（·）和C2（·）的加权和，其中权重在训练过程中同时学习;最后一行是VCDN模型。在在该实验中，我们示出了在低级别（例如，RGBD-Fea-En-Con和RGBD-Fea-Ori-Con）和高水平（例如，RGBD-Lab-Con和RGBD-Lab-Con）。为了进一步证明VCDN的有效性，我们将输出连接起来并转发到更深的网络（即，2、3、4层结构）。结果（表5）显示2层结构趋于足够。然而，它仍然比我们的VCDN工作得更差结果表明，多-RGB深度Fea-En-ConFea-Ori-ConLab-Con Lab-Ave精度设置UWAMHADDHARGB-C169.1896.4268.15深度-C245.2863.0579.79RGBD-Fea-En-Con68.7896.8270.85RGBD-Fea-Ori-Con69.2297.3270.83RGBD-实验室-对照70.3896.2880.95RGBD实验室平均值71.8497.5683.28RGBD实验室71.1597.1783.95RGBD-VCDN（我们的）74.0798.0684.3262210.90.80.70.60.50.40.30.23020100-10-20-30-40真实样品生成的样品3020100-10-20-300.1-10 010二十到四十-20 0 2040Z1中的真实和虚假样本Z2中的真实和虚假样本0 50 100 150 200 250迭代时期图4.我们的GMVAR方法在DHA数据集中具有（实线）和不具有（虚线）生成策略的性能不同的颜色表示不同的设置。阴影线表示每次迭代的精确性能。实验结果表明，生成式模型确实学习了跨视图连接知识，进一步提高了识别性能。多视图知识确实为动作识别提供了额外的区别特征;而由于视图之间的显著差异，高级融合的性能优于低级融合，并且我们的VCDN实现了最佳性能，因为它充分探索了标签相关性。在之前的实验设置之后，我们进一步可视化了随着训练时间的增加识别性能，结果如图3所示，我们观察到大多数融合策略都不能超过最高的单视图分类性能。我们假设简单的特征级融合不能为分类器提供清晰的区分线索，并且很难单独捕获相关性;而标签平均方法获得了轻微的改善，这表明高层融合在多视图动作场景中表现良好;同时，我们的方法达到了最高的性能，并在大约100个epoch后保持稳定，这进一步证明了VCDN模型的有效性。我们评估了我们的GMVAR与和没有生成策略，以证明其在我们的模型的有效性。图4示出了在DHA数据集上的单视图（RGB和深度）和多视图（RGB-D）设置中具有和不具有生成模型的GMVAR的识别准确性。从结果中，我们观察到生成策略确实大大提高了所有设置的性能此外，我们将GAN模块更改为映射模块以进行进一步比较。在这种情况下，一种模态是另一种模态的映射，并且所获得的性能（即，，西澳大学：74.52%，MHAD：98.23%，DHA：88.07%）较低而不是生成模型。我们假设GAN捕获更好的特征分布，并使训练空间多样化以实现更高的性能。此外，我们可视化了测试样本的真实和生成表示在Z1和Z2中的分布图5. t-SNE [27]分别在Z 1和Z 2中真实和生成的测试样本表示的可视化结果。实心圆和十字标记表示真实表示和生成表示，不同的颜色表示不同的动作类别。我们观察到，属于同一类别的真实和生成的表示彼此接近。它说明了生成模型能够“恢复”一个以另一个视图为条件的视图。并进一步证明了生成策略在这种多视角情景中的有效性。用t-SNE [27]方法分别计算。结果如图5所示，其说明属于相同动作类别的真实表示和生成表示彼此接近，反之亦然。结果表明，该生成方法有效地学习了子空间中的跨视图与所提出的VCDN相关联的视图特定分类器进一步利用这些知识来提高动作识别性能。5. 结论本文提出了一种新的生成式多视图动作识别框架GMVAR。设计了一种生成机制，以生成一个以另一个视图为条件的视图。通过这种方式，可以全面的跨视图的运动结构知识的揭示。由于这种生成策略，我们的模型在单视图和缺失视图场景中工作良好，这对于其他多视图方法来说是困难的。此外，我们提出了一个有效的视图相关性发现网络（VCDN），进一步探索高层标签空间中的跨视图相关性，并获得更准确的分类结果。三个多视图动作数据集和广泛的消融研究的评估表明生成模型和VCDN框架的有效性。所有的实验结果表明，我们的GMVAR是一个有效的，准确率，鲁棒的框架，并与广泛的多视图动作识别任务兼容。致谢：这项研究得到了NSF IIS奖1651902和美国国家科学基金会的部分支持。陆军研究办公室奖W 911 NF-17-1-0367。RGB -无GAN深度-无GANRGBD -无GAN RGB-有GAN深度-有GANRGBD -有GAN精度6222引用[1] RezaAzad ， MaryamAsadi-Aghbolaghi ， ShohrehKasaei，and Sergio Escalera.学习加权深度运动图的动态3d手势识别。IEEE TCSVT，2018。[2] Yancheng Bai ， Yongqiang Zhang ， Mingli Ding ， andBernard Ghanem.Sod-mtgan：通过多任务生成对抗网络进行小目标检测。Proc. ECCV，2018。[3] Nan Bu，Masaru Okamoto，Toshio Tsuji.一个混合运动分类方法为emg为基础的 IEEE Trans. on Robotics，25（3）：502 -511，2009.[4] Zhuowei Cai ， Limin Wang ， Xiaojiang Peng ， and YuQiao.用于动作识别的多视图超向量。在Proc. IEEECVPR，第596-603页[5] 亚历山德罗·查拉维，何塞·帕迪拉·洛佩兹和弗朗西斯科·弗洛雷斯·雷·武埃尔塔。rgb-d设备中用于人体动作识别的基于sk和轮廓特征的融合在Proc. IEEE CVPR研讨会，第91-97页[6] Al e xandrosAndreChaaraoui ， Jos e 'Ram o' nPadilla-Lo'pez，P auCliment-Pe' rez和FranciscoF lo'rez-R e vuelta。用rgb-d设备改进人类动作识别的进化联合选择。专家系统与应用，41（3）：786[7] 张志忠林志仁Libsvm：支持向量机库。ACM TIST，2（3）：27，2011.[8] Tong Che ， Yanran Li ， Athul Paul Jacob ， YoshuaBengio，and Wenjie Li. 模式正则化生成对抗网络。arXiv：1612.02136，2016年。[9] Chen Chen ， Roozbeh Jafari ， and Nasser Kehtarnavaz.Utd-mhad：一个利用深度相机和可穿戴惯性传感器进行人类动作识别的多模式数据集。在Proc. IEEE ICIP，第168-172页[10] 程仲伟、秦雷、叶一陀、黄清明、齐天。使用多视图和颜色深度数据进行人类日常行为分析。ECCV程序，第52-61页。Springer，2012.[11] 费尔南多·德拉·托雷，杰西卡·霍金斯，亚当·巴格泰尔，和其他人。卡内基梅隆大学多模态活动数据库指南。机器人研究所，第135页，2008年。[12] 丁正明、明绍、云甫。通过低秩嵌入式语义词典的生成式IEEE TPAMI，2018。[13] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准标记，带有 rgb-d 视频和 3d 手部姿势注释。在 Proc. IEEECVPR，第409-419页[14] Rohit Girdhar、Deva Ramanan、Abhinav Gupta、JosefSivic 和 Bryan Russell 。 Eschavlad ： Learning spatio-temporal aggregation for action classification.在Proc. IEEECVPR，第2卷，第3页，2017年。[15] 伊

下载后可阅读完整内容，剩余1页未读，立即下载