多视角动作识别的DA-Net网络及其有效性研究

150 浏览量更新于2023-10-13 收藏 801KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

多视角动作识别王东刚1[0000 - 0001 - 5805 - 0244]、欧阳万里1、2[0000 - 0002 - 9163 - 2761]、李文3[0000 - 0002 - 5559 - 8594]、徐东11悉尼大学电气与信息工程{dongang.wang，wanli.ouyang，dong.xu}@ sydney.edu.au2悉尼大学SenseTime计算机视觉研究小组3苏黎世联邦理工学院计算机视觉实验室liwen@vision.ee.ethz.ch抽象。在本文中，我们提出了一个新的划分和聚合网络（DA-Net）的多视图动作识别。在我们的DA-Net中，我们学习了由低层所有视图共享的视图独立表示，同时我们学习了高层每个视图的一个视图特定表示然后，我们训练特定于视图的动作分类器的基础上的视图特定的表示为每个视图和视图分类器的基础上，在较低层的共享表示。视图分类器用于预测每个视频属于每个视图的可能性最后，从多个视图的预测视图概率被用作权重时，融合的视图特定的动作分类器的预测分数。我们还提出了一种新的方法的基础上的条件随机场（CRF）的制定，通过从不同的分支，以帮助对方的特定视图表示之间的消息。在两个基准数据集上的综合实验清楚地表明了我们提出的DA-Net用于多视图动作识别的有效性关键词：分聚网络·多视角动作识别·大规模动作识别1介绍动作识别在视频内容分析、安全控制、人机交互等领域有着广泛的应用，是计算机视觉中的一个重要问题。最近，已经取得了显着的改进，特别是深度学习方法[27，24，35，23，40]。多视角动作识别是一项更具挑战性的任务，因为同一个人的动作视频是由摄像机从不同的视角捕获的。众所周知，处理由视点引起的特征变化的失败可能产生差的识别结果[42，43，31]。本文的一个动机是学习特定于视图的深度表示。这与使用全局码本[28，18，19]或字典[43]提取视图不变特征的现有方法不同。由于在特定的视点设置中存在较大的发散性，因此可见区域是不同的，这2D. Wang，W.欧阳，W. Li和D. 徐. . .分支A中的从A到B的消息分支B从视图B从C到B的消息组合特征从分支B. . .分支C多分支CNN图1.一、我们的工作动机是学习特定于视图的深度表示并在它们之间传递消息。在不同分支中提取的特征应该集中在与同一动作相关的不同区域。来自不同分支的消息传递将相互帮助，从而提高最终的分类性能。为了更好地说明，我们只显示从其他分支传递到分支B的消息使得难以学习不同视图之间的不变特征。因此，学习视图特定的特征表示以提取每个视图的最有区别的信息是更有益的。例如，在相机视图A处，可见区域可以是人体的上部，而相机视图B和C具有更多可见线索，如手和腿。因此，我们应该鼓励从相机视图A捕获的视频的特征集中在上身区域，而来自相机视图B的视频的特征集中在其他区域，如手和腿。相比之下，现有的方法倾向于丢弃这样的视图特定的判别信息。本文的另一个动机是，视图特定的功能可以用来帮助对方。由于这些特征是针对不同视图的，因此它们自然是彼此互补的。这为我们提供了在这些功能之间传递消息的机会，以便它们可以通过交互相互帮助。以图1为例，对于来自视图B的相同输入图像，来自分支A、B、C的特征聚焦于不同区域。通过进行明确定义的消息传递，来自视图A和视图C的特定特征可以用于细化视图B的特征，从而导致动作识别的更准确的表示。基于上述两个动机，我们提出了一个划分和聚合网络（DA-Net）的多视图动作识别。在我们的DA网络中，每个分支学习一组特定于视图的特征。我们还提出了一种新的方法，条件随机场（CRF）的基础上学习更好的视图特定的功能，通过传递消息给对方。最后，我们引入了一种新的融合方法，通过使用预测的视图概率作为权重，用于融合来自多个视图特定分类器的分类结果，以输出动作分类的最终预测分数。多视角动作识别3总而言之，我们的贡献有三个方面：1) 我们提出了一个多分支网络的多视图动作识别。在这个网络中，较低的CNN层被共享以学习与视图无关的表示。将共享特征作为输入，每个视图都有自己的CNN分支来学习其视图特定的特征。2) 引入条件随机场（CRF）来传递来自不同分支的视图特定特征特定视图中的特征被视为连续随机变量，并将消息传递给另一视图中的特征。以这种方式，不同分支处的视图特定的特征彼此通信和帮助。3) 提出了一种新的视图预测引导的融合方法，用于组合来自多个分支的动作分类得分。在我们的方法中，我们同时学习多个视图特定的分类器和视图分类器。针对每个分支获得动作预测分数，并且通过使用视图预测概率作为权重来融合多个2相关作品动作识别。研究人员在设计有效特征以及动作识别分类器方面做出了重大贡献[17，30，36，34，26]。Wang等人 [32]提出了iDT特征来编码来自边缘、流动和轨迹的信息。iDT功能在THUMOS 2014和2015挑战赛中占据主导地位[7]。在深度学习社区，Tran et al. 提出了C3D[27]，其通过将外观特征与运动信息相结合来为视频数据集设计3DCNN模型。 Sun等人 [25]应用因式分解方法来分解3D卷积核，并在CNN的不同层中使用时空特征。动作识别的最近趋势遵循双流CNN。Simonyan和Zisserman [24]首先提出了双流CNN来从RGB关键帧和光流通道中提取特征。Wang等人。 [34]集成了iDT和CNN的关键因素，并实现了显着的性能改进。Wang等人还提出了时间段网络（TSN）[35]，以在双流CNN框架下利用视频片段。研究者还将双流结构转化为多分支结构。在[6]中，Feichtenhofer et al.提出了一种单一的CNN，在最终层之前融合了空间和时间特征，取得了很好的效果。Wang等人提出了一种多分支神经网络，其中每个分支处理不同级别的特征，然后将它们融合在一起[36]。然而，这些工作没有考虑到多视图动作识别。因此，它们不学习视图特定的特征，也不像我们的工作那样在融合来自多个分支的分类分数时使用它们也不使用消息传递来改进它们的特性。多视角动作识别。对于视频来自不同视点的多视图动作识别任务，现有的动作识别方法可能无法实现令人满意的识别结果[42，31，15，16]。4D. Wang，W.欧阳，W. Li和D. 徐i=1使用视点不变表示的方法是多视点动作识别的流行方法。Wu等人。 [37]和Turaga等人。 [28]提出通过使用全局GMM或Grassmann和Stiefel流形来构建公共空间作为多视图动作特征空间，并取得了有希望的结果。在最近的工作中，Zheng等人。 [43]，Kong等人。 [10]和Hossein等人。 [19]设计了不同的方法来学习全局码本或字典，以更好地从动作视频中提取视图不变表示。把问题当作域适应问题，Li等人。 [12]和Mancini等人。 [14]提出了学习鲁棒分类器或域不变特征的新方法。与这些用于在公共空间中学习视图不变特征的方法不同，我们通过使用多分支CNN直接学习视图特定特征。有了这些视图特定的功能，我们利用它们之间的关系，以有效地利用多视图功能。条件随机场（CRF）。CRF已在[29]中用于动作识别，因为它可以连接特征和输出，特别是对于动作等节奏信号 Chen等人提出了L-CORF [3]用于定位视频中的动作，其中CRF用于对每个单视图视频中的时空关系进行建模。CRF还可以利用空间特征之间的关系它已被Zheng等人成功引入深度学习社区中的图像分割。 [44]，其处理像素之间的关系。Xu等人 [39，38]对像素的关系进行建模，以学习图像中对象的边缘。最近，Chu et al. [4，5]已经在CNN中利用离散CRF用于人类姿态估计。我们的工作是第一个动作识别，利用从摄像机从不同的角度拍摄的视频特征之间的关系。我们的实验证明了我们的消息传递方法的有效性，多视图动作识别。3多视图动作识别3.1问题概述在多视图动作识别任务中，训练或测试集中的每个样本由从不同视点捕获的多个视频组成。任务是利用这些多视点训练视频训练一个鲁棒的模型，并对多视点测试视频进行动作识别。让我们将训练数据表示为{（xi，l，. . . ，xi，v，. . . ，xi，V）|N}，其中xi，v是来自第v个视图的第i个训练样本/视频，视图的数目，并且N是多视图训练视频的数目。第i个多视图训练视频（xi，l，. . . ，xi，V）表示为yi ∈ {1，. . . ，K}，其中K是动作类别的总数。为了更好地呈现，当我们不关心每个视频来自哪个特定视图时，我们可以使用xi来表示一个视频，其中i = 1，. . . ，NV.为了有效地处理多视点训练数据，我们设计了一种新的多分支神经网络。如图2，该网络由三个模块组成。(1)基本多分支模块：该网络提取了常见的多视角动作识别5细化视图-特定功能（1）视图专有分类器（1，. ..C1.1消息传递classif.即。r（.1，v）视图专有. ... .1，v.CC消息传递. ..视图特定的最终动作分类器（u，v）. ......................类分数消息传递视图-预测引导模块融合模块细化视图-特定特征（V）CNN分支（V）视图特定功能（V）视图专有分数融合查看预测得分视图特定功能（u）CNN分支视图特定功能（1）Cu，v细化视图-特定特征（u）CNN分支（1）基本多分支模块图二.我们新提出的划分和聚合网络（DA-Net）的网络结构。(1)基本多分支模块由一个共享CNN和多个视图特定CNN分支组成。(2)在每两个分支之间引入消息传递模块，生成细化的视图特定特征。(3)在视图预测引导的融合模块中，我们为每个分支设计了几个特定于视图的动作分类器。通过融合来自所有动作分类器的结果来获得最终分数，其中来自视图分类器的视图预测概率被用作权重。特征（即，视图独立特征），然后通过使用多个CNN分支提取视图特定特征，这将在第3.2节中描述。（2）消息传递模块：基于基本的多分支模块，我们还提出了一种消息传递方法来改进来自不同分支的视图特定功能，这将在第3.3节中介绍。（3）视图预测引导的融合模块：来自不同分支的细化的视图特定特征通过多个视图特定动作分类器，并且最终分数与来自基于视图无关特征训练的视图分类器的概率的指导融合。3.2基本多分支模块如图2、基本多分支模块由两部分组成：1）共享CNN：大部分卷积层都是共享的，以节省计算并生成共同特征（即视点无关特征）; 2）CNN分支：在共享CNN之后，我们定义V个视图特定分支，并且可以从这些分支中提取视图特定特征。在初始训练阶段，每个训练视频X1首先流经共享CNN，然后仅转到第V然后，我们建立一个特定于视图的分类器来预测来自每个视图的视频的动作标签。由于每个分支是通过使用来自特定视点的训练视频来训练的，因此每个分支为其对应的视图捕获信息量最大的特征。因此，可以预期来自不同视图的特征彼此互补以用于预测动作类别。我们将此结构称为基本多分支模块。分享CNN输入：多视图视频视图无关特征视图分类器. ... ... ... ..6D. Wang，W.欧阳，W. Li和D. 徐v=1v=1v=13.3消息传递模块为了有效地整合不同的视图特定的分支多视图动作识别，我们进一步利用视图间的关系，通过使用条件随机场（CRF）模型，从不同的分支提取的特征之间传递消息让我们将一个训练视频的多分支特征表示为F ={ fv}V，其中每个fv是从第v个分支提取的视图特定特征向量我们的目标是估计细化的视图特定特征H ={ hv}V. 作为示于图3（a），我们在CRF框架下制定此问题，在其中我们学习每个特征表示Hv，并且还将Hv的分布规则化在所述特征表示Hip上。具体地，CRF中的能量E（H， F，Θ）= Σφ（hv，fv）+vΣu，vn（hu， hv），（1）其中φ是一元势，ψ是成对势。特别地，h_v应该类似于f_v，即，细化的视图特定特征表示与原始表示相比没有太大变化因此，一元势定义如下：φ（h， f）=−αvh −f2，（2）vv2vv其中αv是将在训练过程期间学习的权重参数。此外，我们采用双线性势函数来模拟来自不同分支的特征之间的相关性，其被定义为ψ （ hu ，hv ） =hvWu，vhu ，（3）其中Wu，v是对不同特征之间的关系建模的矩阵在训练过程中可以学习Wu，v在[20]之后，我们使用平均场更新来推断hu的平均向量为：1hv =v（αvfv+Σu/=v（W u，v h u））。（四）因此，您可以在高级版本{hv|V}可以获得通过迭代地应用上述等式。根据CRF的定义，等式（1）中的第一项为（4）用作用于从特征fv接收用于其自身视图v的信息的一元项。第二项是成对项，其接收来自其他视图u的信息，其中ui=v。在Eqn.（3）和Eqn.（4）对来自第u个视图的特征向量hu和来自第v个视图的特征hv上述CRF模型可以在如图所示的神经网络中实现因此，它可以自然地集成在基本多分支网络中，并在基于基本多分支网络的端到端训练过程中进行优化。α多视角动作识别7p1pVpvSV最终行动类得分SVS1u，v. . .. . .. . .. . .. . .视点无关特征1.1. . .，1. . .u，v . . . 科乌河. .V，VC... C... C...C... C... C...C... C... C1，1,1，v1，Vu，1u，vu，VV，1V，vV，(a) 消息传递模块(b) 视图预测引导融合模块图三.（a）在第3.3节中讨论的视图间消息传递模块和（b）在第3.4节中描述的视图预测引导的融合模块的细节。有关详细定义和说明，请参见相应章节。module.基本多分支模块与消息传递模块一起在以下部分中被称为交叉视图多分支模块。消息传递过程可以利用共享的Wu，v在缓存中进行多次。在我们的示例中，我们仅对其进行形式化，因为它已经提供了良好的特征表示。3.4视图预测引导融合在多视点动作识别中，一个动作可能从多个视点被捕捉到，需要从不同的角度进行识别，这意味着不同的视点包含了动作识别的互补信息。为了有效地捕捉这种跨视图的互补信息，因此，我们提出了一个视图预测指导的融合模块，自动融合的预测分数从所有视图特定的分类器动作识别。在跨视图多分支模块中，不是像基本多分支模块中那样将每个训练视频仅传递到一个特定视图中，而是将每个视频xi馈送到所有V个分支中。给定训练视频X1，我们将从每个分支单独提取特征，这将导致V个不同的表示。考虑到我们具有来自V个不同视图的训练视频，将存在总共VXV种类型的交叉视图信息，每种对应于分支视图对（u，v），其中u，v = 1，. . . ，V，其中u是分支的索引，V是视频所属的视图的索引。然后，根据不同类型的视觉信息，在每个分支中建立视点特定的动作分类器，从而得到V×V不同的分类器。让我们将Cu，v表示为通过使用来自第v个视图特定分类器生成的分数。第u个分支。具体地，对于视频xi，得分表示为Ci. 作为示于图在图3（b）中，来自所有分支中的第V个视图特定分类器的所有结果的融合得分被表示为Sv。具体地，对于视频X1，融合的H1f1胡fuhvfvhVfV8D. Wang，W.欧阳，W. Li和D. 徐vvu，vv=1分数Si可以用公式表示如下，Si= Σλu，vCiu、（五）其中λu，v’s是用于生成Cu，v’s的视频，其可以在训练过程期间被共享并且由所有视频共享。对于第u个分支中的第v个值，我们初始化λ u，v的值（当u = v时）为λ u，v的值（当u = v时）的两倍大，因为C v，v是第v个视图的最相关分数（当与h e rs c或e sCu，v' s（u / = v）比较时）.不同的CNN分支共享共同的信息，并具有各自的细化视图特定信息，因此来自所有分支的结果的组合应该实现更好的分类结果。此外，我们不希望在训练或测试过程中使用输入视频的视图标签。在这种情况下，我们进一步提出了一种融合策略所有视图-specicionpedicionscores{Sv|V}基于视图预测每个视频的概率，而不是仅使用来自已知查看基本多分支模块中的视图。让我们假设每个训练视频xi与V视图预测相关联概率{p i|其中每个pi表示xi属于vv=Σ1ivi第v个视图，且vpv=1。然后，最终预测得分T可以计算-表示为基于相应视图预测概率，ΣVTi=pi Si.（六）V Vv=1为了获得视图预测概率，如图2所示。2、我们加法--通过使用共享CNN之后的共同特征（即，视图无关特征）来联合地训练视图分类器。我们将交叉熵损失用于视图分类器和动作分类器，分别表示为L视图和L动作通过联合优化上述两个损失来学习最终模型，即、L=L动作+L视图，（7）在这里，我们平等地对待这两种损失，并且这种设置导致令人满意的结果。采用视图预测引导融合模式的交叉视图多分支模块ule形成了我们的划分和聚合网络（DA-Net）。值得一提的是，我们只使用视图标签来训练基本多分支模块，基本多分支模块和测试阶段之后的微调步骤不需要视频的视图标签。即使测试视频来自一个看不见的视图，我们的模型仍然可以通过使用视图分类器自动计算其视图预测概率，并集成来自特定于视图的分类器的预测分数进行最终预测（参见我们的跨视图动作识别实验第四节中的（3）第三章。多视角动作识别9分享CNN1x1卷积池化3x3卷积1x1卷积初始5a输出1x1卷积3x3卷积Inception 5b输出3x3卷积1x1卷积CNN分社见图4。在inception 5b块中的共享CNN和CNN分支中使用的层。黄色的层包含在共享CNN中，而红色的层则为不同的分支复制。初始5b之后的层也被复制。每个卷积层之后的ReLU和BatchNormalization层被类似地处理为对应的卷积层。3.5网络架构我们在图中说明了我们的DA网络的架构。二、共享CNN可以是任何流行的CNN架构，其后面是V个视图特定分支，每个分支对应于一个视图。然后，我们在这些特定于视图的分支之上构建V×V特定于视图的分类器，其中每个分支都连接到V分类器。这些V×V视图特定的分类器被进一步组合以使用等式（1）产生V分支级分数（五）、最后，重新加权那些V个分支级分数以获得最终预测分数，其中权重是从视图分类器生成的视图概率，该视图分类器在共享CNN之后训练与其他深度神经网络一样，我们提出的模型可以通过使用流行的优化方法（如随机梯度下降（SGD）算法）进行训练。我们首先训练基本的多分支模块来学习每个分支中的视图特定功能，然后我们微调所有模块。在我们的实现中，我们基于时间分段网络（TSN）[35]构建网络，并进行了一些修改。特别地，我们使用BN- Inception [9]作为骨干网络。共享CNN层包括从输入到块inception_5a的层。如图4，对于inception_5b块内的每条路径，我们复制最后一个卷积层（图中以红色显示）。4）对于多个分支多次，并且在共享CNN中共享先前的层在inception_5b块之后的其余平均池化和全连接层也被复制用于多个分支。相应的参数也在初始化阶段复制并单独学习。与TSN类似，我们还训练了一个双流网络[24]，其中两个流分别使用两种模态RGB和密集光流来学习。在测试阶段，给定具有多个视频视图的测试样本，（X 1，. . .，Xv），我们将每个视频Xv传递到两个流，并且通过融合来自两个流的输出来获得其预测。我们的DA-Net的训练具有与TSN相同的起点。我们首先训练网络基于基本的多分支模块学习基本的10D. Wang，W.欧阳，W. Li和D. 徐每个分支的特征，然后通过额外添加消息传递模块和视图预测引导融合模块来微调学习的网络。4实验在本节中，我们通过使用两个基准多视图动作数据集进行实验来评估我们提出的模型。我们在两个设置上进行实验：1）跨主题设置，其用于评估我们提出的模型从多视图视频学习的有效性，以及2）跨视图设置，其用于评估我们提出的模型对未见过视图的泛化能力。4.1数据集和设置NTU RGB+D（NTU）[21]是一个用于人类动作识别的大规模数据集，包含40个不同受试者执行的60个日常动作Kinect v2在三个视点中捕获动作数据的形式包括RGB视频、深度图和3D关节信息，其中仅RGB视频用于我们的实验。RGB视频的总数是56， 880，包含超过400万帧。Northwestern-UCLA Multiview Action（NUMA）[33]是另一个流行的多视图动作识别基准数据集。在该数据集中，10个受试者多次执行10个日常动作，这些动作由三个静态相机捕获。总的来说，数据集由1475个RGB视频和相关的深度帧和骨架信息组成，其中仅RGB视频用于我们的实验。4.2多视角动作识别本实验采用跨学科评价方案从所有视图中选择少数主体的所有动作视频作为训练集，并且剩余主体的动作视频用于测试。对于NTU数据集，我们使用与[21]相同的跨学科协议。我们将我们提出的方法与广泛的基线进行比较，其中[21，22，1]中的工作包括3D联合信息，而[2，13]中的工作仅使用RGB视频我们还包括TSN方法[35]作为比较的基线，它可以被视为我们的DA-Net的特殊情况，而无需明确利用训练视频中的多视图信息。结果示于表1的第三列中。我们观察到，TSN方法比使用多模态数据的先前工作实现了更好的结果，这可以归因于使用深度神经网络来学习有效的视频表示。此外，Baradel et al. [2]和Luvizon et al. [13]报告了仅使用RGB视频的结果，其中Luvizon等人的工作。 [13]实现了与TSN方法类似的性能。我们提出的DA-Net优于所有现有的最先进的算法和基线TSN方法。多视角动作识别11表1.我们的DA-Net和NTU数据集上其他最先进的作品之间的准确性比较。当使用RGB视频时，我们的DA-Net，TSN [35]和Zolfaghari等人的工作。 [45]使用从RGB视频生成的光流，而其余工作不提取光流特征。四种方法另外利用姿势模态。最佳结果以粗体显示。方法方式跨受试者准确度交叉视图精度DSSCA-SSLM [22]姿势+RGB74.9%-STA-Hands [1]姿势+RGB82.5%88.6%Zolfaghari等人 [45个]姿势+RGB百分之八十点八-Baradel等人 [二]《中国日报》姿势+RGB百分之八十四点八百分之九十点六Luvizon等人 [13个国家]RGB84.6%-TSN [35]RGB84.93%85.36%DA-Net（我们的）RGB88.12%91.96%表2.我们的DA-Net和NUMA数据集上的其他作品之间的平均精度比较（跨主题设置）。通过平均每个受试者的准确度生成结果。最佳结果以粗体显示。方法平均准确率李和齐克勒[11]百分之五十点七MST-AOG [33]81.6%Kong等人 [10个国家]81.1%TSN [35]90.3%DA-Net（我们的）92.1%对于NUMA数据集，我们使用10倍评估协议，其中每次将每个受试者的视频用作测试视频。为了与其他作品保持一致，我们报告了视频级的准确性，其中每个视图的视频平均精度如表2所示，其中我们提出的DA-Net再次优于所有其他基线方法。这两个数据集上的结果清楚地证明了我们的DA-Net使用多视图RGB视频学习深度模型的有效性通过学习视图特定的特征以及分类器并进行消息传递，来自多个视图的视频被更有效地利用因此，我们可以学习更多的判别特征，与以前的方法相比，我们的DA网络可以实现更好的动作分类结果。4.3泛化到不可见视图我们的DA-Net也可以很容易地用于泛化到不可见的视图，这也称为交叉视图评估协议。我们在此设置中采用了leave-one- view-out策略，其中我们使用来自一个视图的视频作为测试集，并使用来自其余视图的视频来训练我们的DA-Net。12D. Wang，W.欧阳，W. Li和D. 徐表3. NUMA数据集[33]（交叉视图设置）上的平均准确度比较，当来自两个视图的视频用于训练时，来自其余视图用于测试。最佳结果以粗体显示。为了公平比较，我们只报告使用RGB视频的方法的结果{Source}|Target{1，2}| 3{1，3}| 2{2，3}| 1平均准确率DVV [41]58.5%55.2% 百分之三十九点三51.0%nCTE [8]百分之六十八点六68.3% 52.1%63.0%MST-AOG [33]---百分之七十三点三NKTM [18]百分之七十五点八百分之七十三点三59.1%69.4%R-NKTM [19]百分之七十八点一---Kong等人 [10个国家]---百分之七十七点二TSN [35]84.5% 百分之八十点六76.8% 百分之八十点六DA-Net（我们的）百分之八十六点五82.7% 百分之八十三点一百分之八十四点二与跨学科设置下的训练过程不同，网络中的分支总数被设置为视图总数减1，因为来自一个视点的视频被保留用于测试。在测试阶段期间，来自目标视图的视频（即，未看见的视图）将经过所有分支，并且视图分类器仍然可以提供属于一组源视图（即，已看见的视图）的每个测试视频的预测分数。分数指示来自目标视图的视频与来自源视图的视频之间的相似性，基于该相似性，我们仍然可以获得可以用于对来自目标视图的视频进行分类的加权融合分数。对于NTU数据集，我们遵循[21]中的原始交叉视图设置，其中来自视图2和视图3的视频用于训练，而来自视图1的视频用于测试。结果示于表1的第四列中。在这种交叉视图设置下，我们的DA-Net也大大优于现有的方法。对于NUMA数据集，我们进行了三重交叉验证。来自两个视图的视频及其动作标签被用作训练数据来学习网络，来自剩余视图的视频被用于测试。在训练阶段期间，来自不可见视图的视频不可用。我们在表3中报告了我们的结果，这表明我们的DA-Net实现了最佳性能。我们的结果甚至比[10]中使用来自不可见视图的视频作为未标记数据的方法更好。每个类别的详细精度如图所示。五、我们再次观察到DA-Net在几乎所有的动作类中都优于nCTE[8]和NKTM [18]从结果中，我们观察到我们的DA-Net即使在训练过程中不使用来自目标视图的视频也是鲁棒的可能的解释如下。在TSN架构的基础上，我们的DA-Net进一步学习特定于视图的特征，这产生了更好的表示以从每个视图捕获信息。其次，消息传递模块进一步改进了不同视图上的特征表示最后，新提出的软合奏多视角动作识别13图五.交叉视图设置下NUMA数据集上每个类别的平均识别准确率。这三种方法在训练过程中都没有利用来自不可见视图的特征。使用视图预测概率作为权重的融合方案也有助于性能改进。虽然来自未见过视图的视频在训练过程中不可用，但是视图分类器仍然能够用于预测给定测试视频属于每个已见过视图的概率，这对于获得最终预测分数是有用的。4.4成分分析为了研究我们提出的DA-Net中不同模块的性能增益，我们报告了我们的DA网络的三个变体的结果。特别地，在第一变体中，我们移除视图预测引导的融合模块，并且仅保留基本的多分支模块和消息传递模块，其被称为DA-Net（w/o fus.）. 类似地，在第二变型中，我们移除消息传递模块，并且仅保留基本的多分支模块和视图预测引导的融合模块，其被称为DA-Net（w/o msg.）.在第三种变体中，我们只保留基本的多分支模块，称为DA-Net（w/o msg. 和fus.）. 特别是在DA-Net（不含消息）中和fus.）和DA-Net（w/o fus.）由于融合部分被消除，我们只为每个分支训练一个分类器，并且我们平等地融合来自所有分支的预测得分以获得动作识别结果。我们以跨视图设置下的NTU数据集为例进行成分分析。也包括基线TSN方法[35]用于比较。伊森。此外，我们还报告了来自TSN的集成版本的结果，其中，我们分别基于来自视图2的视频和来自视图3的视频对TSN进行了预测，然后对来自视图1的测试视频的预测分数进行平均以获得预测结果。我们称之为Ensemble TSN。所有方法的结果示于表4中。我们观察到集合TSN和我们的DA-Net（w/omsg.和fus.）取得比百分百百分之八十百分之六十百分行动NCTENKTMDA-Net精度14D. Wang，W.欧阳，W. Li和D. 徐表4. NTU数据集上交叉视图设置的准确性。第二列和第三列分别是来自RGB流和流量流的准确度。第四列显示了融合两个流的分数后的最终结果方法RGB流流动流双流TSN [35]百分之六十六点五百分之八十二点二85.4%集合TSN69.4%86.6%87.8%DA-Net（不含消息）和fus.）73.9%百分之八十七点七89.8%DA-Net（不含消息）74.1%88.4%百分之九十点七DA-Net（不含保险丝）百分之七十四点五88.6%百分之九十点九DA-Net百分之七十五点三88.9%百分之九十二基线TSN方法，其指示学习每个视图的个体表示有助于捕获视图特定信息，并且因此提高动作识别准确度。我们的DA-Net（不含消息和fus.）优于两种模态和双流融合后的集成TSN方法，这表明学习共同特征（即独立于视图的功能），由DA-Net的所有分支共享（不含消息和fus.）可能会带来更好的表现。此外，通过另外使用消息传递模块，DA-Net（w/o fus.）与DA-Net相比获得一致的改进（不含消息和fus.）. 一个可能的原因是来自不同视图的视频共享互补信息，并且消息传递过程可以帮助细化每个分支上的特征表示。DA-Net（w/o msg.）也优于DA-Net（w/o msg. 和fus.）这证明了我们的视图预测引导融合模块的有效性。我们的DA-Net有效地整合了所有视图特定分类器的预测，以软集成的方式。在视点预测引导的融合模块中，所有视点分类器都集成了所有V×V类型的跨视点信息。同时，视图分类器通过使用视图预测概率作为权重来柔和地集成动作预测分数。5结论在本文中，我们提出了划分和聚合网络（DA-网），以解决行动识别使用多视图视频。综合实验表明，我们新提出的深度学习方法优于多视图动作识别的基线方法。通过组件分析，我们表明，特定于视图的表示，从不同的分支，可以帮助对方在一个有效的方式进行消息传递。它还表明，它是有益的融合的预测得分从多个分类器使用的视图预测概率作为权重。鸣谢本工作由商汤科技集团有限公司提供支持多视角动作识别15引用1. Baradel，F.，Wolf，C. Mille，J.：人类行为识别：基于姿势的注意力将注意力吸引到手。在：IEEE计算机视觉国际会议（ICCV）研讨会（2017年10月）2. Baradel，F.，Wolf，C. Mille，J.：人体动作辨识之姿势条件时空注意。arXiv预印本arXiv：1703.10106（2017）3. 陈伟，Xiong，C.，徐，R.，科索，J.J.：格条件有序随机场的有序性排序。在： Proceedings of the IEEE conference on computer visionandpat ternregni t iti on中。pp. 第7484. Chu，X.，欧阳，W. Li，H.，Wang，X.：用于姿态估计的结构化特征学习。在：IEEE计算机视觉和模式识别会议论文集中。pp. 47155. Chu，X.，欧阳，W.王，X.，等：Crf-cnn：人体姿势估计中的结构化信息建模。在：神经信息处理系统的进展。pp. 3166. Feichtenhofer，C.，Pinz，A.，齐瑟曼，A.：用于视频动作识别的卷积双流网络融合。In：ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition. pp. 19337. Gorban，A.，Idrees，H.Jiang，Y.G.，Roshan Zamir，A.，拉普捷夫岛Shah ， M. ， Suk-thankar ， R. ： THUMOS 挑战：大量类的动作识别http://www.thumos.info/（2015）8. Gupta，A.，Martinez，J.小JJ Woodham，R.J.：用于通过非线性循环时间编码的跨视图动作识别的来自运动的 3D 姿态。在： ProceedingsoftheIEEEConFeRénCeonCon PuterVis isonandPater nReg gnition中。pp. 26019. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议（ International Conference on MachineLearning）pp. 44810. 江，Y.，丁Z李杰，Fu，Y.：深入学习的视图不变特征，用于跨视图检索。IEEETransacti o nso nImageProcessi ng26（6），302811. Li，R.，Zickler，T.：用于跨视图动作识别的有区别的虚拟视图。计算机视觉与模式识别（ CVPR ）， 2012 年 IEEE 会议。 pp.2855 -2862 IEEE（2012）12. 李伟，徐志，徐，D.，Dai，D.，Van Gool，L.：使用低秩样本支持向量机的领域泛化和自适应。IEEE Transactions on Pattern Analysis and MachineIntelligence（2017）13. 哥伦比亚特区吕维松Picard，D.，Tabia，H.：使用多任务深度学习的2D/3D 姿态估计和动作识别。在：IEEE计算机视觉和模式识别会议（CVPR）（2018年6月）14. Mancini，M.，波尔齐湖Rota Bul，S.，Caputo，B.，Ricci，E.：通过发现潜在域来增强域自适应在：IEEE计算机视觉和模式识别会议（CVPR）（2018年6月）15. 牛湖，加-地李伟，徐德：视觉识别的多视域综合。IEEE计算机视觉国际会议（ICCV）（2015年12月）16. 牛湖，加-地李伟，徐，D.，Cai，J.：一个基于范例的视觉识别多视点域泛化框架。 IEEE Transactions on Neural Networks and Learning Systems（2016）16D. Wang，W.欧阳，W. Li和D. 徐17. Oneata，D.，Verbeek，J.，Schmid，C.：动作和事件识别与费舍尔向量的紧凑功能集。In：Proceedings of the IEEE international conference oncomputervision.pp. 181718. Rahmani，H.，Mian，A.：学习跨视角动作识别的非线性知识转移模型。在：ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition中。pp. 245819. Rahmani，H.，Mian，A.，Shah，M.：从新的视角学习人类动作识别的深度模型 IEEE Transactions on Pattern Analysis and Machine Intelligence（2017）20. Ristovski，K.，Radosavljevic，V.，Vucetic，S.，Obradovic，Z.：大型全连通图中有效回归的连续在：AAAI。pp. 84021. Shahroudy，A.，刘杰，Ng，T. T.，王G：Ntu rgb+ d：用于3d人类活动分析的大规模数据集。在： Proceedings of the IEEE Conference on ComputerVisionandPatternRecognition中。pp. 101022. Shahroudy，A.，Ng，T. T.，Gong，Y.，王G：rgb+ d视频中用于动作识别的深度多模态

下载后可阅读完整内容，剩余1页未读，立即下载