4D动作识别在拥挤和混乱环境中具有挑战性

18 浏览量更新于2023-10-18 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

118574D：在人群和混乱全增有浩江微软云AI地址：One Microsoft Way，Redmond，WA 98052{quyou，jiang.hao}@ microsoft.com摘要在拥挤和杂乱的环境中识别每个人我们建议通过对杂乱场景进行整体4D“扫描”来解决这个具有挑战性的问题这导致了一个新的问题，即，在杂乱的4D表示中识别多个人的动作。在第一步，我们提出了一种新的方法来跟踪4D中的人，它可以实时可靠地然后，我们构建了一个新的深度神经网络--E4 DNet，来识别每个被跟踪的人的这样的模型在现实世界的设置中给出了可靠我们还设计了一个自适应的3D卷积层和一个新的判别时间特征学习目标，以进一步提高我们的模型的性能。我们的方法是不变性的摄像机视角，抗杂波和能够handle人群。实验结果表明，该方法快速、可靠、准确。我们的方法为现实世界中的动作识别铺平了道路，并准备部署到智能家居，智能工厂和智能商店。1. 介绍动作识别是计算机视觉中的一项关键任务。即使人类视觉善于识别细微的动作，计算机视觉算法仍然无法达到同样的鲁棒性和准确性。困难主要是由视觉输入的变化引起的。输入视频可能拥挤且杂乱。人们可能有不同的衣服，不同的身体形状，并高度艺术化。它们可能以稍微不同的方式执行相同的动作。摄像机的视角可能会有很大的不同，因此训练视频中的相同动作可能会与测试视频中的动作完全不同。为了解决上述挑战，在本文中，我们提出了一种新的4D方法的鲁棒动作识别。我们的方法的输入是动态环境(a) 阅读（b）坐着（c）玩手机图1.我们的动作识别系统在拥挤和杂乱的环境中使用四个Kinect V2摄像头的推理结果示例。顶部两行显示了多人跟踪器在每个摄像头视图上投影的3D边界框最后一行示出了针对具有不同动作的每个主体从四个校准的深度相机生成的体积。由多个校准的RGBD相机构建。图1说明了我们的方案.所提出的方法使用4D表示跟踪每个人并重新识别他们的动作。它是视图不变的，能够处理人群和混乱，并可扩展到具有数百个摄像机的巨大空间中的应用程序。在杂乱的4D空间中识别多个人的动作是一个新的具有挑战性的问题。据我们所知，我们的方法给出了这个问题的第一个解决方案。特别是，我们提出了一种新的4D网络识别每个主题的行动在一个混乱的环境中，使用在线4D建模。我们的工作有以下贡献：玩手机玩手机玩手机玩手机阅读坐阅读坐阅读坐阅读坐11858• 我们解决了在杂乱的4D体积数据中识别多个人的动作的新问题• 我们提出了一种新的人检测和跟踪方法使用的4D体数据在实时。• 我们提出了一个新的深度神经网络，E4DNet，用于动作识别。我们设计了一个自适应卷积层，以处理从多路复用引入的噪声三个摄像头传感器。我们还提出了一个新的判别损失更好的时序动作识别中的时间特征学习。据我们所知，我们的方法是首次尝试将深度神经网络应用于杂乱的• 在我们的实验中，我们收集并标记了一个新的4D数据集。没有现有的4D动作识别数据集包括多个人和杂乱。我们将发布数据集。• 我们提出的方法是抵抗人群和clutter，它可以直接用于复杂的现实世界中的应用。1.1.相关作品在以前的研究中，大多数动作识别方法都适用于单视图2D视频。累积的前景形状[1]已被用于识别Kid-sRoom项目中的动作在[28]中，形状上下文用于在动作识别中对整个身体配置进行建模。除了RGB颜色，运动也是动作识别的有用特征[9]。用于动作识别的其他流行的手工特征包括时空特征[14]和时空体积[4]。基于这些特征，动作检测和识别可以归结为一个匹配问题。通过精心设计，我们甚至不需要直接提取特征;可以使用低秩分析有效地解决空间和时间匹配[23]。近年来，深度学习已被广泛用于使用RGB视频的动作识别和检测[12，30，24，8，7]。这些深度学习方法使用多个流，例如颜色，运动，身体部位热图和时空3D体积中的查找动作单视图深度图像也已用于动作识别[26]。然而，使用2D RGB或深度视频训练分类器进行动作识别是一项具有挑战性的任务。它要求训练数据包括关于相机设置、人物服装、物体外观和背景的各种变化当前大多数3D动作识别方法依赖于Kinect 3D骨架提取[17，21，22]，这可以缓解2D动作识别中的视图依赖性问题。不幸的是，Kinect骨架估计变得在杂乱的环境中不可靠。此外，单独的3D电子地图对于动作识别是不够的。例如，在不知道人们手中的物体的情况下，消除诸如玩手机和看书之类的动作的歧义是棘手的。从可视外壳[15]也被广泛用于动作识别[5，29，11]。传统的视觉外壳方法通常需要特定的蓝/绿或静态背景和背景减法来从背景中挑出人。这极大地限制了它在实际应用中的可用性。相比之下，我们的方法直接适用于杂乱的4D体积数据。体积表示不仅包括人，还包括与他们交互的对象。由于不依赖于人的分割，我们的方法可以鲁棒地应用于拥挤和混乱的环境中的动作识别2. 方法我们的任务是在一个杂乱拥挤的环境中识别个体的行为。我们的方法开始与整个场景在每个时刻的3D体积表示的建设。然后，我们提出了一种新的人检测和跟踪方法，使用整个场景的连续三维体数据。通过这种方式，我们可以在每个时刻裁剪每个以人为中心的3D体积。我们的4D跟踪器使用这些相关的3D体积序列作为输入来构建我们的4DNet。详情将在以下章节中讨论。2.1. 人员检测和跟踪检测场景中的每个主体是我们识别每个人的动作之前的必要步骤。对于动作识别，我们还需要观察持续时间内的每个主题因此，我们需要跟踪场景中的每个人。跟踪还有助于消除虚假的人检测和重新覆盖失踪的人。以往的多人跟踪方法大多采用背景差分法去除背景杂波。不幸的是，背景减除或图形/背景分离对于不受约束的动态环境是困难的。我们的4D跟踪器不需要图形/地面分离，能够直接处理嘈杂的4D数据。给定一组已校准的RGBD图像，我们构建整个场景的3D点云体积建立在3D点云之上我们将体素O（i）的占用率设置为1，如果其中有一个点这些体素位于环境的场景表面上也可以填充每个对象的内部体素。然而，我们的实验表明，动作识别并没有从这种密集的表示中获益。因此，我们在这项工作中只使用表面体积。11859（一）图2. (a)：人民分类CNN. (b)：跟踪图上的路径。（b）第（1）款我们发现不相交(a) 跟踪结果（b）我们实验室的两个侧视RGB图像图3.所提出的方法的样本跟踪结果。(a)我们追踪结果的可视化。在屏幕的左边是自上而下的视图，每个编号的红色圆圈代表一个人。右边是实时3D点云。(b)我们使用另外两个RGB相机来捕捉我们实验室的相应侧视图。2.1.1候选人提案我们使用一个轻量级的候选人提案方案，如下所示：设f（x，y，z）为体积数据，并假设 z= 0是地平面。自上而下的包络图像是g（x，y）=maxz（z（f（x，y，z），其中（f）是指示函数，如果f>0，则等于1，否则等于0。基于观察到每个潜在对象对应于g上的至少一个局部最大值，我们使用简单的高斯滤波器来提取候选对象。使用非最大值抑制在高斯滤波的自顶向下包络上找到局部最大值。每个候选体积是具有给定宽度和高度的围绕局部最大值的长方体。目前，我们将裁剪体积的高度设置为整个场景体积的高度我们训练一个3D CNN来将每个候选体积分类为人或非人。我们的people classifier的CNN结构如图2（a）所示，它由一系列3D卷积层、ReLU和池化层（ReLU未显示）组成，后面是一个多层卷积器（MLP）。3D人物分类器给出每个候选3D边界框包含人物的概率。即使只有几千帧的训练数据，人员检测器也可以实现高精度，以支持以下人员跟踪的数据关联。2.1.2数据关联与提取的候选人，人跟踪可以formated作为一个路径跟踪问题。我们尝试将检测到的轨迹与当前帧t和接下来的n帧中的检测相关联。这里n是一个小数字，例如。，三个。跟踪图如图2（b）所示。图中有三种节点：矩形节点表示已经形成的轨迹，椭圆形节点表示候选，而五边形节点是预测节点。预测节点的数量等于候选节点的数量加上前一时刻的预测节点的数量。边指示节点之间可能的匹配。边权重由3D图像中的概率差人分类器、欧几里德距离、占用体积差和相邻节点之间的颜色直方图差轨迹节点还具有与轨迹长度成反比的权重。为了追踪-在场景中，我们找到每个轨迹从时间t−1到t+n的延伸，使得这些路径通过每个轨迹节点，并且所有路径都是节点不相交的。这个优化问题可以简化为最小成本问题，并且可以使用多项式算法有效地解决[19]。每个轨迹仅延伸到半径dl内的相邻节点，半径dl由人的最大速度和跟踪算法的帧速率确定。在优化之后，我们将每个现有的轨迹延长一个单位的长度。我们删除具有低人员分数的轨迹，该分数被计算为当前人员概率和先前人员分数的加权和并且，我们为每个候选节点在时间t处包括不在任何路径上的新的一组轨迹用于形成下一时刻的新图形。我们的人检测和跟踪算法对混乱和人群是鲁棒的。图3显示了我们在几千帧上进行4D跟踪的示例结果。追踪器能够处理如图3（b）所示的将盒子放在头部上方的情况。2.2. 动作识别上面的跟踪器为我们提供了每个对象在每个时刻的准确3D位置，可以用来裁剪出3D体积进行动作识别。图4显示了裁剪的体积表示，其中人位于中心。即使在杂乱的背景下，音量表示也能清楚地显示出一个人的动作。事实上，背景对象由于其上下文信息而对于动作识别是期望的。我们处理4D体积（3D体积序列）数据以推断每个时刻的动作还有许多其他线索可以用来推断一个人的行为，例如。身体姿势、身体部位的运动以及受试者正在处理的物体。例如，如果我们看到一个人下面有一把椅子，我们可以推断这个人是Conv3DMax-Pooling Conv3D4（3x3x32x2x28（3x3x361x61x854x61x61x854x30x30x418x30x30x41Conv3DMax-poolingMax-pooling平FCFC2x2x28（3x3x32x2x28x15x15x20 8x15x15x20392010242人数t-1不t+1t+n...............这是什.........：：Trajectorrajectorrajector...：PPPrdddictttiooon*CaCaCandiiiidatatat e11860（a）（b）（c）（d）（e）（f）（g）（h）(i)（j）（k）（l）（m）（n）（o）（p）以自动学习最相关的局部子体积特征，并且全局最大池化[16]用于全局特征。这两个特征都是递归神经网络（我们使用LSTM）的输入，用于动作分类。设V∈RF×L ×W×H是最后一个3D卷积层的输出，其中F是滤波器的数量，L，W和H是3D输出的大小。特别地，3D输出中的每个位置可以表示为 vijk∈RF ，其中 1≤i≤L ， 1≤j≤W 和1≤k≤H。所有vijk的注意力权重计算如下：图4.我们使用体积来识别动作（颜色表示每个体素的高度）。即使是这样，也可以很容易地识别出动作。βijk不t−1UVIJK（一）从静态快照。这些动作是（a）弯腰、（b）喝水、（c）举起、（d）推/拉、（e）蹲、（f）打哈欠、（g）打电话、（h）吃饭、（i）打开抽屉、（j）阅读、（k）挥手、（l）鼓掌、（m）踢、（n）指点、（o）坐和（p）浏览手机。这些实时生成的卷被输入到我们的E4DNet中进行动作识别。坐着潜在地，每个人的位置或速度也可以用来推断特定的动作。然而，在本文中，我们仅依赖于体数据来构建我们的4D动作识别模型。α=softmax（β），（2）其中α∈RL×W×H是注意力权重，U∈RD×F是要学习的权重矩阵，ht−1∈RD是递归神经网络中大小为D的先前隐藏状态。网络以这种方式，期望网络自动地发现不同子卷对于不同动作的相关性。接下来，将局部特征v计算为所有子体积特征vijkΣ我们构建了深度卷积神经网络Ac-tion 4DNet，用于准确的动作识别。输入4Dv=i，j，k是的。（三）体积经过与3D池化层组合的3D卷积层序列以产生动作特征。同时，我们还建议使用辅助注意力网络，这将在下面的小节中更详细地讨论。每个时刻的这些特征都被输入到递归神经网络（RNN）中，以聚集最终动作分类的时间信息在下文中，我们将更详细地介绍网络结构。2.2.1关注4DNet此外，我们采用3D卷积层，然后是全局池化层来获得全局特征g（参见图5）。接下来，全局特征g和局部注意特征v都被提供给LSTM单元以捕获时间依赖性。动作分类模型是一个多层感知器（MLP），它将LSTM单元的隐藏状态作为输入，以识别每个时刻的不同2.2.2自适应卷积层在上一节中，我们描述了我们的注意力，Xt人体积61x61x8564X30X30X42三维CNN128x15x15x21Global Max-256256x7x7x10256X3x3x5使用标准的3D卷积神经网络。在真实世界的环境中，摄像机传感器和校准误差会将噪声引入到生成的体积中。在我们的卷表示中，这些噪声可能导致常规卷积层的不同激活输出它是吸引人的-ht-1ATT1x3x3x5关注模块Conv3D256X3x3x5池化3x3x5256LSTM51251225617分类器如果模型本身可以适应噪声，则为有效。我们提出了自适应卷积层，它设计了一个额外的自适应激活机制。同样，设V∈RF×L ×W×H图5.我们建议关注4DNet。图5显示了使用体积数据进行动作识别的拟议神经网络它从几个3D卷积层开始，然后是3D最大池化层。然后，使用注意力模型[2，18]是最后一个3D卷积层。然后，我们附加另一个卷积层，其中有两个1 × 1 × 1内核，后面是一个softmax算子。输出表示为Z ∈ R2× L × W× H，它作为V中每个位置的自适应概率。我们在位置（i，j，k）处产生新的输出，V′[：，i，j，k]=Z1ijk<$V[：，i，j，=hConv3DMax-poolingConv3D最大池化Conv3DMax-Pooling Conv3DMax-pooling2x2x22x2x22x2x22x2x211861k]，（4）11862我n−1n其中，k是标量Z1ijk和向量V[：，i，j，k]∈RF之间的乘积。该层可以插入到任何常规的3D卷积层中。我们称之为适应性骗局-旋转层2.2.3判别式时间特征学习RNN被设计用于捕获时间依赖性。最先进的动作识别模型也将RNN应用于动作识别[25]，以理解和整合视频中的时间信息。然而，在连续域（例如视频）中捕获时间转换比在离散域（例如自然语言）中捕获时间转换更困难。近年来，光学小波被广泛用于辅助模型更好地进行时间特征学习。光量子流的计算需要更高的计算能力。此外，由于大量数据中的噪声，在我们的4D场景中更困难。相反，我们希望模型可以通过只查看序列数据来学习区分为了实现这一目标，我们提出了一个保证金排名损失，试图区分给定训练序列中的时间特征设H={h1，h2，.，hn}是来自递归神经网络的隐藏状态（参见图5）。我们添加具有权重W的附加语义层以映射h′=Whi，并将损失定义为n−23.1. 地面实况实验设置为了评估我们的方法的性能，我们收集了一个4D动作识别数据集。我们设置了三个不同的环境（Env1，Env2和Evn3），使用不同数量的Kinect V2摄像头来捕获RGBD图像，然后生成动态场景的4D体表示。这三种环境位于不同的房间，具有不同的背景。我们以每帧的方式标记视频：每个视频帧具有动作标签。我们还使用每帧精度评估所有动作识别模型。我们数据集的统计数据汇总于表1。Envs摄像头数量受试者数量卷数Env141590KEnv281264KEnv37934K表1.我们的数据集来自三个不同的环境。场景不仅包括人，还包括沙发、桌子、椅子、盒子、抽屉、杯子和书籍等物体数据集中有20多个不同的主题。他们有不同的体型、性别和身高。该数据集包括日常生活中的16个动作：喝酒、拍手、看书、打电话、玩手机、弯腰、蹲下、挥手、坐、指、举、开抽屉、拉/推、吃、打哈欠、踢。每个L（H′）= max（0， c+score（h′，h′）I ni=1-score（h′，h′））（五）动作可以以站立或坐着的姿势进行在这里，“坐”的我们比较我们提出的方法对不同的基础-′ ′ ′ ′直线法这些基线包括：其中H={h1，h2，.，hn}是映射隐藏状态，c是常数，并且score（·，·）计算其两个输入之间的相似性在这项工作中，我们采用余弦相似性函数。上述损失试图保证在任何给定的训练序列内，最后一个帧与倒数第二个帧具有比所有其他连续帧更大的相似性。一般来说，这个约束在视频和我们的4D情况下都是成立的。特别地，对于所有帧具有相同标签的训练序列，该损失函数区分不同输入帧处的状态。同时，动作识别分类器的交叉熵损失试图保持对这些不同状态的正确预测。我们的实验表明，这种机制导致更好的动作识别性能为我们的E4DNet模型。3. 实验结果在本节中，我们评估了所提出的4D动作识别方法，并将我们的方法与不同的竞争方法进行了比较。• ShapeContext256和ShapeContext512：3D形状上下文是形状上下文的3D版本[3] de-编剧3D形状上下文具有均匀划分的高度轴和角度轴，以及几何划分的径向我们测试两个版本的3D形状上下文： ShapeContext256 有 256 个箱，ShapeContext512有512个箱。我们建立了一个深度网络，其输入是3D形状上下文描述符。该网络使用LSTM网络来聚合时间信息。• Moment：Moment是另一个流行的形状描述符。我们使用的原始时刻高达4阶。类似于在上述形状上下文方法中，矩描述符被馈送到CNN中用于动作识别。• OpenPose [6]是RGB图像上最先进的Stick Figure检测器之一。我们正常化使用颈部点确定每个对象的关节的位置，然后将XY坐标连接成特征向量。我们使用与上述形状上下文方法类似的方法训练深度网络。11863• 颜色+深度：在这种方法中，我们根据跟踪结果找到每个人的边界框。我们裁剪每个人的颜色和深度图像，所有摄像头的录像我们使用裁剪的颜色和深度图像训练深度神经网络，y0.34Xxy-0.25y0.35xx-0.250.30.35X-0.3 50.42X0.5y— 0.250.45xy-0.250.45x行动标签为了公平起见，我们并没有在本文的所有方法中使用运动。• PointNet：PointNet [20]是用于对象识别和语义分析3D点云的分割我们扩展了点网模型，使其包括一个LSTM层，以便它可以处理用于动作识别的序列数据该网络可以使用来自多个RGBD图像的点云进行端到端训练。• I3 D和NL-I3 D：嵌入式3D ConvNet [7]（I3 D）实现了RGB视频上最先进的动作识别。我们还与非本地I3D进行比较[27]（NL-I3 D），它引入了非局部操作，以更好地进行长期依赖建模。• SparseConvNetSparseConvNet [10]定义了子人工卷积，它跟踪减少计算开销。我们使用3D体积和LSTM头来训练SparseCon- vNet，以识别3D流中的动作。所有模型都是使用PyTorch实现对于I3 D和NL-I3D，我们使用Kinetics数据集[13]上的预训练模型，并在我们的数据集上对其进行微调。所有其他基线和我们提出的模型都是从头开始训练的在评估不同的方法时，我们使用相同的训练，测试和验证分割为了使模型不受相机数量的影响，我们在单个相机帧上训练Skeleton，I3 D，NL-I3 D在测试期间，我们汇总来自不同摄像头的预测以获得最终动作识别结果。颜色+深度也取决于相机的数量。然而，当在单摄像机帧上训练时，其性能要差得多。我们只报告了它在环境一下的测试一和测试二（使用所有四个相机帧进行训练和测试）的性能。在我们的实验中，我们基于我们的4D人物跟踪器为每个人提取4D体积给定每个人的位置，我们提取以该位置为中心的体积。该体积被设置为足够大以覆盖具有不同姿势的人特别是，我们exper-不同的体素大小。表2显示了两个模型的结果。Conv 3D + ATT是图5中的模型，Conv 3D具有类似的架构，但没有atten- tion分支。在本实验中没有应用所提出的自适应卷积层和鉴别损失。表2中的结果表明，我们可以用更小的体素尺寸实现更好的性能。以下为图6.如果场景中存在杂乱，Kinect V2骨架估计很容易出错。第一行：深度图像。第二行：KinectV2的标准化骨架.在实验中，我们将使用25mm体素来评估所提出的模型。模型体素尺寸卷大小ACCConv3DConv3D + ATT50mm50mm31× 31× 4331× 31× 4371.174.8Conv3DConv3D + ATT25mm25mm63× 63× 8563× 63× 8580.582.5表2.两个Conv3D模型在Env1数据上具有不同体素大小的相似体积覆盖率上的除了目标主体外，背景杂波和场景中的其他主体也包括在裁剪体积中，如图4所示。潜在的方法，如语义分割和3D骨架估计，可以用来从杂乱中分离出一个人。然而，在“杂乱”的环境中，结果可能不可靠例如，图6显示，随着背景杂波的增加，Kinect V2的骨架估计变得越来越不可靠当人们与大型物体交互并且他们的身体部位被这些物体遮挡时，骨架估计失败。因此，在本文中，我们不依赖于语义分割和3D骨架估计。相反，我们使用完整的4D体积数据，其中包含动作识别的每一个信息位。在下文中，我们展示了地面真实数据的实验结果。3.2. 地面实况实验我们对数据集进行了以下三个测试。(1)测试一：我们使用来自Env1的不同主题的14个单一主题视频。培训是在十个视频和测试是在三个视频。一个视频用于验证。它在训练视频中总共有68K帧，在验证视频中有6K(2)测试二：我们从测试一中获取训练好的模型，并在同样从Env1中收集的4个多主题视频上对其进行评估，其中分别包括3，3，3和2个人。它为所有多主题测试视频提供了总共6K帧(3)测试三：我们还进行了跨环境测试，进一步研究了不同方法的鲁棒性.我们在Env1和Env2的数据上训练所有模型。我们在从Env3收集的数据上测试所有模型，0.0.850.80.80.80.760.740.750.850.80.80.750.650.70.0.720.80.750.750.0.60.60.70.680.660.640.650.70.750.70.60.70.550.650.550.70.650.50.50.650.50.60.60.65-0.150.450.60.450.-0.20.550.550.60.60.40.550.7-0.250.650.5 4-0.1-0.15-0.50.65-0.10.5—0.150.520.60.440.450.42-0.15-0.450.6y-0.30.5— 0.15-0.15-0.15-0.2y-0.250.550. 四0.40.48-0.4-0.20.450.550.40.380.460.44y-0.30. 三○八。40.4 2-0.2-0.20.5-0.20.360.4- 0.2zzzzzzzz11864其具有与Env1和Env2以及单人和多人视频的一些不重叠的主题。Env3中的一个视频用作模型选择的验证视频。我们为每个测试报告两个准确度数字。ACC更严格：当且仅当动作预测结果与相应视频帧的基本事实标签相匹配时，我们认为动作识别是正确的。关于这个标准的一个问题是，在动作边界，准确的标签是困难的。对于瞬态动作，标记的小偏移可能导致检测结果与地面真值之间的不匹配。为了解决这一问题，我们定义了另一种准确度，即修正准确度（RAcc）。对于RAcc，当且仅当预测的动作标签与相对于当前视频帧的加/减三的窗口内的帧的地面实况标签相同时型号人数1人数2人数3平均表3.在测试一上评估拟议的模型和若干基线。我们显示了所有评估模型的准确度（Acc）和修订准确度（RAcc）的百分比表3显示了在地面真实测试一中不同竞争方法的准确度。在该测试中，我们提出的使用自适应卷积层训练的DNet 4DNet和提出的区分损失达到了最高的平均修正精度（RAcc）90。0%。我们还在不使用注意力模型的情况下训练了模型，这比E4DNet的性能要差。然而，它仍然比所有基线表现得更好。我们的方法我们还在每个单独的测试中实现最高的准确度。这些结果并不令人惊讶。手工制作的特征，如形状上下文和矩，不如从深度学习中学习到的特征那么强，尤其是在背景杂乱的情况下。PointNet在本实验中的准确性较低。这可能是由于强大的混乱，因为PointNet必须对点云进行采样以适应GPU内存。颜色+深度和骨架方法的性能优于其他手工制作的功能方法，但它们给出的结果比我们提出的方法差得多。I3 D和NL-I3 D显示出比其他方法更好的性能。但是，这两种方法也依赖于相机视图：如果相机设置不同，我们必须重新训练模型。相比之下，我们提出的方法可以用于不同的相机设置，而无需重新训练。SparseNet的输入也是与视图无关的。然而，它的性能比我们的模型差。下面的测试二和测试三证实了我们方法的可推广性。模型ACCRACC形状控制37.543.6联系我们34.239.1时刻36.244.5色彩+深度46.156.6骨架53.862.0PointNet58.964.6SparseNet60.468.3i3D58.166.7NL-I3D56.464.2D4DNet（w/o ATT）79.987.14DNet86.393.3表4.在地面真实测试二中评估所提出的模型和几个基线，这涉及多个人。我们使用在测试一中训练的相同模型来评估测试二中的所有多人视频。如表4所示，我们的方法在所有方法中仍然达到最高的准确度PointNet和SparseNet由于其颜色不可知的输入而表现出较少的性能退化。由于多人相互遮挡和背景杂乱，所有其他竞争方法的准确性较差。事实上，我们的4DNet甚至比测试一显示出更好的性能。这可能是由于测试二中每个测试视频的持续时间较短，因此动作变化较小。模型ACCRACC骨架45.049.4PointNet49.453.8SparseNet68.273.3i3D58.165.3NL-I3D61.368.3D4DNet（w/o ATT）74.880.54DNet81.487.0表5.跨环境测试的结果。我们在Env1和Env2的数据上训练所有模型，并在Env3上测试它们。由于篇幅限制，我们仅在测试三中包含深度学习方法的性能。结果示于表5中。再次，该模型显示出更好的-ACC RACCACCRACCACCRACCACC RACCShpCtx25656.963.151.556.555.761.654.760.5ShpCtx51255.260.547.653.156.862.653.458.9时刻37.444.944.95438.447.140.148.6色彩+深度53.660.564.171.752.760.156.663.9骨架66.772.272.179.156.862.864.971.0PointNet58.963.776.579.157.963.858.763.5SparseNet69.576.171.979.969.776.470.377.4i3D77.584.678.887.874.282.476.784.8NL-I3D73.781.378.888.174.282.975.584.04DNet（不含ATT）83.690.279.286.879.185.980.687.511865无饮拍手读打电话玩电话弯腰蹲下波浪坐姿提/拿箱子打开抽屉拉/推某物吃哈欠踢无饮拍手读打电话玩电话弯腰蹲下波浪坐姿提/拿箱子打开抽屉拉/推某物吃哈欠踢无饮拍手读打电话玩电话弯腰蹲下波浪坐姿提/拿箱子打开抽屉拉/推某物吃哈欠踢预测标签(a) 测试一预测标签(b) 测试两预测标签(c) 测试三图7.混淆矩阵用于我们的E4DNet模型的地面真实测试。所有基线的业绩。此外，我们的模型的精度与我们在表3中的结果相当，表3是在相同的环境中测试这表明，我们的方法是通用的和强大的背景变化。其他方法，包括I3 D和NL-I3 D，受到不同环境中不同背景和照明的严重影响模型测试一测试两测试三公司简介82.582.576.4公司简介81.685.480.6公司简介82.685.381.34DNet84.186.381.4表6.消融研究提出的自适应卷积和表3、表4和表5表明，我们提出的方法始终比所有竞争方法提供更好的结果。高准确性也得益于我们可靠的4D人物跟踪器，它对所有测试和培训视频都获得了100%的跟踪率。我们的方法也是快速的，使用单个GTX1080TI，我们的方法能够在50mm×50mm×50mm的体积上以每秒15帧（FPS）的速度跟踪10个人并推断他们的动作。体素大小。在25mm×25mm×25mm体素上，可以识别25 FPS的动作。图7显示了我们的Action 4DNet在三个不同测试中的混淆矩阵。有趣的是，在测试二和测试三中有许多遗漏的检测。特别是，对于弯腰动作，测试二和测试三都有超过40%的遗漏。这可能是由于该操作的大变化以及不同的地面真实标签使用的不一致的标签标准同时，我们的方法也混淆了一些动作，如图7所示。这主要是由于来自Kinect传感器的噪声数据。使用更好的深度相机和更好的时间同步，我们的动作识别结果可以进一步提高。此外，我们可以进一步包括其他体素属性，如颜色，并使用多分辨率体数据，以实现更强大的结果。3.3. 消融研究我们评估了所提出的自适应卷积层和判别式时间特征学习对动作识别性能的影响表6列出了结果。我们在测试一上展示了4DNet的准确性，歧视性的损失。我们使用测试二和测试三。所提出的自适应卷积层引入了更多的参数。因此，如果没有如测试一所示的区分性时间特征学习，它可能对模型没有帮助。然而，测试二和测试三的结果表明，自适应卷积层确实提高了模型在不同设置下的可生成性。在所有三个测试中，区别性损失都提高了基线104 DNet-A-D的性能。总体而言，结果表明，这两种机制在从4D体积学习更好的动作识别模型方面是有效的。4. 结论我们提出了一种新的在线4D动作识别方法，该方法能够生成环境的4D我们的方法能够处理多人和强烈的混乱。特别是，提出的自适应卷积层和判别时间特征学习目标进一步提高了我们模型的性能。我们在不同设置下的实验结果证实，我们的方法比不同的竞争方法提供更好的性能。所提出的方法可以被部署以使不同的应用程序能够增强人与环境的交互方式。0.920.000.010.000.000.000.010.030.000.000.000.010.010.000.000.010.94 0.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.97 0.010.000.020.000.000.000.000.000.000.000.000.000.000.000.000.000.000.99 0.000.000.000.000.000.000.000.000.000.000.000.000.040.010.000.000.74 0.000.000.000.000.000.000.000.000.000.000.040.000.090.030.000.69 0.000.000.000.000.000.000.000.000.000.050.000.000.000.000.000.95 0.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.060.000.000.000.000.000.000.000.94 0.000.010.000.000.000.000.000.040.000.000.030.060.000.000.000.000.88 0.000.000.000.000.000.000.170.000.000.000.000.000.000.070.010.73 0.000.000.000.000.010.000.000.000.000.000.000.000.000.000.000.000.001.00 0.000.000.000.000.000.030.000.000.000.000.000.000.000.000.000.000.000.97 0.000.000.000.000.040.000.000.000.000.000.000.000.000.000.000.000.000.96 0.000.000.000.000.000.030.010.000.000.000.000.000.000.000.000.000.000.96 0.000.000.020.000.010.000.000.000.000.000.160.030.000.000.000.000.000.78 0.000.120.000.000.020.000.000.000.000.000.000.000.070.000.000.000.000.790.960.000.000.000.000.000.000.010.000.000.000.000.010.000.000.010.100.88 0.000.000.000.000.000.020.000.000.000.000.000.000.000.000.000.000.001.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.010.000.000.94 0.000.000.000.010.000.000.010.000.000.010.000.000.060.000.000.000.94 0.000.000.000.000.000.000.000.000.000.000.000.030.000.000.000.000.97 0.000.000.000.000.000.000.000.000.000.000.440.000.000.000.000.000.380.000.000.000.000.000.020.150.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.020.000.000.000.000.000.000.000.90 0.000.080.000.000.000.000.000.040.000.000.000.010.000.000.000.010.93 0.000.010.010.000.000.000.000.000.000.000.000.000.000.030.000.97 0.000.000.000.000.000.000.040.000.000.000.000.000.000.000.000.000.000.91 0.000.050.000.000.000.430.000.000.000.000.000.000.000.000.000.000.150.420.000.000.000.000.010.000.000.000.000.000.000.000.000.000.010.000.98 0.000.000.000.020.000.010.010.000.000.000.000.000.000.000.000.000.000.97 0.000.000.000.000.000.000.000.000.000.000.130.000.000.010.000.000.000.86 0.000.050.000.000.000.000.000.000.000.000.000.000.030.000.000.000.000.92真实标签0.920.000.010.000.000.000.000

下载后可阅读完整内容，剩余1页未读，立即下载