基于图嵌入的姿态聚类异常检测

60 浏览量更新于2023-10-23 收藏 719KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10539基于图嵌入的姿态聚类异常检测Amir Markovitz1，Gilad Sharir2，Itamar Friedman2，Lihi Zelnik-Manor2，and ShaiAvidan11以色列特拉维夫特拉维夫大学2阿里巴巴集团{markovitz2@mail，avidan@eng}. tau.ac.il，{first.last}@ alibaba-inc.com摘要提出了一种新的人体行为异常检测方法.我们的方法直接对人体姿势图，可以从输入的视频序列计算这使得分析独立于讨厌的参数，如视点或照明。我们将这些图映射到一个潜在的空间，并将它们聚类。然后，每个动作通过其对每个集群的软分配来表示。这给出了一种然后，我们使用基于Dirichlet过程的混合，这对于处理比例数据（例如我们的软分配向量）非常有用，以确定动作是否正常。我们评估我们的方法上两种类型的数据集。第一种是细粒度的异常检测数据集（例如，我们希望检测某些动作的异常变化。第二个是粗粒度异常检测数据集（例如，基于动力学的数据集），其中很少动作被认为是正常的，并且每隔一个动作都应被认为是异常的。在基准测试上的大量实验表明，我们的方法1比其他最先进的方法表现得更好1. 介绍视频中的异常检测已经被广泛地研究了这是因为捕获的视频量远远超过了我们手动分析的能力。异常检测算法旨在帮助人类操作员处理这个问题。问题是如何定义异常以及如何检测它们。一个动作是否正常的决定是微妙的。在某些情况下，我们感兴趣的是检测一个动作的异常变化。例如，一种不正常的行走。我们称这种细粒度异常检测。在其他情况下，我们可能会对定义非-1代码可在：https://github.com/amirmk89/gepc错误的行为，并认为任何其他行为是不正常的。例如，我们可能对确定跳舞是正常的而体操是不正常的感兴趣。我们称之为粗粒度异常检测。我们希望一个算法，可以处理这两种类型的异常检测在一个单一的，统一的方式。这样的算法应该将一组未标记的视频作为输入，这些视频仅捕获正常动作（细粒度或粗粒度），并使用这些视频来训练一个模型，该模型将区分正常和异常动作。我们利用人体姿态估计的最新进展这提供了若干优点。首先，它抽象的问题，让算法专注于人类的姿态，而不是无关的功能，如观看方向，照明，或背景杂波。此外，人体姿势可以表示为紧凑的图，这使得分析，训练和测试更快。给定一系列视频帧，我们使用姿态估计方法来提取每个帧中每个人的关键点。剪辑中的每个人都表示为一个时间姿态图。我们使用一个自动编码器和一个聚类分支的组合，以映射到一个潜在的空间，样本软聚类的训练样本。然后，每个样本通过其对k个集群中的每一个的软分配来表示。这可以被理解为学习用于动作的每个聚类对应于一个动作词，并且每个动作由其与每个动作词的相似性来表示图1给出了我们的方法的概述。软分配向量捕获比例数据，测量其分布的工具是Dirichlet过程混合模型。一旦我们将模型与数据拟合，我们就可以获得每个样本的正态性得分，并确定该行为是否被归类为正常。因此，该算法由一系列的抽象。使用人体姿势图消除了处理视点和光照变化的需要。软分配表示从Dirichlet模型中抽象出数据的类型（细粒度或粗粒度）。10540聚类层软分配概率常态评分（）下一页潜在向量位姿估计编码聚类图1. 模型图（推理时间）：为了给视频评分，我们首先执行姿势估计。使用时空图自动编码器（ST-GCAE）的编码器部分对提取的姿态进行编码，从而产生潜在矢量。使用深聚类层将潜在向量软分配给聚类，其中pik表示样本xi被分配给聚类k的概率。我们评估我们的算法在两个设置。第一个是ShanghaiTech Campus[16]数据集，这是一个大型且经过广泛评估的异常检测基准。这是一个典型的（细粒度）异常检测基准，其中正常行为被视为行走，目标是检测异常事件，例如人们跑步、打架、骑自行车、投掷物体等。第二个是我们提出的一个新的问题设置，并对粗粒度异常检测进行了说明而不是集中在一个单一的行动（即，步行），如在ShanghaiTech数据集中一样，我们构建了一个由不同数量的动作组成的训练集，这些动作被视为正常。例如，训练集可以包括不同舞蹈风格的视频剪辑。在测试时，每个舞蹈视频都应归类为正常，而任何其他动作都应归类为异常。我们展示了这种新的，具有挑战性的，粗粒度异常检测设置两个动作分类数据集。首先是NTU-RGB+D数据集，其中使用Kinect检测3D身体关节。第二个是一个更大、更具挑战性的数据集，由Kinetics400数据集2中400个动作中的250个组成。对于这两个数据集，我们使用动作的子集来定义正常动作的训练集，并使用其余的视频来测试算法是否可以正确区分正常视频和异常视频。我们进行了大量的实验，比较，伯的竞争方法的数量，并发现我们的算法优于他们所有的。总之，我们提出三个关键贡献：• 嵌入姿态图和Dirichlet混合过程在视频异常检测中• 一种新的粗粒度设置，用于探索视频异常检测的更广泛前景。• 最先进的AUC为0。761为上海科技园区异常检测基准。2我们只使用类的一个子集，因为不是所有的类都可以使用人体姿势检测器检测到。2. 背景2.1. 视频异常检测异常检测的领域很广，在设置和假设方面有很大的变化，这一点可以通过为评估该领域的方法而提出的不同数据集来对于我们的细粒度实验，我们使用上海理工大学校园数据集[16]。它包含了13个不同场景中的130个异常事件，具有各种相机角度和照明条件，比以前所有常见的数据集更加多样化和显着更大。报告采用详情见第4.1节。近年来，许多工作使用基于深度学习的模型来解决视频中的异常检测这些可以大致分为重建模型，预测模型和生成模型。重建模型学习每个样本的特征表示，并尝试基于特征表示来重建样本。在嵌入上，通常使用自动编码器[1，6，10]。基于预测模型的方法旨在基于一组先前帧对当前帧进行建模，通常依赖于递归神经网络[15，16，17]或3D卷积[21，29]。在某些情况下，基于重建的模型与基于预测的方法相结合，以提高准确性[29]。在这两种情况下，重构或预测不良的样本被认为是异常的。生成模型也用于重建，预测或建模数据的分布，通常使用变分自动编码器（VAE）[3]或GAN [2，14，19，20]。Liuet al. [13]使用生成的未来帧预测模型，并通过评估基于梯度的特征和光流的差异来将预测与其地面实况进行比较。这种方法需要光流计算和生成完整的场景，这使得它成本高，对大的场景变化的鲁棒性较差。最近，Moraiset al.[18]提出了一种使用全连接RNN分析姿态的异常检测方法= 1= 4ST-GCAE（编码器）10541序列的该方法嵌入一个序列，然后使用重建和预测分支分别生成过去和未来的姿态。异常评分由模型的重建和预测误差2.2. 图卷积网络为了将人体姿态表示为图，使用加权邻接矩阵来描述图的内部关系。每个矩阵可以是静态的或可学习的，并且表示任何类型的关系。近年来，提出了许多将基于深度学习的方法应用于图形数据的方法。Kipf和Welling [12]提出了图上快速近似的概念.继Kipf和Welling之后，提出了时间和多邻接扩展。Yanet al[27] Yuet al. [28]提出了时间扩展，以前的工作提出使用可分离的空间和时间图卷积（ST-GCN），依次应用。我们遵循基本的ST-GCN模块设计，如图2所示。算法的每一步工作得更好。首先，我们使用一个人类姿态检测器的输入数据。这将问题抽象化，并防止后续步骤处理讨厌的参数，如视点或照明变化。人类的行为被表示为时空图，我们嵌入（子章节3.1，3.2）和集群（子章节3.3）在一些潜在的空间。每个动作现在都表示为一组基本动作的软分配向量。这抽象了底层动作类型（即，细粒度或粗粒度），导致学习它们的分布的最后阶段我们用于学习软分配向量分布的工具是Dirichlet过程混合（3.4小节），我们将模型拟合到数据。然后，该模型用于确定动作是否正常。3.1.特征提取我们希望捕捉身体关节之间的关系，同时提供对外部因素的鲁棒性Velicko vic' 等人[24]第24话注意力网络例如外观、视点和照明。所以我们作品，一个GCN扩展，其中neigh的权重使用注意机制推断无聊节点，仅依靠固定的邻接矩阵来确定邻近节点。Shi等人[23]最近通过使用几个邻接矩阵扩展了时空图卷积的概念，其中一些是学习或推断的。推断邻接使用嵌入式相似性措施，确定，在训练过程中优化。在应用卷积之前对邻接矩阵求和。2.3.深度聚类模型深度聚类方法旨在通过在聚类诱导目标下优化深度模型来提供有用的聚类分配。例如，最近的几种方法使用无监督表示学习方法（如自动编码器）与聚类模块联合嵌入和聚类数据[5，8，25，26]。谢等人提出的方法。[26]，表示为深Em-beded聚类（DEC），提出了一种交替的两步方法。在第一步骤中，使用当前集群分配来计算目标分布在下一步骤中，优化模型以提供与目标分布类似的聚类分配。最近的扩展解决了DEC3. 方法我们设计了一个异常检测算法，可以在许多不同的情况下操作。该算法由一系列抽象组成，旨在帮助用图表来表示一个人图的每个节点对应于一个关键点、一个身体关节，并且每条边表示两个节点之间的某种关系。存在许多关键点关系，诸如解剖学上定义的物理关系（例如，左手腕和肘部连接）以及由在特定动作（例如，在跑步时，左膝和右膝倾向于沿相反方向移动图的方向是由于某些关系是在优化过程中学习这种表示的一个不错的好处是紧凑，这对于高效的视频分析非常重要为了在时间上扩展该公式，从视频序列中提取的姿态时间姿态图是人体关节位置的时间序列。时域邻接可以通过连接连续帧中的关节来类似地定义，从而允许我们利用姿势图序列的空间维度和时间维度来执行图卷积操作我们提出了一种基于深度时间图自动编码器的架构，用于嵌入时间姿态图。基于图2所示的ST-GCN的基本块设计，我们用一种新的空间注意力图卷积代替了基本的GCN算子，如下所示。我们使用这个构建块来构建时空图卷积自动编码器，或ST-GCAE。我们使用ST-GCAE嵌入时空图，并采取嵌入作为我们的聚类分支的起点。10542k′我= 1= 2空间注意力曲线转换时间卷积批归一化ReLU激活= 3= 4姿势序列图2. 时空图卷积块：用于构建ST-GCAE的基本块。空间注意力图卷积（图3）之后是时间卷积和批量归一化。使用剩余连接3.2. 空间注意力图卷积我们提出了一种新的图运算符，如图3所示，它使用三种类型的邻接矩阵：静态、全局学习和推断（基于注意力）。每个邻接类型都使用其自己的GCN，使用单独的权重来应用。GCN的输出堆叠在渠道维度应用1×1卷积作为一种可学习的减少措施，用于对堆叠的输出进行加权。输入，并提供所需的输出通道号。三个邻接矩阵捕捉模型的不同方面：（i）使用身体部位连接性作为节点关系的先验，使用静态邻接矩阵表示。（ii）数据集级关键点关系，由全局邻接矩阵捕获，以及（iii）样本特定关系，由推断的邻接矩阵捕获。最后，可学习的约简度量对不同的输出进行加权。静态邻接A是固定的并且由所有层共享。全局可学习矩阵B在每一层单独学习，并且在前向传递期间同等地应用于所有样本。推断的邻接矩阵C基于注意力机制，该注意力机制使用学习的权重来计算样本特定邻接矩阵，该样本特定邻接矩阵对于批次中的每个样本都是不同的。例如，对于具有V个节点的一批大小为N的图，推断出的邻接大小是[N，V，V]，而其他邻接是[V，V]矩阵。全局学习的邻接是通过初始化一个全连通图来学习的在训练期间，该矩阵与模型的其余参数联合优化。这种邻接的计算开销对于包含不超过几十个节点的图来说很小。图3. 空间注意力图卷积：一放大我们的空间图卷积运算符，由三个GCN [12]运算符组成：一个使用硬编码的物理邻接矩阵（A），第二个使用在训练过程中学习的全局邻接矩阵（B），第三个使用使用注意力子模块（C）引用的邻接矩阵使用剩余连接GCN模块包括批量标准化和ReLU激活，为了可读性而省略。3.3. 深度嵌入式聚类为了构建我们的底层动作字典，我们获取训练集样本，并将它们联合嵌入和聚类到某个潜在空间中。然后，每个样本由其到每个底层聚类的分配概率表示目标被选择为提供不同的潜在集群，在这些集群上存在动作。我们采用了深度嵌入聚类[26]的概念，用于使用我们的ST-GCAE架构对时间图进行提出的聚类模型包括三个部分，编码器，解码器，和软聚类层。具体来说，我们的ST-GCAE模型保持图的结构，但使用大的时间步长与增加的通道数压缩输入序列的一个潜在的解码器使用时间上采样层和附加的图形卷积块，用于逐渐恢复原始通道计数和时间维度。ST-GCAE在我们的聚类优化阶段，对基于初始重建的嵌入进行微调，以达到最终的聚类优化嵌入。对于每个输入样本xi，我们用z i表示编码器的潜在嵌入，用y i表示使用聚类层计算的软聚类分配。我们用Θ表示聚类层的参数。第i个样本被分配给第k个聚类的概率为：exp（θTzi）使用图自注意层构造推断邻接矩阵。在评估了几个注意pik= Pr（yi= k|zi，Θ）= Kk′=1Kexp（θTz）.（一）模型我们选择了一个简单的乘法注意机制。首先，我们使用两组学习的权重嵌入输入两次。然后，我们转置一个嵌入矩阵，并取两者之间的点积，然后进行归一化。然后我们得到推断的邻接矩阵。在-我们采用[26]提出的聚类目标和优化聚类目标是最小化当前模型概率聚类预测P与目标分布Q之间的KL发散：所选择的张紧机构是模块化的，并且可以用其他常见的替代品来代替。更多详情请浏览L簇= KL（Q||P）=Σ Σqik测井吉伊克.（二）参见补充材料。伊克皮克GCN[，][，，]GCN[，]1x1转换[，，3]��[，，]收件人块GCN[，，][，]10543目标分布旨在通过标准化和推动每个值更接近0或1的值来加强当前的聚类分配。将P转换为Q的函数的递归应用最终将导致硬分配向量。使用以下公式计算目标分布的每个成员：Σ1pik/（i′pi′k）2qik=1。（三）k′pik′/（i′pi′k′）2聚类层由针对编码训练集计算的K均值质心初始化。优化是在期望最大化（EM）中完成的，如fash-ion。在期望步骤中，整个模型是固定的，目标分布Q是更新的。在最大化阶段，对模型进行优化，以最小化聚类损失L聚类。3.4. 正态性评分该模型支持两种类型的多式联运分布。一个是集群分配级别;另一个是在软分配向量级。例如，动作可以被分配给多于一个集群（集群级分配），从而产生多模式软分配向量。软分配向量本身（捕获动作）也可以通过多峰分布来建模Dirichlet过程混合模型（DPMM）是一种评价比例数据分布的有效方法。它符合我们所需的设置：（i）估计（拟合）阶段，在此期间评估一组分布参数，以及（ii）推断阶段，使用拟合模型为每个嵌入样本提供分数。Blei和Jordan [4]对该模型进行了全面的概述。DPMM是单峰狄利克雷分布的常见混合扩展，并使用狄利克雷过程，狄利克雷分布的无限维扩展。该模型是多模态的，并且能够将每种模式捕获为混合物组分。拟合模型有几个模式，每个模式代表一组对应于一个正常行为的比例。在测试时，使用拟合模型通过其对数概率对每个样本进行评分。关于DPMM使用的进一步解释和讨论见[4，7]。3.5. 培训该模型的训练阶段由两个阶段组成，一个是自动编码器的预训练阶段，其中网络的聚类分支保持不变，另一个是微调阶段，其中嵌入和聚类都得到优化。详细内容：培训前：该模型通过最小化重构损失、解压缩和重构来学习编码和重构序列。注意到Lrec，其是原始时间姿态图和由ST-GCAE重建的那些图之间的L2微调：该模型优化了由重构损失和聚类损失两者组成的组合损失函数。进行优化，使得聚类层相对于. r. t.L 簇，解码器被优化w.r.t.Lrec和编码器被优化w.r.t.两者聚类层的初始化是通过K-均值完成的。如[8]所示，当编码器被优化w.r.t. 对于这两种损失，解码器被保留，并且充当用于保持编码器的嵌入质量的该阶段的综合损失为：L组合=Lrec+λ·L聚类。（四）4. 实验我们在两个不同的设置中评估了我们的模型，使用三个数据集。第一个设置是常见的视频异常检测设置，我们将其表示为细粒度设置。在这种情况下，正常样本由单个类组成，我们试图找到与之相比的细粒度变量。对于这个设置，我们使用上海科技大学校园数据集.第二个是我们的新问题设置，我们表示粗粒度异常检测，在其中，我们试图找到异常的行动是从那些定义为正常的不同。4.1. 上海理工大学校园数据集ShanghaiTech Campus数据集[16]是一个可用于视频异常检测的最大和最多样化的数据集。主要呈现基于人的异常，它包含在13个不同场景中捕获的130个异常事件，具有复杂的照明条件和摄像机角度。剪辑包含任何数量的人，从没有人到超过20人。该数据集包含超过300个未经修剪的训练和100个未经修剪的测试片段，长度从15秒到超过一分钟不等。实验设置实验由两个数据分割组成，一个训练分割只包含正常的例子，一个测试分割包含正常和异常的例子。仅使用培训分割进行培训。单独计算每个帧的得分，并且组合得分是测试集中所有帧得分的连接的ROC曲线下面积我们使用滑动窗口的方法来评估未知长度的视频流。我们将输入姿势序列拆分为固定长度的重叠片段，并对每个片段进行单独评分。对于超过一个人的剪辑，每个人都单独评分。取帧中所有人的最大分数。由于上海理工大学校园数据集没有对姿势进行注释，因此我们使用2D姿势估计模型从每个片段中提取人体姿势。10544上海理工大学校园Luo等人[16个]0.680Abati等人[1]第一章0.725Liu等[13个国家]0.728Morais等人[18个国家]0.734我们的-姿势0.752我们的-补丁0.761表1. 细粒度异常检测结果：分数代表帧级AUC。[18]使用关键点坐标作为输入。我们还使用补丁嵌入作为输入特征而不是关键点坐标来评估我们的模型。从每个关键点周围裁剪像素RGB数据的补丁。使用CNN嵌入补丁，并使用补丁特征向量嵌入每个关键点。模型的所有其他方面都保持不变。给定姿态估计模型的使用，可以从姿态估计模型的隐藏层中的一个获取补丁嵌入有关我们的模型的这种变体、实现和所使用的姿态估计方法的进一步细节可在补充材料中获得。评价我们遵循Luo等人的评价方案。[16]并在表1中报告我们模型的ROC曲线下面积（AUC）。’Pose’ ’Patch’ 我们的模型优于以前的最先进的方法，无论是姿势和像素为基础，由一个大的利润。4.2. 粗粒度异常检测4.2.1实验环境对于我们的第二个粗粒度异常检测设置，使用被认为是正常的几个动作类的样本来训练模型。训练是在没有标签的情况下以无监督的方式进行的。该模型的评估是通过判断一个新的不可见剪辑是否属于构成正常样本的任何动作的能力来进行的对于这种设置，我们采用了两个动作识别数据集来满足我们的需求。这为我们提供了很大的灵活性，并可以控制我们想要检测的正常/异常操作的类型。数据集是NTU-RGB+D和Kinetics-250，提供了剪辑级别的动作标签。在这个设置中，我们首先选择3-5个动作类，并将它们标记为我们的分割.类分为两组样本，分裂样本和非分裂样本。所有标签都被删除。除最终评价阶段外，在此之后不使用标签。我们做了两个互补的实验。Few vs. Many，训练集中只有很少的正常动作（比如3-5个），而测试集中有很多（几十个甚至几百个）被表示为异常的动作。然后，我们重复实验，但切换训练集和测试集的角色，并将其表示为Many vs. 几个我们对两种类型的分裂重复上述实验第一种称为随机分割，由从每个数据集中随机选择的3-5个类组成。第二个，我们称之为有意义的分裂，是由行动分裂，主观分组后，一些绑定逻辑有关的行动表3提供了有意义和随机分割的样本。我们使用10个随机和10个有意义的分割来评估每个数据集。4.2.2评价方法我们比较我们的算法，几个异常检测算法。除了最后一个算法之外，所有算法都是无监督的：自动编码器重建损失我们使用ST-GCAE模型的重建损失。在所有实验中，ST-GCAE在深度聚类微调阶段之前达到收敛。ST-GCAE的进一步优化没有产生一致的结果改善。基于自动编码器的单类SVM我们使用编码的姿态序列表示（在3.3节中表示为zi）拟合单类SVM模型。在测试期间，使用拟合模型对每个样本的相应表示进行评分。视频异常检测方法我们训练了Liu等人提出的未来帧预测模型。[13]以及Morais等人提出的骨架轨迹模型。[18]使用我们的各种数据集分割。通过对模型提供的每帧分数求平均值来获得每个视频的异常分数。作为由Moraiset al. 仅处理2D姿势，它不适用于3D注释的NTU数据集。分类器softmax分数监督基线使用经过训练的分类器来对来自数据集分割的每个类进行分类。分类器架构基于[27]提出的架构。为了处理样本数量明显较少，我们使用了一个较浅的变体。有关分类器架构和实现细节，请参见suppl.在评估阶段，样本通过分类器，并记录其softmax输出值。该方法中的异常评分是通过使用softmax向量我们发现基于Dirichlet的评分在大多数情况下表现更好，我们报告了基于它的结果。10545NTU-RGB+D Kinetics-250少数与多人VS几个几个vs.多人VS 几方法随机有意义随机有意义随机有意义随机有意义监督0.860.830.820.900.770.710.630.82Rec. 损失0.500.540.530.540.450.460.510.61OC-SVM0.600.670.600.690.560.560.520.47Liu等[13个国家]0.570.640.560.630.550.600.550.58Morais等人[18个国家]----0.570.590.560.58我们0.730.820.720.850.650.730.620.74表2. 粗粒度实验结果：数值代表ROC曲线下面积（AUC）。粗体是表现最好的无监督方法的结果。下划线是最好的方法。对于所有实验K= 20个簇，详情见第3.3应注意，在随机选择的情况下，AUC=0.50值得注意的是，这种方法与我们的方法和其他基线有根本的不同。基于分类器的方法是一种监督方法，依赖于其他方法没有使用的类操作标签。因此不能直接比较，仅供参考。动力学随机1掰手腕（6），爬行婴儿（77）介绍天气预报（254），冲浪人群（336）肚皮舞（18），卡波耶拉舞（43），排舞（75），萨尔萨舞（283），探戈（348），尊巴（399）健身弓步（183），引体向上（255），俯卧撑（260），仰卧起坐（305），深蹲（330）NTU-RGB+D办公室接听电话（28），玩手机/平板电脑（29），在键盘上打字（30），看手表（33）拳击（50），踢（51），推（52），拍背（53）表3. 拆分示例：用于评估Kinetics和NTU-RGB+D数据集的随机和有意义分割的子集。对于每个拆分，我们列出包含的类。括号中的数字是数字类标签。完整的列表，请参见suppl.4.2.3数据集NTU-RGB+D 由Shahroudy 提供的NTU-RGB+D数据集等人[22]由一个或两个人表演60个动作类中的一个的剪辑组成。课程包括单人和双人互动，使用静态摄像机拍摄。它提供了使用Kinect深度传感器估计的3D关节对于这个数据集，我们使用了一个类似于ShanghaiTech实验所用的模型配置，其尺寸适合3D姿势。Kinetics-250Kayet al.[11]是400个动作类的集合，每个动作类有超过400个10秒长的剪辑。这些片段是从YouTube下载的，可能包含任何数量的人，但不能保证完全可见。由于Kinetics最初不打算用于姿态估计，因此某些类别无法通过人类姿态提取方法识别，例如， hairbraiding类包含主要集中在手臂和头部的剪辑。对于这样的视频，全身姿态估计算法在大多数情况下将产生零关键点。因此，我们使用Kinetics-400的一个子集，该子集适合于使用姿势序列进行评估。为了做到这一点，我们转向[27]的动作分类结果。使用他们公开的模型，我们选择了250个表现最好的动作类的一个子集，按照它们的前1名训练分类准确性进行排名。得分最低的班级的准确率为18%。我们表示我们的子集Kinetics-250。由于Kinetics的庞大规模（比ShanghaiTech），我们使用单个GCN进行空间卷积-解决方案，只使用静态A邻接矩阵，没有池化。这使得该块与[27]提出的块相同，仅用于该特定设置。我们量化了这种变体在Supply中的退化。动力学不为姿态标注，我们使用2D姿态估计模型。4.2.4评价我们在表2中报告了ROC曲线下面积（AUC）结果。由于这些数据集需要剪辑级别的注释，因此我们的方法不需要滑动窗口方法，并且每个时间姿势图都在单个向前传递中进行评估，其中得分最高的人被选中。可以看出，我们的算法优于所有四个competing（无监督）的方法，往往是一个很大的保证金。该算法在随机和有意义的分割模式下都能很好地工作，以及在少数与许多和许多VS。几个设置。然而，请注意，105460.90.80.7(a)(b)（c）第（1）款图4. 失败案例，上海科技：帧与提取的姿势重叠。在（a）栏中，大量人群挡住了0.60.50.0 1.0 5.0 10.0 20.0异常样本量（%）不正常的溜冰者和对方造成多次失误。柱(b) 描绘了一个骑自行车的人，被认为是不正常的。快速移动导致姿势估计失败，从而阻止检测。列（c）描绘了框架中的车辆，这不是我们的方法所解决的。更好的是，在有意义的分裂（与随机分裂相比）。我们认为这是因为有意义的分裂有着相似的模式。该表还揭示了姿态估计的质量对结果的影响。也就是说，NTU-RGB+D数据集更干净，并且使用Kinect深度传感器恢复人体姿势。因此，估计的姿势更准确，结果通常优于Kinetics- 250数据集。4.3. 失败案例图4显示了一些失败案例。将恢复的姿态图叠加在图像上。可以看出，在单个剪辑中，人们如列（a）所示，高度拥挤的大量的部分ex-expertise的人导致模型提供的分数的大的变化，并错过了多个帧的异常滑冰者。列（b-c）中描绘的两个失败示出了依赖于用于表示剪辑中的动作的提取的姿态的弱点。列（b）示出了通过姿态估计方法非常部分地提取并且被模型错过的骑自行车者。列（c）显示与人无关的事件，而不是由我们的模型处理。这里，一辆车穿过框架。4.4. 消融研究我们进行了大量的实验来评估我们的模型对噪声正常训练集的鲁棒性，即，在训练集中存在一定百分比的异常动作，下面给出我们还进行实验，以评估关键模型组件的重要性和我们的聚类方法的阶段，在Suppl.噪声鲁棒性在许多情况下，不可能确定数据集是否只包含正常样本，并且需要对噪声具有一定的鲁棒性为了评估该模型图5.噪声数据训练的AUC损失性能当随机添加一定百分比的异常样本时，为NTU-RGB+D分裂训练的模型。该模型对大量噪声具有鲁棒性。在20%时，噪声超过了构成分割的一些底层类的数据量。不同的曲线表示不同的数据集分割。将随机选取的异常样本数加入训练集。这些数据取自数据集未使用的异常结果示于图5中。我们的模型是鲁棒的，在训练过程中处理大量的异常数据，性能损失很小。对于大多数异常检测设置，以5%的比率发生的事件被认为非常频繁。当我们的模型在这种干扰下训练时，平均损失不到10%当在20%的异常噪声下训练在这种情况下，训练集通常由5个类组成，因此20%的分心率可能大于单个底层类。5. 结论我们提出了一个异常检测算法，依赖于估计的人体姿势。人体姿态表示为时间姿态图，我们共同嵌入和聚类它们在一个潜在的空间。因此，每个动作被表示为潜在空间中的软分配向量。我们使用Dirichlet过程混合模型分析这些向量的分布。由模型提供的正态性分数用于确定动作是否正常。所提出的算法在细粒度异常检测上都起作用，其中目标是检测单个动作（例如，步行），以及新的粗粒度异常检测设置，其中目标是区分正常和异常动作。大量的实验表明，我们实现了国家的最先进的结果在上海科技，一个领先的（细粒度）异常检测数据集。我们还优于现有的无监督的方法，我们新的粗粒度异常检测测试。分裂下降触摸Rand8曲线下面积10547引用[1] Davide Abati、Angelo Porrello、Simone Calderara和RitaCucchiara。用于新颖性检测的潜在空间自回归。在IEEE计算机视觉和模式识别会议（CVPR），2019年。二、六[2] SametAkcay、AmirAtapour-Abarghouei和TobyPBreckon。跳跃性异常：跳过连接和逆向训练的编码器 - 解码器异常检测。 arXiv 预印本 arXiv ：1901.08954，2019。2[3] 安镇元和赵成俊基于变分自动编码器的重构概率异常检测IE专题讲座，2：1-18，2015。2[4] David M Blei和Michael I JordanDirichlet过程混合物的变分推断贝叶斯分析，1（1）：1215[5] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在2018年欧洲计算机视觉会议3[6] 杨善忠和杨浩泰。使用时空自动编码器检测视频中的异常事件计算机科学讲义，第189196页，2017年。2[7] 或者Dinari，Angel Yu，Oren Freifeld和John W FisherIII。基于julia的dirichlet过程混合模型分布式mcmc推理。2019年第19届IEEE/ACM集群、云和网格计算国际研讨会（CC-GRID），第518-525页，2019年。5[8] Kamran Ghasedi Dizaji ， Amirhossein Herandi ， ChengDeng，Weidong Cai，and Heng Huang.通过联合卷积自动编码器嵌入和相对熵最小化进行深度聚类。IEEEInternational Conference on Computer Vision（ICCV），2017。三、五[9] Philip Haeusser，Johannes Plapp，Vladimir Golkov，ElieAl-jalbout，and Daniel Cremers.关联深度聚类：训练没有标签的分类网络。德国模式识别会议。Springer，2018. 3[10] 放大图片作者：Mahmudul Hasan，Jonghyun Choi，JanNeumann，Amit K. Roy-Chowdhury和Larry S.戴维斯学习视频序列中的时间规律。在IEEE计算机视觉和模式识别会议（CVPR），2016。2[11] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan ，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，etal. 人体运动视频数据集。 arXiv 预印本 arXiv ：1705.06950，2017。7[12] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。国际学习表征会议（ICLR），2017年。三、四[13] Wen Liu ， Weixin Luo ， Dongze Lian ， and ShenghuaGao.异常检测的未来帧预测--一条新的基线. IEEE计算机视觉和模式识别会议（CVPR），2018年。二六七[14] William Lotter，Gabriel Kreiman，and David Cox.使用预测生成网络的视觉结构的无监督学习arXiv预印本arXiv：1511.06380，2015年。2[15] Weixin Luo，Wen Liu，and Shenghua Gao. 使用卷积lstm进行异常检测以记住历史记录在2017年IEEE多媒体和博览会国际会议（ICME），第439-444页。IEEE，2017年。2[16] Weixin Luo，Wen Liu，and Shenghua Gao.堆叠式rnn架构中以IEEE国际计算机视觉会议（ICCV），2017。二、五、六[17] Jefferson Ryan Medel和Andreas Savakis。使用预测卷积长短期记忆网络的视频异常检测。arXiv预印本arXiv：1612.0390，2016年。2[18] Romero Morais、Vuong Le、Truyen Tran、BudhadityaSaha、Moussa Mansour和Svetha Venkatesh。学习骨架轨迹中的规则性以用于视频中的异常检测。在IEEE计算机视觉和模式识别会议（CVPR），2019年。二六七[19] Mahdyar Ravanbakhsh、Moin Nabi、Enver Sangineto、Lu- cio Marcenaro、Carlo Regazzoni和Nicu Sebe。使用生成对抗网络检测视频中的异常事件。IEEEInternationalConferenceonImageProcessing（ICIP），2017年。2[20] Mahdyar Ravanbakhsh，Enver Sangineto，Moin Nabi和Nicu Sebe。2017年，训练对抗性判别器用于人群中的跨通道异常事件检测。2[21] Mohammad Sabokrou ， Mohsen Fayyaz ， MahmoodFathy，and Reinhard Klette.Deep-cascade：级联3D深度神经网络，用于在拥挤场景中进行快速异常检测和定位。IEEE Transactions on Image Processing，26（4）：1992-2004，2017。2[22] Amir Shahroudy，Jun Liu，Tian-Tsong Ng，and GangWang.Ntu rgb+d：用于3D人类活动分析的大规模数据集在IEEE计算机视觉和模式识别会议，2016。7[23] 石磊，张一凡，程健，卢汉青。基于骨架动作识别的双流自适应图卷积网络。在CVPR，2019年。3[24] Pet a rVeli cˇko vi c´ ，GuillemCucurull，ArantxaCasan ova，AdrianaRomero，PietroL io`，andYoshuaBengio. 图注意力网络。2018年国际学习代表大会。3[25] Zhangyang Wang ， Shiyu Chang ， Jiayu Zhou ， MengWang，and Thomas S.煌学习特定于任务的深层架构以进行聚类。2016年SIAM国际数据挖掘会议论文集，2016年6月。3[26] 谢俊源、罗斯·吉希克和阿里·法哈迪。用于聚类分析的无监督深度嵌入。 2016 年国际机器学习会议（ICML）。三、四[27] 严思杰，熊元军，林大华。用于基于骨架的动作识别的空间时间图卷积网络。2018年AAAI人工智能会议。三六七[28] 冰瑜，殷浩腾，朱展行。时空图卷积网络：用于流量预测的深度学习框架。第二十七届人工智能国际联合会议论文集，2018年7月。3[29] Yiru Zhao，Bing Deng，Chen Shen，Yao Liu，HongtaoLu，and Xian-Sheng Hua.用于视频异常检测的时空自动编码器第25届ACM国际多媒体会议论文集。ACM，2017。2

下载后可阅读完整内容，剩余1页未读，立即下载