自训练深度有序回归用于视频异常检测

153 浏览量更新于2023-10-23 收藏 924KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12173用于端到端视频异常检测的自训练深度有序回归庞冠松1岁，程燕2岁，沈春华1岁，安东·范登亨格尔1岁，小白2岁，澳大利亚阿德莱德大学2岁，中国北京航空摘要视频异常检测对于各种实际应用具有关键的实际重要性，因为它允许人类的注意力集中在可能感兴趣的事件上，而不管视频的其他压倒性的体积。我们表明，将自训练的深度正交回归应用于视频异常检测克服了现有方法的两个关键限制，即1）高度依赖于手动标记的正常训练数据;2)次优特征学习通过制定一个替代的两类有序回归任务，我们设计了一个端到端的可训练的视频异常检测方法，使联合表示学习和异常评分，而无需手动标记正常/异常数据。八个真实世界的视频场景的实验表明，我们提出的方法优于国家的最先进的方法，不需要标记的训练数据由一个很大的保证金，并使识别的异常容易和准确的定位此外，我们证明了我们的方法提供了有效的人在回路异常检测，这在异常罕见且假阴性成本高的应用中至关重要1. 介绍视频中的异常检测是从视频序列中识别帧的任务，这些帧描述了明显偏离规范的事件。识别这样的异常事件，火灾、交通事故或踩踏事件可能具有重大的实际意义，特别是在指导及时反应方面。这项任务特别具有挑战性，因为异常事件是罕见的，视觉上没有界限，而且在发生之前往往无法识别尽管如此，它在各种各样的应用领域中是至关重要的，因为它提供了一种方法，用于允许人类注意力集中在否则压倒性的视频量内最可能感兴趣的事件上。这个问题的现实意义已经见多识广GNP和CY同样为这项工作做出了贡献。CY†通讯作者，电子邮件：chunhua。shen @ adelaide。edu. au图1-（a）两步和（b）端到端异常检测的管道。两步方法体现了单独的特征提取/学习和异常评分方法，而端到端方法统一了这两个模块，并直接从原始输入中学习异常此外，前者通常需要一组标记的正常视频，而我们的方法不需要手动注释正常/异常数据。视频异常检测方法的开发。大多数现有的方法假设描述一组“正常”事件的标记数据集的可用性。这包括基于字典学习的方法[4，7，26，44]和最近出现的基于深度学习的方法[12，14，24，27，40，42]。这一假设极大地限制了它们的应用领域，尤其是因为这意味着系统不能在没有人类参与的情况下连续地重新训练，也不能应用于数据库筛选[8]。为了解决这个问题，这里我们解决了所谓的 “ 无监督视频异常检测”[8，40]，其需要在没有手动标记的正常/异常训练数据的情况下从大量视频帧中识别异常帧。这个版本的问题可能是唯一可行的方法，在许多应用领域，人类标记的视频是非常昂贵的或不可能的。例如，这包括大规模视频监控、互联网视频过滤和工业过程安全监控。测试数据自学和测试端到端评分异常检测(b)异常分数标记正态数据特征提取培训测试数据测试评分异常测量(a)电流两步异常检测特征学习器特征学习器12174因为在所有这些情况下，正常事件的定义是多样的，不断变化的，不可预测的。此外，这些方法通常采用如图1（a）所示的两步方法该方法首先从标记的正常训练数据中学习或提取特征表示，然后采用确定性异常度量来基于所学习的表示计算正常/异常分数。这基本上分离了特征学习/提取和异常检测模块，导致不灵活和次优的异常评分。以前的一些研究[8，40]解决了与我们类似的问题。虽然不需要标记的正常训练数据，但他们的方法通常采用类似的两步方法，首先从测试数据中提取特征，并在提取的特征上构建异常评分模型为了解决上述两个问题，我们介绍了一种端到端的方法，无监督视频异常检测的基础上自我训练的有序回归。应用自训练的有序回归可以开发一种弱监督方法来解决这个问题，这种方法可以进行端到端的训练。端到端训练进而能够优化专门针对目标数据中的异常检测而定制的特征学习器，以及针对该特征学习器的输出而定制的异常评分过程该方法是弱监督的，因为它是使用预先训练的模型（例如，ResNet-50[13]）对使用通用（即，非视频特定）异常检测器生成的正常和异常的相关辅助标记数据和初始伪标签进行分析。为了应用自训练有序回归，我们将问题公式化为代理两类有序回归任务，为此定义了有序回归[10]模型，以迭代方式直接学习伪正常和异常帧的异常评分，如图1（b）所示。可以基于现有的无监督方法[8，23，36，40]来确定初始伪正常帧和异常帧。有序回归模型堆叠可区分的特征表示和异常评分学习器以进行端到端训练。这种方法背后的关键直觉如下。尽管现有方法不能产生良好优化的异常分数，但是它们通常在正确识别正常和异常事件的子集方面实现良好的准确性端到端异常分数学习器可以利用这些识别的正常和异常事件来迭代地改进和优化异常分数，从而导致与初始检测相比显著更好的检测性能。我们将我们的公式实现为一个自训练的深度正交回归网络，它是基于卷积网络的特征学习和基于全连接网络的异常评分的合成。这有助于端到端异常分数优化。此外，我们的模型可以提供两个很难实现的重要功能用现有的方法。首先，自我训练和端到端学习的性质使有效的人在环异常检测成为可能。人类专家可以轻松地与我们的模型进行交互，为模型提供关于检测到的异常的反馈，模型可以使用这些反馈来更新自己，以快速返回更准确的检测结果。这是一个关键的能力，特别是当异常是罕见的，假阴性的成本很高。其次，我们的方法可以很容易地生成帧级显著性图，以有效地定位所识别的异常。总之，我们作出了以下两项主要贡献。• 我们表明，将自训练有序回归应用于视频异常检测可以实现一个新的公式-该问题的解决不仅消除了对人工标记训练数据的需要，还实现了端到端训练，从而提高了检测精度。• 提出了一种基于端到端神经网络的异常检测方法。该方法提供了三个关键能力：i）它生成最优异常分数w.r.t. 给定的有序回归损失; ii）它能够实现有效的人在回路异常检测;以及iii）它提供了在相应图像内识别的异常的容易和准确的定位。这些功能进行了分析，通过广泛的实验，八个不同的场景，从三个现实世界的视频数据集。2. 相关工作一些流行的视频异常检测方法包括低级特征提取[3，21，22，28，30，41]，dic-学习[4，6，7，26，44]和深度学习[2，5，12、14、24、27、34、40、42]。低级特征提取方法侧重于提取低级外观[3]和/或动态特征[21，28，30，41]，用于分析正常行为。基于字典学习的方法学习正常事件的字典，并识别字典不能很好地表示的事件。字典学习也可以应用于低级特征，例如梯度直方图（HoG）或光流直方图（HoF）特征[7，44]和3D梯度特征[26]。还有其他方法旨在用紧凑表示对正常事件进行建模，例如基于散列的方法[43]和聚类[22，38]。基于深度学习的方法还旨在学习正常事件的模型大多数基于深度学习的方法使用重建误差来测量来自一组正常训练视频的测试数据的发散度[2，5，12，14，27，34，42]。未来帧预测是[24]中探索的另一种深度学习方法。上述方法[4，5，7，12，14，21，22，24，26，27，34，38，42手动标记正常视频样本以训练它们的模型。与这些方法不同，我们的方法不需要12175正常/异常数据的手动注释。一些最近的工作[8，40]解决了类似的问题设置到我们的。在[8]中使用排列测试来通过评估给定帧在不同帧组中的区分度来解蔽[18]在[25，40]中被利用来测量由非-异常得分尽可能接近相应的C1和C2，从而产生最佳异常等级。由于X包含高维样本，我们通常需要在异常评分之前将数据映射到低维空间。设θr是具有参数Θr的特征映射函数，并且η是具有参数Θs的异常评分函数，则等式(1)可以分解成掩蔽这些方法一般包括两个主要步骤：特征提取/学习和异常评分，它们分别执行。这简化了功能额外的，argminΘr，ΘsΣx∈G.L η（λ（x; Θr）;Θs），yxΣ.（二）但是会导致一个特征变换，并没有针对问题或数据进行优化。相比之下，我们的方法统一了这两个步骤，使整个异常识别过程的端到端的优化。研究已经解决了机器学习社区中的相同问题设置，例如当前最先进的请注意，它们在传统功能上运行，很少探索它们对视频数据的有效性。此外，已经有一些针对端到端异常检测的工作[11，32，37]，但是它们需要标记的正常和/或异常数据用于训练。3. 问题公式化我们的目标是解决的问题是端到端学习的异常分数的一组视频帧没有手动标记的正常/异常数据。形式上，给定没有类别标签信息的K个视频帧X={x1，x2，· · ·，xK}的集合，我们的目标是学习直接分配异常分数的异常评分函数φ：X<$→R如果xi是一个，是异常帧，并且Xj是正常帧。我们把这个问题表述为一个自我训练的有序回归任务。具体地，令C={c1，c2}是增广标量序数类标签，其中c1>c2，ffi=X是异常帧候选者的集合，其中每个帧具有序数标签c1，N=X（N=ffi=x）是正常帧候选者的集合，其中每个帧具有序数标签c2，异常评分学习器φ可以用公式表示为为了实现端到端培训，我们需要解决两个主要问题。首先，它要求φ和φ可以同时优化。正如第4.2节所讨论的，深度神经网络可以被设计来解决这个问题。其次，我们需要生成ffi和N，因为它们首先是未知的。为了解决这个问题，我们首先使用一些现有的无监督异常检测方法生成的异常分数初始化ffi和N（见第4.1节），然后迭代更新ffi和N并重新训练φ，直到达到最佳φ（见第4.3节）。该公式的关键思想是，现有的异常检测方法能够识别明显是ffi和N的成员的帧，但无法扩展这些集合以准确地覆盖X。所提出的方法使用ffi和N的每个估计来进一步优化异常分数。然后，这些分数又有助于生成新的、更准确的集合ffi和N。这种迭代自训练实现了比初始检测方法支持的更好的检测性能和覆盖率。重要的是要注意，初始集合ffi不需要跨越X中的异常，并且甚至可能错误地包含N的元素。迭代过程意味着由Θ隐含定义的模型不断被细化。因此，ffi和N的成员不断更新，以提高其质量。4. 该方法我们的公式被实现为用于顺序回归的自训练深度神经网络如图-argminΘΣx∈G.L φ（x;Θ），yxΣ、（1）在图2中，我们的方法包括三个主要模块。第一模块执行初始异常检测，其产生ffi和N的初始隶属度。然后将这些其中G=ffi<$N，L（·，·）是回归损失函数，yx=c1，<$x∈ffi和yx=c2，<$x∈N.有序回归理论中的一个关键思想是利用监督信息中的顺序依赖性来学习最佳样本排序函数[10，29]。为了应用这个想法来优化异常的排名，我们设计了自训练有序回归。当c1>c2时，优化Eqn中的目标。(1)将识别对应于φ（x;θ）的版本的Θ，该版本为X分配分数，使得可疑的异常和正常样本具有被馈送到端到端异常评分模块中以优化Θ并因此优化异常评分。然后生成对应的新的异常分数集合，其用于更新ffi和N的成员资格。4.1. 初始异常检测初始异常检测的作用是获得可以被识别为以高概率属于fh和N的帧的为了实现这一点，两种最先进的无监督异常检测方法，Sp [33，36]和12176图2给定一组未标记的视频，我们首先执行初始检测以生成伪异常帧集和正常帧集。然后，这些集合用于训练（预先训练的）ResNet-50模型[13]和端到端的全连接网络。然后使用训练的模型重新计算所有帧的异常分数ffi和N的成员资格相应地更新，并且重复该过程iForest [23]是为基于特征向量的数据而设计的，用于执行初始化。将来自不同异常检测器的异常分数组合允许识别具有不同特征的异常，并改进随后的异常候选选择。SP是一种非常简单但有效且可证明的方法，它将给定示例的异常得分定义为全样本的小随机子样本中的最近邻距离。数据集。设f（·）是从视频帧提取特征向量的函数，并且z=f（x），其异常得分为s1（z）=mind（z，z），（3）z∈S其中S∈X是X的随机子集，d（·，·）表示欧几里得距离。为了获得统计上稳定的性能，对于每个z，我们使用m个分数的bootstrap聚合的平均值作为最终的异常分数[33]。iForest [23]可能是传统的一般多用户系统中使用最广泛的无监督异常检测方法近几年的数据。它假定异常容易被隔离，并在随机数据子空间上构建隔离树来识别它们。每个树通过使用随机子样本生长x从根节点到叶节点的路径长度的倒数被用作其异常分数E（h（z））1.2.2（2）=2（|S|）、（4）其中h（z）表示z在S中的路径长度，E（h（z））是z在n个隔离树s上的平均路径长度，并且c（·）是给定子样本大小的预期路径长度。我们将来自这两个检测器的两组异常分数重新缩放到相同的范围内，并使用它们的平均值作为初始异常点评分然后，我们使用这些异常分数将最可能的异常帧包括到伪异常集合ffi中，并将最可能的正常帧包括到伪正常集合N中（详见第5.1节）。4.2. 端到端异常评分学习器端到端异常分数学习器将ffi和N作为输入，并学习优化异常分数，使得与ffi（N）中的行为相似的数据输入接收大（小）分数。分数学习器可以定义为函数 φ（ ·;Θ）：X<$→R ，其是特征表示学习器 φ（·;Θr ）：X<$→Q和异常评分学习器η（·;Θs）：Q<$→R的顺序堆叠，其中Q∈RM是中间特征表示空间，并且Θ={Θr，Θs}包含所有要学习的参数具体地，特征学习器 θ r（ ·;Θr ）被指定为具有H∈N个隐藏层的网络，并且它们的权重Θr={W1，W2，···，WH}，并且可以表示为q=θ r（x; Θr），（5）其中x∈X，q∈Q。这里可以使用不同的主干。我们使用ResNet-50 [13]来实现搜索引擎，因为它具有捕获帧外观特征的超强能力。异常分数学习器η（·，Θs）：Q> →R被指定为完全连接的两层神经网络。该网络由一个100个单元的隐藏层和一个输出层用一个线性单元：η（q; Θs）=w<$g（q; WH+1），（6）其中q∈Q，[·]g是矩阵转置运算，g（·）将ResNet-50特征映射到隐藏层，Θs=12177{WH+1，w}包含该评分学习的权重参数。因此，φ（·;Θ）可以形式上表示为给定x的最终异常分数定义为1Σt.φ（x; Θ）=η（x;Θr）; ΘsΣ、（7）score（x）=不 i=1φi（x），（9）其直接将原始视觉输入映射到标量异常分数，并且可以通过最小化以下损失函数以端到端的方式进行训练：其中φi是第i次迭代时的优化模型。5. 实验5.1. 实现细节.ΣL φ（x;Θ），yx为|φ（x; Θ）− yx|、（8）最初的异常检测器Sp和iForest是IM-其中，当x∈ffi时，yx=c1，当x∈N时，yx=c2。因为y只取两个标量序数值，所以它是一个两类序数回归。采用绝对损失和基于随机梯度下降的优化方法来减少ffi和N中伪标签带来的负面影响。最小化该损失对于具有与ffi（N）中的帧类似的特征的任何帧强制执行接近c1（c2）的异常分数，导致分配给异常帧的异常分数比正常帧大。4.3. 通过自我训练进行迭代学习我们进一步使用自我训练[47]不断改进我们的异常探测器直觉是，初始异常检测结果可能对我们的异常得分学习器的性能造成限制，因为我们的得分学习器依赖于伪正常帧和异常帧的质量;另一方面，我们的端到端评分优化预期产生比初始异常评分更好的异常评分，因此它可以提供更好质量的伪正常帧和异常帧，从而提高其自身性能。自我训练也就是自学习是一种经典的半监督学习方法。它首先使用小的标记数据集训练模型，然后将训练后的模型应用于未标记数据，以生成更可靠的标记数据。由于我们没有任何标记的数据，我们提出了一个简单的策略，以适应自训练的无监督设置。特别地，在迭代学习的每次迭代中，不是递增地添加更多的标记数据，而是使用新获得的伪标签ffi和N来替换先前的伪标签，然后重新训练端到端异常学习器φ。丢弃先前的ffi和N的主要原因是因为在没有监督信息的情况下组合先前和新获得的伪标签可能导致更差的我们根据经验发现，这种简单的策略在不同的数据集上都非常有效。每次迭代输出一个优化的φ，因此迭代学习会产生一组训练好的模型。类似于顺序集成学习[46]，我们对所有顺序输出模型进行平均聚合，以实现稳定的检测性能。具体来说，F-使用scikit-learn。它们与推荐的设置一起使用[23，33]。由于Sp和iForest都只对特征向量起作用，因此我们需要在应用它们之前将视频数据转换为特征向量具体来说，我们首先使用预训练的ResNet-50的最后一个密集层提取特征，然后使用最重要的100个组件应用PCA来降低对于端到端的异常评分学习器，使用预先训练好的ResNet-50 1作为特征学习器;完全连接的100单元隐藏层使用ReLU激活函数，t ion a（u）=max（0，u）;输出层包含线性单元;并且c1=1和c2=0被用于伪序数类标签中以指导学习（我们的模型在c 1和c 2的其他设置下也工作得很好，只要c1足够大于c2）。随机梯度下降(SGD)在所有的实验中使用学习率为0.005的优化器默认情况下，批量大小和epoch数分别设置为128和50为了获得一组可靠的伪异常帧，我们需要以足够高的置信水平确定ffi特别地，我们根据其异常分数将10%最异常的帧包括在ffi中，因为异常分数通常遵循高斯分布[19]，并且该决策阈值可以提供在这种情况下产生假阳性错误的近似然而，我们仍然可以将正常帧包括到ffi中。我们进一步解决这个问题，使用加权随机抽样为基础的小批量生成方法，即，以与其异常分数成正比的概率从FFI中采样样本为了生成伪正常帧集合N，我们基于异常分数选择20%的最正常帧。这总是有助于实现高质量的N，因为真实词数据集中的正常帧的压倒默认情况下使用这两个截止阈值，因为它们在具有不同异常率的数据集上始终获得显著改善的性能在迭代学习中，大量的结果表明，我们的模型通常可以在最初的多次迭代中得到实质性的改进，然后达到稳定状态。因此，我们每-默认情况下形成五次迭代的迭代学习1使用ResNet-50，因为这项工作仅检查基于外观的异常，这是视频数据中最常见的异常之一。121785.2. 数据集在我们的实验中使用了三个真实世界的数据集：• UCSD[28].该数据是最具挑战性的异常检测数据集之一。它包含了加州大学圣地亚哥分校行人 1 数据（ Ped1 ）和 UCSD 行人 2 数据（Ped2）。Ped1包含34个训练视频和36个测试视频，Ped2包含16个训练视频和12个测试视频。异常情况是车辆、自行车、溜冰场和轮椅穿过行人区。• 地铁[3]。这是视频异常检测的最大数据集之一。它包括两个视频：入口门视频96分钟，出口门视频43分钟。异常情况是乘客走错了方向或逃票。• UMN[1]。UMN数据集包含三个不同的场景，每个场景分别有1，453、4，144和2，144帧，分别为。在每个场景中，正常活动是人们随意走动，而异常活动是人们向各个方向奔跑。注意，异常在现实世界的应用中是罕见的事件，但是如果仅使用这些数据集的测试集，则违反了这一点，因为这些测试集可以包含大百分比的异常事件，例如，在UCSD测试集中有将近50%的异常这样的测试集不适用于我们的环境。我们通过合并训练集和测试集来解决这个问题，并在完整的数据集上训练和评估我们的模型除非另有说明，否则这适用于竞争方法。5.3. 绩效评估指标根据先前的工作[8，24，27，36，37，40]，ROC曲线下面积（AUC）用作评价指标。使用帧级异常分数和地面实况计算AUC在以前的一些工作中，等错误率（EER）也被用作评估指标，但我们同意[8]，该指标可能会误导许多异常非常罕见的现实应用。因此，我们在评估中不使用EER。5.4. 真实世界数据集的有效性如表1所示，我们首先通过与17种最先进的方法进行比较来检查我们的方法在所有场景中，我们的方法始终是使用相同评估协议评估的无监督方法[8，23，36]中表现最好的。具体而言，与为我们的方法提供初始异常检测结果的Sp + iForest [23，36]相比，我们的方法实现了约2%-15%的AUC改善。令人印象深刻的是，我们在UCSD-Ped 1和UCSD-Ped 2上获得了超过15%的改进，其中Sp + iForest工作效率较低，并且我们还可以在UMN数据的不同场景上获得显着的8%-12%的改进，其中Sp +iForest的表现非常好。这证明了我们的方法为了与基于判别框架的方法[8]进行公平和直接的比较，我们的方法与其两个变体进行了比较：第一种变体，即DelGiorno et al.[8]表1中的#1使用ResNet-50和PCA提取特征作为判别框架的输入;第二种变体，即Del Giorno等人。[8]表1中的#2使用从我们训练模型中的最后一个密集层提取的结果表明，我们的方法实现了约5%-25%的AUC改善Del Giorno等人的两种情况。[8]所有数据集。与解蔽框架[40]相比，我们的方法在具有挑战性的情况下UCSD-Ped 1，Subway-Entrance，Subway-Exit和UMN-Scene 2的表现明显更好，分别为3%，17%，7%和12%，并且在其他数据集上表现更好。在[25]中，通过双样本测试方法改进了解蔽方法。我们的方法保留了类似的改进，除了UCSD-Ped 2和地铁出口的所有场景。请注意，解蔽方法及其变体的结果分别取自[40]和[25]，其评估方案与我们的不同，即，它们是根据测试数据而不是全部数据进行评估的。与上块方法相比，令人印象深刻的是，我们的方法1）比其中几种方法（如Kim等人）实现了很大的改进。[17]，Mahade-van et al.[28]和Meetings et al.[30]根据UCSD数据和Cong et al.[7]关于地铁和UMN数据集;和2）在UMN数据上执行最好的方法[15，16，38，43]。然而，很明显，我们的AUC评分比UCSD数据的方法低10%-22%[24，38，43]，表明这两种方法在非常具有挑战性的数据上存在巨大差距请注意，上面的块竞争方法也是基于与我们不同的设置，这里仅用于高级比较。5.5. 人在回路异常检测现有的方法缺乏明确的先验知识的异常。因此，他们识别的许多异常事件都是数据噪声。本节检查我们的方法是否可以有效地与人类专家进行交互，以利用他们对他们感兴趣的异常的反馈来迭代地增强我们的模型并减少这种误报。我们模拟的互动如下。首先，我们的模型向专家呈现了一小组l个排名靠前的异常帧。然后专家挑选两组k帧（k=l），其中一组k帧被认为是感兴趣的异常，而另一组是正常事件。这些帧被用来用20个时期来微调我们的模型12179表1-我们的方法进行了比较，12种方法，需要标记的正常数据在上块和5种方法，需要没有标记的正常/异常数据在底部块。每个块中的最佳性能用黑体表示。UCSD地铁UMN训练数据方法Ped1PED2入口出口场景1Scene2场景3所有场景Kim等人[17个]59.0%百分之六十九点三------Mahadevan等人[28日]百分之八十一点八百分之八十二点九------Mehran等人[30个]百分之六十七点五55.6%-----96.0%Cong等人[七]《中国日报》--百分之八十83.0%百分之九十九点五97.5%百分之九十六点四百分之九十七点八Xu等人[第四十二届]92.1%百分之九十点八------标记正态数据Sun等人[38个]Zhang等人[四十三]百分之九十三点八87.0%94.1%91.0%----百分之九十九点八99.2%百分之九十九点三百分之九十八点三百分之九十九点九百分之九十九点九百分之九十九点七百分之九十九点七Liu等人[24日]百分之八十三点一百分之九十五点四------Nguyen等人[三十一]-百分之九十六点二------Dong等人[9]第一章-94.1%------Ionescu等人[第十五条]-百分之九十七点八-----99.6%Ionescu等人[16个]--百分之九十三点五百分之九十五点一百分之九十九点九98.2%百分之九十九点八百分之九十九点三Ionescu等人[第四十届]百分之六十八点四百分之八十二点二70.6%百分之八十五点七百分之九十九点三百分之八十七点七98.2%百分之九十五点一Liu等人[25日]69.0%87.5%71.6%93.1%---95.2%无标记数据Del Giorno等人[8]第一名Del Giorno等人[8]第二条50.3%59.6%63.0%百分之五十七点六70.7%百分之七十四点六百分之八十六点八百分之八十七点二82.5%80.2%83.5%88.3%87.4%百分之七十七点一76.5%百分之八十四点八SP + iForest [23，36]百分之五十六点三百分之六十七点五百分之八十点五91.0%87.3%88.1%91.5%87.1%我们的方法71.7%83.2%88.1%92.7%百分之九十九点九百分之九十九点九百分之九十九点七97.4%之后，更新的异常排名再次呈现给专家以获得反馈。这种人机交互可以重复，直到专家获得最满意的异常排序结果。为了更好地利用反馈，我们还包括具有相同标签的所选帧的时间相邻帧（例如，与所选帧相邻的5个帧）进入我们的微调过程。图3显示了两个代表性数据集UCSD-Ped 1和Subway-Exit的经验结果，其中l=0。1N，k=5。UCSD-Ped 1代表具有较大改进空间的挑战场景，而Subway-Exit代表难度较低的场景，但改进空间较小。我们的方法可以很好地利用每次交互的有限人类反馈，逐渐并一致地减少假阳性错误，在5轮交互后，两个数据集的AUC改善超过6%12180预处理技术，以定位和理解给定帧内的导致大异常分数的异常块在这里，我们采用了最先进的方法，类激活图（CAM）[45]，以实现这一目标。特别地，对于给定帧x，令pk（i，j）是空间位置（i，j）处的最后卷积层中的单元k的激活，并且wk是单元kW. r. t. 一个简单的评分，那么基于[4 5]，我们可以得到φ（x）=i，jM（i，j），其中M（i，j）=kw k p k（i，j）是类激活映射。帧级显著性图可以然后通过将类激活图上采样到输入帧x的大小来获得。图4中显示了与一些示例异常相对应的基于CAM的显著性图我们可以看到，在所有四个不同的场景中，与帧的异常事件相对应的区域都以高激活值被很虽然我们的方法也可能被正常的补丁分散注意力，1.00.80.60.40.20.0UCSD-Ped11.00.80.60.40.20.0地铁出口在某些情况下，例如图4（b）中的上部块，对于无监督的异常检测方法实现这种有效的异常区域定位是5.7.消融研究初始异常检测。本文讨论了用两个固定割集标记伪异常和正态数据的稳定性。0.00.20.40.60.81.0假阳性率0.00.20.40.60.81.0假阳性率通过查看AUC perfor来检查关闭阈值图3-H-Mi表示第i次人机交互中获得的结果最好用彩色观看。5.6. 定位已识别的异常异常分数的端到端学习也使我们能够利用现有的深度神经网络，对具有不同异常率的数据集进行管理，包括5%，10%，15%和20%。Ped1和Ped2的结果如图5所示，Sp+ iForest用作基线。该实验不适用于其他数据集，因为它们的异常率太小。结果表明，尽管异常率在检查的病例中变化很大，但我们的方法与默认截止值相比，可以连续实现显著的AUC改善。H-M 0（auc=71.7%）H-M 1（auc=73.1%）H-M 2（auc=75.8%）H-M 3（auc=76.3%）H-M 4（auc=76.8%）H-M 5（auc=78.2%）真阳性率H-M 0（auc=92.7%）H-M1（auc=95.7%）H-M 2（auc=97.8%）H-M 3（auc=98.0%）H-M 4（auc=98.2%）H-M 5（auc=98.8%）真阳性率12181应当注意，当没有提供额外信息时，我们的方法的性能在某些点上是有界的，因此我们在几次迭代之后停止迭代学习我们根据经验发现，五次迭代通常足以在不同的数据集上达到可能的最佳性能10.90.8图4- 子图形中的异常(a)和（b）分别是UCSD数据中穿过行人区域的车辆和自行车子图（c）中的异常来自地铁出口数据，乘客朝着错误的方向行走子图（d）显示了UMN数据的异常情况，人们向各个方向奔跑0.70.60.50.40.30.20.10Ped1PED2入口出口场景1Scene2场景3所有场景我们用来生成初始伪标签的行。这使我们不必在不同的场景中调整截止值。请注意，随着异常率的增加而增加的性能主要是由于当异常率较大时，更容易获得更好的图6‘端到端异常评分学习器。端到端的异常得分学习的重要性是通过比较我们的方法的结果Del Giorno等人。[八]《中国日报》0.80.70.60.80.7UCSD-Ped2表1中的#2。我们的方法和Del Giorno等人的异常评分。[8]#2采用完全相同的特征输入，但我们的方法相对于Del Giorno等人实现了持续的大幅改进。[8] #2在所有数据集上。这是因为在我们的端到端分数学习中，输入特征作为一个集成部分进行了优化，从而产生了最优异常0.50.05 0.10 0.150.20畸形发生率0.60.05 0.10 0.15 0.20畸形发生率分数;而两步法，如德尔Giorno等人。[8]#2一方面依靠输入fea的质量图5不同的异常率网络架构。我们将 ResNet-50 替换为 VGG [35]和3DConv [39]，以检查不同架构的使用结果示于表2中。很明显，我们的方法可以很好地使用不同的流行骨干，无论是浅或高维卷积架构。这表明我们的性能不依赖于特定的主链。表2骨干Ped1PED2入口出口UMNVGG百分之七十点四百分之八十百分之八十六点五90.3%97.4%3DConv百分之七十点一百分之八十二点六87.3%93.6%百分之九十八点一ResNet-5071.7%83.2%88.1%92.7%97.4%自我训练。为了检查自训练模块，图6示出了我们的方法在自训练期间的每次迭代的AUC结果在大多数数据集上，随着前几次迭代次数的增加，我们的性能得到了较大的改善这表明自训练方法可以迭代地提高我们的方法的性能。然而，在这方面，真实表示，而另一方面不能统一特征提取器/学习器和异常评分，导致效率低得多的性能。6. 结论我们已经证明，框架视频异常检测作为一个自我训练的深度有序回归任务克服了现有方法的一些关键限制，这个重要的问题。我们还设计了一种端到端的训练方法，其性能远远优于当前最先进的方法。获得的两个关键见解是：（1）端到端学习能够比两步方法更好地优化异常分数，以及（2）我们的端到端异常分数学习器可以利用自训练有序回归方法来迭代地增强检测性能。此外，我们的方法提供了一些关键的能力，包括人在环异常检测和准确的异常定位。我们正在努力将其他功能，如运动功能纳入我们的模型，以识别其他类型的异常。XB部分得到了国家自然科学基金项目#61772057和BNSF项目#4202039的支持。UCSD-Ped1基线我们的方法基线我们的方法初始t=1t=2t=3t=4t=5AUCAUCAUC12182引用[1] UMN不寻常人群活动数据集。http://mha.cs的网站。 umn.edu/Movies/Crowd-Activity-All.avi 的网站。[2] Davide Abati、Angelo Porrello、Simone Calderara和RitaCucchiara。用于新颖性检测的潜在空间自回归。正在进行IEEE会议对比可见光帕特识别，第481-490页[3] Amit Adam，Ehud Rivlin，Ilan Shimshoni，and DavivReinitz.使用多个固定位置监视器的鲁棒实时异常事件检测IEEE传输模式分析马赫内特尔，30（3）：555[4] 程凯文，陈益堂，方文贤。使用层次特征表示和高斯过程回归的视频异常检测和定位。正在进行IEEE会议对比可见光帕特识别第2909- 2917页[5] 杨善忠和杨浩泰。使用时空自动编码器检测视频中的异常事件在Proc. Int. Symp.神经网络，第189-196页，2017年。[6] 楚文清，薛宏阳，姚成伟，邓才。稀疏编码引导的时空特征学习在大视频异常事件检测中的应用。IEEE Trans.Multimedia，21（1）：246[7] 杨聪、袁俊松、季柳。异常事件检测的稀疏反射成本。正在进行IEEE会议对比可见光帕特识别第3449-3456页[8] Allison Del Giorno ， J Andrew Bagnell ， and MartialHebert.一种用于大型视频中异常检测的判别框架。在proc EUR. Conf. Comp. 目视，第334[9] Dong Gong ， Lingqiao Liu ， Vuong Le ， BudhadityaSaha，Moussa Reda Mansour，Svetha Venkatesh ，andAnton van den Hengel.记忆正态性以检测异常：用于无监督异常检测的存储器增强深度自动编码器。正在进行IEEE国际配置文件目视，2019年。[10] 佩德罗·安东尼奥·古特雷斯、玛丽亚·佩雷斯·奥尔蒂斯、J·维耶·S·桑切斯·莫内德罗、弗朗西斯科·费尔南德斯·纳瓦罗和塞萨尔·埃尔瓦斯·马丁内斯。有序回归方法：调查和实验研究。 IEEE Trans. Knowl. 数据工程， 28（1）：127[11] Alex Hanson，PNVR Koutilya，Sanjukta Krishnagopal，and Larry Davis.双向卷积lstm用于视频中的暴力检测。欧洲药典配置文件可见，第280-295页[12] Mahmudul Hasan ， Jongghyun Choi ， Jan Neumann ，Amit K Roy-Chowdhury，and Larry S Davis.学习视频序列中的时间正在进行IEEE会议对比可见光帕特识别第733-742页[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE Conf.Comp.目视帕特识别，第770-778页[14] 日南亮太桃美佐藤真一通过学习深层的通用知识，对异常事件进行联合检测和叙述。正在进行IEEE国际配置文件目视，第3619-3627页[15] Radu Tudor Ionescu 、 Fahad Shahbaz Khan 、 Mariana-Iuliana Georgescu和Ling Shao。以对象为中心的自动编码器和用于视频中异常事件检测的虚拟异常。正在进行IEEE会议对比可见光帕特识别，第7842- 7851页[16] Radu Tudor Ionescu ， Sorina Smeureanu ， MariusPopescu，and Bogdan Alexe.检测视频中的异常事件，使用缩小的正常集群。在proc 冬季会议应用对比可见光，第1951-1960页。IEEE，2019。[17] Jaechul Kim和Kristen Grauman。局部观察，全局推断：用于检测具有增量更新的异常活动的时空MRF。正在进行IEEE会议对比可见光帕特识别第2921-2928页[18] 摩西·科佩尔，乔纳森·施勒，和伊丽莎·邦切克·多科.衡量差异性：揭开神秘作家的面纱。J. Machine LearningResearch，8（Jun）：1261[19] Hans-Peter Kriegel，Peer Kroger，Erich Schubert，andArthur Zimek.解释和统一离群值评分。在Proc. SIAM Int.Conf. Data Mining，pages 13 -24，2011.[20] Yann LeCun，Yoshua Bengio，and Geoffrey Hinton.深度学习Nature，521（7553）：436，20

下载后可阅读完整内容，剩余1页未读，立即下载