鲁棒时域特征幅度学习提升视频异常检测

185 浏览量更新于2024-06-20 收藏 982KB PDF 举报

"本文介绍了一种新型的视频异常检测方法，称为鲁棒时域特征幅度学习（RTFM），主要用于解决在多实例学习（MIL）框架下，异常检测任务中的阳性实例识别问题。该方法强调了视频时间依赖性的关键作用，并通过膨胀卷积和自注意力机制增强对长时间和短时间间隔的依赖性的捕捉。RTFM显著提升了异常检测的性能，特别是在区分微妙异常和提高采样效率方面。实验显示，RTFM在多个基准数据集上优于现有先进方法。" 在视频异常检测领域，异常检测的目标是识别监控视频中发生异常事件的时间窗口。传统方法往往面临挑战，尤其是在异常事件与正常事件差异微小的情况下，容易受到占主导地位的正常事件的干扰。为了解决这个问题，文章提出了鲁棒时域特征幅度学习（RTFM）框架。RTFM是针对多实例学习（MIL）问题设计的，MIL常用于处理仅具有视频级标签（即整个视频是否包含异常）的情况。 RTFM的核心在于训练一个特征幅度学习函数，这个函数能够更准确地识别出阳性实例，即异常视频中的罕见异常片段。通过衡量异常视频和正常视频之间的特征幅度差异（Δ得分），RTFM能够在大量正常片段中突出异常片段。膨胀卷积和自注意力机制的结合，使得RTFM能够捕捉到视频中的长期和短期时间关系，这对于理解和区分异常行为至关重要。实验部分，RTFM在四个基准数据集（上海科技、UCF-Crime、XD-Violence和UCSD-Peds）上展现了优越的性能，不仅在整体检测效果上超越了多种最先进的方法，还在细微异常区分和采样效率上有所提升。这意味着RTFM在保持高检测准确率的同时，减少了对大量正常样本的依赖，这对于实时监控系统来说具有很高的实用价值。鲁棒时域特征幅度学习（RTFM）提供了一种创新的解决方案，通过增强对时间依赖性的建模，改进了异常检测的性能，尤其在处理与正常事件差异较小的异常事件时表现出色。这种方法对于推动视频异常检测技术的进步，以及在实际监控系统中的应用具有重要意义。

4977

−

∼

ǁ ǁ ≥ ǁǁ

F →

X X →

∈

ǁ ǁ

−

特征（例如， I3D [7]或C3D [60]）的尺寸D

ǁ ǁ

≥

，

Ω

（

）

{

}

不

介绍了大规模弱监督视频异常检测数据集 UCF-

Crime 。从那时起，这一方向引起了研究界的注意

[62，66，74]。

弱监督视频异常检测方法主要基于MIL框架[56]。

然而，大多数基于MIL的方法[56，74，80]未能利用异

常视频标签，因为它们可能受到由被错误地选择为异

常视频中的顶部异常事件的正常片段引起的阳性袋中

的标签噪声的影响。为了解决这个问题， Zhong et

al.[78]将该问题转化为噪声标签下的二分类问题，并利

用图卷积神经网络（GCN）消除标签噪声。尽管本文

显示了比[56]更准确的结果，但GCN和MIL的训练在计

算上是昂贵的，并且它可能导致不受约束的潜在空间

（即，正常和异常特征可以位于特征空间的任何位

置），这可能导致不稳定的性能。相比之下，我们的

方法有微不足道的计算开销相比，原来的MIL配方。

此外，我们的方法通过基于

范数的时间特征排名损失

来统一表示学习和异常得分学习，从而实现正常和异

常特征表示之间的更好分离，与先前的MIL方法相比

改进了弱标签的探索[56，62，66，74，78，80]。

方法：

RTFM

我们提出的鲁棒时间特征幅度（RTFM）方法旨在

使用弱标记视频进行训练来区分异常和正常片段。给

定一组弱标记的训练视频D=

正常和异常视频。接下来，我们讨论了我们提出的

RTFM的理论动机，然后详细描述了该方法。

3.1.

RTFM的理论动因

[24]中的Top-kMIL将MIL扩展到阳性袋包含最小数

量的阳性样本并且阴性袋也包含阳性样本的环境，但

程度较小，并且它假设分类器可以分离阳性和阴性样

本。我们的问题是不同的，因为阴性袋不包含阳性样

本，我们不做分类可分性假设。遵循上面介绍的命名

法，从视频中提取的时间特征由（1）中的X

（F）

表示，其中片段特征由

的行

表示。异常片段由

（x）表示，

而正常片段由

x-1

（

）表示。

−

（

）

。异常视频

包含从P

（

）提取的μ片段和

从P x −（x）提取的（T μ）

dr a wn

，而正常视频

−

具

有从

−

（

）采样的所有

片段

。

学习一个可以对视频和片段进行

作为正常或异常，我们定义了一个函数，该函数使用

片段的幅度对片段进行分类（即，我们使用

范数来计

算特征幅度），其中，代替假设正常和异常片段之间

的分类可分离性（如[24]中所假设的），我们做出更温

和的假设：E[

] E[

−

]。这意味着通过学习从s

（F）中提取特征，使得正常特征的特征量小于异常

特征的特征量，我们可以满足这一假设。为了实现这

样的学习，我们依赖于基于来自视频的前k个片段的平

均特征幅度的优化[24]，由下式定义：

我我

，其中

∈

预先计算

{（F

，

）}

（X）

max

Σx

，

（

）

个视频片段，并且

∈ Y

{

，

}

表示

个视频片段。

k t

∈Ω

（

）

视频级注释（如果

是正常视频，

则

= 0

，

否则

= 1

）。

RTFM

使用的模型表示为

其中g

，

（. ）由θ参数化以指示其依赖性。

通过

，

（F）

（

（F）），并返回表示

个

视

频片段分类为异常或正常

的

维特征

，

，其中

参数

，

定义如下。该模型的训练包括端到端多尺

度时间特征学习、特征幅度学习和

RTFM

使能的

MIL

分类器训练的联合优化，其中损失

在

（

）产生x

，

Ω

（X）包含x

中的

个

片段的

子集，

Ω

（

）

。异常视频与正常视频之间的可

分离性由下式表示：

，

（

，

−

）

，

（

）

−

，

（X

−

）

。

（三

）

对于下面的定理，我们定义了从

Ω

（X

）截取的片

段是异常的概率，其中

（

）

min

（

，

）

，

|D|

当

ε >0

且从正常

Ω

（X

−

）开始，

（X

−

）

= 0

。这

min

（

（F）

，

（

（F））

，

）+

（

））

，

）

，

s θ

，

j f

φ θ

我

（

一

）

定义意味着它很可能在Ω

（

）中的前k个片段中找

到异常片段，只要k

≤

µ。

其中s

：是时间特征提取器（其中

是片段分类器，

（

表示

损失函数，其最大化来自正常和异常视频的前

个片

段特征之间的可分性，

并且

）是训练片段分类器

（

）还使用了

定理3.1（异常和正常视频之间的预期可分离性）。

假

设

E[x

]

[

−

]

，其中

有

异常样本和

（

T µ

）

正常样本，

其中

µ [1

，

−

有

正常样本。设

，

（

）

是随

机变量，其中可分性得分

，

（

. [24 ]

（

）

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

鲁棒时域特征幅度学习提升视频异常检测

计算机分析脑电波信号的算法研究及实现方法

信号处理中的时域分析方法：实现信号的时域特征提取

异常声音检测与处理：深度学习在语音识别中的新应用

信号分析中的异常检测：识别异常事件和模式，保障系统安全

时域分析技术在自动控制中的应用

疲劳驾驶检测算法：机器学习与深度学习，赋能智能驾驶

深度学习在音频处理中的应用

傅里叶变换在MATLAB中的深度学习应用：1个突破性创新

DFT在人工智能中的应用：深度学习与神经网络的基石

MATLAB指数函数与信号处理：分析信号特征，提取有用信息

最新资源