零镜头跨域视频异常检测:未来帧预测新方法

0 下载量 47 浏览量 更新于2024-06-20 收藏 1.26MB PDF 举报
"本文主要探讨了零镜头跨域视频异常检测(zxVAD)的未来帧预测模型,这是一种无需目标域适应的新框架。传统的跨域视频异常检测假设有些与任务相关的目标域训练数据可用于源域到目标域的自适应,但这种假设可能导致用户需要进行模型调优。zxVAD则提出了一种新方法,通过未来帧预测生成模型来学习正常事件的特征,并生成伪异常示例以训练模型,这种方法不需要额外的训练成本。" 在zxVAD框架中,关键创新点包括: 1. **未来帧预测模型**:与传统未来帧预测模型不同,zxVAD模型引入了一个新的正常分类器模块。这个模块通过学习正常事件视频特征与伪异常示例特征的相对差异,帮助模型理解正常事件的特性。 2. **异常合成模块**:利用未训练的卷积神经网络(CNN),zxVAD能在正常视频帧中添加异物,生成伪异常示例。这种方法减少了对额外训练数据的需求,降低了训练成本。 3. **相对正常特征学习策略**:这一策略允许zxVAD在没有目标域适应的情况下在新目标域中泛化,有效区分正常和异常帧。 4. **性能优势**:zxVAD在常见的视频异常检测数据集上表现出优于最新技术水平(SOTA)的结果,无论源训练数据是否与任务相关。此外,zxVAD在推理时间效率方面也超过了SOTA方法,包括模型大小、总参数数量、GPU能耗和GMAC等指标。 5. **无监督跨域视频异常检测**:无监督VAD方法因其无需异常事件的训练视频而受到青睐,特别是在安全和监控领域。然而,跨域设置增加了挑战,因为需要适应目标域。zxVAD解决了这一问题,无需目标域适应,适用于更严格的实际情况。 6. **问题背景**:现有的跨域VAD方法通常假设可以获取少量目标域训练数据,而zxVAD则放松了这一假设,使用零镜头方法处理更为实际的情况。 zxVAD提供了一种高效且实用的解决方案,不仅提高了视频异常检测的准确性,还减轻了用户在模型调优上的负担,为实际应用提供了便利。