ViSiL：细粒度时空视频相似性学习提升视频检索性能

PDF格式 | 1.43MB | 更新于2025-01-16 | 174 浏览量 | 举报

1 收藏

ViSiL: 细粒度时空视频相似性学习是一个创新的研究方向，它着重于提升视频检索和理解的精确度，特别是在海量在线视频分享平台日益增长的背景下。传统的视频检索往往依赖于全局向量、散列编码等方法，这些方法可能无法捕捉到视频中的细微变化和时空连续性。ViSiL通过构建一个专门设计的深度学习架构来解决这个问题。该研究的核心是利用卷积神经网络（CNN）进行细粒度分析。首先，ViSiL采用区域CNN来提取帧级别的特征，通过张量点（TD）操作对这些特征进行处理，这有助于保留空间和时间维度的局部信息。这种方法避免了直接对帧间相似性进行全局聚合，从而能够更好地反映视频内容的局部变化和动态结构。接着，每一帧的相似性矩阵会被输入到一个四层的CNN中，进一步进行处理。在这个过程中，倒角相似性（CS）被用来整合帧与帧之间的相似度，形成视频间的整体相似度评分。这种逐级聚合的方式增强了对视频内容整体连贯性的理解。为了优化模型性能，ViSiL采用了三重损失方案进行训练，这可能涉及到内容一致性、结构相似性和区分度等多方面的损失函数，确保模型在学习视频相似性时兼顾细节和全局特征。在实验阶段，研究者在五个公共基准数据集上对ViSiL进行了评估，对比了其在四个不同视频检索任务上的表现，结果表明，相比于现有的技术，ViSiL在视频相似性估计方面取得了显著的改进。这表明，通过细致的空间-时间分析和深度学习方法，ViSiL能够在复杂和庞大的视频库中更准确地识别出相关的视频内容，对于视频过滤、推荐、版权保护和视频搜索等领域具有重要的实际应用价值。值得注意的是，ViSiL的实现是开源的，这使得其他研究人员可以复用和扩展其框架，推动视频分析技术的进一步发展。ViSiL代表了一种前沿的视频相似性学习方法，它在细微时空特征理解和视频检索任务中的优势将为未来的视频分析技术开辟新的研究方向。

展开

6353

图

所提出的架构的训练方案的概述将锚点、正视频和负视频的三元组提供给

CNN

以提取基于注意力机制进行

PCA

白化和加权

的区域特征然后，计算正锚点对和负锚点对的张量点积，然后计算倒角相似性，以生成帧到帧的相似性矩阵。输出矩阵被传递

到CNN以捕获视频之间的时间关系，并通过在输出上应用倒角相似性来计算视频到视频的相似性该网络使用三重损失函数进

行训练。双箭头表示共享权重。

ing和分解的双线性匹配来定位相关的视频部分。然

而，即使这种方法在视频匹配问题上表现良好，但发

现它不适用于视频检索任务，如第6节所示。

预赛

张量点

（ TD ）：有两个张量 A

∈

RN1

×K

和

∈

，它们的

（也称为张量收缩

）是通

过在特定的

斧头根据[36]中的符号，两个张量的TD是

（

，

）

（

）

其中

C ∈

是张量的

，

和

表示张量求

和的轴在给定的示例中，

和

只能分别是

和

，因为

它们是唯一具有相同大小（

）的

倒角相似性

（CS）：这是倒角距离的相似性对应部

分[3]。考虑两组项目x和y，项目总数分别为N和M

并且它们的相似性矩阵

∈

，

计算为

ViSiL

描述

图2说明了所提出的方法。我们首先通过在特征映

射上应用区域池化来从CNN架构的中间卷积层提取特

征。这些基于注意力机制进一步PCA白化和加权（第

4.1节）。此外，设计了一个基于TD和CS的相似性函

数，以准确计算帧之间的相似性（第4.2节）。然后将

包括所有成对帧相似性的相似性矩阵馈送到CNN以训

练视频级相似性模型（第4.3节）。这是基于从训练数

据集（第4.5节）中选择和自动生成的三元组，使用三

元组丢失方案（第4.4节）进行训练的。

4.1.

特征提取

给定输入视频帧，我们在给定特定粒度级别L

，

N∈ {1

，

. {\fn 方正粗倩简体

\fs12\b1\bord1\shad1\3cH2F2F2F} 给定

一个CNN架构，总共有K

个

卷积，

在多个功能层中，该过程生成

个特征图

∈

集合y中最相似项的平均相似度，

集合X中的每个项目。这在等式2中公式化。

（

，

…

，其中

，

是第

个卷积层的通

道

数

。所有提取的特征图具有相同的分辨率

（

），并且是连续的。

（

，

）

（

，

）

（

）

表示为框架表示

∈

，

其中

N j

∈

，

注意，CS不是对称的，即CS（x

，

y）

（

，

），

我们还

将

归一化应用于

特征图的通道轴，在对比之前和之后。

连锁该特征提取过程表示为

对称变体SCS可以被定义为，

SCS

（x

，

y）=（

（x

，

y）+

（y

，

x））

下载后可阅读完整内容，剩余10页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

cpongm

粉丝: 6

ViSiL：细粒度时空视频相似性学习提升视频检索性能

ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning

ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning张量点

ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning预备工作

ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning技术分析

ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning如何提取时间信息

ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning卷积神经网络模型

ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning用到的模型

Delphi 12.3控件之TraeSetup-stable-1.0.12120.exe

基于GPRS，GPS的电动汽车远程监控系统的设计与实现.pdf

基于MATLAB/Simulink 2018a的单机无穷大系统暂态稳定性仿真与故障分析

最新资源