视频语义分割：粗到精特征挖掘方法

静态上下文

39 浏览量更新于2024-06-20 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源推荐

3129

联系

我们

联系

我们

联系

我们

联系

我们

图2.概述拟议的粗到细特征挖掘。所有帧首先输入到编码器以提取特征，然后通过粗到精特征组装模块（CFFA）。通过不同

的池化策略处理不同帧的特征以生成上下文令牌。原理是对于更远的帧，使用更大的感受野和更粗的池化。所示的特征尺寸

（20 20）、感受野和池化核用于简单解释。所有帧的上下文标记被连接，然后由跨帧特征挖掘（CFM）模块处理。利用上下

文令牌来更新目标特征，由多个多头非自注意层。最后，我们利用增强的目标特征对目标帧进行分割

最好用缩放查看。

虽然视频内容可能跨帧改变，但是整体语义和环境将

不会改变很多，这意味着大多数视频内容可能仅具有

少量时间不一致性。第三，相邻帧之间的“静态”内容

的小的时间不一致性受第二次和第三次观察的启发，

通过相邻帧中的池化操作进行的变大小区域采样可以

传达多尺度上下文信息。因此，所设计的CFFA可以感

知多尺度的上下文信息（

静态上下文

）和

动态上下

文

。具体地，目标帧中的每个像素对应于更远帧中的

更大的感受野和更粗的池化，如图1B所示。二、请注

意，采样标记的长度比默认的自我注意中的长度短得

多。

CFFM的第二步，跨帧特征挖掘（CFM），旨在从

相邻帧的特征中挖掘有用的信息。这是一个基于注意

力的过程。然而，与传统的自我注意力[18，76，80]

不同，其查询，键和值来自相同的输入，我们建议使

用

非自我注意力

机制，其中查询来自目标帧，键和值

来自相邻帧。此外，在非自注意的迭代过程中，我们

只更新查询，这是直观的，因为我们的目标是从相邻

帧中挖掘信息，因此不需要更新上下文令牌与需要连

接和处理所有组装特征的自我注意相比，这种非自我

注意具有以下特点：

从而降低了计算成本。

3.2.

由粗到精的特征装配

在不失去普遍性的情况下，我们开始讨论对培

训数据含有视频帧

{

t−k

，

· · ·

，

t−k

，

}

，其具有

t−k

，

t−k

，

的地面真值分割

，并且我们专注于分割

。具体

地，

是目标帧，并且

{

t-k

，

· · ·

，

t-k

}

是l

个

先前帧，

{

，

...

，

}帧。让我们将

t-k

，

···

，

t-k

，

}

表示

为所有帧下标的集合。我们首先

使用编码器处理

−

，，

−

，

以提取信息

特征

t−k

，，

−

，

，每个的大小为

（

，

和

分别表示高度，宽度和通道数）。我们的目标

是利用

生成更好的特征，用于分割

，因为在先前

的帧中存在相关的和有价值的视频上下文

为了有效地建立

参考框架特征（

t-k

，，

t-k

）和

目标框架特征

之间的远程交互

，我们提出了由粗到精的特

征组装模块，如图所示。二、受先前工作的启发

[56

，

87]

，我们将目标帧特征

拆分为窗口，每

个窗口关注一组共享的上下文令牌。这背后的原因

是，参加

- ing

在

中的每个位置到一组特定的上下

文令牌需要巨大的计算和内存成本。当使用

窗口大小为s×s，

被划分为

个

窗口。

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

视频语义分割：粗到精特征挖掘方法

一种由粗到细的头发分割方法1

基于特征融合的实时语义分割算法

基于语义信息提取的新闻视频场景分割方法

三维点云语义分割网络

基于多网融合特征挖掘的药物重定位算法 什么意思

怎么研究融入地学先验知识的建筑物语义分割、边界优化、变化监测，从而实现制图数据的自动化生产与智能化更新？

python数据挖掘图像特征分割

基于大语言模型的数据挖掘

基于支持向量机的数据挖掘技术研究

基于关联规则挖掘的图书推荐研究背景

基于python语言的网络数据挖掘 pdf

《基于python语言的网络数据挖掘》实验指导书2016

基于深度学习的微博数据挖掘

基于机器学习的潜在客户挖掘

基于python的网络爬虫及数据处理智联招聘人才招聘特征分析与挖掘的算法实现

基于关键词的文本知识的挖掘系统的设计与实现

基于hadoop的电梯安全数据挖掘算法研究

基于数据挖掘的电影评分预测

实现基于文本挖掘的推荐模型

帮我写一个基于机器学习的交互式模式挖掘系统

最新资源

基于多网融合特征挖掘的药物重定位算法　　　什么意思