小波引导的音频视频对象分割：端到端学习与深度理解

PDF格式 | 14.62MB | 更新于2025-01-16 | 182 浏览量 | 举报

音频引导的视频对象分割是一项前沿的计算机视觉技术，它通过解析音频信号来识别视频中的特定对象或场景，从而实现自动的视频内容理解和编辑。现有的研究主要集中在文本驱动的解决方案上，但由于音频-视频的复杂交互性质，如何有效地捕捉和利用这种模态之间的语义关联是一个未解决的挑战。本文提出了一种基于小波的端到端去噪编码器-解码器网络，称为Wnet，专用于解决这一问题。小波变换被引入到编码器设计中，它能够捕捉音频和视频特征的局部细节，通过多头跨模态注意力层，网络能够探索音频查询与视频内容之间的潜在联系。这种注意力机制有助于增强音频在指导视频分割过程中的作用，使得模型能够更精准地理解音频指示的焦点区域。编码器部分的创新在于将二维离散小波变换整合到Transformer架构中，这有助于在时频维度上提取丰富的特征表示。通过最大化编码特征与多模态特征间的互信息，模型能够更好地融合音频和视频信息，提高分割的准确性。解码器部分采用了无自注意力设计，避免了过度关注局部特征而忽视全局上下文的问题，而是利用频域变换生成目标分割掩码。这种方法有效地处理了音频引导下复杂场景的分割任务，如在一群相似的鹦鹉中准确识别出被抓住的那只绿色鹦鹉。为了验证Wnet的有效性，文中还创建了一个大规模的音频引导视频语义分割数据集，这为后续研究提供了宝贵的数据资源。实验结果显示出该方法在性能上超越了现有的音频引导视频分割技术，证明了小波方法和跨模态注意力在这一领域的潜力。总结来说，本文的主要贡献在于提出了一种创新的音频引导视频对象分割框架，通过小波变换和跨模态注意力机制，有效解决了音频与视频之间的语义关联问题，并通过实证验证了其在实际应用中的优越性。感兴趣的读者可以访问提供的GitHub代码库以进一步了解和使用该方法。

https://drive.google.com/drive/folders/Audio-Guide-Segmentation

1322

表1.AVOS数据集的统计信息

RVOSA2DJ-HMDB总计

音频数量11,2266,65692918,811

研究[7,12,17,

47]开始重视这个任务。一些研究强调认知和语言问题，例

如理解不同学习层如何对应视觉刺激[8,

10]，学习语言单元[11,

12]或者视觉基础表示如何帮助理解音位处理中的词汇竞争[

15]。Ramon

Sanabria等人[44]提出了可以用于高效多模态检索的双编码

器模型。然而，这些研究对视频对象分割的考虑较少。

3.音频引导的视频对象分割数据集（AVOS）

以前有一些工作为视频构建了指代分割数据集。Gavrilyuk

等人[9]扩展了A2D[58]和J-HMDB[23]数据集，加入了自然

语句。Seo等人构建了第一个大规模的指代视频对象分割数

据集RVOS[48]。为了促进基于音频的视频对象分割，我们

构建了一个大规模的音频引导数据集，Audio-Guided-VOS

（AVOS）2，其中包含指代音频表达式，如表1所示。AVO

S是RVOS[48]，A2D[58]和J-HMDB[23]的扩展。我们选择

这三个数据集是因为它们具有丰富的场景信息。为了获得音

频注释，我们雇用了36位发音流利的演讲者来朗读这些句子

。为了确保录音质量，所有演讲者都要求不结巴、不卡壳等

。采样率为44,100K或以上，采样数为16位，说话速度为每

分钟100-150个单词。说话速度应为正常说话速度或电视播

音员说话速度。在手动检查下，文本文件和音频文件的准确

率不低于99%。每个录音的平均长度为5到6秒，总计约28

小时。此外，我们进行了两轮检查。我们不仅纠正了录音中

的发音错误，还纠正了原始文本中的语法和拼写错误。训练

集、测试集和验证集的比例为75:15:10。

4.提出的方法

我们将视频序列表示为v={v_i}^n_i=1，其中v_i是第i

帧的预提取视觉特征，n

是视频的帧数。每个视频都与一个音频查询相关联，表示为

q={q_i}^m_i=1，其中q_i是第i帧的特征，m

是音频的帧数。音频引导的视频对象分割的目标是预测二进

制分割掩码S={S_i∈{0,1}W_o×H_o}^n_i=1。

4.1.小波变换分析

对于卷积神经网络，每个卷积层由多个卷积单元组成，每个

卷积单元的参数通过反向传播算法进行优化。卷积操作旨在

提取输入的不同特征，表示如下。

W(τ)=∫^∞

-∞f(t)g(τ-t)dt.(1)

卷积层中的卷积核相对固定。音频-视频联合表示包含丰富

的时频特征，更适合于在时频域变化的窗函数。小波可以表

示如下。

W(a,τ)=

1/√a

∫

-∞f(t)ψ(t-

a)dt,(2)

a)和a是尺度，与频率成反比。传统卷积层和小波的操作具有共同之处。区别在于g(τ-

t)和ψ(t-τ)

a)。音频和视频特征具有不同的冗余部分（即无关的音素和

像素），称为噪声。视频和音频输入的噪声在跨模态注意力

之后分布在大多数特征中。这些噪声仅通过时间域中的卷积

操作很难处理。如[29]所述，噪声很可能集中在高频上。Fn

[30]提出使用傅里叶子层替换自注意力层。然而，对傅里叶

分析进行低通滤波不能有效地区分所需信号的高频部分和噪

声引起的高频干扰。小波可以很好地保留原始信号中所需信

号的峰值和突变部分。它具有良好的时频局部化特性，并且

可以线性表示为：

W_x=W_f+W_e,(3)

其中，We

是由噪声控制的小波系数。我们可以使用阈值量化来重构去

噪联合表示。此外，通过将自注意力层替换为DWT层，我们

可以在模型消耗和速度方面获得改进。

4.2.概述

如图2所示，我们的模型可以分为五个模块：视觉编码器、

音频编码器、变换器编码器、变换器解码器和分割模块。视

觉编码器。我们使用ResNet-50

[16]作为我们的骨干网络，从输入帧中提取视觉特征。

剩余11页未读，继续阅读

cpongm

粉丝: 6

小波引导的音频视频对象分割：端到端学习与深度理解

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

agenda_3cd_01_0716.pdf

A课件Python全栈开发线下班.zip

diminico_02_1108.pdf

基于人工智能大模型技术的果蔬农技知识智能问答系统.pdf

diminico_02_0307.pdf

最新资源