没有合适的资源?快使用搜索试试~ 我知道了~
{wenwenpan, shihn, zhaozhou}@zju.edu.cn, jiemingzhu@ieee.org, hexiuqiang1@huawei.com,zgpan@hznu.edu.cn, lianli.gao@uestc.edu.cn, yujun@hdu.edu.cn, wufei@cs.zju.edu.cn,(emphasis)(emphasis)(emphasis)13200Wnet: 基于小波的跨模态去噪网络的音频引导视频对象分割0潘文文1,†,史浩楠1,†,赵舟1,*,朱杰明2,何秀强2,潘志庚3,高连利4,于军5,吴飞1,6,田琦7,1浙江大学,2华为诺亚方舟实验室,3杭州师范大学,4电子科技大学,5杭州电子科技大学,6浙江大学上海高级研究院,7华为云与AI0tian.qi1@huawei.com0摘要0音频引导的视频对象分割是视觉分析和编辑中的一个具有挑战性的问题,根据引用的音频表达式在视频序列中自动将前景对象与背景分离。然而,由于缺乏对音频-视频交互内容的语义表示建模,现有的参考视频对象分割工作主要侧重于基于文本的引导表达式。在本文中,我们从端到端去噪编码器-解码器网络学习的角度考虑了音频引导的视频语义分割问题。我们提出了基于小波的编码器网络,用音频形式的查询学习视频内容的跨模态表示。具体而言,我们采用多头跨模态注意力层来探索视频和查询内容之间的潜在关系。二维离散小波变换被合并到变压器编码器中以分解音频-视频特征。接下来,我们在跨模态注意力层之后最大化编码特征和多模态特征之间的互信息,以增强音频引导。然后,我们开发了一个无自注意力解码器网络,用频域变换生成目标掩码。此外,我们构建了第一个大规模的音频引导视频语义分割数据集。广泛的实验表明了我们方法的有效性1。0† 共同贡献。 * 通讯作者。1代码可在以下网址找到:https://github.com/asudahkzj/Wnet.git0一只绿色的鹦鹉站在左边的一群鹦鹉中,被人的手抓着。0分割掩码0图1. 音频引导的视频对象分割任务。01. 引言0参考视频对象分割旨在根据给定的语言表达式分割视频中的对象,由于其适用于许多实际问题,包括视频分析和视频编辑[33, 35, 49, 50,61],因此受到广泛关注。目前,大多数参考视频对象分割方法主要侧重于文本引导的参考表达式[18, 19, 31, 33, 35,49, 61,63],可以从交互网络层学习多模态表示,然后根据给定的文本引用生成对象掩码。现有的工作在基于文本的视频对象分割方面取得了有希望的性能,但由于缺乏对音频引导的视频对象分割的语义表示建模,它们可能仍然无法有效应用于音频引导的视频对象分割。与文本引导分析[44]相比,音频引导的视频分析是对人类认知的模拟。人类在文字发明之前就专门使用语音。人们还在现实世界中学习和使用语言,以协作、描述和关联他们的视觉环境,谈论彼此等等。此外,在自然场景中,音频交互比文本交互更方便和常见。尽管音频13210通过ASR模型[3, 4,46],可以将输入转换为文本输入,但这个过程会产生不可避免的损失。自从Harwath和Glass为Flickr8k收集了口述字幕[14]以来,更多的研究关注认知和语言问题[8,10-12]。其他工作涉及应用任务,包括多模态检索[22],跨模态对齐[13,27],使用图像作为中介模态在不同语言中检索语音[1, 26,39],以及语音到语音的检索[1,39]。我们的工作侧重于音频引导的视频对象分割任务,如图1所示。音频引导通常包含丰富的语义信息,如口音、情感和语速。这些额外因素可以促进对象分割。同一个对象可以对应不同的发音,而同一个发音可以指向不同的对象。因此,基于基于文本引导的现有分割方法的简单扩展难以对音频-视频交互内容的语义表示进行建模。受到MulT[51]的启发,我们使用多头跨模态注意力层来融合视频嵌入和音频嵌入。与MulT模型[51]不同,我们扩展了输入的维度,并将其应用于大规模自然语言数据集。所有与文本嵌入有关的跨模态变换器都被移除。0另一个瓶颈是噪声问题,由采集噪声和融合噪声引起[7]。对于采集噪声,我们使用预训练的MFCC模型[5]提取声学特征,这在自动语音和说话人识别中被广泛使用。本文重点研究融合噪声的处理。视频和音频表示之间存在很大差距。联合表示反映了考虑多模态对齐的重要信息。音频和视频特征具有不同的冗余部分(即不相关的音素和像素),也被称为噪声。这些噪声在时域中仅通过卷积操作和注意机制很难处理。如[29]中所述,噪声往往集中在高频上。最近,Fnet[30]提出了使用傅里叶变换学习频域级别表示的方法,用于识别任务,但它只旨在加速编码器架构,而无法提高性能。傅里叶分析上的低通滤波无法有效区分所需信号的高频部分和噪声引起的高频干扰。如果低通滤波太窄,部分所需信号会被视为噪声,其形态信息会被抹去,导致原始信号的失真[45]。0受此启发,我们将二维离散小波(DWT)变换集成到变换器编码器中,用DWT层替换自注意力层。DWT去噪已经在图像去噪中证明了其有效性[25, 45,52],但尚未在多模态中使用。0据我们所知,尚无关于此表示的研究。我们是第一个为音频-视觉联合表示设计DWT变换器以滤除噪声和异常值的先验。整个变换器编码器的层数减少,从而在速度和模型消耗方面获得了可观的性能提升。受AMDIM[2]的启发,我们在跨模态注意力之后最大化编码特征和多模态特征之间的互信息,以增强音频引导。本文的主要贡献如下:(i)与以往的研究不同,我们从端到端去噪编码器-解码器网络学习的角度研究了音频引导的视频对象分割问题。(ii)我们提出了基于小波的编码器网络,用于学习带有音频形式查询的视频内容的跨模态表示。(iii)我们构建了一个大规模的音频引导视频对象分割数据集,并通过大量实验证实了我们提出的方法的有效性。02. 相关工作02.1. 指代表达对象分割0近年来,指代表达对象分割任务引起了越来越多的研究兴趣[18, 19, 31, 33, 35, 49, 61,63]。胡等人[18]将这个任务形式化为图像区域分类问题。李等人[31]使用多尺度图像特征来自多个卷积层。邱等人[41]进一步增强了视觉特征并引入了对抗机制。一些研究[33,35, 49, 50,61]在图像和自然语言查询之间进行了更多的交互。此外,注意力模块[61,63]被引入到分割任务中。为了提高准确性,进一步的研究成功地建模了跨模态信息的依赖性[20],表达式的信息性词汇[21]和指代实例的定位信息[24]。此外,罗等人[34]实现了指代表达的综合和分割的联合学习。[28]将技术扩展到视频数据并融入了时间连贯性。对于视频数据,现有方法通常使用动态卷积[9,54]来自适应地生成卷积滤波器,或者利用跨模态注意力[38,55,62]来计算输入视觉和语言嵌入之间的相关性。然而,这些方法无法处理音频-视频联合表示的噪声问题。02.2. 基于语音的视频分析0与文本引导的视频分析相比,音频引导的分析更加精确地模拟了人类对世界的认知[44]。实际上,在书写的发明之前,人们只使用语音。Harwath等人[14]为Flickr8k收集了口述字幕,然后更多https://drive.google.com/drive/folders/Audio-Guide-Segmentation13220表1. AVOS数据集的统计信息0RVOS A2D J-HMDB 总计0音频数量 11,226 6,656 929 18,8110研究[7, 12, 17,47]开始重视这个任务。一些研究强调认知和语言问题,例如理解不同学习层如何对应视觉刺激[8,10],学习语言单元[11,12]或者视觉基础表示如何帮助理解音位处理中的词汇竞争[15]。RamonSanabria等人[44]提出了可以用于高效多模态检索的双编码器模型。然而,这些研究对视频对象分割的考虑较少。03. 音频引导的视频对象分割数据集(AVOS)0以前有一些工作为视频构建了指代分割数据集。Gavrilyuk等人[9]扩展了A2D[58]和J-HMDB[23]数据集,加入了自然语句。Seo等人构建了第一个大规模的指代视频对象分割数据集RVOS[48]。为了促进基于音频的视频对象分割,我们构建了一个大规模的音频引导数据集,Audio-Guided-VOS(AVOS)2,其中包含指代音频表达式,如表1所示。AVOS是RVOS[48],A2D[58]和J-HMDB[23]的扩展。我们选择这三个数据集是因为它们具有丰富的场景信息。为了获得音频注释,我们雇用了36位发音流利的演讲者来朗读这些句子。为了确保录音质量,所有演讲者都要求不结巴、不卡壳等。采样率为44,100K或以上,采样数为16位,说话速度为每分钟100-150个单词。说话速度应为正常说话速度或电视播音员说话速度。在手动检查下,文本文件和音频文件的准确率不低于99%。每个录音的平均长度为5到6秒,总计约28小时。此外,我们进行了两轮检查。我们不仅纠正了录音中的发音错误,还纠正了原始文本中的语法和拼写错误。训练集、测试集和验证集的比例为75:15:10。04. 提出的方法0我们将视频序列表示为 v = {v_i}^n_i=1,其中 v_i 是第 i帧的预提取视觉特征,n是视频的帧数。每个视频都与一个音频查询相关联,表示为q = {q_i}^m_i=1,其中 q_i 是第 i 帧的特征,m是音频的帧数。音频引导的视频对象分割的目标是预测二进制分割掩码 S = {S_i ∈ {0, 1} W_o × H_o}^n_i=1。04.1. 小波变换分析0对于卷积神经网络,每个卷积层由多个卷积单元组成,每个卷积单元的参数通过反向传播算法进行优化。卷积操作旨在提取输入的不同特征,表示如下。0W(τ) = ∫^∞0-∞ f(t) g(τ - t)dt. (1)0卷积层中的卷积核相对固定。音频-视频联合表示包含丰富的时频特征,更适合于在时频域变化的窗函数。小波可以表示如下。0W(a, τ) =1/√a0∫0-∞ f(t) ψ(t - 0a)dt, (2)0a) 和 a 是尺度,与频率成反比。传统卷积层和小波的操作具有共同之处。区别在于 g(τ -t) 和 ψ(t - τ)0a)。音频和视频特征具有不同的冗余部分(即无关的音素和像素),称为噪声。视频和音频输入的噪声在跨模态注意力之后分布在大多数特征中。这些噪声仅通过时间域中的卷积操作很难处理。如[29]所述,噪声很可能集中在高频上。Fnet[30]提出使用傅里叶子层替换自注意力层。然而,对傅里叶分析进行低通滤波不能有效地区分所需信号的高频部分和噪声引起的高频干扰。小波可以很好地保留原始信号中所需信号的峰值和突变部分。它具有良好的时频局部化特性,并且可以线性表示为:0W_x = W_f + W_e, (3)0其中,W e是由噪声控制的小波系数。我们可以使用阈值量化来重构去噪联合表示。此外,通过将自注意力层替换为DWT层,我们可以在模型消耗和速度方面获得改进。04.2. 概述0如图2所示,我们的模型可以分为五个模块:视觉编码器、音频编码器、变换器编码器、变换器解码器和分割模块。视觉编码器。我们使用ResNet-50[16]作为我们的骨干网络,从输入帧中提取视觉特征。…× ������������× ������������ResNet50…MFCC…BEOEOB������������������������������������������������������������Maximize Mutual Information������������������������������������������������������������������������13230跨模态注意力0层归一化0层归一化01D卷积0前馈0傅里叶0添加和归一化0前馈0音频波形0编码特征0对象0预测0对象分割0注意力03D卷积掩码0序列0实例查询0音频嵌入0DB小波0DB小波0[��, ��]0A0H0V0D0A H0V D0多模态0特征0↓ 20↓ 20↓ 20↓ 20↓ 20↓ 20逆变换0多头注意力0层归一化0加和0加和归一化0加和归一化0E0PE PE0层归一化0添加0添加0↑0PE0图2.我们分割模型的整体框架。0为了包含视觉特征的空间信息,我们按照[56]的方法增加了三维空间坐标,表示为v = {vi}ni=1。主干网络的输出是B∈Rn×c×H×W,其中c表示原始视频的维度。我们使用1×1卷积将维度降低为Rn×d×H×W。然后将维度展平为d×(n×H×W)。音频编码器。MFCC是自动语音和说话人识别中广泛使用的特征。按照[37]的方法,我们通过非线性缩放来捕捉低频信息而不是高频信息,从而模拟人耳。一组MFCC被编码为多热向量,并使用1D卷积投影到嵌入空间中,表示为q={qi}mi=1。Transformer编码器和解码器。我们为音频引导的视频目标分割模型设计了一个Transformer编码器-解码器框架。该模型是端到端的。Transformer编码器用于学习视频内容与音频形式查询的跨模态表示。我们首先分别对视觉特征和音频特征进行层归一化。接下来,我们设计了一个基于小波的跨模态模块,用于融合这两种模态并实现去噪的联合表示。每个编码器层由一个多头注意力模块[53]和一个全连接前馈网络组成。然后,我们最大化跨模态表示和编码表示之间的互信息。在这个阶段,时间顺序与初始输入的顺序相同。Transformer解码器旨在生成能够表示每帧目标对象的顶部像素特征。受到Fnet[30]的启发,我们还用简单的线性变换替换了自注意力子层。无自注意力的解码器可以更好地处理音频-视频编码。除了傅里叶层之外,我们遵循标准的架构。0Transformer的架构,使用多头编码器-解码器注意力机制。然后,解码器将一小固定数量的学习位置嵌入(对象查询)作为输入,并关注编码器的输出。整体预测遵循输入帧的顺序。我们移除了Transformer编码器-解码器框架中的所有自注意力层,以减少模型计算量。Transformer的详细信息在4.3和4.4中。对象序列分割。该模块旨在预测目标对象的掩码序列。我们从前面的层中获取对象预测O、主干特征B和编码特征图E,如图2所示。首先,我们使用一个注意力模块计算O和E之间的相似度图。按照[56]的方法,我们只计算其对应帧的特征。接下来,我们按照DETR[6]的方法融合相似度图、B和对应帧的E。其中B ∈Rn×c×H×W,E ∈ Rd×n×(H×W),O ∈Rn×d,其中n表示帧数,c和d表示维度。然后,我们使用可变形卷积作为融合的最后一层。因此,不同帧的目标对象的掩码特征被实现。最后,我们使用三维卷积来获取掩码序列,其中包括三个三维卷积层和带有ReLU激活函数的组归一化层[57]。04.3. 基于DWT的Transformer编码器0与文本引导的语义分割相比,基于音频的分割受到严重的噪声问题的困扰[44],这些噪声来自采集噪声和融合噪声。对于采集噪声,我们使用预训练的MFCC模型[37]提取声学特征。对于融合噪声,我们提出了基于DWT的Transformer编码器来实现多模态编码和联合特征去噪。我们考虑视觉模态和音频模态,其中………������������𝐂1,u0������������1,u′1������������𝐂1,u2…Aj,u =√C1j,u =√C2j,u =√C3j,u =√(5)13240联合表示0音频嵌入0多头注意力0视频嵌入0融合0不相关部分0分解0软阈值0滤波0去噪表示0重构0时频域0噪声问题0对齐0注意力0DWT0来自音频嵌入0时域0时频域0图3. 去噪操作的过程。0两个潜在不对齐的序列,分别表示为vp∈RTv×dv和qp∈RTa×dq。T(∙)表示序列长度(音频或视频),d(∙)表示维度。受MulT中的多模态Transformer的启发,我们关注跨不同时间步骤的多模态序列之间的相互作用,并将音频模态的流动态地适应到视觉模态。我们假设跨模态注意力的输入是一系列查询Q = vpWQ,键K = qpWK和值V =qpWV。跨模态注意力通过以下方式计算0注意力a→v(Q,K,V) = Softmax(Q�K√dk)V�,(4)0其中dk是查询维度,Softmax操作在每一行上执行。我们采用多头注意力层[53],其中包含H个并行的跨模态注意力层。最后,我们获得跨模态表示f∈RTv×dv。噪声问题可以来自采集(暂停,环境噪声等)和对齐。对于采集噪声,我们使用预训练的MFCC模型[5]提取声学特征,这在自动语音和说话人识别中被广泛使用。视频和音频表示之间存在很大差距。联合表示反映了考虑多模态对齐的重要信息。注意力是时间域中的重要性估计,而频率域可以反映另一种重要性估计的粒度。对于多模态任务,频带的重要性需要考虑交互对齐信息,并且高频部分更容易成为与对齐无关的噪声信息。例如,噪声可以是与视频内容无关的音频部分,或者是与音频特征无关的视频部分。为了处理噪声问题,我们采用2D0离散小波变换(DWT)用于联合表示。使用DWT而不是DFT的原因是DFT在高频时更容易丢失有用信息,导致实际性能下降。所提出的算法是一种使用空间和变换域信息的混合方法。小波变换使用一系列高通和低通滤波器将信号分解为其子带。由于噪声通常被归类为高频成分,使用小波变换可以更容易地将其与信号分离开来。频率内容的分解取决于DWT的级数。跨模态表示f ∈RTv×dv作为输入信号。DWT在行和列上分别进行滤波操作。A j,u和C kj,u表示给定信号f的尺度j处的尺度和小波系数,其中k = 1,2,3。我们将使用可分离的正交滤波器,因此2D滤波器可以表示为低通滤波器h和高通滤波器g之间的乘积。尺度j处的系数可以从尺度j + 1处的系数获得。我们可以如下获得Aj,u和C k j,u。02 ∙0u hh ( l - 2u ) A j +1 ,l02 ∙0u hg ( l - 2u ) A j +1 ,l02 ∙0u gh ( l - 2u ) A j +1 ,l02 ∙0u gg ( l - 2u ) A j +1,l .0为了实现滤波器组,我们使用两级滤波器组。在第一级中,二维信号的行与h、g滤波器卷积,然后我们将列下采样2倍。在下一个级别中,列与滤波器h、g卷积,我们仅保留偶数索引的行。一个n×dv的跨模态信号被转换为四个n02个阶段后的信号。接下来,我们对小波分解的高频系数Ckj,u进行阈值量化。对于每个层(从第1层到第N层)的高频系数(在三个方向上),选择一个阈值进行阈值量化。我们采用具有软阈值函数的VisuShrink阈值α。对于ϕ = max|C'kj,u|,滤波操作可以表示如下(k ∈ [1, 2, 3])。0C'kj,u [x, y] = sgn(Ckj,u [x, y])(|Ckj,u [x, y]| - αϕ) + (6)0然后,我们对信号进行小波重构。根据小波分解的第N层的低频系数和从第1层到第N层的高频系数进行重构。0fn = DWTInverse(Aj,u, C'kj,u), (7)1TLbox(bi, bσ(i)) =1Tmask. Therefore, one can compute the contour-based pre-cision and recall Pc and Rc between the contour points ofc(S) and c(G). We adopt F-measure as a trade-off betweenthe two (F =13250其中fn是去噪联合表示。fn作为后续前馈层和层归一化的输入。最后,我们得到编码表示E。04.4.无自注意力解码器0由于音频和视频信号的融合,联合表示更适合在频域中处理。我们采用没有自注意力层的解码器以实现加速。受到[30]的启发,每个层由傅里叶混合子层和前馈子层组成。我们将每个Transformer解码器层的自注意子层替换为傅里叶子层。对其嵌入输入应用2D DFT。一个1DDFT沿着序列维度Fseq,一个1DDFT沿着隐藏维度Fhidden。0y = R(Fseq(R(Fhidden(x)))), (8)0我们仅保留结果的实部。在傅里叶层之后,我们使用多头注意力层。得到目标预测O。04.5. Wnet的训练0在整个模型中,损失函数包括掩码损失、框损失和互信息损失。0L = λ1Lmask + λ2Lbox + Lmutual, (9)0其中λ1,λ2旨在调整三个损失。用于监督预测的掩码损失定义为Dice[36]和Focal[32]损失的组合:0Lmask(mi, mσ(i)) =0t =0 [ L Dice ( m i,t , m σ ( i ) ,t ) + L Focal ( m i,t ,0(10)其中m是预测的掩码,mσ是目标掩码,T是视频中的帧数。Lbox评分边界框。我们使用序列级别的L1损失和广义IOU[43]损失的线性组合。0t =0 [ Liou(bi,t, bσ(i),t) + ||bi,t - bσ(i),t||1], (11)0我们使用KL散度[60]来最大化跨模态表示f和编码表示E之间的互信息。0L mutual (E(i, j) || f(i, j)) = Σ E(i, j)(log E(i, j)0f (i, j)),0(12)其中i表示序列,j表示维度。在进行softmax函数之前,E和f被送入softmax函数中0表2. AVOS上不同音频引导语义分割方法的比较。0模型 J F J & F0URVOS+ [48] 37.1% 39.2% 38.2% PAM+[38] 38.6% 38.9% 38.8% VisTR+ [56]38.0% 39.5% 38.8%0Wnet (Ours) 43.0% 45.0% 44.0%0表3. AVOS数据集中不同数据集的结果。在这个表中,我们使用相同的数据集进行训练和测试。0数据集 J F J & F0RVOS 43.0% 44.1% 43.6% A2D49.8% 55.1% 52.5% J-HMDB 65.6%56.7% 61.2%0注:JHMDB-Sentences仅用于评估,不用于训练,因此直接使用在A2D-Sentences上训练的检查点进行评估。0计算KL散度。KL散度用于拉近跨模态表示和编码表示之间的距离。因此,增强了音频引导,避免了DWT操作过滤过多的音频因素。05. 实验05.1. 性能指标0我们根据[40]中的两个广泛使用的音频引导视频语义分割评估标准评估我们的Wnet方法的性能。给定测试视频序列v和音频查询q以及地面真值掩码G,我们将我们的Wnet方法生成的掩码表示为S。我们采用Jaccard指数J定义为生成的分割与地面真值掩码的交集与并集之比(J = |S∩G|/|S∪G|)。0P c + Rc)。05.2. 实现细节0视觉特征提取。我们使用ResNet-50作为骨干网络提取视觉特征,其设置与DETR[6]相同。然后,将其输入到一个核大小为1的二维卷积中,以映射模型维度,并将每个帧连接起来形成剪辑级特征。声学特征提取。我们使用39维MFCC来表示其声学特征。然后,我们使用一维卷积进一步提取特征,并将其映射到模型的相应维度,按照Tsai等人的实现方法[51]。一维卷积的核大小为1。������������1,u0������������1,u1������������1,u2������������1,u������������𝐂1,u0������������1,u′1������������𝐂1,u213260Wnet (Ours) VisTR+0一条鱼在水中挣扎,头部露出水面游动。0一只棕色的海龟正在水中向上游动。0一辆正在沿着一条路径骑行的ATV。0图4. AVOS上Wnet和VisTR+的可视化。0重建信号0图5. 基于DWT去噪特征的可视化。0数据集处理。我们的数据集(AVOS)包含三个部分(RVOS,A2D和J-HMDB)。对于RVOS部分,我们使用与VisTR[56]相同的Youtube-VIS[59]中的视频。验证集和测试集中的掩码注释不可用,因此我们将训练集分为训练、验证和测试集进行实验。然而,我们还提供了原始验证集和测试集的音频查询。模型设置。我们采用一个2层、8头的多头交叉注意力[51]模块,宽度为3,用于融合视觉和音频特征。在注意力层和前馈层之间,使用小波变换滤波层从联合表示中去除噪声。对于变换器解码器,我们使用傅里叶变换[30]代替自注意力层。在获得解码器和编码器的预测之后,对于每个对应的帧,我们将它们发送到一个注意力模块,以获得注意力图,该图不乘以值。然后,它将与骨干特征和记忆融合,为每个帧的每个实例获取掩码特征,遵循与VisTR[56]相同的做法。我们扩展了num-0对于端到端训练,我们将每个视频的帧数限制为36,并在整个视频中应用36个查询槽位于36个对象上。最后,我们使用三个Conv3d层和GroupNorm层[57]进行ReLU激活。Conv3d层的卷积核大小为3,填充为2,膨胀为2。我们使用最后一个卷积核大小为1的Conv3d层来获取掩码。更多细节请参见补充材料。05.3. 性能比较0我们将我们提出的方法与其他现有方法进行了如下问题的比较:VisTR+是基于Transformer的视频实例分割算法的扩展[56],其中添加了跨模态注意力层来融合两种模态。对于VisTR+,我们使用匈牙利损失[56]。对于我们的Wnet,我们使用框和掩码损失。URVOS+是统一引用视频分割网络的扩展[48],其中添加了MFCC层[5]来编码音频输入。PAM+是极坐标相对位置编码机制的扩展[38],其中添加了MFCC层[5]来编码音频输入。表2和表3展示了在AVOS上的性能。我们在区域上超过了VisTR+、URVOS+和PAM+,分别达到了5.0%、5.9%和4.4%。Wnet在轮廓准确性上有5.5%、5.8%和6.1%的绝对改进。这些比较表明,音频引导的视频对象分割与文本引导的任务有很大的不同。自然环境中收集的录音与文本转语音模型生成的录音之间也存在很大的差异。因此,将音频引导的分割视为自动语音识别和基于文本的分割的组合是不合适的。在AVOS测试数据集上展示了Wnet的可视化结果,每一行包含从同一视频中采样的图像。与VisTR+的比较显示了我们在音频引导模型中的效率。Base + AFD41.2%42.5%41.8%Base + AFD + MIM41.8%43.0%42.4%Base + AFD + MIM + DWT42.9%44.0%43.5%J42.9%41.9%41.7%40.7%F44.0%42.6%42.9%42.7%1,u26 (Ck1,u; Ck2,u)41.0%41.7%41.4%×ASR+RVOS38.4%0.0032s1.00×13270表4. 不同组件的结果。0模型J F J & F0注意:我们在Base、Base+AFD和Base+AFD+MIM中使用自注意力层来替代DWT层。0表5. 不同小波基函数的结果,参考文献[42]。0小波基函数Daubechies Symlets Coiflets Meyer0表6. DWT的结果。[ a, b ]表示滤波后保留的系数(值在区间 [ a ∙最大值, b ∙ 最大值 ]内)。对于低通和高低通,我们使用硬阈值函数。对于高通,我们使用软阈值函数。0模型J F J & F0低通[0 , 0 . 9] 41.8% 43.3% 42.5% [0 , 0 . 8] 42.1%43.3% 42.7% [0 , 0 . 7] 40.3% 41.3% 40.6%0高低通[0 . 008 , 0 . 9] 42.1% 43.7% 42.9%0高通[0 . 01 , 1] 42.8% 43.2% 43.1% [0 . 008 , 1] 42.9%44.0% 43.5% [0 . 006 , 1] 42.3% 43.8% 43.1%0表7. 阈值函数选择的结果。以高通 [0 . 008 , 1] 为例。0高通J F J & F的函数选择0硬阈值函数 42.1% 41.8% 42.0% 软阈值函数 42.9%44.0% 43.5%0表8. J选择的结果。对于不同的J,高频系数矩阵的数量为3J。0J 系数矩阵数量 J F J & F0表9.Wnet和音频-文本-分割模型之间的平均推理延迟比较。评估在一台配备1个NVIDIA 3090Ti GPU、12个Intel XeonCPU的服务器上进行。批量大小设置为1。0方法 J 延迟 加速比0Wnet可以从自然环境中分割小物体,而VisTR+在这种情况下表现不佳。此外,图5中的DWT过程的可视化显示了降噪性能。05.4. 消融研究0在消融研究中,我们在验证集上微调参数。我们以音频引导的RVOS数据集(部分0关于模型组件。如表4所示,我们进行了实验来验证我们的模型设计的有效性,包括基于DWT的降噪(DWT),最大化互信息(MIM)和无自注意力解码器(AFD)。我们在没有DWT层的模型中使用自注意力层。完整模型的效果优于没有DWT的模型。这表明DWT层可以过滤音频-视频融合中产生的噪声,并改善后续的分割结果。关于小波基函数。表5显示了不同小波基函数的比较。结果验证了Daubechies小波基函数适用于离散联合表示。关于阈值参数选择。我们在高通滤波器和低通滤波器下进行了不同阈值参数选择的实验。表6中的结果显示,我们可以在低通滤波器(0.008)下使用软阈值函数获得最佳性能。关于阈值函数选择。常见的阈值函数有硬阈值和软阈值函数。硬阈值方法可以很好地保留信号的局部特征,如信号的边缘,而软阈值方法相对平滑。如表7所示,我们选择了软阈值函数作为我们的模型。关于J的选择。表8显示了J的选择结果。当阶数增加时,性能会变差。我们选择J =1作为我们的模型,其中包括1个低频和3个高频系数。关于音频-文本-分割模型。音频-文本-分割模型意味着我们首先使用ASR模型,然后使用后续的分割模型。表9显示了Wnet和音频-文本-分割模型在速度和质量方面的比较结果。我们在这两个因素上都取得了更好的性能。06. 结论0在本文中,我们从端到端的降噪编码器-解码器网络学习的角度,提出了开放式音频引导的视频语义分割问题,该问题可以应用于视频分析、视频编辑、虚拟人等领域。我们提出了基于小波的编码器网络,用于学习具有音频形式查询的视频内容的跨模态表示。然后,我们开发了一个无自注意力解码器网络,用于使用频域变换生成目标掩码。此外,我们构建了第一个大规模的音频引导的视频语义分割数据集。广泛的实验表明了我们方法的有效性。致谢。本工作得到了中国国家自然科学基金(GrantNo.61836002,No.62020106007,No.62072150,No.62072397)和浙江省自然科学基金(LR19F020006)的支持。13280参考文献0[1] Emmanuel Azuh, David Harwath, and James R. Glass.从视觉上有依据的语音音频中发现双语词典。在Interspeech2019, 20th Annual Conference of the International SpeechCommunication Association, Graz, Austria, 15-19 September2019 , pages 276–280. ISCA, 2019. 20[2] Philip Bachman, R. Devon Hjelm, and William Buchwalter.通过最大化视图间的互信息来学习表示. 在 Advances in NeuralInformation Processing Systems 32: Annual Conference onNeural Information Processing Systems 2019, NeurIPS 2019,December 8-14, 2019, Vancouver, BC, Canada , pages15509–15519, 2019. 20[3] Alexei Baevski, Steffen Schneider, and Michael Auli.vq-wav2vec:离散语音表示的自监督学习。在第8届国际学习表示会议ICLR2020上,埃塞俄比亚亚的斯亚贝巴,2020年4月26日-30日。OpenReview.net,2020年。20[4] Alexei Baevski, Yuhao Zhou, Abdelrahman Mohamed,and Michael Auli. wav2vec2.0:自监督学习语音表示的框架。在神经信息处理系统33:神经信息处理系统2020年年会,NeurIPS2020,2020年12月6日-12日,虚拟,2020年。20[5] Lallouani Bouchakour and Mohamed Debyeche.改进移动通信中连续阿拉伯语语音识别的MFCC和Gabor特征。在第3届高级软件工程国际会议论文集ICAASE2018,阿尔及利亚康斯坦丁,2018年12月1日-2日,CEURWorkshopProceedings第2326卷,第115-121页。CEUR-WS.org,2018年。2,5,70[6] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.基于Transformer的端到端目标检测。在计算机视觉-ECCV2020-第16届欧洲会议,英国格拉斯哥,2020年8月23日-28日,第I部分,Lecture Notes in ComputerScience第12346卷,第213-229页。Springer,2020年。4,60[7] Grzegorz Chrupala.基于视觉的口语语言模型:数据集、架构和评估技术综述。CoRR,abs/2104.13225,2021年。2,30[8] Grzegorz Chrupala, Lieke Gelderloos, and Afra Alishahi.在一个基于视觉的语音信号模型中的语言表示。在第55届计算语言学年会论文集ACL2017,加拿大温哥华,2017年7月30日-8月4日,第1卷:长论文,第613-622页。计算语言学协会,2017年。2,30[9] Kirill Gavrilyuk, Amir Ghodrati, Zhenyang Li, and Cees G.M. Snoek.从句子中分割演员和动作视频。在2018年IEEE计算机视觉和模式识别会议CVPR2018上,美国犹他州盐湖城,2018年6月18日-22日,第5958-5966页。IEEE计算机学会,2018年。2,30[10] Lieke Gelderloos and Grzegorz Chrupala.从音素到图像:递归神经模型中的表示级别0基于视觉的语言学习。在COLING2016,第26届国际计算语言学会议,会议论文集:技术论文,2016年12月11日-16日,日本大阪,第1309-1319页。ACL,2016年。2,30[11] David Harwath and James R. Glass.迈向基于视觉的子词语音单元发现。在IEEE国际声学、语音和信号处理会议ICASSP2019上,英国布莱顿,2019年5月12-17日,第3017-3021页。IEEE,2019年。2,30[12] David Harwath, Wei-Ning Hsu, and James R. Glass.从视觉上基于语音学习层次离散语言单元。在第8届国际学习表示会议ICLR2020上,埃塞俄比亚亚的斯亚贝巴
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功