没有合适的资源?快使用搜索试试~ 我知道了~
5158AVE-CLIP:基于AudioCLIP的多窗口时域Transformer音频视觉事件定位坦维尔·马哈茂德德克萨斯大学奥斯汀分校tanvirmahmud@uetxas.edu戴安娜·马尔库列斯库德克萨斯大学奥斯汀分校dianam@utexas.edu摘要视听事件(AVE)由视频片段中的视觉和听觉信号的对应表示AVE的精确定位是非常具有挑战性的,因为它需要有效的多模态特征对应以使短距离和长距离的时间相互作用接地。由于无效的多模态训练策略,前向方法在捕获多模态交互的不同尺度方面很困难为了克服这一局限性,我们引入了AVE-CLIP,这是一种新的框架,它将在大规模视听数据上预训练的Au-dioCLIP与多窗口时间Transformer集成在一起,以有效地在不同时间尺度的视频帧上操作。我们的贡献有三方面:(1)我们引入了一个多阶段训练框架,通过对比微调、有效的平均视频特征提取和多尺度训练阶段,将用音频-图像对预训练的AudioCLIP结合到视频帧上的AVE定位任务中。(2)我们提出了一种多域注意机制,在不同的时间尺度上的时间和特征域上进行操作,以融合局部和全局特征变化。(3)我们引入了一个时间精炼方案,事件引导的注意,然后是一个简单而有效的后处理步骤,以处理不同事件背景的显着变化。我们的方法在公开的AVE数据集上实现了最先进的性能,平均准确率提高了5.9%,这证明了其优于现有方法的优越性。1. 介绍多模态数据的时间推理在不同环境条件下的人类感知中起着重要作用多模态背景的基础对于当前和未来感兴趣的任务是至关重要的,特别是那些指导该领域当前研究工作的任务,例如,自动化代理的模糊感知[29,4,8],人-机器人与多传感器制导的交互[25,6,2],以及主动图1.表示个人说话事件的视听事件(AVE)的示例。人的声音在所有帧中都是可听见的。只有当人可见时,才识别AVE。声 源 定 位 [34 , 22 , 18 , 27]。 类 似 地 , 视 听 事 件(AVE)定位要求接地视听感知的复杂多模态对应[24,7]。视听线索在视频帧上的同时存在表示视听事件。如图1、人的语音在所有帧中都是可听见的。然而,个体说话仅在表示AVE的几个特定帧中可见。这种事件的精确检测在很大程度上取决于对视频帧上的多模态特征的学习视频帧上的跨模态视听特征有效的多模式训练策略可以通过增强相关功能来显著提高绩效。早期的工作集成了在大规模单峰(图像/音频)数据集上预训练的音频和图像编码器[5,9],以提高性能[35,17,31、7、30]。然而,这样的单模态预训练方案难以提取对于AVE特别重要的相关模态间特征。最近,随着CLIP [19]在大规模视觉语言数据集上预训练的广泛成功,AudioCLIP [12]将音频编码器集成到视觉语言模型中,并对音频图像对进行大规模预训练。为了增强AVE的视听特征对应性,我们将AudioCLIP的图像和音频编码器与有效的对比微调集成在一起,该微调利用了来自多模态数据集而不是单模态数据集的大规模预训练知识。5159在整个视频帧上进行多模态推理的有效视听融合是正确利用单峰特征的另一个主要挑战。最近,几种方法集中于使用接地多模态特征来生成时间注意力,以用于在模态内特征空间上操作[36,17,31]。其他最近的工作已经将递归时间注意力应用于聚集的多模态特征[7,17,30]。然而,这些示例性方法试图在整个视频帧上概括视听虽然广义多模态上下文在很长的时间间隔是非常重要的分类不同的事件,多模态特征的局部变化是在过渡边缘精确的事件检测的关键。为了解 决 这 个 难 题 , 我 们 引 入 了 一 个 多 窗 口 的 时 间Transformer的融合方案,在不同的时间尺度上操作,以引导注意力在尖锐的局部变化与短的时间窗口,以及提取跨长时间窗口的全球上下文。表示不相关的视听帧的背景类在不同环境的不同AVE上变化很大(图1)。在许多情况下,由于细微的变化,很难区分背景和事件区域Xu等[30]表明事件区域(事件/背景)的联合二元分类与多类事件预测一起提高了更好地区分面向事件的特征的总体性能。受此启发,我们引入了一个时间特征细化方案,用于引导对事件区域的时间关注,以引入与背景的鲜明对比。此外,我们引入了一个简单的后处理算法,通过利用AVE中事件/背景帧的高时间局部性,过滤掉事件转换之间的错误预测(图1)。通过将这些策略统一在AVE-CLIP框架中,我们在AVE数据集上实现了最先进的性能,其性能远远优于现有方法。这项工作的主要贡献总结如下:• 我们引入AVE-CLIP来利用在大规模音频-图像对上预训练的AudioCLIP来改善视频AVE上的模态间特征对应。• 我们提出了一个多窗口的时间Transformer为基础的融合方案,在不同的时间尺度上的AVE帧提取局部和全局变化的多模态功能。• 我们引入了一个时间特征细化方案,通过事件引导的时间注意,然后通过一个简单的,有效的后处理方法,以增加与背景的对比度。2. 相关工作视听事件定位AVE定位,由Tianet al. [24]目标是识别不同类型的事件(例如,单独的男人/女人说话、哭泣的婴儿、油炸食物、乐器等)在每个时间点基于视听对应。作者介绍了一种LSTM引导视听注意的残差学习方法,该方法依赖于简单的拼接和加法融合。Wu等提出了一种双注意匹配(DAM)模块.[28]用于对事件相关特征进行操作Zhou等[36]提出了一种剔除弱多模态交互的正样本传播方案。Xuan等人[31提出了一种基于特征值目标函数的顺序学习的判别式多模态注意模块。Duan等人[7]在聚合的多模态特征上引入了具有循环注意力的联合 共 同 学 习 。 Lin 和 Wang [17] 介 绍 了 一 种 基 于transformer的方法,该方法基于视听注意力对视频帧组进行操作 Xu et al. [30]介绍了具有交互模块的多模态关系感知与现有方法不同,AVE-CLIP通过提取短距离和长距离多模态交互以及事件帧的时间细化来利用来自各种窗口的时间特征声源定位声源定位任务[34]基于听觉信号识别相应视频中的Arda等人[22]引入了一种视听分类模型,该模型可以通过利用简单的多模态注意力来适应声源定位,而无需显式训练。Wu等[27]提出了一种基于编码器-解码器的框架,通过对声源的似然测量来对连续特征空间进行Qian等人[18]尝试通过利用视听信号上的梯度加权类激活图(Grad-CAM)对应来进行多源Hu等人提出了一种自监督的视听匹配方案。[15]用字典学习发音对象。Afouras等人[1]利用光流特征以及针对源定位和音频源分离的多模态注意力图大规模对比预训练为了提高不同目标任务的数据效率,已经发现非常深的神经网络的大规模预训练对于迁移学习是有效的[16]。CLIP介绍了在大规模数据集上进行自监督对比学习的视觉语言预训练,5160k=1m=1图2.所提出方法的示意图在第一阶段,对预训练的AudioCLIP [12]图像和音频编码器进行对比微调,并对音频图像进行调整。在第二阶段,视频和音频特征提取与微调编码器。在第三阶段,多尺度训练是在各种时间尺度上进行的,所提出的多窗口时间融合模块,然后是时间事件细化和后处理,以增强事件检测。这在许多多模态视觉语言任务中获得了极大的关注[21,26,33]。最近,AudioCLIP [12]通过将音频模态与利用音频-图像对的大规模训练相集成,扩展了现有的CLIP框架对视听数据的这种大规模预训练对于增强多模态特征对应性可以是非常3. 该方法在本文中,我们介绍AVE-CLIP,一个框架,集成了 图 像 和 音 频 编 码 器 从 AudioCLIP 与 多 窗 口 时 间Transformer为基础的融合方案AVE定位。我们的方法包 括 三 个 训 练 阶 段 , 如 图 2 所 示 。 首 先 , 我 们 从AudioCLIP的图像和音频编码器的预训练权重开始。在第一阶段,我们提取相应事件的图像和音频片段,以启动在不同的时间窗口上操作,以概括局部和全局时间上下文(第3.4节)。随后,通过事件标签监督(第3.5节)生成的事件引导时间注意力以及训练中使用的混合损失函数(第3.6节)和简单的后处理算法对融合特征进行时间细化,该算法主要通过利用AVE的时间局部性来增强推理期间的预测性能(第3.7节)。3.1. 初步给定持续时间T的视频序列S,设置的非重叠视频片段V={V(1),V(2),. . . ,V(T)}, 和同步的音频se-项A={A(1),A(2),. . . ,A(T)}的持续时间为t。 每个视频片段V(i)={vk(i)}P组成P个图像帧的目标AVE定位帧和对应的音频段上的(第3.2节)。 在阶段2中,这些微调编码器被解A(i)={am(i)}Q分别由Q个样本分别从连续的视频帧和音频片段中提取视频和音频特征(第3.3节)。稍后,在阶段3中,我们引入对提取的音频和视频特征的多尺度训练,多窗口时间融合(MWTF)模块,如果第i个音频-视频片段对表示事件,则将其标记为事件(e(i)=1)或背景(e(i)=0)。与通用事件/背景标签一起,整个视频的每个片段都标有特定的事件类别。因此,一个热的集合5161VK⊕--∈∈∈∈∈i=1k=1exp((zizj)/τ)我基于窗口长度wi(wi×ci=T)的块,我k=1其中,B表示一批中的音频-图像对的总数,zA、zI表示归一化的音频和图像fea。我我第i对的结构,分别地,Iij表示单位质量,其中Iii=1,i=j且Iij=0,ij,图3.多窗口时间融合(MWTF)模块的三个阶段。在分裂阶段中,基于窗口长度将聚合特征划分为单独的时间块在融合阶段,对特定窗口进行多域融合在聚合阶段中,执行时间合并(“M”),然后执行特征级联。窗口长度可以变化,并且可以在所有融合模块中使用共享权重,而与窗口长度无关。图4. 多域融合过程的表示。通过非线性投影为应用于输入特征的时间轴和特征轴生成注意力图C类视频序列的编码标签1记为by,Y={y(i)}T∈RT×C。例如,令并且τ是可训练温度。类似地,我们构造音频到图像匹配损失LA。3.3. 视频特征提取微调的音频和图像编码器被部署为从整个视频序列S中提取特征。 为了从包含K个图像帧的每个视频片段(i)生成特征图vi,我们取特征图z,I的平均值,k = 1,. . . 、T. 之后,来自T个视频片段的所有特征图被级联以生成特定序列S的视频特征sv。类似地,每个片段的音频特征被级联以生成视频序列的音频特征,并且因此:sv=v1<$v2<$··<$vT(2)sa=a1<$a2<$··<$aT(3)其中表示特征级联,T表示序列中的段数3.4. 基于多窗口时域融合(MWTF)Transformer为了更好地区分局部特征变化,特别是在事件过渡边缘,需要在短时间窗口上融合多模态特征。然而,整个视频的一般上下文对于更好的事件分类至关重要。建议的多窗口考虑i=1Y={b,b,b,e2,e2,e3,e3},其中b表示时间融合(MWTF)模块有效地解决了这一问题通过将多领域注意力结合到各种背景和E2、E3表示类别2和3的事件。这里,我们利用类标签(y(i))来生成事件标签(e(i)),如下所示:0,0,0,1,1,1,1,1以区分事件(1)和背景(0)。3.2. 声象对的对比微调我们从目标数据集中提取正和负音频图像对,其中正对对应于相同的AVE,负对表示不匹配。首先,我们从AudioCLIP [12]的预训练音频和图像编码器之后,我们利用信息损失L_InfoNCE=L_I+L_A对提取的音频-图像对进行微调,其中L_I表示图像到音频匹配损失,L_A表示音频到图像匹配损失。LI由下式给出:整个视频的时间尺度,这是一种处理局部和全局变化影响的方法(图3)。最初,为了根据用于早期融合的音频表示(sa)重新缩放视频特征表示(sv),我们采用之前提出的音频引导视频注意力(AGVA)模块[24,36,7]。重新缩放的视频特征sv,aRT ×1024和相应的音频特征aRT ×1024用单独的双向长短期记忆(BiLSTM)层处理,分别用于生成vRT ×256和aRT ×256。 之后,执行视听特征的时间聚合以生成FRT×512。在MWTF模块中,我们结合了N个子模块,这些子模块在不同的时间尺度上运行,具体取决于获胜情况。dow length,{w i∈R}N.中的基本操作B B ITA每个子模块分为三个阶段:分裂,复L=-1Ii=1j=1logexp((zizj)/τ)(一)和聚合。 在第i个子的分裂阶段IBijBITA模块,将聚合特征F分割成c1独热编码改变了R上向量空间的维度。生成{F(k)∈Rwi×512}ci,因此,5162我我我我||∈Ot我∈ ∈·β∈×R的列(轴=0)。t我f、iO我我我我我我我我我我我t我我F( k ) = F[w i(k − 1 ):w i k];k ∈ {1 ,2,. . . ,c i}(4)此外,可以在总计时间步数T的子模块中使用变化的窗口长度。在分割动作之后,对第i个子模块的每个第k特征块F(k)执行多域注意力引导的融合操作。 多领域在-张紧操作在图4中示出。 考虑每个块F(k)的两域分布,我们通过重用相似变换的权重来引入联合时间(TA)和特征注意力(FA)首先,对每个F(k)∈Rwi×512特征块进行变换,生成查询向量Q(k)∈Rwi×d,k∈V (k)∈Rwi×d,以及值向量V(k)∈Vwi×d,使得Q(k)=W2(σ1(W1(范数(F(k)(5)K(k)=W4(σ1(W3(范数(F(k)(6)G=(F(1)||F(2)||. . . ||F(ci));fi∈{1,. . . ,N}(11)其中"然后,将来自每个子模块的所有修改后的特征图沿着保持时间关系的通道轴级联以生成O ∈RT ×Nd,O=G1<$G2<$··<$Gci(12)其中,<$表示沿通道轴的特征级联。3.5. 事件引导的时间细化由于背景类表示来自所有其他类的未对准的视听对,因此在细微变化的情况下将它们与事件类区分开常常变得困难。为了增强事件片段和背景之间的对比度,我们在事件区域上引入监督事件引导的时间注意(EGTA)i i在EGTA之后,我们细化对比的事件片段V(k)=W6(σ2(W5(范数(F(k)))))(7)再加上一个单窗口融合阶段,i ∈ {1,. . . ,N},k ∈ {1,. . . ,c i}其 中W1∈Rd×256 ,W2∈Rd×d ,W3∈Rd×256 ,W4∈Rd×d,W5∈Rd×256,W6∈Rd×d,σ1(·),σ2(·)分别表示双曲正切和双曲正切函数。然后,我们处理每个查询Q(k)和密钥K(k)。事件类别的区分。为了生成EGTAαattRT ×1,融合向量通过BiLSTM模块,γ=BiLSTM(Norm(O))(13)αatt=σ3(W7(γ))(14)我我时间域和特征域上的向量来生成β(k)∈Rwi×wi和βf、i(k)∈Rd×d,使得其中γRT×d′,W7R1×d′,σ3()表示sigmoid激活函数β(k)=(QKT)(k)/Kd(8)然后,在细化阶段,我们在融合向量O上应用EGTA掩码αatt以生成O′∈(k)T(k)RT ×Nd,βf,i=(KQ)i/wi(9)O′=O(αatt1)(15)i ∈ {1,. . . ,N},k ∈ {1,. . . ,c i}然后,我们生成时间注意力图A(k)∈其中,1∈R1×Nd表示全为1的广播向量,并且Nd表示逐元素乘法。Rwi×wi 通过应用softmax 在行(t我axis=1)作为最后一步,我们将单窗口融合具有窗口长度w=T,通过重新生成Ow∈RT ×d,其中β(k)∈Rwi×wi. 此外,功能注意图A(k)∈Rd×d是通过在(k)d5163∈我df,i这些多域注意力地图是按顺序排列的,在V(k)的每个轴上叠加以生成修改的特征精细事件集中向量′。最后,我们在应用另一个顺序BiLSTM层后获得最终的事件类别预测ypRT ×Cp我映射F(k)∈Rwi×dby,(k)(k)(k)(k)y=softmax(W8(BiLSTM(Norm(Ow)(16)其中对于AVE的C范畴,W8∈RC×dFi=At,i(ViAf,i)(10)i ∈ {1,. . . ,N},k ∈ {1,. . . ,c i}3.6. 损失函数引导事件注意(αatt)进行细化,我们最后,在聚合阶段,子模块中的每个第i个块的修改后的特征图在时间上连接以生成Gi∈RT×d,使得,使用事件标签lossLe。此外,对于多类预测yp,并入事件类别损失Lc。总损耗L通过将Le和Lc组合而获得,5164∈∈LeLc方法准确度(%)单模态音频基础[14] 59.5L=λ1BCE(xα` att,E)+λ2CEx(`yp,y)(17)其中λ1、λ2表示加权因子,ERT ×1表示二进制事件标签,y RT ×C表示时间帧上的独热编码多类事件类别。3.7. 推理过程中的后处理算法由于从价当量的连续性,预计(withTransformerFusion)AVE-CLIP(我们的)83.7它们在整个视频帧上具有高局部性。在那里-因此,AVE通常聚集在一起,孤立的非AVE可被视为异常。我们利用这个属性来过滤生成的事件预测y p在推理过程中获得最终的预测yf。这里,我们考虑窗口长度W来表示将任何变化视为异常所需的最小数量的连续预测因此,所有不匹配的yp值根据占主导地位的值进行校正。4. 实验和分析4.1. 实验装置视听事件数据集由Tianet al. [24]被广泛用于视听事件本地化任务。该数据集包含4143个视频剪辑以及包含28个不同事件的音频,包括日常人类活动,乐器表演,动物动作和车辆活动。每个视频剪辑为10秒长,所有事件都有时间开始/结束注释。根据现有工作[24,36,17],考虑将3,309/402/402的训练/验证/测试拆分用于评价所提出的方法。评估指标根据现有的工作[31,36,17,7],我们考虑在整个视频中多类事件的最终分类准确性作为评估指标。随着背景,29个事件类被认为是每秒预测超过10秒的视频持续时间,其中视频采样率从16到48不等。背景类别包括不属于28个主要类别中任何一个的所有未对齐的视听片段实现细节我们结合了AudioCLIP [12]框架中的预训练音频和图像编码器,该框架使用从大规模AudioSet [9]数据集中提取的音频图像对来微调预训练CLIP [19]框架。的表1. AVE分类的最新方法的性能比较。比较了各种单模态方法和多模态融合策略图像/音频编码器精度(%)带音频剪辑编码器(不带微调)81.1带音频剪辑编码器(带微调)83.7不带AudioCLIP编码器79.3表2.预训练的AudioCLIP图像和音频编码器对AVE-CLIP框架的对比微调的影响音频编码器是基于ResNeXt-50 [3]架构的ESResNeXt模型[11],图像编码器是ResNet-50 [13]模型。我们使用四个MWTF模块的组合进行经验定义的实验混合损失函数的权重根据经验选择为(λ1=0. 3,λ2=0。(七).为了评估,每个网络组合在256个AMD EPYC7742 CPU上训练300个epoch,配备2个 Quadro GV 100和2个A100- PCIE-40 GB GPU。4.2. 最新方法表1中将AVE-CLIP与几种最先进的方法进行了比较。多模态方法的性能大大优于单模态方法。这是预期的,因为多模态分析提供了比单模态分析更丰富的背景。多模态音视频融合策略对AVE定位性能起着非常关键传统上,已经探索了各种视听共同注意融合方案以增强提供可比性能的时间事件特征。最近,Linetal.[17]介绍了一种基于Transformer的多模态融合方法,该方法结合了实例级注意力以在连续帧上跟随视觉上下文。然而,所提出的AVE-CLIP架构实现了最好的 性 能 与 准 确 度 为 83.7% , 优 于 相 应 的 基 于Transformer的方法的6.9%。此外,AVE-CLIP提供了5.9%的准确性相比,周等人提出的最佳性能的共同注意力的方法。[36]第30段。视频[23]55.3阿韦尔[24]74.7多模态DAM [28]74.5(with共同关注PSP [36]77.8融合)AVIN [20]75.2RFJC [7]76.2多模态[17]第十七话76.85165多模态融合时间精炼策略准确性(%)PSP [36] 77.8与AV变压器[17]只有MWTF和AudioCLIP编码器(我们的)82.0MWTF + Refiner(我们的)82.5使用MWTF + EGTA +精制机(我们的)83.2调谐相位使AVE-CLIP的精度提高了2. 占6%表明了该算法在AVE定位上的有效性多窗口时间融合(MWTF)的效果完整模型采用MWTF + EGTA +精制机+ 后处理(我们的)83.7为了分析MWTF模块在AVE中的作用CLIP,其余的模块(时间精炼,后表3.各种构建块对所提出的AVE-CLIP架构的性能的影响。处理)被简单的全连接层以及随后的softmax分类器所取代。此外,为了比较注意力轴窗口长度,w2s 5s 10s可变对于其他多模态融合方案,考虑了基于PSP的融合[36]和来自[17]的基于AV-变换器的融合。所得准确度总结见时间78.179.381.279.4特征78.579.181.6七十九点二多域79.079.881.6七 十 九点七表4.用MWTF模块的单个融合块获得的准确度(%)用于具有各种窗口长度的不同注意域。可变窗口长度表示(3s,3s,4s)窗口的组合。表3.所提出的MWTF模块与AudioCLIP编码器提供了显着的改进,比现有的同行,这表明其有效性。MWTF模块提供了一个通用的框架,以在具有共享权重的各种时间分辨率上操作,以有效地引导多模态注意。为了分析不同时间窗口长度的影响,窗组合(带两个属性)准确度(%)共享独立权重权重在表4中探索了当在MWTF模块中使用单个融合块时的性能。随着窗口长度的增加,该模型的性能更好,同时实现了最佳性能。10s-81.610秒+5秒82.4 82.710s +3s* 82.1 82.55s +2s 80.6 81.210s + 5s +3s* 83.2 82.810秒+5秒+2秒82.9 83.010秒+5秒+3秒 *+2秒83.783.3表5.使用不同窗口组合对多窗口时间融合(MWTF)模块的影响‘*’ indicates the use of variable window lengths for4.3. 消融研究为了分析拟议AVE-CLIP中各个模块的效果,我们对基线方法进行了详细的消融研究最终的AVE-CLIP架构集成了构建块的最佳性能结构编码器中的对比微调效应我们将预训练的图像和音频编码器纳入AudioCLIP的AVE-CLIP框架中,这些编码器在训练阶段1(第3.2节)中进行对比微调。表2总结了这些编码器对AVE-CLIP最终性能的影响。 为了进行基线比较,我们采用了在ImageNet [5]上预训练的类似VGG-19主干来初始提取视频特征,并采用了在AudioSet [9]上预训练的另一个类似VGG的网络来提取音频特征。我们观察到83的最佳表现。7%是通过AudioCLIP编码器实现的,具有对比微调功能,可将精度提高4。4%,超过了单模态编码器。此外,对比精细-窗口长度为10s。此外,我们可以观察到多域注意力相对于单域注意力的一致性能改进Al-尽管具有较小注意力窗口的融合方案实现了强调高频局部变化的更有区别的特征,但是它错过了对于区分事件类别特别重要的全局不同窗口长度组合的性能见表5。通过将这些融合窗口合并到10s窗口中,与基线相比,性能显著提高。尽管较小窗口长度的性能较低,配置在提取区别特征方面更好,区别特征对于确定事件转换的锐边特别关键因此,较大和较小窗口特征的组合对于概括全局低频特征以及过渡边缘处的局部高频变化此外,我们观察到,独立的权重在不同的融合模块执行更好的相比,他们的共享计数器部分较少的窗口。然而,当胜利的数量增加时,由于融合机制的复杂性增加,这样的优势似乎缩小事件引导的时间特征细化效果在融合模块的下游,AVE-CLIP包括由两个阶段组成的时间特征细化:事件引导的时间注意力(EGTA)掩码生成和相应的特征细化。从表3中可以看出,时间细化的效果,5166方法准确度(%)有监督83.7没有监督83.1窗口= 10s83.7细化剂窗口= 5s 83.2窗口=(10s +5s)83.6表6.事件标签监督对事件引导时间注意(EGTA)模块的影响以及不同融合窗口长度对Refiner模块的影响。窗口长度1s2s3s4s5s准确度(%)83.283.583.782.9 82.3表7.后处理模块在推理过程中不同窗口长度的效果。在AVE-CLIP架构中考虑了基线的最佳性能模块。EGTA,产生0。7%的准确率。此外,在表6中提供了用于特征细化的不同组合的性能。可以在没有事件引导监督的情况下生成EGTA模块,其结果是,将损失函数简化为简单的交叉熵损失。然而,通过事件标签超视,该模型可以更好地区分事件帧与背景,从而提供更好的性能。对于细化器,具有w=10s的基于单窗口的融合产生最佳性能,因为多窗口融合在该阶段逐渐饱和。后处理算法考虑到事件的连续性,所提出的后处理方法被发现是非常有效的,以实现更好的预测在推理过程中。由于事件类别的预测是基于每秒生成的,因此可以通过考虑连续预测的窗口来减少不正确的预测。不同窗口长度对后处理方法的影响汇总于表7中。最佳性能是在3s窗口长度下实现的。在较小的窗口长度的情况下,过滤的效果在较长的事件上降低,而较大的窗口在较短的事件中降低性能。4.4. 定性分析在图5中展示了两个视听事件的申报AVE-CLIP的定性性能为了进行比较分析,我们也展示了PSP模型的性能([36])。在第一个事件中,AVE代表一架移动的直升机。虽然直升机在第一帧中可见,但由于没有飞行的直升机声音,因此它是背景事件。只有中间三帧通过视听对应捕捉到AVE。我们提出的方法完全区分了直升机事件,而PSP([36])在挑战中失败图5.PSP([36])和AVE-CLIP在两个AVE事件(直升机和小提琴)上的表演的视觉表示AVE- CLIP在定位事件转换方面表现更好。正在扫描第一帧。第二个事件代表一个人拉小提琴是非常具有挑战性的,因为小提琴几乎看不见。虽然小提琴的声音贯穿始终,但小提琴的图像仅在代表AVE的少数帧中可见PSP([36])方法在事件转换时产生一些不正确的预测。然而,建议的AVE-CLIP完美地区分事件帧,这表明其有效性,概括局部变化。此外,AVE-CLIP在许多具有挑战性的情况下实现了更好的性能,这些情况需要在整个视频中进行不同尺度的时间推理。5. 结论在本文中,我们介绍了AVE-CLIP,它使用音频剪辑编码器结合多尺度时间融合的Transformer架构,以提高AVE定位性能。我们表明,音频剪辑编码器与对比微调的效果是显着的AVE本地化产生改进的多模态表示。我们的研究结果表明,局部特征变化是必不可少的事件转换检测,而全球变化是关键的识别不同的事件类。所提出的多窗口融合模块利用多域关注的局部和全局变化,从而显着提高性能。事件帧的时间细化简化了事件分类任务,从而提高了多类AVE定位性能。最后,通过利用AVE的顺序性质和简单的后处理方案,我们能够在AVE数据集上实现最先进的性能。确认这项研究得到了海军研究办公室,密涅瓦计划和UTCockrell工程博士奖学金的部分支持。EGTA5167引用[1] Triantafyllos Afouras , Andrew Owens , Joon SonChung,and Andrew Zisserman.视频中视听对象的自监督学习见ECCV,第208-224页。Springer,2020年。[2] Partha Chakraborty , Sabbir Ahmed , Mohammad AbuYousuf,Akm Azad,Salem A Alyami,and MohammadAli Moni.一个计算人的注意力水平的视觉焦点的人机交互系统。IEEE Access,9:93409[3] 弗朗索瓦·肖莱。Xception:使用深度可分离卷积的深度学习 在Proceedings of the IEEE conference on computervision and pattern recognition,第1251-1258页[4] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。具身问答。在CVPR中,第1-10页[5] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在CVPR,第248-255页中。IEEE,2009年。[6] Guanglong Du , Mingxuan Chen , Caibing Liu , BoZhang,and Ping Zhang.具有自然人机IEEE Transactionson Industrial Electron-ics,65(12):9571[7] 段斌、唐昊、王伟、宗子良、杨国威、严延。通过联合共同注意的递归融合的视听事件定位。在WACV,第4013- 4022页[8] Chuang Gan,Yiwei Zhang,Jiajun Wu,Boqing Gong,and Joshua B Tenenbaum.看,听,并采取行动:以视听为载体的导航。见ICRA,第9701-9707页。IEEE,2020年。[9] Jort F Gemmeke、Daniel PW Ellis、Dylan Freedman、Aren Jansen 、 Wade Lawrence 、 R Channing Moore 、Manoj Plakal和Marvin Ritter。音频集:音频事件的本体和人类标记的数据集在ICASSP,第776IEEE,2017年。[10] Esam Ghaleb,Mirela Popa和Stylianos Asteriadis。情绪识别中视听线索的多模态和时间知觉见ACII,第552-558页。IEEE,2019。[11] Andre yGuzhov, FedericoRaue , JoérnHees , andAndreasDengel.Esresne(x)t-fbsp:学习稳健的音频时频变换。2021年国际神经网络联合会议(IJCNN),第1-8页IEEE,2021。[12] Andre yGuzhov, FedericoRaue , JoérnHees , andAndreasDengel.音频剪辑:扩展剪辑到图像,文本和音频.在ICASSP 2022-2022 IEEE声学、语音和信号处理国际会议(ICASSP)中,第976-980页IEEE,2022年。[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[14] Shawn Hershey,Sourish Chaudhuri,Daniel PW Ellis,JortF Gemmeke , Aren Jansen , R Channing Moore ,Manoj Plakal , Devin Platt , Rif A Saurous , BryanSeybold,et al. Cnn ar大规模音频分类的架构。在ICASSP,第131-135页中。IEEE,2017年。[15] Di Hu , Rui Qian , Minyue Jiang , Xiao Tan , ShileiWen,Errui Ding,Weiyao Lin,and Dejing Dou.通过自监督视听匹配的有区别的NeurIPS,33:10077[16] Yanghao Li,Saining Xie,Xinlei Chen,Piotr Dollar,Kaiming He,and Ross Girshick.使用视觉转换器进行基准检测迁移学习。arXiv预印本arXiv:2111.11429,2021。[17] Yan-Bo Lin和Yu-Chiang Frank Wang。具有实例注意力的视听在ACCV,2020。[18] 芮茜,迪虎,海因里希·丁克尔,吴梦月,徐宁,林伟耀。多声源定位由粗到细。见ECCV,第292-308页。Springer,2020年。[19] Alec Radford,Jong Wook Kim,Chris Hallacy,AdityaRamesh , Gabriel Goh , Sandhini Agarwal , GirishSastry,Amanda Askell,Pamela Mishkin,Jack Clark,et al.从自然语言监督中学习可转移的视觉模型。国际机器学习会议,第8748-8763页。PMLR,2021年。[20] Janani Ramaswamy是什么发出的声音?:视听事件定位的 双 模 态 交 互 网 络 在 ICASSP 中 , 第 4372-4376 页 。IEEE,2020年。[21] Aditya Sanghi, Hang Chu, Joseph G Lambourne,YeWang , Chin-Yi Cheng , Marco Fumero , and KamalRahimi Malek- shan. Clip-forge:Towards zero-shot text-to-shape generation.在IEEE/CVF计算机视觉和模式识别会议论文集,第18603-18613页,2022年。[22] Arda Senocak,Hyeonggon Ryu,Junsik Kim,and In SoKweon. Less can be more:用分类模型进行声源定位。在WACV,第3308-3317页[23] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。[24] 田亚鹏,石静,李博辰,段志尧,徐振良.无约束视频中的视听事件定位。在ECCV,第247-263页[25] Antigoni Tsiami , Panagiotis Paraskevas Filntisis , NikiEfthymiou,Petros Koutras,Gerasimos Potamianos,andPet-ros Maragos.面向儿童和成人的多方人机交互远场视听场景感知。在ICAASP中,第6568-6572页。IEEE,2018年。[26] Can Wang , Menglei Chai , Mingming He , DongdongChen,and Jing Liao. Clip-nerf:文本和图像驱动的神经辐射场操纵。在IEEE/CVF计算机视觉和模式识别会议论文集,第3835-3844页[27] 吴一凡,Roshan Ayyalasomayajula,Michael J Bianco,Di- nesh Bharadia和Peter Gerstoft。Sslide:基于深度学习的室内声源定位。在ICASSP中,第4680-4684页。IEEE,2021。[28] 于武,朱林超,燕燕,杨毅。用于视听事件定位的双注意匹配在ICCV,第6292-6300页5168[29] Fei Xia,Amir R Zamir,Zhiyan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功