没有合适的资源?快使用搜索试试~ 我知道了~
无约束视频中的视听事件定位田亚鹏【0000−0003−1423−4513】、史静【0000−0002−4509−0535】、李博臣【0000−0002−8304−6973】、段志尧【0000−0002−8334−9974】、徐晨亮【0000−0002−2183−822X】美国罗切斯特大学抽象。在本文中,我们介绍了一个新的问题,在无约束视频的视听事件定位。我们将视听事件定义为在视频片段中既可见又可听的事件。 我们收集视听事件(AVE)数据集以系统地研究三个时间定位任务:监督和弱监督视听事件定位,以及跨模态定位。我们开发了一个音频引导的视觉注意机制来探索视听相关性,提出了一个双多模态残差网络(DMRN)来融合两个模态上的信息,并引入了一个视听远程学习网络来处理跨模态定位。我们的实验支持以下发现:听觉和视觉模态的联合建模优于独立建模,学习的注意力可以捕获声音对象的语义,时间对齐对于视听融合是重要的,所提出的DMRN是有效的在融合视听特征中,两种模态之间的强相关性使得能够进行跨模态定位。关键词:视听事件,时间定位,注意,融合1介绍神经生物学研究表明,整合视觉和听觉信息的感知益处是广泛的[9]。对于计算模型,他们反映在唇读[5,12],其中语音和嘴唇运动之间的相关性为语言理解提供了强有力的线索;在音乐表演[32]中,颤音发音和手部运动使音轨和表演者之间能够联系起来;在声音合成[41]中,与不同类型材料的物理相互作用产生了合理的声音模式。尽管这些进展,这些模型是有限的,在其约束域。事实上,我们的社区已经开始探索将计算机视觉与野外试听相结合,以学习良好的表示[6,42,2]。例如,在[6]中,声音网络是通过具有大量未标记视频的视觉教师网络学习的,这比在单一模态中学习表现出更好的然而,它们都假设视频中的音频和视觉内容是匹配的(正如我们将展示的那样,通常不是这种情况),并且它们2Y. Tian,J.施湾,澳-地Li,Z.Duan和C.徐图1:(a)示出了视听事件定位。前两行示出了具有视听事件电锯的音频和视觉轨道两者的5s视频序列(事件在时间上标记在黄色框中)。第三行显示我们的本地化结果(in红框)和所生成的音频引导视觉注意力图。(b)图示了V2A和A2V的跨模态定位尚未探索联合视听表示是否可以促进对无约束视频的理解。在本文中,我们研究了一个家庭的视听事件时间定位任务(见图。1)作为无约束视频的更广泛的视听场景理解问题的代理。我们提出并试图回答以下问题:(Q1)听觉和视觉模态联合推理是否优于独立推理?(Q2)在嘈杂的训练条件下,结果会有什么不同(Q3)了解一种模态如何帮助建模另一种模态?(Q4)我们如何最好地融合这两种模式的信息?(Q5)我们能否在一种模态中找到内容,而在另一种模态中观察到内容?请注意,个别问题可能在文献中进行了研究,但我们不知道有任何工作进行了系统的研究,以回答这些集体问题作为一个整体。特别地,我们将视听事件定义为在视频片段中既可见又可听的事件,并且我们建立三个任务来探索上述研究问题:1)监督的视听事件定位,2)弱监督的视听事件定位,以及3)事件不可知的跨模态定位。前两个任务旨在预测输入视频的哪个时间段具有视听事件以及该事件属于什么类别弱监督设置假设我们无法访问时间事件边界,但可以访问视频级别的事件标签以进行训练。Q1-Q4将在这两项任务中进行探讨。在第三任务中,我们的目标是在时间上在来自给定声音片段的视频内定位相应的视觉声源,反之亦然,这将回答Q5。我们提出了基线和新的算法来解决上述三个任务。对于前两个任务,我们从基线模型开始,将它们视为序列标记问题。我们利用CNN [31]对音频和视觉输入进行编码,调整LSTM [26]以捕获时间依赖性,并应用全连接(FC)网络进行最终预测。在此基础模型上,我们引入了一个音频引导的视觉注意机制来验证音频是否无约束视频中的视听事件定位3可以帮助出席视觉功能;它还意味着作为侧输出的探测对象的空间位置。此外,我们研究了几种视听特征融合方法,并提出了一种新的双多模态残差融合网络,达到了最佳的融合效果。对于弱监督学习,我们将其表述为多实例学习(MIL)[35]任务,并通过添加MIL池化层来修改我们的网络结构。为了解决更难的跨模态定位任务,我们提出了一个视听远程学习网络,测量任何给定的音频和视频内容的相关性。观察到,没有公开可用的数据集直接适合我们的任务,我们收集了一个大型的视频数据集,包括4143个10秒的视频与音频和视频轨道28视听 事件 和注 释他 们的 时间 边界 。我 们数 据集中 的视 频来 自YouTube,因此它们是不受约束的。实验结果表明:听觉和视觉模态联合建模优于单独建模,噪声环境下的视听事件定位仍能取得较好的效果,听觉引导的视觉注意能很好地捕捉覆盖声音对象的语义区域,甚至能区分视听无关视频,时间对齐对视听融合有重要意义,提出的基于听觉和视觉模态的视听事件定位方法是一种有效的方法双多模态残差网络在解决融合任务方面是有效的,并且两个模态之间的强相关性使得能够进行跨模态定位。这些发现为我们的社区在未来解决更难的高级理解问题铺平了道路,例如视频字幕[56]和movieQA [53],其中听觉模态在理解视频中起着重要作用,但缺乏有效的建模。我们的工作做出了以下贡献:(1)一族三个视听事件的本地化任务;(2)一个音频引导的视觉注意模型,以适应性地探索视听相关性;(3)一个新的双多模态残差网络,以融合视听特征;(4)一个有效的视听远程学习网络,以解决跨模态定位;(5)一个大型的视听事件数据集,包含超过4K的无约束和注释的视频,据我们所知,这是最大的声音事件检测测试数据集。数据集、代码和补充材料可在我们的网页上获得:https://sites.google.com/view/audiovisualresearch。2相关工作在本节中,我们首先描述我们的工作与密切相关的主题的不同之处:声音事件检测,时间动作定位和多模态机器学习,然后讨论与视觉和声音建模的最新工作的关系。在音频信号处理领域中考虑的声音事件检测旨在检测并在时间上定位声学场景中的声音事件。基于隐马尔可夫模型(HMM),高斯混合模型(GMM),前馈深度神经网络(DNN)和双向长短期记忆(BLSTM)[46]的AP方法在[23,36,10,43]中开发。这些方法集中于音频信号,而视觉信号尚未被探索。修正-4Y. Tian,J.施湾,澳-地Li,Z.Duan和C.徐响应数据集,例如,TUT [36],用于声音事件检测,仅包含音轨,并且不适用于视听场景理解。时间动作定位的目的是检测和定位视频中的动作大多数作品将其视为分类问题,并利用时间滑动窗口方法,其中每个窗口被视为受分类影响的动作候选[39]。Escorcia等人。 [14]提出了一种深度动作建议网络,可以有效地为长视频生成时间动作建议,并可以加速时间动作本地化。最近,Shou et al. [48]提出了一种端到端的基于分段的3DCNN方 法 ( S-CNN) , Zhao等 人 [60] 提 出 了 一 种 结 构 化 分 段 网 络(SSN),Lea等人[30]开发了一种编码器-解码器时间卷积网络(ED-TCN)以分层建模动作。与这些作品不同的是,在我们考虑的视听事件可能包含多个动作或不动的声音对象,我们在音频和视觉领域的模型。尽管如此,我们扩展了ED-TCN和SSN方法来解决我们的监督视听事件定位任务,并在第二节中进行比较。 6.3多模态机器学习旨在学习多个输入模态上的联合表示,例如,语音和视频、图像和文本。特征融合是多模态学习[8]最重要的部分之一,并且已经开发了许多不同的融合模型,例如统计模型[15],多核学习(MKL)[19,44],图形模型[20,38]。尽管在[38,51,50,37,27,58,28]中已经研究了一些多模态深度网络,这些网络主要关注基于自动编码器或深度玻尔兹曼机的联合视听表示学习[51],但我们有兴趣研究最佳模型来融合学习的音频和视觉特征以用于定位目的。最近,一些鼓舞人心的作品被开发用于建模视觉和声音[2,6,42,41,22]。Aytar等人 [6]使用视觉教师网络从未标记的视频中学习强大的声音表示。Owens等人。 [42]利用周围的声音作为监督来学习视觉表示。Arandjelovic和Zisserman [2]通过视听对应任务以无监督的方式学习视觉和音频表示,并且在[3]中,他们进一步基于扩展的对应网络在图像中空间定位声源。除了表征学习方面的工作外,视听跨模态合成在[42,61,11]中进行了研究,自然图像场景和伴随的自由形式口语音频字幕之间的关联在[22]中进行了探索。目前,在[47,13,59,16,40]中探索了一些关于声源分离,局部化和视听表征学习的有趣和相关的工作。与以往的工作不同,在本文中,我们系统地研究了视听事件定位任务。3数据集和问题视听事件数据集。据我们所知,没有公开的数据集直接适合我们的 目 的 。 因 此 , 我 们 引 入 了 AudioSet 的 子 集 Audio-Visual Event(AVE)数据集无约束视频中的视听事件定位5t=1t=1教堂钟声男人在讲 狗叫飞机赛车妇女发言直升机小提琴长笛尤克里里油炸食品卡车Shofar 摩托车吉他火车时钟班卓琴哭泣的山羊宝宝公交车电锯猫马厕所冲洗 啮齿动物Accordian图2:AVE数据集。显示了数据集中的一些示例。说明了视频在不同类别中的分布以及事件长度的分布[18],包含4143个视频,覆盖28个事件类别,AVE中的视频每个视频包含至少一个2s长的视听事件。 该数据集覆盖了广泛的视听事件(例如,、男人说话、女人说话、狗叫、弹吉他、油炸食物等。)来自不同的域,例如,人类活动、动物活动、音乐表演和车辆声音。 我们提供了不同类别的例子,并在图中显示了统计数据。二、每个事件类别包含最少60个视频和最多188个视频,AVE中66.4%的视频包含跨越整整10秒的视听事件。接下来,我们介绍了三个不同的任务的基础上,AVE探索听觉和视觉模态之间的相互作用。完全和弱监督事件本地化。事件本地化的目标是预测输入视频序列的每个视频片段的事件标签,每个视频片段包含音频和视觉轨道具体地说,序列,我们将其分成T个非重叠段{Vt,At}T,其中每个segment的长度为1s(因为我们的事件边界是在第二级标记的),而Vt并且Atdentethevisuterpartina视频片段,非常清晰。 Lety={yk|yk∈{0,1},k=1,…,C,Cyk=1}tttk =1 t是该视频片段的事件标签。这里,C是AVE事件加上一个背景标签。对于监督事件定位任务,每个视觉片段Vt或音频片段At的事件标签yt在训练期间是已知的。我们感兴趣的事件定位在单独的音频空间,单独的视觉空间和联合视听空间。这个任务探索了音频和视频信息可以帮助彼此提高事件本地化。与监督设置不同的是,在弱监督的方式中,我们只能访问视频级别的事件标签,我们仍然旨在在测试期间预测片段级别的标签。弱监督任务使我们能够减轻对音频,视觉和视听建模的良好注释数据的依赖。跨模态定位。在跨模态定位任务中,给定一个模态(听觉/视觉)的片段,我们希望找到其同步内容在另一模态(视觉/听觉)中的位 置 具 体 地 , 对 于 visuloclizationfromaudio ( A2V ) , 给 出 了 avel-secondaudiosegmentAfrom{At}T,其中,我们想要找到其同步的l-秒视觉片段6Y. Tian,J.施湾,澳-地Li,Z.Duan和C.徐t=1t=1t=1不不不图3:(a)具有音频引导的视觉注意和多模态融合的视听事件定位框架示出了一个时间步长,并且注意,融合网络和FC对于所有时间步长是共享的(b)视听远程学习网络在{Vt}T内。类似地,对于来自视觉内容的音频定位(V2A),给定al-secondvideosegmentVfrom{Vt}T,我们想找到它的l秒音频{At}T内的段. 此任务是在事件不可知的设置中执行的,例如为这项任务开发的模型预计适用于一般视频其中事件标签不可用。对于评估,我们只使用短事件视频,其中视听事件的长度都小于10s。4视听事件定位首先,我们提出了一个整体框架,将视听事件本地化作为一个序列标记问题,在第二节。4.1. 在此框架下,我们提出了我们的听觉引导视觉注意。4.2和一种新的双多模态残差融合网络在Sec.四点三。最后,我们扩展了这个框架的工作在弱监督设置在秒。 4.44.1视听事件定位网络我们的网络主要由五个模块组成:特征提取、音频引导的视觉注意力、时间建模、多模态融合和时间标记(参见图2)。3(a))。特征提取模块利用预训练的CNN来执行道视觉特征v t= [v1,...,v k] ∈Rdv×k和来自t t分别为Vt和At这里,dv表示CNN视觉特征图的数量,k是每个特征图的矢量化空间维度,da表示音频特征的维度我们使用音频引导的视觉注意力模型来生成上下文向量vatt∈Rdv(参见第2节中的细节)。4.2)的情况。两个独立的LSTM分别以vatt和at作为输入来建模两种模态中的时间依赖性。对于时间步t处的输入特征向量Ft,LSTM更新隐藏状态向量ht和存储器单元状态向量ct:ht,ct= LSTM(Ft,ht−1,ct−1),(1)其中Ft是指我们模型中的vatt或at。为了评估所提出的注意力机制的性能,我们与不使用注意力的模型进行了比较;我们直接将全局平均池化视觉特征和音频特征馈 送 到LSTM中作为基线。为了更好地整合这两种模式,我们无约束视频中的视听事件定位7不不引入多模态融合网络(详见第2节)。4. (3)第三章。视听表示h*由多模态融合网络学习,其中视听隐藏状态输出矢量hv和ha作为输入。这个联合音频-t t视觉表示用于输出每个视频段的事件类别。为此,我们使用具有Softmax激活函数的共享FC层来预测输入段的C个事件类别的概率分布,并且整个网络可以使用多类交叉熵损失进行训练4.2听觉引导视觉注意心理物理学和生理学证据表明,声音不仅能提供有关其来源的信息,还能提供有关其位置的信息[17]。基于此,Hershey和Movellan [24]介绍了利用视听同步定位声源它示出了两种模态之间的强相关性可以用于找到与音频信号高度相关的图像区域最近,[42,3]表明,即使在不受约束的图像或视频中,声音也指示对象属性。这些工作启发我们使用音频信号作为视觉建模的指导手段。鉴于注意机制在神经机器翻译等许多应用中表现出了优越的性能,[7]和图像字幕[57,34],我们使用它图4:(a)音频引导的视觉注意机制。(b)双多模残差网络在视听特征融合中的应用来实现我们的音频引导的视觉注意力(见图1)。图3(a)和图4(a))。注意力网络将自适应地学习视频的每个片段中的哪些视觉区域来寻找对应的发声对象或活动。具体地,我们定义了注意力函数fatt,并且它可以从视觉特征图Vt和音频特征向量At中自适应地学习。在每个时间步长t处,通过下式计算视觉上下文向量vattΣkvatt=fatt(at,vt)=wivi、(二)t t ti=1其中wt是与在其音频对应物所关注的k个视觉区域上的概率分布相对应的关注权重向量。注意力权重可以基于具有Softmax激活函数的MLP来计算:wt=Softmax(xt),(3)xt=Wf σ(Wv Uv(vt)+(Wa Ua(at))<$T),(4)8Y. Tian,J.施湾,澳-地Li,Z.Duan和C.徐不其中Uv和Ua是将音频和视觉特征投影到同一维d上的两个变换函数,Wv∈Rk×d,Wa∈Rk×d,Wf∈R1×k是参数,∈Rk中的元素都是1,σ(·)是高精度的线性函数,wt∈Rk是压缩注意力映射.注意力地图可视化结果表明,音频引导的注意力机制可以自适应地捕获声源的位置信息(见图1)。5),并且它还可以提高时间定位精度(参见表1)。①的人。4.3视听特征融合我们的融合方法是基于[51]中的理念设计的,其分别处理多个特征,然后使用中间层学习联合表示。为了组合来自视觉和音频模态的特征,受[29]中的多模态残差网络(MRN)(适用于文本和图像)的启发,我们引入了双多模态残差网络(DMRN)。MRN采用文本残差分支,并将变换后的视觉特征馈送到不同的文本残差块中,其中仅更新文本特征相反,图1B中所示的所提出的DMRN。4(b)同时更新音频和视觉特征。给定音频和视频特征ha和hv从LSTM,DMRN将t t计算更新的音频和视觉特征:ha′=σ(ha+f(ha,hv)),(5)t t t t t thv′=σ(hv+f(ha,hv)),(6)t t t t t t如果ref(·)是一个附加的功能函数,则使用ha′和hv′的值tt作为用于标记视频片段的联合表示Ht这里,最新消息DMRN中的策略既可以保留原始模态中的有用信息,又可以添加来自其他模态的补充信息很简单,我们可以堆叠多个残差块以学习具有更新的ha’的深度融合网络′和hv不作为新残差块的输入然而,我们根据经验发现它确实存在不能通过为MRN和DMRN堆叠许多块来提高性能。我们认为,随着参数的增加,网络变得更难训练,一个块就足以很好地处理这个简单的融合任务。我们要强调,在长期短期培训之后融合视听功能对于我们的任务非常重要。我们凭经验发现,后期融合(在时间建模之后的融合)比早期融合(在时间建模之前的融合)好得多。我们怀疑听觉和视觉模态在时间上是不一致的。通过LSTM的时间建模可以隐式地学习某些对齐,这可以帮助进行更好的视听融合。经验证据见表1。二、4.4弱监督事件定位为了解决弱监督事件定位,我们将其制定为MIL问题,并扩展我们的框架来处理噪声训练条件。以来无约束视频中的视听事件定位9i=1i=1θ只有视频级标签可用,我们在训练阶段推断每个视听片段对的标签,并通过MIL池化将这些单独的预测聚合成视频级预测,如[55]所示:1ΣTm=g(m1,m2,…,m(T)=Tt=1mt,(7)其中m1,…, 是来自我们的视听事件的最后一个FC层的预测,并且g(·)是对所有预测的预测。 在Softmax上,可以计算每个级别的每个级别的可能性。在测试过程中,我们可以根据计算的mt预测每个片段的事件类别。5跨模态定位方法为了 解决跨 模态定 位问题 ,我 们提出 了一个 视听远 程学习 网络(AVDLN),如图所示。3(b);我们注意到类似的网络在并发工作中进行了研究[3,52]。我们的网络可以测量给定的一对Vi和Ai的距离Dθ(Vi,Ai)。在测试时,对于音频视觉定位(A2V),我们使用滑动窗口方法并优化以下目标:t*= argmin不Σls=1Dθ(Vs+t−1,As),(8)其中t*∈ {1,…, T-l +1}表示视觉和音频内容同步的开始时间,T是测试视频序列的总长度,并且l是音频序列的长度。该方法通过最小化音频段和视觉段之间的累积距离来最佳地计算出有效的分数。片段。因此,{V}t*+l−1是匹配的视觉内容。同样我们可以ii=t*从视觉内容(V2 A)定义音频本地化;为了简洁起见,我们在这里省略它。写作接下来,我们描述用于实现匹配功能的网络设{Vi,Ai}N是N个训练样本并且{yi}N是他们的标签,其中Vi和Ai是一对1 s视觉和音频片段,yi∈ {0, 1}。这里,yi= 1表示Vi和Ai是同步的AVDLN将学习测量这些对之间的距离。该网络使用预先训练的CNN对它们进行编码,然后使用两个不同的双层FC网络对编码的音频和视觉表示进行降维。最终FC层的输出是{Rv,Ra}N . Vi和Ai之间的距离由欧几里德i i i=1Rv和Ra之间的距离:我我Dθ(Vi,Ai)=||Rv−Ra||二、(九)我我为了优化距离度量Dθ的参数θ,我们引入了Hadsell等人 [21]提出的对比损失。对比损失函数为:LC=yi D2(Vi,Ai)+(1−yi)(max(0,th−Dθ(Vi,Ai)2,(10)10Y. Tian,J.施湾,澳-地Li,Z.Duan和C.徐其中h>0是一个大范围。如果不 同 的 对 的 距 离 小 于 该 距 离 , 则 该损 耗 将 使 距 离 D θ 更 大 ; 如 果 它 们 的 距 离 大 于 裕 度 , 则 它 将 不会 对 损 耗 有 贡 献 。6实验首先,我们介绍了使用的视觉和音频表示在Sec。6.1. 然后,我们在第6.2节中描述了比较的基线模型和评估指标。最后,我们展示和分析不同模型的实验结果。 6.36.1视频和音频表示有人认为,从大规模数据集(例如ImageNet [45],AudioSet [18])中学习的CNN特征对于其他视觉或听觉任务来说是高度通用和强大的。因此,我们采用预训练的CNN模型来提取视觉片段及其对应的音频片段的特征。对于每个1 s视觉片段,我们通过VGG-19网络[49]从采样的16个RGB视频帧中提取5个特征图,该网络在ImageNet上进行了预训练,然后在16帧上利用全局平均池化[33]生成一个512×7×7-D特征图。我们还探索了C3D [54]提取的时间视觉特征,C3D能够学习时空视觉特征。但是,我们没有观察到显着的改善时,结合C3D功能。我们通过在AudioSet上预先训练的 VGG类网络[25]6.2基线和评价指标为了验证联合视听建模的有效性,我们使用单模态模型作为基线,其仅使用单独的音频或单独的视觉特征,并且与我们的视听模型共享相同的结构。为了评估音频引导的视觉注意,我们比较了我们的V-att和A+ V-att模型与V和A+V模型在完全和弱监督设置。在这里,V-att模型采用音频引导的视觉注意力池视觉特征图,和其他V模型使用全局平均池计算视觉特征向量。我们可视化生成的注意力地图的主观评价。为了进一步证明所提出的网络的有效性,我们还将其与最先进的时间标记网络进行了比较:[30]和基于建议的SSN [60]。我们比较我们的融合方法:DMRN与几种基于网络的多模态融合方法:[ 28]中的加法、最大池化(MP)、门控、多模态双线性(MB)和门控多模态双线性(GMB),[ 4]中的门控多模态单元(GMU),级联(Concat)和MRN [29]。三种不同的融合策略:早期,晚期和决策融合进行了探讨。在这里,早期融合方法直接融合来自预训练CNN的音频特征和参与的视觉特征;后期融合方法融合来自两个LSTM的输出的音频和视觉特征;决策融合方法在Softmax之前融合两种模态无约束视频中的视听事件定位11图5:音频引导的视觉注意的定性可视化。我们的注意力模型可以自适应地捕捉到包含许多不同声源的语义区域,如狗叫、哭泣的男孩/婴儿、说话的女人、喇叭声的公共汽车、吉他等图图6:两个具有挑战性的例子的视觉注意力图的可视化。 第一行和第三行是从两个10s视频中均匀提取的10个视频帧,第二行和第四行是生成的注意力图。黄色框(地面实况标签)表示帧包含其中发声对象可见并且声音可听的视听事件。 如果帧中没有视听事件,则将关注随机背景区域(第二示例的第5帧);否则,注意力将集中在发声源上层.为了进一步提高DMRN的性能,我们还引入了一个可变的DMRN模型称为双多峰残差融合集成(DMRFE)12Y. Tian,J.施湾,澳-地Li,Z.Duan和C.徐表1:AVE数据集上的事件定位预测准确度(%)。A、V、V-att、A+V、A+V-att表示这些模型分别使用音频、视频、有人值守视频、音频-视频和有人值守音频-视频特征。W模型以弱监督的方式训练。注意,视听模型都通过连接LSTM模型一V V-attA+V A+V-att W-a W-V W-V-att W-A+V W-A+V-att精度59.5 55.3 58.671.472.753.4 52.955.663.766.7该方法将音频和视觉特征馈送到两个单独的块中,然后使用平均集合来组合两个预测概率。对于监督和弱监督事件定位,我们使用整体准确度作为评估指标。对于跨模态定位,例如,V2 A和A2 V,如果匹配的音频/视频片段与其地面实况完全相同,则我们认为它是良好的匹配;否则,它将是不良的匹配。我们计算所有测试样本中良好匹配的百分比作为预测精度,以评估跨模态定位的性能为了验证该模型的有效性,我们还将其与深度典型相关分析(DCCA)方法[1]进行了比较。6.3实验比较表1比较了我们提出的模型在监督和弱监督视听事件定位任务上的不同变化。表2示出了不同融合方法的事件本地化性能。图5和图6示出了所生成的音频引导视觉注意力图。为了用最先进的时间动作定位方法对我们的模型进行基准测试,我们扩展了SSN [60]和ED-TCN [30],以解决有监督的视听事件定位,并在AVE上训练它们。SSN和ED-TCN分别达到26.7%和46.9%的总体相比之下,我们的V模型具有相同的功能,达到55.3%。音频和视频。从Tab。1,我们观察到A优于V,W-A也优于W-V。它表明,音频功能更强大,以解决AVE数据集上的视听事件定位任务。然而,当我们看每一个单独的事件时,使用音频并不总是比使用视觉更好。我们观察到,对于某些事件(例如汽车,摩托车,火车,公共汽车),V比A好。实际上,这些活动大多是户外的。这些视频中的音频可能非常嘈杂:几种不同的声音可以混合在一起(例如,人们用赛车欢呼),并且可以具有非常低的强度(例如,来自远处的马的声音)。对于这些条件,视觉信息将为我们提供更有区别性和准确的信息来理解视频中的事件在某些情况下,A比V好得多(例如狗,男人和女人说话,婴儿哭泣)。声音将为我们识别这些事件提供清晰的线索。例如,如果我们听到狗叫声,我们就知道可能有狗。我们无约束视频中的视听事件定位13表2:不同特征融合方法对AVE数据集的事件定位预测准确度(%)。这些方法都使用相同的音频和视觉特征作为输入。突出显示每行中的前2个结果方法添加剂MP门控MB GMU GMB Concat MRN DMRN DMRFE早期融合59.967.9 67.9 69.2七十点五70.261.069.868.0-后期融合71.371.4 70.5 70.5七十一点六71.072.770.873.173.3决策融合70.564.5 65.2 64.6 67.667.369.763.870.4-我还观察到A+V比A和V都好,W-A+V更好比W-A和W-V更大。从以上结果和分析,我们可以得出结论,听觉和视觉模态将提供互补的信息,我们理解视频中的事件。结果还表明,我们的AVE数据集是适合研究视听场景理解任务。听觉引导的视觉注意力。定量结果(见表1)示出V-att比V好得多(3.3%的绝对改进),并且A+ V-att比A+V好1.3%。我们在图中显示了我们的注意力方法的定性结果。五、 我们观察到,许多不同类别和示例中的一系列语义区域可以被声音关注,这验证了我们的注意力网络可以学习哪些视觉区域可以看到发声对象。一个有趣的观察是,音频引导的视觉注意力倾向于关注于特定区域,例如在一些示例中,人的头脑、眼睛等,图6示出了两个具有挑战性的情况。对于第一个例子,在前几帧中,探空直升机非常小,但我们的对于第二个示例,前五个帧不包含视听事件;在这种情况下,注意力分散在不同的背景区域上。当大鼠出现在第5帧中但没有发出任何声音时,注意力不会集中在大鼠上。当老鼠的声音变得可听见时,注意力集中在发声的这一观察验证了音频引导的注意机制有助于区分视听无关的视频,而不仅仅是捕获具有对象的显著性图。视听融合。表2示出了AVE数据集上的不同多模态特征融合方法的视听事件定位预测精度。我们的DMRN模型在后期融合设置可以实现更好的性能比所有比较的方法,我们的DMRFE模型可以进一步提高性能。我们还观察到晚期融合优于早期融合和决策融合。后期融合优于早期融合,表明视听融合前的时间建模是有用的。我们知道,听觉和视觉模态并不完全对齐,并且时间建模可以隐式地学习两种模态之间的某些对齐,这有助于视听特征融合任务。决策融合可以看作是一种后期融合,但使用的是较低维(与类别数相同)的特征。14Y. Tian,J.施湾,澳-地Li,Z.Duan和C.徐后期融合优于决策融合,这验证了单独处理多个特征,然后使用中间层而不是底层学习联合表示是一种有效的融合方式。全面而薄弱的监督。显然,监督模型优于弱监督模型,但定量比较表明,弱监督方法实现了有希望的事件定位性能,这证明了MIL框架的有效性,并验证了即使在噪声条件下也可以解决视听事件定位任务。注意,W-V-att比V获得了稍好的性能,这表明音频引导的视觉注意在选择有用的特征方面是有效的。跨模态定位。表3报告了我们的方法和DCCA [1] 对 跨 模 态 定 位 的 预 测 准 确性。任务。我们的AVDL在A2V和V2A任务上都大幅优于DCCA。即使使用严格的评估指标(仅计算精确匹配),我们 的 模 型 在 两 个 子 任 务 上 : A2V 和V2A显示出有希望的结果,这进一步证明了音频和视觉模态之间存在强相关性,并且可以针对无约束视频解决跨模态定位。7结论表3:跨模态本地化A2 V:来自音频片段查询的视觉定位; V2 A:来自视觉片段查询的音频定位型号AVDLN DCCAA2v44.834.8V2a35.634.1在这项工作中,我们研究了一套五个研究问题的背景下,三个视听事件定位任务。我们提出了基线和新的算法来解决这三个任务。我们的系统研究很好地支持了我们的发现:听觉和视觉模态联合建模优于独立建模,噪声条件下的视听事件定位仍然易于处理,音频引导的视觉注意能够捕获声源的语义区域,甚至可以区分视听无关视频,节奏对齐对于视听特征融合很重要,所提出的双残差网络能够进行视听融合,并且存在强相关性。在两种模态之间的定位使得能够进行跨模态定位。致谢这项工作得到了NSF BIGDATA 1741472的支持。我们衷心感谢Markable , Inc.腾 讯 和 NVIDIA公 司 的 支 持 , 捐 赠 了 用 于 本 研 究 的GPU。本文仅反映其作者的观点和结论,而不是NSF,Markable,腾讯或NVIDIA。无约束视频中的视听事件定位15引用1. Andrew,G.,阿罗拉河Bilmes,J.,Livescu,K.:深度典型相关分析。In:Proc.ICML。pp. 1247-1255年。PMLR(2013)2. 阿兰杰洛维奇河齐瑟曼,A.:看,听,学。见:Proc.ICCV。IEEE(2017)3. Arandjelovi 'c,R., Zisserman,A. :Obje c tst thatsond. In:Ferrari,V., 他很好M Sminchisescu,C.,韦斯湾,澳-地(编辑)计算机视觉- ECCV 2018。施普林格国际出版社(2018)4. 一个回复,J., S〇l〇ri〇,T., M.,M., Gonza′lez,F. A. :Gatedmultimdal单元用于信息融合。In:Proc.ICLR研讨会(2017年)5. Assael,Y.M.,Shillingford,B.Whiteson,S.,de Freitas,N.:Lipnet:句子级唇读。CoRRabs/1611.01599(2016)6. Aytar,Y.冯德里克角Torralba,A.:Soundnet:学习声音表示未标记的视频In:Proc.NIPS。柯兰联营公司(2016年)7. Bahdanau,D.,周,K.,Bengio,Y.:通过联合学习对齐和翻译的神经机器翻译。In:Proc.ICLR(2015年)8. B.A.A.A.B.A.A.A.B.Ahuja , C. ,Morency , L.P.:Multimodalmachinelearningg:Asurvey and taxonomy.IEEE TPAMI(2018)9. 地方检察官巴尔金Groh,J.M.:看见声音:大脑中视觉和听觉的相互作用。Current opinion in neurobiology16(4),41510. Cakir,E.,Heittola,T.,Huttunen,H.,维尔塔宁,T.:复音声事件检测-使用多标签深度神经网络进行识别In:Proc.IJCNN. IEEE(2015)11. Chen,L.,中国地质大学,Srivastava,S.,Duan,Z.,徐丙:深度跨模态视听生成。In:Proc.ACMMM研讨会。ACM(2017)12. Chung,J.S.,Senior,A. Vinyals,O.,齐瑟曼,A.:在野外读唇语句子。In:Proc.CVPR。IEEE(2017)13. Ephrat,A.,莫塞里岛 Lang,O., Dekel,T., Wilson,K. Hassidim,A., 弗里曼,W. T.,鲁宾斯坦,M.:在鸡尾酒会上聆听:一种用于语音分离的非特定人视听模型。arXiv预印本arXiv:1804.03619(2018)14. Escorcia,V. Caba Heilbron,F.,尼布尔斯,JC Ghanem,B.:Daps:行动理解的深度行动建议。在:Leibe,B.,Matas,J.,塞贝,N.,Welling,M.(编辑)计算机视觉Springer International Publishing(2016)15. Fisher III,J.W.,Darrell,T.,弗里曼,W. T.,Viola,P.A.:学习联合统计模型的视听融合和分离。In:Proc. NIPS.柯兰联营公司(2001年)16. 加奥河,巴西-地费里斯河Grauman,K.:通过观看未标记的视频学习分离物体声音。在:Ferrari,V. Hebert,M.,Sminchisescu,C.,韦斯湾,澳-地(编辑)计算机视觉Springer International Publishing(2018)17. Gaver,W.W.:我们到底听到了什么?:听觉事件感知的生态学方法。生态心理学5(1),118. Gemmeke,J.F.埃利斯,D.P.,Freedman,D.Jansen,A.,Lawrence,W.摩尔共和国Plakal,M.,Ritter,M.:音频集:音频事件的本体和人类标记的数据集。In:Proc.ICASSP。IEEE(2017)19. Güonen , M., Alpaydın, E. : Multipleekerneelearning g al g or ithms. JMLR12(Jul),221120. Gurban,M.,Thiran,J.P.,Drugman,T.,Dutoit,T.:视听语音识别中多流hmms的动态模态加权。见:ICMI程序。03 - 03 - 05 - 9.5分16Y. Tian,J.施湾,澳-地Li,Z.Duan和C.徐21. 哈德塞尔河Chopra,S.,LeCun,Y.:通过学习不变映射来降低抽象性.In:Proc.CVPR。IEEE(2006年)22. Harwath,D.,Torralba,A.,Glass,J.:具有视觉上下文的口语无监督学习。In:Proc.NIPS。柯兰联营公司(2016年)23. Heittola,T.,Mesaros,A. Eronen,A.,维尔塔宁,T.:上下文相关的声音事件 检 测 。 EURASIP Journal on Audio , Speech , and Music Processing2013(1),1(2013)24. 赫尔希J.R. Movellan,J.R.:音频视觉:利用视听同步定位声音. In:Proc.NIPS。柯兰联营公司(2000年)25. Hershey,S.,Chaudhuri,S.,埃利斯,D.P.,Gemmeke,J.F. Jansen,A.,摩尔共和国Plakal,M.,Platt,D.,索罗斯,R.A.,Seybold,B.,等:用于大规模音频分类的Cnn架构。In:Proc.ICASSP。IEEE(2017)26. Hochreiter,S.,Schmidhuber,J.:长短期记忆。神经计算9(8),1735-1780(1997)27. Hu,D.,Li,X.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功