基于双注意匹配的视听事件定位

32 浏览量更新于2023-10-12 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6292基于双注意匹配的视听事件定位于武1、2、朱林超2、严燕3、杨毅2、1百度研究2悉尼科技大学ReLER3德克萨斯州立大学于.吴-student.uts.edu.au;{林超.朱，易.杨}@ uts.edu.au;汤姆yan@txstate.edu摘要在本文中，我们研究视听事件局部化问题。该任务是定位视频中的可见和可听事件。先前的方法首先将视频分成短段，然后在段级别融合视觉和声学特征。这些部分输入：输出量：跨通道定位任务通常很短，使视觉和听觉特征的每个段可能没有很好地对准。在段级的两个特征的直接级联可能易受两个信号的微小时间错位的影响我们提出了一个双注意力匹配（DAM）模块，以覆盖更长的视频持续时间，更好的高层次的事件信息建模，而本地的时间信息是通过全局交叉检查机制。我们的前提是，人们应该观看整个视频以了解高级别事件，而较短的片段应该详细检查本地化。具体地，一个模态的全局特征以双向方式查询另一模态中的局部特征。由于听觉和视觉信号之间的时间共现编码，DAM可以容易地应用于各种视听事件定位任务，跨模态定位、监督事件定位。AVE数据集上的实验表明，我们的方法优于国家的最先进的一个很大的保证金。1. 介绍多通道感知是人类探索、捕捉和感知现实世界的必要条件。在这些同步的感觉流中，视觉和听觉是传达重要信息的两个联合建模这两种模态有助于视听场景理解和事件检测。最近，一些作品探索了视觉和听觉信息的跨通道学习[3，4，5]。这些研究集中在两种模式的表征学习上，这项工作是吴宇在百度研究院实习时完成易阳为通讯作者。输入：输出量：图1.视听事件定位问题的例子它包括两个任务，即，跨模态定位（CML）任务和监督视听事件定位（SEL）任务。CML任务（图中上部的任务）是在给定另一模态中的输入事件信号的情况下，定位一模态中的SEL任务（下面的一个）是预测每个输入视听片段的事件类别（包括背景）图中的橙色表示每个任务的输出。还没有探索时间定位。为了研究如何联合利用音频和视觉特征进行事件定位，Tianet al.[30]介绍了无约束视频中视听事件定位。在这个问题中，视听事件被定义为在视频片段中既可见又可听的事件。目标是在时间维度上定位事件边界（跨模态定位任务），并预测事件属于什么类别（监督视听事件定位任务）。跨模态定位（CML）任务是从给定的声音信号中定位相应的视觉信号例如，由于大多数航拍视频没有音频信号，因此当需要在给定由智能手机记录的查询音频的情况下定位航拍视频中的事件如[30]中所定义的，任务是通用的，因此没有语义标签（事件类别）。有监督的视听事件定位任务6293在这一任务中，该任务旨在测量两种模态之间的相似性，强调对未见过查询的泛化能力在监督视听事件定位（SEL）任务中，需要预测输入视频中的哪个时间段具有视听事件以及该事件属于什么类别。我们在图中展示了两个例子。1.一、以前的方法[30，19]首先将视频序列划分为短片段，为每个片段提取视觉和声学特征。之后，它们或者最小化两种模态的段特征之间的距离（对于CML任务），或者在段级别融合两个特征（对于 SEL 任务）。这些方法的优点是分段水平表示很好地揭示了局部信息，这是定位事件的关键一个片段的典型持续时间只有一秒，但即使是一个简单的事件也可能长达几秒。视频和音频内容可能在很长一段时间内变化很大。仅使用来自一小部分的本地信息通常会涉及偏见。另外，由于段非常短，所以在段级直接融合视觉和声学特征甚至对于微小的时间未对准或内容噪声（例如，遮挡、抖动）。总而言之，这些方法利用了音频和视觉之间的局部关系，但忽略了两种模态之间的全局时间共现全局时间同现是视觉和听觉模态之间在长时间内的相关性。在一个事件中，视觉和听觉都提供了关于事件发生的强有力的线索，例如，在视频中同时听到婴儿的哭声和长时间的巧合强烈表明存在事件，因为它们不太可能仅仅偶然地在模态之间共同发生。它启发我们在定位事件时，将两种模态之间的全局共现作为一个强而可靠的信号。我们提出了双注意力匹配（DAM）模块来利用这种关系。DAM着眼于更长的视频持续时间，以更好地模拟整个事件，同时还通过全局交叉检查机制获取局部时间信息。我们的前提是，人们必须观看较长的视频片段才能理解高级别事件，但必须检查较短的片段以进行本地化。在长时间内，音频和视频通道传达关于同一事件的相同信息，并且该信息应在时间上对齐。给定来自一个模态的全局事件信息，DAM被设计为找到另一个模态中的哪些片段与事件最相关我们通过从一个模态的全局特征查询到另一个模态的局部特征来建模事件相关性，反之亦然。DAM作为一种编码视听事件时间共现的模块，可以很容易地应用于CML和SEL任务中。AVE数据集上的实验[30]显示我们的方法比最先进的方法有很大的优势。概括起来，我们的贡献如下：我们提出了双注意力匹配，它着眼于一个很长的持续时间，以更好地模拟高层次的事件信息，同时也获得了全球交叉检查机制的本地时间信息。我们设计的DAM模块可以很容易地应用于在跨模态定位任务中。实验表明，我们的方法优于国家的最先进的方法，由一个大的利润。为了解决有监督的视听事件本地化任务，我们在DAM之上设计了一个新的联合训练框架。我们的框架利用了事件预测的序列一致性和模态的时间跨模态共现，在实验中表现出良好的性能。2. 相关工作首先简要介绍了视觉和声音的交叉建模，然后讨论了视觉和声音技术的应用。最后，我们讨论了我们的焦点，视听事件定位问题的相关进展。2.1. 视觉和声音表征学习最近，多模态交叉建模引起了大量的研究关注[3，5，33，22，23，32，11]。其中，一些工作集中在视觉和音频分类任务上。音频和视频信息在视频中同步。因此，音频通道可以用作自由的自我监督。通过这种方式，Owens等人 [23]将环境声音作为监督来学习视觉表征。Arandjelovic和Zisserman [3]提出通过视听对应任务以无监督的方式学习视觉和音频表示。相反，Aytar等人 [5]提出了SoundNet，它设计了一个视觉教师网络，用于从未标记的视频中学习音频表示。Owens和Efros [21]以及Korbar等人根据视听信息之间的关系，[17]同时提出通过代理任务（视听时间同步任务）来学习这样的视觉和音频在自我监督的时间同步任务中，他们训练神经网络来预测视频帧和音频是否我们与这些从视频中同步的音频和视觉通道与他们不同的是，我们的研究重点是两个模态之间的时间定位。我们引入了长期的全局表示来帮助模型理解事件，然后检查每个局部片段以给出准确的定位预测。···6294不S{1}|联系我们不不 t=1不不不--联系我们2.2. 视觉和声音应用除了表征学习之外，视觉和声场也有一些应用。声源分离。分离音频流中的各个声源是一项经典的音频理解任务[7]。很自然地引入视觉信号来解决问题，视听源分离[21，9，34]。这些方法使应用范围从演奏乐器到语音分离和增强。声音、视觉和语言。在[11]中探索了图像场景和音频字幕之间的视听关联Aytar等人[6]建议学习跨模态的对齐表示，例如音频、文本和视觉。最近，Tianet al. [29]提出视听视频字幕任务。Alamri等人[1]引入视听场景感知对话任务，其中代理任务是用自然语言回答关于短视频的问题。声音定位。声音定位问题包括识别视频中的哪些像素或区域是重新定位的。对录制的声音负责。早期的研究假设发声的物体是运动的。Hershey等[13]建议使用高斯过程模型来测量视觉运动和音频之间的Kidron等人[16]建议使用典型相关分析和利用以序列到序列的方式连接到全局特征然而，这些方法在语段层面上融合了两种情态特征.因此，我们建议利用全局事件功能作为本地化事件时的参考。3. 方法在本节中，我们将介绍我们的双重注意力匹配（DAM）模块，它解决了视听事件本地化问题。我们首先从问题陈述的结构开始，然后详细介绍DAM模块。第3.3节和第3.4节3.4，我们说明了如何应用我们的 DAM 模块在两个应用程序，即，跨模态定位（CML）任务和监督视听事件定位（SEL）任务。3.1. 预赛在视听事件定位问题中，每个视频都包含一个既可见又可听的视听事件。对于视听视频序列S=（SA，SV），SA是音频信道，SV是视觉信道。序列S的时间长度为N秒。在[30]之后，整个视频序列被分成N个不重叠的片段sA，sVN，其中每个片段是一秒。sA和sV表示音频t t视听事件的空间稀疏性。最近，森-Cak等人[27]提出一种无监督算法来解决视觉场景中声源的定位问题Arandjelovic和Zissermanl [4]基于扩展的对应网络在图像中Zhao等人[34]建议PixelPlayer分离输入声音，并将它们定位在视觉输入中。与这些方法相关的是，我们共同的目标是在视觉通道中定位音频。而他们的目标是在空间上本地化视频（或图像）中的音频源，我们专注于内容和同步视觉对应的t-段，分别。对于同步的视听对（sA，sV），事件相关性标签yt0，1指示关于目标事件的两个模态的相关性y t= 1意味着音频s A和视觉内容V包含事件。我们定义事件相关区域T E=t y t= 1，1不N作为事件发生的时间区域。对于每个模态输入，我们在分段级别提取预训练的CNN特征在时间t，我们将f A和f V表示为局部特征（片段级）t t在视觉通道中时间定位音频事件时反之亦然。2.3.视听事件定位时间事件定位的目的是检测和定位视频中的事件。早期作品[12，24]仅使用音频信号检测声音中的事件。然而，视觉信号也提供了丰富的信息，应该在事件检测中加以考虑。Tian等人[30]提出了视听事件定位问题，通过音频和视觉模态来检测事件。在这个问题中，视听事件可能包含多个动作或不动的声音对象。视听事件定位问题包括[30]中的三个任务，即，监督和弱监督视听事件定位以及跨模态定位。Tian等人[30]引入音频引导的视觉注意机制，以自适应地学习在哪些视觉区域中寻找对应的发声对象或活动。Lin等[19]建议将视听功能音频段和视频段的不同。福尔-根据[30]，局部特征提取器是固定的，我们在这些局部特征之上构建我们的方法。3.2. 双重注意力匹配机制为了从一种模态中获得更好的事件表示，我们在事件相关区域TE上进行序列嵌入。给定一种模态的提取的全局表示，我们的目标是找到与另一种模态中的事件相关的局部片段，反之亦然。我们使用注意机制来模拟一个模态的全局特征和另一个模态的局部特征之间的关系。它们的内积被认为是跨模态相似度，其通过在训练中提供的事件相关性标签y进一步优化。具体来说，对于事件相关区域中的候选者，我们期望局部特征接近事件表示，因为它们都包含关于同一事件的信息。因此，我们提取该区域中的（一种模态的）局部特征6295E{|}{E背景分割0事件无关标签1个事件相关标签✕元素匹配✕011✕10音频本地音频功能事件相关特征全局音频功能事件相关性预测全局视觉特征事件相关特征局部视觉特征愿景图2.提出的双注意力匹配（DAM）模块。DAM着眼于更长的视频持续时间，以更好地模拟高级事件信息，同时还通过全局交叉检查机制获得局部时间信息。DAM通过找出其他段中的哪些段与事件相关我们首先提取每个输入段的局部特征，并仅在事件相关区域中收集特征然后对这些局部特征进行自注意，得到该模态下的全局事件特征为了在时间上定位事件，我们通过计算全局特征（来自该模态）和局部特征（来自另一模态）之间的点积来检查每个局部片段。对于这些事件段，点积结果应为1，对于背景段，点积结果应为0和（另一个的）全局特征彼此接近对于其余的背景区域，我们将它们彼此推开。DAM的管线如图所示。二、接下来，我们将说明DAM模块的两个组件，即，基于事件的序列嵌入和双重匹配机制。基于事件的全局特性。对于长度为N的输入事件，输入x。在自我注意嵌入之后，我们对输出特征进行时间平均，作为该模态的最终表示。以音频模态为例，通过以下方式获得事件相关全局音频表示：φA（SA）=平均值（self-att（FA）），（3）视频{sA，sV}N，事件相关序列为SE=其中mean是时间平均池化操作。t tt =1一V（st，st）t=t1，t2，...，t e，其中t i T E表示事件所在区域的索引，e是事件的长度事件相关区域TE。为了减少背景噪音，FA∈Re×d表示事件区域TE中局部音频特征的级联. 这样，我们就得到了事件-相关的音频表示φA（SA）∈Rd，其中，我们放弃了背景部分，功能.受[20，31]的启发，我们将自注意嵌入应用于事件相关序列，通过考虑事件相关片段之间的关系来改进序列嵌入。注意力是对查询、键和值进行的缩放点积，qkTatt（q，k，v）=Softmax（q，k，v），（1）其中d是输入特征向量的维度。在self-attention [31]中，查询q、键k和值v是通过输入向量的变换生成的，self-att （ x ） =att （ Wq x ， Wk x ， Wvx），（2）其中Wq，Wk和Wv是6296EE将有关整个事件的信息保存在音频通道中。同样，在视觉通道中，我们也嵌入了事件相关的视觉特征，φV（SV）=平均值（self-att（FV）），（4）其中，FV表示区域TE上的局部视频特征的级联。现在我们有了音频和视频通道的全局表示。接下来，我们执行跨模态注意力匹配来检查每个局部片段.跨模态双重匹配。跨模态匹配是基于这样的假设，即信息是不同的-在事件段和背景段之间输入。在匹配中，训练模型以区分听觉/视觉序列的哪个片段与事件相关我们使用全局特征的点积（在一种模态中）6297不不不不不不不 t=1不 t=1不--t=1----0 1 1 1 0以及所有分段级特征（在另一个中）作为相似性（注意力权重）。跨模态匹配应用于两种模态（交叉检查），即，从视觉到音频以及从音频到视觉。给定全局特征φA（SA）和φV（SV），以及局部特征fA和事件相关性预测fV，事件相关预测通过下式计算pA=σ（φV（SV）·fA），（5）pV=σ（φA（SA）·fV），（6）其中pA和pV表示事件相关性预测，t t第t段的音频和视频通道，分别为，活泼地σ是Sigmoid激活函数，它将点积转换为范围（0，1）。有了这两个交叉模态匹配，我们就有了最终的事件相关预测，最终预测事件类别事件关系p= 1（pA+ pV）。（七）预测预测t2t t事件相关预测任务的基础事实是事件相关标签yt，即，如果分段t在事件相关区域TE中，则pt应该为1，而对于背景区域，pt应该为0我们使用二进制交叉熵（BCE）损失来优化DAM模块。在DAM模块的基础上，我们设计了两个视听事件本地化应用的框架，CML任务和SEL任务。3.3. 跨模态定位在跨模态定位（CML）任务中，给定一个模态的一些事件相关片段，目标是找到其同步内容在另一模态中的位置。该任务适合于评估模型CML任务包含两个方向定位，即，来自音频的视觉定位（A2V）和来自视觉内容的音频定位（V2A）。在A2V任务中，给定1-第二事件相关音频序列S_A，其中，l< N，在s V N内找到其同步的l秒视觉片段的目标 . 如[30]中所定义的，在本地化过程中没有提供语义标签（事件类别）类似地，在V2A任务中，给定1秒的视觉片段SV，我们将希望在SN内找到其1秒的音频片段。我们设计的DAM模块可以很容易地应用到CML任务。在训练中，提供整个视频和事件然后，我们训练DAM模块，如第二节中所讨论的。3.2.在推理阶段，我们首先从查询序列中获得基于事件的全局特征，然后将全局特征作为查询来检查每个日志，候选人的cal段。每个片段都被分配一个预测分数，该分数指示其与输入的相关性图3.监督视听事件本地化任务的框架黄色块和橙色块分别指示事件类别预测和事件相关性对于推理，最后是两个预测的组合。查询. 最后，我们查看N长度候选片段的预测得分，并输出具有最大连续和的l长度序列作为最终定位预测。3.4. 监督视听事件定位有监督的视听事件定位任务是预测输入视频的哪个时间段具有视听事件以及该事件属于什么类别。在此任务中，我们有事件相关区域注释y和事件类别标签注释yc。请注意，任务中的视频中仅存在一个事件类别。目标是预测输入事件视频的所有N长度段的类别（包括与文献[30，19]不同的是，我们将该任务解耦为两个子任务，1)基于整个序列预测事件类别，以及2）区分未修剪事件视频中的背景片段。如图3、模型主要包含两个分支。我们通过自注意机制提取音频通道和视觉通道的全局表示。注意，自我注意力将包括背景的所有片段作为输入。原因是我们在评估期间不能访问事件区域TE然后将两个全局特征进行融合，并基于融合后的特征对事件猫概率进行同时，DAM模块获取全局特征并检查每个局部（片段级）特征以预测事件相关性y_t，其进一步用于确定第t个片段是否是背景。福尔-事件类别预测培训：Self-Attention音频引导关注0 1 1 1 0大坝推论：6298−不LL不≥在[30]之后，我们还使用音频引导的视觉注意力来生成局部视觉特征。在推理阶段，最终预测是预测y_c和y_t的组合。对于第t个分段，如果y≤<0。5、该区段的最终预测为背景。我很抱歉0的情况。5中，该片段被预测为事件相关的，并且因此最终预测是事件分类预测y_c。在训练阶段，我们有相应的事件类别标签和事件相关性标签，因此总体目标函数为，1ΣNR方法A2vV2a平均DCCA [2]AVDLN [30]34.135.634.844.834.540.2我们47.1±1.648.5±1.447.8±1.5表1.与跨通道定位任务的最新方法进行比较。A2 V：基于音频序列查询的视觉定位; V2 A：从视觉序列查询中定位音频。我们报告三次运行的平均值和标准差以减少随机性。实作详细数据。我们采用预先训练好的CNN模式，L=λ Lc+（1λ）N t=1左，（8）ELS提取音频和视频内容的局部片段特征。为了公平比较，我们使用VGG-19 [28]其中，c是事件类别预测的交叉熵损失，并且r是第t个分段的事件相关性预测y？r的二进制交叉熵损失。我们将在第二节中评估λ四点三。4. 实验我们首先讨论了实验设置，然后在两个任务下将我们的方法与AVE数据集上的最新方法进行比较。消融研究和定性结果显示了DAM的有效性4.1. 实验装置来自AudioSet [10]的视听事件（AVE）数据集[30]包含4，143个视频，涵盖28个事件类别。AVE数据集中的视频涉及广泛的视听事件域，例如，人的活动、听觉活动、音乐表演和车辆声音。详细的事件分类，包括人说话，狗叫，弹吉他，油炸食品等。，每个视频至少持续两秒。每个视频持续10秒，包括音频和视频轨道。AVE中的视频在时间上标记有视听事件边界，这表明片段是事件相关的还是背景。评估指标。在CML任务中，训练中提供的唯一信息是视听事件边界。该任务具有两个评估子任务，包括从音频的视觉定位（A2V）和从视觉内容的音频定位（V2A）。在该任务中定义的良好匹配是匹配的音频/视频片段与其地面实况完全相同;否则，这将是一个不良匹配。我们计算所有测试样本的良好匹配百分比作为预测精度，以评估CML的性能。在SEL任务中，我们预测输入视频中每个一秒片段的类别。注意“背景”也是这个分类任务中的一个类别。整体分类精度被用作该任务的评估指标。从ImageNet [25]数据集预训练的网络作为视觉CNN模型，以提取每个1秒视觉片段的特征。类似地，对于音频表示，我们通过在AudioSet [10]上预先训练的VGG类网络[14]在实验中，为了公平比较，我们使用相同的低级结构（例如，低级嵌入，分段级关注），如[30]中所使用的对于自我注意模块，我们使用如[31]所示的默认结构。4.2. 与最新技术水平结果的跨模态定位。表1显示了我们的方法和最先进的方法AVLN [30]和DCCA [2]在CML任务上的性能。AVLN方法与[4]类似，提取两种模态的特征，并通过简单的欧氏距离测量它们的相关性。与AVLN [30]和DCCA [2]仅关注局部片段不同，我们的DAM首先观察长事件序列以获得稳定的表示，然后检查每个片段以更好地定位。我们的方法，与设计的DAM模块，在A2V和V2A任务上都大大优于最先进的方法具体来说，在A2V任务上，我们的方法将准确率从35.6%提高到47.1%。由于CML任务具有挑战性，因此此任务中提供的注释非常有限（仅具有事件边界，但没有事件标签），内容非常不同（一个是音频，另一个是视觉），并且评估度量是严格的（仅计算精确匹配）。监督视听事件定位。我们还测试我们提出的框架上的SEL任务，这是一个段级事件分类问题。在训练中，我们每个1秒片段都有详细的事件类别（包括背景）和注释。我们比较我们的方法与国家的最先进的方法。ED-TCN [18]是一种最先进的时间动作标记方法。Tian等人[30]提出这项任务的基线，它利用预先训练的CNN模型来编码音频和视觉输入，6299方法V2aA2v平均DAM w/自匹配28.629.829.2DAM w/交叉配血47.148.547.8表2.与AVE数据集上的监督视听事件定位任务* 表示使用相同的预训练VGG-19功能进行公平比较的再现性能。我们报告三次运行的平均值和标准差以减少随机性。方法V2aA2v平均DAM w/RNN41.847.944.9DAM，平均合并46.046.146.1带最大合并的45.846.246.0DAM w/ LSTM [15]43.548.145.8DAM w/ GRU [8]45.547.446.5DAM w/ BLSTM [26]44.248.146.2[31]第三十一话47.148.547.8表3. DAM模块中使用的不同序列嵌入函数在跨模态定位任务中的比较。调整LSTM以捕获时间依赖性，并应用完全连接的层来进行最终预测。在基线模型之上，Tianet al. [30]进一步引入音频引导的视觉注意机制，以自适应地学习在哪些视觉区域中寻找相应的Lin等[19]通过引入额外的LSTM来替换最终的预测分类器，提出了AVSDN方法。表2总结了我们的方法和最先进的方法在AVE数据集上我们观察到，我们的方法比最好的最先进的结果（74.5%对72.7%）产生更高的准确性。4.3. 消融研究不同的序列嵌入函数。我们系统地研究了不同的序列嵌入函数，以取代自注意模块（Eqn。(2))在DAM中使用对序列关系建模的常见序列嵌入函数是AveragedPooling ， Max Pooling ， RNN ， LSTM [15] ，Bidirectional-LSTM [26] ， GRU [8] 和 Self-Attention[31]。我们在我们的DAM模块中评估这些序列嵌入函数，以揭示全局信息的影响。性能比较报告见表3。在所有的嵌入函数中，表4.跨通道匹配和自匹配在跨通道定位任务中的比较。“Self-Matching” indicates“交叉匹配”是我们的DAM中的交叉模态匹配（在第2节中讨论）。3.2）。方法准确度（%）我们的w/o匹配70.7我们的w/自匹配74.2我们的w/交叉配血74.5表5.视听事件定位任务匹配机制的消融研究。“Ours w/oMatch- ing”表示我们的框架没有DAM模块。“Self- Matching”indicates we use the global feature of the modality it- self as aquery to match the localDAM模块的优化仍然优于仅关注局部段的最新方法[30]。这与我们的动机一致，即在检查每个本地片段进行本地化之前，必须观看长视频剪辑以了解整个事件跨模态匹配与自匹配。我们还执行自匹配，而不是在DAM中的交叉模态匹配，以验证交叉检查的有效性。具体地，代替使用来自另一模态的全局特征，我们改变等式n中的全局特征φV（SV）和φA（SA）。5，Eqn。6.通过模态本身的全球特征。表4报告了CML任务中的性能比较。“Ours w/ Self-Matching” indicates the在推理阶段，我们计算查询和候选之间的余弦距离，并输出具有最小距离的一个作为定位预测。自匹配的性能是远离我们的DAM，表明时间共现是一个很强的相关性模态在CML。表5总结了SEL任务的性能比较。“Ours w/o Matching”表示利用事件序列的一致性，但不使用全局特征通过DAM检查局部段的框架。由于该模型不能区分背景和事件片段，因此在SEL任务中实现了较差的性能（70.7%）。自匹配模型比不匹配模型的性能高出3.5个点，这也验证了我们的动机，即在定位每个小片段之前观察整个事件是有帮助的。我们的跨-自我注意达到最佳性能。值得提到有两个非参数嵌入函数（最大池和平均池），整体性能匹配通过利用跨模态信息请注意，SEL任务中的性能增益与CML中的性能增益相比相对较小方法准确度（%）ED-TCN [18]46.9音频（预训练的VGG类[14]）59.5目视检查（预训练VGG-19 [28]）55.3视听[30]71.4[19]第十九话72.6视听+属性[30]72.7我们74.5±0.663007473.970.71.35773.72.3974.73.174.474..5LL图4.定性结果。绿色和红色分别代表正确和错误的预测前两个示例示出了A2V任务，其中输入音频查询位于时间维度（水平）上的其地面实况位置。底部显示了SEL任务的示例。该模型无法预测第四段。第四段的基础事实是任务这是因为在预测过程中，两种模态的互补性已经通过两种模态的融合特征得到了利用。平衡参数λ的分析。在等式中(8)，λ是平衡事件相关性损失r和事件类别损失c的贡献的超参数。图5显示了不同λ值下的性能曲线。注：λ= 1表示仅使用事件类别损失，进行训练，即，没有DAM模块最佳性能在λ= 0时实现。5人，占74.5%。4.4. 定性结果我们在图4中展示了我们的DAM模型的一些定性结果。图中的绿色和红色分别代表正确和错误的预测。前两个示例显示了A2V任务。我们绘制输入音频查询在其时间维度（水平- tal）上的地面实况位置。对于第一个例子，虽然视觉内容变化很大，但我们的DAM仍然成功地找到了正确的时间位置，给出了一个关于油炸食物的声音。第二个例子更难。婴儿的哭声，它是不容易定位的视觉片段，因为面部运动太小。因此，预测结果（红框）与查询不匹配.底部显示了SEL任务的示例。该模型无法预测第四段的类别。地面事实是“吠叫”，而我们的主要原因是7675747372771700.10.20.30.40.50.60.70.80.91λ图5.在不同平衡参数λ值下的性能（定义于方程(8))在SEL任务中。5. 结论在这项工作中，我们研究了视听事件本地化问题，并提出了双注意匹配（DAM）模块。与以往的方法，专注于本地段不同，我们的DAM着眼于更长的视频持续时间，以更好地模拟高层次的事件信息，同时也获得了全球交叉检查机制的本地时间信息。我们的直觉是，较长的视频剪辑，以了解高级别的事件，但必须检查较短的片段进行本地化。具体而言，给定来自一种模态的全局事件信息，DAM被设计为找到另一种模态中的哪些片段与事件最相关。我们通过从全局特征到局部特征的查询来建模事件相关性。实验表明，我们的方法优于国家的最先进的方法，由一个很大的利润。精度6301引用[1] Huda Alamri ， Vincent Cartillier ， Abhishek Das ， JueWang，Stefan Lee，Peter Anderson，Irfan Essa，DeviParikh，Dhruv Batra，Anoop Cherian，Tim K.马克斯和堀千织视听场景感知对话框。在CVPR，2019年。[2] Galen Andrew，Raman Arora，Jeff Bilmes，and KarenLivescu.深度典型相关分析。2013年，《国际反洗钱法》。[3] Relja Arandjelovic和Andrew Zisserman。看，听，学。ICCV，2017年。[4] Relja Arandjelovic和Andrew Zisserman。会发出声音的物体。在ECCV，2018。[5] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴声音网络：从未标记的视频中学习声音表示.在NIPS，2016年。[6] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴看，听，读：深度对齐表示。arXiv预印本arXiv：1706.00932，2017。[7] 卓晨、伊洛、尼玛·梅斯格拉尼。用于单麦克风扬声器分离的深度吸引器网络。在ICASSP，2017年。[8] KyunghyunCho，BartVanMerrieenboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。在EMNLP，2014年。[9] Ruohan Gao，Rogerio Feris，and Kristen Grauman.通过观看未标记的视频学习分离物体声音。在ECCV，2018。[10] Jort F Gemmeke、Daniel PW Ellis、Dylan Freedman、Aren Jansen 、 Wade Lawrence 、 R Channing Moore 、Manoj Plakal和Marvin Ritter。音频集：音频事件的本体和人类标记的数据集。在ICASSP，2017年。[11] David Harwath，Antonio Torralba，and James Glass.视觉语境下的非监督口语学习。在NIPS，2016年。[12] 放大图片作者：Toni Heittola，Annamaria Mesaros，Antti J.Eronen和Tuo-mas Virtanen。上下文相关的声音事件检测。EURASIP J.音频，语音和音乐处理，2013年。[13] John R Hershey和Javier R Movellan。视听：使用视听同步来定位声音。NIPS，2000年。[14] 放大图片作者：Daniel P. W. Jort F. Ellis放大图片创作者：Germeke，Aren Jansen，Channing Moore，ManojPlakal，Devin Platt，Rif A.Saurous，Bryan Seybold，Malcolm Slaney，Ron Weiss，and Kevin Wilson.用于大规模音频分类的Cnn架构在ICASSP，2017年。[15] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735[16] Einat Kidron，Yoav Y Schechner，and Michael Elad.像素的声音。在CVPR，2005年。[17] Bruno Korbar，Du Tran，and Lorenzo Torresani.从自监督同步中协作学习音频和视频模型在NIPS，2018年。[18] Colin Lea、Michael D Flynn、Rene Vidal、Austin Reiter和Gregory D Hager。用于动作分割和检测的时间卷积网络。在CVPR，2017年。6302[19] Yan-Bo Lin，Yu-Jhe Li，Yu-Chiang Frank Wang.用于视听事件定位的双模态seq2seq网络。在ICASSP，2019年。[20] Zhouhan Lin ， Minwei Feng ， Cicero Nogueira dosSantos，Mo Yu，Bing Xiang，and Yoshua Bengio.一个结构化的自我关注的句子嵌入。在ICLR，2017。[21] Andrew Owens和Alexei A Efros。具有自我监督多感官特征的视听场景分析。在ECCV，2018。[22] 安德鲁·欧文斯、菲利普·伊索拉、乔什·麦克德莫特、安东尼奥·托拉尔巴、爱德华·H·阿德尔森和威廉·T·弗里曼。视觉指示的声音。在CVPR，2016年。[23] Andrew Owens 、 Jiajun Wu 、 Josh H McDermott 、William T Freeman和Antonio Torralba。环境声音为视觉学习提供监督。在ECCV，2016年。[24] Giambattista Parascandolo ， Heikki Huttunen ， andTuomas Virtanen.现实生活录音中复调声音事件检测的递归神经网络。InICASSP，2016.[25] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。IJCV，2015年。[26] Mike Schuster和Kuldip K Paliwal。双向递归神经网络。IEEE Transactions on Signal Processing，1997。[27] Arda Senocak 、 Tae-Hyun Oh 、 Junsik Kim 、 Ming-Hsuan Yang和In So Kweon。学习在视觉场景中定位声源。在CVPR，2018年。[28] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络见ICLR，2014年。[29] Yapeng Tian，Chenxiao Guan，Justin Goodman，MarcMoore，and Chenliang Xu.一种可解释的视听视频字幕的尝试。arXiv预印本arXiv：1812.02872，2018。[30] 田亚鹏，石静，李博辰，段志尧，徐振良.无约束视频中的视听事件定位。在ECCV，2018。[31] Ashish Vaswani，Noam Shazeer，Niki Parmar，JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的。在NIPS，2017年。[32] 虞武、陆江、易阳。重新访问Eud-iedqa：一个简单的基线和超越。 arXiv 预印本arXiv： 1904.04166 ，2019。[33] 吴宇，朱林超，卢江，杨毅。解耦的小说对象字幕。在ACM MM，2018年。[34] 赵航，庄淦，安德鲁·鲁迪琴科，卡尔·冯德里克，乔什·麦克德莫特，安东尼奥·托拉尔巴.像素的声音在ECCV，2018。

下载后可阅读完整内容，剩余1页未读，立即下载