191080学习在动态音频-视觉场景中回答问题0Guangyao Li 1, † , Yake Wei 1, † , Yapeng Tian 3, † , Chenliang Xu 3 , Ji-Rong Wen 1 , Di Hu 1,2,*01 中国人民大学人工智能高灵学院,北京 2北京大数据管理与分析方法北京市重点实验室,北京 3 罗切斯特大学计算机科学系,罗切斯特1 {guangyaoli, yakewei, jrwen, dihu}@ruc.edu.cn, 3 {yapengtian,chenliang.xu}@rochester.edu0摘要0本文重点研究音频-视觉问答(AVQA)任务,旨在回答关于视频中不同的视觉对象、声音及其关联的问题。这个问题需要对音频-视觉场景进行全面的多模态理解和时空推理。为了评估这个任务并促进我们的研究,我们引入了一个大规模的MUSIC-AVQA数据集,其中包含超过45K个问题-答案对,涵盖了33个不同的问题模板,涵盖了不同的模态和问题类型。我们开发了几个基线模型,并引入了一个基于时空的音频-视觉网络来解决AVQA问题。我们的结果表明,AVQA受益于多感知,并且我们的模型优于最近的A、V和AVQA方法。我们相信我们构建的数据集有潜力成为评估和推动音频-视觉场景理解和时空推理进展的测试平台。代码和数据集:http://gewu- lab.github.io/MUSIC-AVQA/01. 引言在日常生活中,我们被音频和视觉信息所包围,这两种模态共同提高了我们在场景感知和理解方面的能力[19]。例如,想象一下我们在音乐会上,同时观看演出和听音乐可以提高我们对演出的享受。受此启发,如何使机器整合多模态信息,特别是音频和视觉等自然模态,以达到与人类相当的场景感知和理解能力,是一个有趣且有价值的课题。近年来,我们在发声对象感知[6, 22, 37, 52]、音频场景分析[7, 10, 13,20, 21, 51, 59]、音频-视觉场景解析[42,47]和内容描述[24, 40,50]方面取得了显著进展,朝着音频-视觉场景理解的方向发展。尽管这些方法0† 同等贡献. * 通讯作者.0Q:哪个单簧管首先发出声音?0AVQA模型0无法解析哪个单簧管?0发出声音的是哪个?0无法解析0VQA模型 AQA模型0融合0A:正确0图1.音频-视觉问答需要听觉和视觉模态进行多模态场景理解和时空推理。例如,当我们遇到一个复杂的音乐表演场景,涉及多个发声和非发声乐器时,仅考虑视觉模态的VQA模型很难分析问题中的“首先”一词。而如果我们只考虑具有单声道音频的AQA模型,左右位置也很难被识别。然而,我们可以看到同时使用听觉和视觉模态可以轻松回答这个问题。0在复杂的音频-视觉场景下,关联音频和视觉视图的对象或声音事件,大多数方法仅具有有限的跨模态推理能力。相比之下,人类能够在多模态环境中进行多步骤的空间和时间推理,解决复杂的任务,例如回答音频-视觉问题,但对于机器来说这是非常具有挑战性的。现有的方法,如视觉问答(VQA)[3]和音频问答(AQA)[9]只关注单一模态,无法在同时具有音频和视觉模态的更自然的场景中进行良好的推理。例如,如图1所示,当回答音频-视觉问题“哪个单簧管首先发出声音”时,需要在音频-视觉场景中定位“单簧管”这个发声对象,并关注时间线上的“首先”发声的“单簧管”。为了回答这个问题 191090直接来说,既需要有效的音频-视觉场景理解,又需要时空推理。在这项工作中,我们专注于音频-视觉问答(AVQA)任务,旨在回答关于视觉对象、声音及其关联的问题。为此,计算模型必须具备在丰富的动态音频-视觉场景中进行有效的多模态理解和推理的能力。为了促进上述研究,我们构建了一个大规模的时空音乐AVQA(MUSIC-AVQA)数据集。考虑到音乐表演是一个典型的多模态场景,包含丰富的音频和视觉组成部分以及它们的交互作用,因此适合用于探索有效的音频-视觉场景理解和推理。因此,我们从YouTube收集了大量用户上传的音乐表演视频,并且数据集中的视频包括独奏、相同乐器的合奏和不同乐器的合奏。它包含9,288个视频,涵盖了22种乐器,总时长超过150小时。通过人工众包生成了45,867个问题-答案对,每个视频平均约有5个QA对。这些问题源自33个模板,并针对空间和时间上不同模态的内容提问,适合在音频-视觉环境中探索细粒度的场景理解和时空推理。为了解决上述AVQA任务,我们分别从空间和时间定位的角度考虑这个问题。首先,声音及其视觉源的位置被认为反映了音频和视觉模态之间的空间关联,这有助于将复杂的场景分解为具体的音频-视觉关联。因此,我们提出了一个空间定位模块,通过基于注意力的声源定位来建模这种跨模态关联。其次,由于音频-视觉场景在时间上动态变化,捕捉和突出显示与问题密切相关的关键时间戳至关重要。因此,提出了一个以问题特征作为查询的时间定位模块,以有效地关注关键的时间段,对问题感知的音频和视觉嵌入进行编码。最后,将上述具有空间感知和时间感知的音频-视觉特征融合,获得用于问答的联合表示。作为一个开放性问题,问题的正确答案可以通过从预定义的答案词汇中选择单词来预测。我们的结果表明,音频-视觉问答受益于有效的音频-视觉场景理解和时空推理,我们的模型在最近的A-、V-和AVQA方法上表现出色。总结起来,我们的贡献有三个方面:0•我们构建了大规模的MUSIC-AVQA音乐表演数据集,其中包含超过9K个视频,由超过45K个QA对进行了注释,跨越了0不同模态场景。•提出了一个时空定位模型,用于解决音频和视觉模态上的细粒度场景理解和推理。•大量实验证明,AVQA受益于多感知能力,我们的模型在衡量模型时空推理能力的问题上优于最近的QA方法。02. 相关工作 2.1. 音频-视觉学习通过整合多模态场景中的音频和视觉信息,预期可以探索更充分的场景信息,并克服单一模态中有限的感知能力。最近,已经有几项工作利用音频和视觉模态在不同的角度上促进多模态场景理解,例如声源定位[23, 31, 34, 37,48]和分离[10, 13, 41, 59, 61,63],音频修复[62],事件定位[4, 43,64],动作识别[14],视频解析[42, 47],字幕[24, 40,50]和对话[1,66]。关于声源定位和分离的先前工作,前者主要集中在在视觉环境中定位声音[34,37],而后者主要围绕从相应的视觉对象中分离不同的声音[12,59]。这些工作在音频和视觉特征的交互方面取得了很大的进展,但它们本质上关注的是音频-视觉对象的感知。此外,一些研究人员提出将音频和视觉信息整合起来,以探索多模态场景中的语义事件和行为[14,43]。正如预期的那样,这些工作通过利用来自音频和视觉线索的更充分的信息展现了可观的性能。基于此,其他人进一步解析了音频-视觉场景[42],描述内容[24],并利用上下文线索进行对话[1,66]。除了通过挖掘和分析不同模态来促进场景理解的上述方法之外,统一的多模态模型还应能够推理它们的时空相关性。在这项工作中,与先前的方法不同,除了细粒度的场景理解,我们进一步提出在音频-视觉环境中探索时空推理。02.2. 问答 在过去的几年中,提出了几个问答任务,但是在不同的模态中,包括文本问答[ 35 , 44],视觉问答[ 3 , 25 , 53 , 57 ],音频问答[ 9 , 58 ]等。VQA [ 3 , 17 , 32]旨在生成关于特定视觉内容的自然语言答案。VQA的早期研究集中在静态图像中的简单视觉理解,但忽略了视觉对象之间的空间和语义关系。为了克服这个缺点,Johnson等人[ 26]发布了模拟的CLEVR数据集,并期望模型能够回答面向推理的视觉问题。从那时起,越来越多的注意力被付诸于VQA中的视觉对象的空间和语义关系推理[ 2 , 11 , 33]。最近,一些方法进一步提高了计算模型的时空推理能力,通过在视频上下文中回答问题[ 8 , 27, 30 , 49 , 54 , 60 ]。除了视觉信息外,视频中的其他模态信息,如字幕[ 29 ]或脚本[ 39],被用于推进对视频内容的理解。类似地,一些外部知识[ 15 , 46 ]和情境[ 5 , 45]也被用于实现更好的内容理解。除了基于视觉模态的问答外,一些研究者还提出在其他模态中回答问题,如音频[ 1 , 9 , 36 , 56 ]和语音[ 58 ]。Pano-AVQA [ 56]是我们的一个并行工作,也旨在进行音频-视觉问答。但是数据集中的问答对只涵盖了相对简单的音频-视觉关联,如存在性或位置问题。相比之下,我们构建的MUSIC-AVQA数据集可以促进对动态和长期音频-视觉场景的时空推理研究。同时,所提出的方法在对这种复杂场景建模方面提供了新的视角,并取得了显著的结果。 ActivityNet-QA [54] ActivityNet 5.8K � � � � � � � TVQA [29] 21.8K � � � � � � � AVSD [1] Charades 8.5K � � � � � � � Pano-AVQA [56] 5.4k � � � � � � � MUSIC-AVQA YouTube 9.3K � � � � � � � 191100数据集0来源0主要声音类型0# 视频0平均视频长度0A问题0V问题0A-V问题0存在性 位置 计数 比较 时间0背景音乐0电视节目0人类语音0国内声音0在线0视觉对象声音0视觉对象声音0表1.与其他视频问答数据集的比较。我们的MUSIC-AVQA数据集专注于视觉对象及其产生的声音之间的交互,提供了涵盖音频、视觉和音频-视觉问题的问答对,比其他数据集更全面。MUSIC-AVQA中收集的视频可以促进音频-视觉理解,包括空间和时间的关联。0因此,它们很难在复杂场景中实现有效的视觉推理。为了克服这个缺点,Johnson等人[ 26]发布了模拟的CLEVR数据集,并期望模型能够回答面向推理的视觉问题。从那时起,越来越多的注意力被付诸于VQA中的视觉对象的空间和语义关系推理[ 2 , 11 , 33]。最近,一些方法进一步提高了计算模型的时空推理能力,通过在视频上下文中回答问题[ 8 , 27 , 30 , 49 , 54 , 60]。除了视觉信息外,视频中的其他模态信息,如字幕[ 29]或脚本[ 39],被用于推进对视频内容的理解。类似地,一些外部知识[15 , 46 ]和情境[ 5 , 45]也被用于实现更好的内容理解。除了基于视觉模态的问答外,一些研究者还提出在其他模态中回答问题,如音频[ 1 , 9 ,36 , 56 ]和语音[ 58 ]。Pano-AVQA [ 56]是我们的一个并行工作,也旨在进行音频-视觉问答。但是数据集中的问答对只涵盖了相对简单的音频-视觉关联,如存在性或位置问题。相比之下,我们构建的MUSIC-AVQA数据集可以促进对动态和长期音频-视觉场景的时空推理研究。同时,所提出的方法在对这种复杂场景建模方面提供了新的视角,并取得了显著的结果。03. MUSIC-AVQA数据集 3.1. 概述为了探索音频和视觉模态上的场景理解和时空推理,我们构建了一个大规模的音频-视觉数据集MUSIC-AVQA,专注于问答任务。正如上文所述,高质量的数据集对于AVQA研究具有相当的价值。因此,考虑到音乐表演是一个典型的多模态场景,包含丰富的音频和视觉组件以及它们的交互,我们选择从YouTube手动收集大量的音乐表演视频。具体而言,我们选择了22种乐器,如吉他、大提琴和木琴,并相应地设计了9种音频-视觉问题类型,涵盖了音频、视觉和音频-视觉三种不同的场景。如表1所示,与现有相关数据集相比,我们发布的MUSIC-AVQA数据集具有更全面的音频、视觉和音频-视觉问题,涵盖了视觉对象及其产生的声音之间的交互。MUSIC-AVQA中收集的视频可以促进音频-视觉理解,包括空间和时间的关联。0具有以下优势:1)我们的数据集提供了涵盖音频问题、视觉问题和音频-视觉问题的QA对,比其他数据集更全面。大多数视频QA数据集,如ActivityNet-QA [54]、TVQA[29],只包含视觉问题,并提供了有限的探索音频-视觉相关性的可能性。虽然现有的AVQA数据集,如AVSD[1]和Pano-AVQA[56],也提供了音频-视觉QA对,但它们专注于相对简单的音频-视觉相关性,只需要空间推理,如存在性或位置问题。作为Pano-AVQA的并行工作,我们的数据集更全面且更长,其中包括更多与空间和时间相关的问题,如存在性、位置、计数、比较和时间。2)我们的数据集包含了丰富的音频-视觉组件的音乐表演场景,这有助于更好地研究音频-视觉交互,并且可以在一定程度上避免场景中的噪音问题,其中视觉对象和声音无关。大多数已发布的数据集中的音频信息(例如ActivityNet-QA [54]和AVSD[1])通常伴随着严重的噪音,视频中的声音和视觉对象不匹配(例如背景音乐),这使得它们难以探索不同模态之间的关联。此外,TVQA[29]数据集包含视觉和音频模态,但其声音主要由人类语音组成,并且在QA对构建过程中仅使用相应的字幕。在接下来的内容中,我们将详细描述视频收集、QA对注释和收集的过程,以及有关我们MUSIC-AVQA数据集的相关统计分析。03.2. 视频收集真实视频。我们从YouTube收集了7,422个音乐表演的真实视频。其中包括三种音乐表演形式,以确保音频-视觉场景的多样性、复杂性和动态性:独奏、相同乐器的合奏(ESIT)和不同乐器的合奏(EDIT)。为了控制不同乐器类型的数量平衡,我们设计了以下规则:1)独奏:每个乐器收集约50个独奏视频;2)ESIT:每种ESIT类型收集约100个视频;3)EDIT:每个乐器需要与其他所有乐器组合。对于收集到的(g) Distribution of collected questions by their first four words.(f) Distribution of question templates.eos(b) Different scene types(c) Modalities QA pairs(d) Audio-visual questions(e) Question Formulaser?e video?ents sound in...ideo did not sound...ng