音频源分离的视觉场景图

181 浏览量更新于2023-10-14 收藏 17.26MB PDF 举报

深度学习模型

递归神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

……12040音频源分离的视觉场景图0Moitreya Chatterjee 1 Jonathan Le Roux 2 Narendra Ahuja 1 Anoop Cherian 201 美国伊利诺伊大学香槟分校，伊利诺伊州，61820，美国 2三菱电机研究实验室，剑桥，马萨诸塞州，02139，美国0metro.smiles@gmail.com leroux@merl.com n-ahuja@illinois.edu cherian@merl.com0摘要0目前最先进的视觉引导音频源分离方法通常假设具有特定声音的源，如乐器。这些方法通常忽略这些声音源的视觉上下文，或者避免建模可能有助于更好地表征源的对象相互作用，特别是当同一对象类别可能通过不同的相互作用产生不同的声音时。为了解决这个具有挑战性的问题，我们提出了一种名为音频视觉场景图分割器（AVSGS）的新型深度学习模型，它将场景的视觉结构嵌入为图，并将该图分割为子图，每个子图与通过共同分割音频频谱图获得的唯一声音相关联。在其核心，AVSGS使用递归神经网络，使用多头注意力发出互相正交的视觉图的子图嵌入。这些嵌入用于对音频编码器-解码器进行条件化以实现源分离。我们的流程通过自监督任务进行端到端训练，该任务包括使用来自人工混合声音的视觉图分离音频源。在本文中，我们还介绍了一个用于声源分离的“野外”视频数据集，该数据集包含多个非音乐源，我们称之为“野外音频分离”（ASIW）。该数据集改编自AudioCaps数据集，提供了一个具有挑战性、自然和日常生活环境的声源分离场景。对所提出的ASIW和标准MUSIC数据集进行的全面实验表明，我们的方法在最近的先前方法中展现出最先进的声源分离性能。01. 引言0现实世界的事件通常涉及对象的时空相互作用，当这些事件以视频形式捕捉时，其在视觉和听觉领域留下的特征既有视觉特征又有听觉特征。在设计人工智能系统以产生有意义的推断时，了解这些对象及其在自然环境中产生的声音是至关重要的。例如，手机铃声与手机掉在地板上的声音截然不同；对象的这些独特声音及其上下文相互作用对于自动化代理评估场景可能是至关重要的。拥有具有这种音频-视觉能力的算法的重要性是广泛的，包括音频降噪、乐器均衡、音频引导的视觉监控，甚至是自动驾驶汽车的导航规划，例如通过视觉定位救护车的声音。0图1.我们的音频视觉场景图分割器（AVSGS）框架在我们的野外音频分离（ASIW）数据集的帧上的示意图。给定一个输入视频和相关的音频，我们的方法构建了一个跨越视频帧的时空（全连接）视觉场景图，并学习了该场景图的子图与相应音频区域之间的对齐关系。使用场景图可以对对象及其相互作用进行丰富的表征，从而有效地识别出声源以实现更好的分离。0现实世界的事件通常涉及对象的时空相互作用，当这些事件以视频形式捕捉时，其在视觉和听觉领域留下的特征既有视觉特征又有听觉特征。在设计人工智能系统以产生有意义的推断时，了解这些对象及其在自然环境中产生的声音是至关重要的。例如，手机铃声与手机掉在地板上的声音截然不同；对象的这些独特声音及其上下文相互作用对于自动化代理评估场景可能是至关重要的。拥有具有这种音频-视觉能力的算法的重要性是广泛的，包括音频降噪、乐器均衡、音频引导的视觉监控，甚至是自动驾驶汽车的导航规划，例如通过0近年来，视觉和听觉领域的算法大量涌现，其中以利用视觉线索从混合声音中分离出声音的视觉引导源分离问题取得了重要进展[5, 9, 58, 57]。这个任务的最先进算法[54, 58,57]通常将模型设计限制在具有独特声音的对象上（如乐器[5,57]），或者考虑只有一个声源的情况，而且这些模型通常缺乏捕捉时空音频-视觉上下文的丰富性。例如，对于一个“有人弹吉他的视频”12050在“一只吉他靠在墙上”的情况下，上下文可能有助于声音分离算法决定是否在音频频谱图中寻找吉他的声音；然而，之前的一些工作只考虑乐器的视觉补丁作为上下文来指导分离算法[9]，这是次优的。从学习的角度来看，音频-视觉声源分离问题带来了几个有趣的挑战：(i)将声音源的视觉嵌入与其对应的音频进行关联可能是一对多的映射，因此是不适定的。例如，一只狗在水坑中叫喊。因此，假设单一视觉源的方法[5,9]可能会被误导。(ii)希望源分离算法能够扩展到新的声音及其视觉关联；即算法应该能够掌握各种对象的声音（不像监督方法[48,53]）。(iii)自然发生的声音可以来自多种交互 -因此，使用预定义的源，如[5,9]中所示，可能是有限的。在这项工作中，我们使用我们的音频视觉场景图分割器（AVSGS）框架来解决声音源分离的具体任务。图1展示了我们任务的输入输出设置。我们的设置使用时空场景图[18]来表示视觉场景，捕捉视频中出现的对象之间的视觉关联，以实现训练AVSGS以推断哪些视觉关联导致听觉基础的目标。为此，我们设计了一个递归源分离算法（使用GRU实现），在每次递归中，使用图多头注意力生成视觉场景图的子图的嵌入。然后，将这些嵌入作为条件信息传递给音频分离网络，该网络采用U-Net风格的编码器-解码器架构[39]。由于这些嵌入预期能够唯一地识别出一个声音交互，我们强制它们相互正交。我们使用类似于Gao等人[9]的自我监督方法来训练这个系统，其中模型被鼓励从两个或更多不同的视频声音混合中分离出与条件视觉嵌入相对应的音频。重要的是，我们的模型经过训练，以确保每个分离的声音在类型上的一致性在视频之间。因此，来自两个不同视频的两个吉他声音应该听起来比吉他和钢琴更相似。分离后，分离的音频可以与诱导其创建的视觉子图相关联，使得子图成为可用于其他下游任务的音频-视觉场景图（AVSG）。我们在流行的多模式乐器组合（MUSIC）数据集[58]和新适应的AudioCaps数据集[20]上对我们的方法的有效性进行了实证验证，我们将其称为野外音频分离（ASIW）。前者包含演奏乐器的视频，后者包含自然和复杂交互产生的声音。0演奏乐器的人，而后者则包含了在野外复杂交互中产生的自然发生的声音的视频，这些视频是从YouTube上收集而来的。我们的实验表明，视觉背景在声音分离中的重要性，并且AVSGS在这两个基准测试中优于之前的最先进方法。现在我们总结一下本文的主要贡献：0•据我们所知，我们是第一个在视觉引导的音频源分离任务中使用强大的场景图表示[18]的工作。0•我们提出了AVSGS来完成这个任务，该模型经过训练可以产生视觉子图的相互正交嵌入，使得我们的模型能够自我监督地推断出声音交互的表示。0•我们提出了ASIW，这是一个从AudioCaps适应的大规模野外数据集，用于源分离任务。该数据集包含由自然和复杂交互产生的声音。0• 我们的AVSGS框架在我们的任务上展示了最先进的性能。02. 相关工作0在本节中，我们回顾了相关的先前工作，将其分为几个类别以便于阅读。音频源分离在信号处理领域和最近的机器学习领域中有着悠久的历史[3, 6, 29, 46, 48,47]。仅音频的方法通常要么依赖于目标声音统计特性的先验假设（如独立性、稀疏性等），要么通过深度学习[55, 14,50, 13, 56,48]进行监督训练来学习这些统计特性[42]（和/或通过数据[51]优化分离过程）。这种监督学习通常涉及通过混合已知声音来创建合成训练数据，并训练模型从混合中恢复目标声音。最近，人们开始考虑在没有孤立目标源的情况下进行设置，要么依赖于弱声事件活动标签[36]，要么使用学习分离混合的方法[52]。音频-视觉源分离考虑了在视觉领域中发现声音信号及其对应特征之间的关联。这样的方法已经被用于语音分离[1, 4, 31]、乐器声音分离[9, 5, 57,58]以及分离通用对象的屏幕声音[33,43]等任务。最近，研究人员开始将运动信息整合到这些方法的视觉表示中，可以是像素轨迹[57]或人体姿势[5]的形式。然而，这些方法采用了视频级的“混合和分离”训练策略，最适合处理干净的单源视频。与之不同的是，我们的方法是训练来分离声音源的12060一个视频。高等[9]提出了一种类似的方法，但他们没有捕捉到视觉上下文，这可能是分离声音的关键，因为声音可能是由场景中的对象之间的复杂交互引起的。此外，我们提出的框架允许表征可以从相当自由的设置中产生的通用声音，而不是针对音乐乐器声音分离等任务定制的方法。在视频帧中定位声音旨在识别在视频帧中以视觉方式表示声音源的像素。已经提出了几种方法来完成这个任务[2, 19, 40, 19,12]。虽然这些方法确实将音频源与视觉关联起来，但它们并没有分离音频，而这正是我们考虑的任务。从视频中合成声音构成了音频-视觉范式中的另一类技术[34,59]，近年来变得流行起来。例如，[8,32]提出了能够从视频中生成单声道和双声道音频的框架。然而，我们感兴趣的是从不同声音源中分离音频，从混合音频开始。视频中的场景图已被证明是表示静态图像内容的有效工具包[18,26]，能够捕捉场景中不同对象之间的关系。这些表示最近才被用于视频中的任务，如动作识别[17]和视觉对话[11]。我们使用这些强大的表示将混合音频分离为其组成部分的源，然后可以将其与相应的子图关联起来进行其他下游任务。03. 提出的方法0我们从首先介绍问题设置的描述和我们模型的概述开始本节。然后我们深入探讨模型的细节，并通过提供我们的训练设置的详细信息来结束本节。03.1. 问题设置和概述0给定一个未标记的视频V及其相关的离散时间音频x(t)=∑Ni=1si(t)，其中si(t)是N个音频源的线性混合，视觉引导的源分离的目标是使用V将x(t)分解为其组成的声音源si(t)，其中i∈{1, 2, ...,N}。在这项工作中，我们将视频表示为一个时空视觉场景图G=(V, E)，其中节点V={v1, v2, ...,vK}表示视频V中的对象（包括人），E表示捕捉节点vj和vk之间的成对交互或空间上下文的边ejk的集合。我们在AVSGS中的主要思想是学习将每个音频源si(t)与G的一个视觉子图gi关联起来。我们从图注意力池化的角度来解决这个问题，以自回归的方式产生相互正交的子图嵌入，使这些嵌入对齐0使用一个针对自监督解混任务[9, 58,57]进行训练的音频分离子网络，将相应的音频源与之对应。图2概述了我们模型的算法流程。03.2.音频视觉场景图分割器模型0图2展示了我们在获取分离声音si(t)从混合音频x(t)方面遵循的算法流程的示意图。下面，我们详细介绍了该流程的每个步骤。目标检测器：将视频V表示为时空场景图的过程始于在视频的每一帧中检测一组M个对象及其空间边界框。按照通常的做法，我们使用Faster-RCNN（FRCNN）[38]模型来完成这个任务，该模型在VisualGenome数据集[23]上进行了训练。由于该数据集提供了约1600个对象类别，记为C，因此可以检测到一组常见的物体。此外，为了检测VisualGenome类别中没有的对象（例如我们稍后考虑的MUSIC数据集中的乐器），我们使用了来自OpenImages数据集[22]的带标签图像训练了一个单独的FRCNN模型，该数据集包含了这些乐器的注释。给定视频帧I，目标检测器FRCNN对每个检测到的对象产生一组M个四元组�CkI,BkI, FkI,SkI�Mk=1=FRCNN(I)，每个四元组由检测到的对象的标签C∈C、其在帧中的边界框B、用于识别该对象的特征向量F和检测置信度得分S组成。视觉场景图构建：一旦我们有了对象检测和它们的元数据，我们的下一个子任务是使用这些信息构建我们的视觉场景图。虽然标准的场景图方法[17]通常直接使用对象检测来构建图（有时结合视觉关系检测器[11]），但我们的声音分离任务要求图要根据音频进行构建，以便可以有效地学习音频和视觉之间的相关性。为此，对于每个感兴趣的声音，我们在C中的类别中关联一个主要对象p（可以从FRCNN中获得），该对象可能产生了该声音。例如，在管弦乐队中钢琴的声音的主要对象可以是钢琴，而铃声的声音的主要对象可以是电话。我们将这样的主要对象类别的集合表示为P�C。为了构建给定视频V的视觉场景图，我们首先确定与该视频相关联的主要对象子集P={p1,...,pN}�P。这些信息是从视频元数据中获取的，例如视频标题或类别标签（如果有）。接下来，我们确定包含每个对象pi∈P的最可信检测的视频帧。我们将这样的帧称为视频的关键帧-我们使用这些关键帧构建我们的场景图。对于每个主要对象Graph Attention + RNNISTFT12070混合音频0分离音频0图嵌入向量0跳跃连接0分离掩码0混合音频频谱图0视频关键帧0时空0视觉场景图0视觉调节模块0图2. 我们提出的AVSGS模型的详细说明。0对于对象pi，我们然后识别与pi的边界框的IoU大于预定义阈值γ的M个对象边界框的子集（由FRCNN为该关键帧产生），我们将这个重叠的节点集合称为pi的上下文节点，表示为Vpi。然后构建场景图的顶点集合为V =∪Ni=1(pi∪Vpi)。注意，每个图节点v与FRCNN为相应边界框内的视觉补丁产生的特征向量Fv相关联。0我们场景图构建的下一个子任务是定义图的边E。由于没有任何监督来选择边缘（而不是诉诸于启发式方法），我们假设有用的边缘将从音频-视觉共分割任务中自动出现，因此，我们决定在V中的所有节点之间使用完全连接的图；即，我们的边缘由E ={ejk}(j,k)∈V×V给出。由于场景图是从视频中的多个关键帧派生的，其顶点跨越关键帧中的多个对象，因此我们的整体场景图在时空上具有特性。0声音交互的视觉嵌入：前一步中获得的视觉场景图G是视频的整体表示，因此表征了混合音频x(t)的视觉对应部分。为了从混合物中分离出音频源，AVSGS必须产生可以明确识别声音源的视觉线索。然而，我们既不知道声音源，也不知道视觉图的哪一部分产生了声音。为了解决这个矛盾，我们提出了一个联合学习框架，其中将视觉场景图分割成子图，每个子图都与音频频谱图中的唯一声音相关联，从而实现源分离。为了引导模型正确学习实现音频-视觉分割，我们使用下一节中描述的自监督任务。现在，让我们专注于产生视觉子图嵌入所需的模块。0图。对于音频分离，我们期望后续嵌入所包含的视觉场景图的两个关键方面是：（i）对应于声音源的节点和（ii）对应于声音交互的边缘。对于前者，我们使用一个多头图注意力网络[44]，以场景图节点v的特征Fv作为输入，并实现多头图消息传递，从而将注意力权重分配给框架最终学习到的在表征声音方面重要的节点。对于后者，即捕捉交互，我们设计了一个边缘卷积网络[49]。这些网络通常是多层感知机hΛ(∙,∙)，其以连接的节点对vj和vk的拼接特征作为输入，并产生输出向量ejk。Λ封装了该层的可学习参数。然后，节点vk的更新特征通过对vk上的所有边缘卷积嵌入求平均得到。这两个模块按照节点注意力在边缘卷积之前的顺序进行级联。接下来，使用全局最大池化和全局平均池化[25]对关注的场景图进行汇集；每个操作的汇集特征然后进行拼接，得到整个图的嵌入向量ζ。由于我们需要从ζ生成N个嵌入向量，一个用于每个源和另一个用于背景，因此我们需要跟踪到目前为止生成的嵌入。为此，我们建议使用一个使用GRU实现的递归神经网络。更详细地说，我们最终的视觉子图嵌入集合Y ={y1, y2, ..., yN,yN+1}，其中每个yi∈Rd，是自回归地产生的：0yi = GRU(ζ; ∆i−1)，i = 1, 2, ..., N, N+1。（1）0其中∆i−1捕捉了GRU用于跟踪到目前为止生成的嵌入的记账。̸Lcons = −�u=1,2minσu∈SNu+1Nu+1�c=1log(puσu(c)(luc )),(3)12080视觉嵌入的相互正交性：对于上述框架成功的一个微妙但重要的技术问题是允许GRU知道它是否为混合物中的所有音频源生成了嵌入。这引出了一个问题，即我们如何确保GRU不会重复生成嵌入。实际上，我们发现这是我们音频源分离设置中的一个重要因素。为此，我们提出在GRU生成的嵌入之间强制互相正交。也就是说，对于GRU的每次循环，它应该生成一个与之前生成的每个嵌入（即{y1, y2, ...,yi−1}）正交的单位归一化嵌入yi。我们将这个约束作为我们训练设置中的一种正则化方法。从数学上讲，我们强制执行了这个约束的一个较软版本：0Lortho(Y) = 0i，j∈{1, 2, ...,N}，i≠j（y�iyj）2。（2）0这种从场景图中派生特征表示yi的机制的一个关键属性是，这样的嵌入可能来自场景图中对象之间的复杂交互，与先前的流行方法不同，先前的方法倾向于使用更简单的视觉嵌入，例如整个帧[57]或单个对象[9]。音频分离网络：我们模型中的最后一个组件是音频分离网络（ASN）。鉴于U-Net[39]风格的编码器-解码器网络在将音频混合物分离为其组成声音源[16, 28]方面的成功，特别是在条件设置[9, 30, 58,41]中，我们采用了这种架构来引导源分离。由于我们对视觉引导源分离感兴趣，我们将ASN的瓶颈层与上述产生的子图嵌入yi进行条件设置。具体而言，ASN以混合音频x(t)的幅度谱图X∈RΩ×T作为输入，通过短时傅里叶变换（STFT）产生，其中Ω和T分别表示频率bin的数量和视频帧的数量。谱图通过一系列2D卷积层传递，每个卷积层都与批归一化和LeakyReLU相结合，直到达到瓶颈层。在这一层，我们将每个图嵌入yi复制到与U-Net瓶颈特征的空间分辨率相匹配，并沿其通道维度进行连接。然后，将这个连接的特征张量馈送给U-Net解码器。解码器由一系列上卷积层组成，后面是非线性激活函数，每个上卷积层都与U-Net编码器中相应层的跳跃连接相结合，并与其输出的空间分辨率相匹配。U-Net解码器的最终输出是一个时间-频率掩模ˆMi∈[0,1]Ω×T，当与混合幅度谱图X相乘时，可以得到分离源的幅度谱图的估计ˆSi =ˆMi⊙X，其中⊙表示逐元素乘积。分离波形信号的估计ˆsi(t)为0第i个源最终可以通过将逆短时傅里叶变换（iSTFT）应用于将ˆSi与混合相位相结合得到的复数谱图来获得。有关架构细节，请参阅补充材料。03.3.训练方案0音频源分离网络通常在监督设置中进行训练，其中通过混合多个声音源（包括一个或多个已知的目标声音）创建合成混合物，并训练网络在给定混合物作为输入时估计目标声音[14, 13, 48, 50, 55,56]。在视觉引导的源分离范式中，通过考虑多个视频并混合它们的声音来构建这样的合成数据被称为“混合和分离”[9,5, 57,58]。我们以类似于Gao等人的方式训练我们的模型[9]，其中引入了一个共分离损失，允许在视频中分离多个源，而不需要对各个源的真实信号进行处理。在这种训练方案中，我们将ASN与两个视频的音频轨道的混合物的频谱图表示Xm一起馈送给ASN，并为每个对应视频构建代表性的场景图G1和G2。然后，我们从这两个场景图中提取单位范数嵌入，y1i，i∈{1, 2, ..., N1}和y2i，i∈{1, 2, ...,N2}。接下来，这些嵌入yui中的每一个都被独立地推入ASN的瓶颈层，该瓶颈层以Xm作为输入。一旦对于输入对(yu i,Xm)获得了分离的频谱图ˆSui作为输出，我们将这个ˆSui馈送给一个分类器，该分类器强制将频谱图签名分类为属于Pu中的主要对象类之一。与[9]不同的是，在那里，视觉对象的调节与要分离的声音的类别之间存在直接关系，而我们在这里不知道GRU是以哪种顺序生成的调节嵌入，因此主要对象类luc∈Pu应该对应于给定嵌入yui。因此，我们考虑视频u的地面真实类标签的不同排列σu，将第c个对象的地面真实标签与第σu(c)个嵌入相匹配，并使用产生最小交叉熵损失的排列。这类似于语音分离中使用的无排列（或不变）训练[13, 15, 56]。我们的损失函数如下：0其中 S N u +1 表示 { 1 , . . . , N u + 1 } 上的所有排列的集合，p u i ( l) 表示分类器对给定 ˆ S u i 作为输入的类别 l 的预测概率，l u c 是视频u 中第 c个对象的真实类别。此外，为了限制合理的音频-视觉对齐空间，并鼓励ASN恢复完整的声音信号（而不仅仅是为了最小化一致性损失所需的内容[36]），我们还确保用于分离声源的预测掩码之和产生接近于理想二进制掩码的估计掩码[27]，使用类似于先前工作[9, 36]的协同分离损失：Lco−sep =�u=1,2��Nu+1�i=1ˆMui − Muibm��1,(4)L = λ1Lcons + λ2Lco−sep + λ3Lortho.(5)12090以及从混合物中分离声音源所需的预测掩码之和接近于理想二进制掩码的地面真值掩码[27]，我们还使用类似于先前工作[9,36]的协同分离损失来确保（而不仅仅是为了最小化一致性损失所需的内容[36]）：0其中 M u ibm = 1 X u m > X ¬ u m 表示混合物 X m中视频 u的音频的理想二进制掩码。根据上述第2、3和4个损失，我们的模型的最终训练损失如下所示，其中权重 λ 1 ， λ 2 ，λ 3 ≥ 0 ：04. 实验0为了验证我们方法的有效性，我们在两个具有挑战性的数据集上进行实验，并将其性能与竞争和最新的基线方法进行比较。04.1. 数据集0在野外的音频分离（ASIW）：大多数以视觉为导向的声源分离方法仅在分离乐器声音的设置中报告性能[5, 58,57]。由于音乐乐器通常具有非常特殊的声音，而且用于评估这些算法的大多数视频通常包含专业镜头，它们可能无法捕捉到这些方法在日常生活环境中的普适性。虽然最近已经有一些努力研究更自然的声音[54]，但他们考虑的音频类别有限（约10个类）。此外，大多数视频仅包含一个感兴趣的声源，使得对齐变得简单直接。有一些数据集可以归类为考虑“野外”声源分离，例如[7,43]，但它们要么只考虑在屏幕和离屏声音之间的分离[43]，要么只提供有关所呈现声音性质的有限信息[7]，这使得学习音频-视觉关联的任务具有挑战性。为了填补在“野外”环境和具有非常有限注释之间的评估基准的差距，我们引入了一个新的数据集，称为“野外音频分离（ASIW）”。ASIW改编自最近引入的大规模AudioCaps数据集[20]，该数据集包含从AudioSet数据集[10]中爬取的49,838个训练视频，495个验证视频和975个测试视频，每个视频约为10秒长。与[7]不同，这些视频已经通过人工撰写的字幕（使用英语的亚马逊机械土耳其人-AMTs）进行了仔细注释，强调了视频中的听觉事件。我们手动构建了一个包含306个频繁出现的听觉词的字典。我们的一些类别包括：溅水，冲洗，喷发或咯咯笑，这些类别几乎总是与生成相应声音的视频中的主要对象相关联。主要对象集合有14个类别（婴儿，钟声，鸟类，相机，时钟，狗，厕所，马，男人/女人，绵羊/山羊，电话，火车，车辆/汽车/卡车，水）和一个额外的背景类别。主要对象列表来自Visual Genome[23]的类别。我们仅保留那些至少包含这306个听觉词中的一个的视频。表2给出了与每个主要对象类别对应的视频数量的分布。在我们的评估中，我们使用147个验证视频和322个测试视频，而使用10,540个视频进行训练。MUSIC数据集：除了我们的新ASIW数据集，我们还报告了我们的方法在MUSIC数据集[58]上的性能，该数据集通常被认为是视觉引导的声源分离的标准基准。该数据集包含685个视频，其中人们使用11种不同的乐器进行独奏和二重奏；其中536个视频是独奏视频，其余的是二重奏视频。所演奏的乐器在类型上具有显著的多样性（例如，吉他，二胡，小提琴是弦乐器，长笛，萨克斯风，小号是管乐器，而木琴是打击乐器）。尽管其有些受限，但这使得数据集具有挑战性。为了进行实验，我们将这些视频分成了10秒的片段，遵循标准协议[9]。在构建数据集时，我们忽略了每个未修剪视频的前10秒窗口，因为很多时候，演奏者并不立即开始演奏乐器。这导致分别使用6,300/132/158个训练，验证和测试视频。0从这些字幕中提取了频繁出现的听觉词。我们的一些类别包括：溅水，冲洗，喷发或咯咯笑，这些类别几乎总是与生成相应声音的视频中的主要对象相关联。主要对象集合有14个类别（婴儿，钟声，鸟类，相机，时钟，狗，厕所，马，男人/女人，绵羊/山羊，电话，火车，车辆/汽车/卡车，水）和一个额外的背景类别。主要对象列表来自Visual Genome[23]的类别。我们仅保留那些至少包含这306个听觉词中的一个的视频。表2给出了与每个主要对象类别对应的视频数量的分布。在我们的评估中，我们使用147个验证视频和322个测试视频，而使用10,540个视频进行训练。MUSIC数据集：除了我们的新ASIW数据集，我们还报告了我们的方法在MUSIC数据集[58]上的性能，该数据集通常被认为是视觉引导的声源分离的标准基准。该数据集包含685个视频，其中人们使用11种不同的乐器进行独奏和二重奏；其中536个视频是独奏视频，其余的是二重奏视频。所演奏的乐器在类型上具有显著的多样性（例如，吉他，二胡，小提琴是弦乐器，长笛，萨克斯风，小号是管乐器，而木琴是打击乐器）。尽管其有些受限，但这使得数据集具有挑战性。为了进行实验，我们将这些视频分成了10秒的片段，遵循标准协议[9]。在构建数据集时，我们忽略了每个未修剪视频的前10秒窗口，因为很多时候，演奏者并不立即开始演奏乐器。这导致分别使用6,300/132/158个训练，验证和测试视频。04.2. 基线0我们将AVSGS与最近发表的视觉引导源分离方法进行比较，包括：Sound of Pixel (SofP)[58]：这是最早的基于深度学习的任务方法之一。Minus-Plus Net (MP Net)[54]：递归地去除能量最高的音频源。Co-Separation[9]：在“混合和分离”框架中训练时，结合了对象级分离损失。然而，视觉条件仅使用场景中的单个对象。Sound ofMotion (SofM)[57]：将像素级运动轨迹和对象/人的外观整合在一起161615128879136581407838385621071022214177937812100表1. MUSIC和ASIW测试集上的SDR、SIR和SAR [dB]结果。[关键：最佳结果为粗体，次佳结果为蓝色。]0MUSIC ASIW0SDR ↑ SIR ↑ SAR ↑ SDR ↑ SIR ↑ SAR ↑0Sound of Pixel (SofP) [58] 6.1 10.9 10.6 6.2 8.1 10.6 Minus-Plus Net (MP Net)[54] 7.0 14.4 10.2 3.0 7.7 9.4 Sound of Motion (SofM) [57] 8.2 14.6 13.2 6.79.4 11.1 Co-Separation [9] 7.4 13.8 10.6 6.6 12.9 12.60音乐手势（MG）[5] 10.1 15.7 12.9 - - -0AVSGS (我们的方法) 11.4 17.3 13.5 8.8 14.1 13.00表2. ASIW数据集中每个主要对象类别的视频数量。0Baby Bell Birds Camera Clock Dogs Toilet Horse Man Sheep Telephone Trains Vehicle Water0表3. ASIW测试集上的SDR、SIR和SAR[dB]结果。[关键：最佳结果为粗体。]0ASIW0行 SDR ↑ SIR ↑ SAR ↑01 AVSGS (完整) 8.8 14.1 13.002 AVSGS - 无正交性 (λ3 = 0) 7.4 13.3 11.6 3 AVSGS - 无多标签(λ1 = 0) 6.4 11.2 11.7 4 AVSGS - 无共分离 (λ2 = 0) 1.1 1.3 13.8 5AVSGS - N=3 8.4 13.5 12.2 6 AVSGS - 无跳跃连接 2.8 4.6 11.3 7AVSGS - 无GATConv 6.5 11.6 11.8 8 AVSGS - 无EdgeConv 6.210.1 13.2 9 AVSGS - 无GRU 6.5 12.3 10.60视频帧。音乐手势（MG）[5]：最新的音乐声源分离方法，将场景中的外观特征与人体姿势特征整合在一起。然而，对人体姿势的要求限制了它作为基线方法仅适用于MUSIC数据集。04.3. 评估指标0为了量化不同算法的性能，我们以信号失真比（SDR）[dB][45,37]来报告模型的性能，其中较高的SDR表示对原始信号的更忠实的重现。我们还报告了两个相关的指标，信号干扰比（SIR）（它给出了估计信号中干扰减少的程度的指示）和信号伪像比（SAR）（它给出了引入的伪像的程度的指示），因为它们在先前的视听分离工作中被报告过[58, 9]。04.4. 实现细节0我们使用PyTorch[35]实现了我们的模型。按照先前的工作[58, 9]，我们以11kHz对音频进行子采样，并使用大小为1022的Hann窗口和256的跳跃长度计算音频的STFT。使用长度为0大约6秒钟，这将产生一个512×256的谱图。谱图根据对数频率尺度重新采样，以获得大小为Ω×T的幅度谱图，其中Ω=256，T=256。音乐乐器的检测器是在OpenImages数据集的15个音乐对象类别上进行训练的[24]。FRCNN特征向量F是2048维的。我们每个视频检测最多两个主要对象，并为主要对象使用最多20个上下文节点的集合。此外，从图像中随机裁剪出的另一个主要对象被视为属于“背景”类别。IoU阈值设置为δ=0.1，并且图注意力网络中使用了4个多头注意力单元。从图池化阶段获得的嵌入维度设置为512。使用的GRU是单向的，具有512维的一个隐藏层，因此视觉表示向量具有d=512维。损失项上的权重设置为λ1=1，λ2=0.05，λ3=1。使用ADAM优化器[21]进行模型训练，权重衰减为1e-4，β1=0.9，β2=0.999。训练过程中，FRCNN模型的权重被冻结。初始学习率为1e-4，在每15000次迭代后减小0.1倍。这些超参数和基线模型的超参数是基于两个数据集的验证集上的性能选择的。在测试时，与视频对应的视觉图与混合音频（从一个或多个视频中获得）配对，并作为网络的输入，网络迭代地从输入音频信号中分离音频源。然后，我们应用逆STFT变换将分离的谱图映射到时域，以进行评估。04.5. 结果0我们在表1中展示了在MUSIC和ASIW数据集上的模型性能。从结果可以看出，我们提出的AVSGS模型在SDR上比最接近的竞争对手高出约1.3 dB，在SIR上高出约1.6 dB。12110视频20视频10混合频谱图0真实频谱图0SofM0CoSep0关键帧0视频10视频20图3.ASIW（左）和MUSIC（右）上的定性分离结果。帧上的边界框显示了AVSGS关注的区域（绿色：主要对象，蓝色：上下文节点）。红色框表示地面真实频谱图和预测频谱图之间的高差异区域。0图4.使用多帧构建的图（黑色）和使用单帧构建的图（红色）的模型变体的性能图。0在MUSIC数据集上，我们的SIR提高了约2dB，在ASIW数据集上，SDR提高了约1.2dB，SIR提高了约2dB，这反映出了显著的增益，因为这些指标都是以对数刻度表示的。我们注意到，我们更高的SIR并没有以较低的SAR为代价，这通常是情况，事实上，SAR超过了MG的0.6dB。SofM是最接近我们模型性能的非MUSIC特定基准，可能是因为它有效地结合了运动和外观，而大多数其他方法的视觉信息主要基于外观和整体。在AVSGS中，虽然运动没有明确编码在视觉表示中，但我们的图G的时空性质隐含地嵌入了这个关键要素。MG在MUSIC上的竞争性能支持了这样的假设，即对于良好的音频分离，除了主要对象的嵌入之外，适当的视觉上下文也是必要的。在他们的设置中，这仅限于人体姿势。然而，当上下文节点集扩展时，可以捕捉到更丰富的交互，这对于模型性能是有益的，正如我们模型的情况所示。重要的是，我们用于整合这个上下文信息的方法在两个数据集上都具有很好的泛化性能，而MG则不具备这种泛化性能。消融和其他结果：在表3中，我们报告了我们模型的几个消融变体的性能。0ASIW数据集。第二、第三和第四行展示了逐个关闭损失项时模型性能的结果。结果明确表明了共分离损失（第三行）的重要性，没有该损失项，模型的性能显著下降。我们还将每个视频的对象数量调整为3，并观察到模型性能几乎没有变化，如表3的第5行所示。第6行强调了ASN网络中跳跃连接的重要性。在第7行和第8行中，我们展示了消除场景图的不同组件的结果。结果表明，GATConv和EdgeConv的重要性大致相同。最后，如第9行所示，我们的模型在没有GRU的情况下性能下降。0此外，在图4中，我们绘制了AVSGS模型在测试时具有不同上下文节点数量的性能，以黑色显示。然后，对仅从单个帧构建图的模型进行了重复实验。该变体的性能图以红色显示。这些图表显示了一个单调递增的趋势，强调了构建时空图以捕捉场景上下文的丰富性的重要性。0定性结果：在图3中，我们展示了在ASIW和MUSIC测试集上的示例分离结果，并将我们的算法与两个竞争基准算法Co-Separation和SofM的性能进行对比。从分离后的频谱图可以明显看出，AVSGS在分离源音频方面比这些基准算法更有效。此外，该图还显示了AVSGS用于诱导音频源分离的关注区域。我们发现，AVSGS正确选择了对于两个数据集都有用的上下文区域/对象。有关更多细节、定性结果和用户研究，请参阅补充材料。05. 结论0我们提出了AVSGS，一种利用场景图来诱导音频源分离的新算法。我们的模型利用自监督技术进行训练，不需要额外的标注训练数据。我们展示了场景图引入的附加上下文信息使我们能够在现有的MUSIC数据集和一个名为ASIW的具有挑战性的新数据集上获得最先进的结果。在未来的工作中，我们打算明确地将运动纳入场景图中，以进一步提高模型性能。0致谢。感谢海军研究办公室在N00014-20-1-2444号授权下的支持，以及美国农业部食品和农业国家研究所在2020-67021-32799/1024178号授权下的支持。12120参考文献0[1] Triantafyllos Afouras, Andrew Owens, Joon Son Chung,and Andrew Zisserman.自监督学习音频-视觉对象。在ECCV会议上，2020年。20[2] Relja Arandjelovic and Andrew Zisserman.发出声音的物体。在ECCV会议上，2018年，第435-451页。30[3] Pierre Comon and Christian Jutten.盲源分离手册：独立成分分析和应用。学术出版社，2010年。20[4] Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, KevinWilson, Avinatan Hassidim, William T Freeman, and MichaelRubinstein.在鸡尾酒会上倾听：一种面向演讲分离的说话人无关的视听模型。ACM图形学期刊（TOG），第37卷，第4期，第1-11页，2018年。20[5] Chuang Gan, Deng Huang, Hang Zhao, Joshua BTenenbaum, and Antonio Torralba.音乐手势用于视觉声音分离。在CVPR会议上，2020年，第10478-10487页。1, 2, 5, 6, 7, 80[6] Sharon Gannot, Emmanuel Vincent, Shmulik Markovich-Golan, and Alexey Ozerov.关于多麦克风语音增强和源分离的综合视角。IEEE/ACM音频、语音、语言处理期刊，第25卷，第4期，第692-730页，2017年。20[7] Ruohan G

下载后可阅读完整内容，剩余1页未读，立即下载