视觉声源定位中基于光流的自监督方法的研究和性能分析

78 浏览量更新于2023-10-15 收藏 1.72MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2278聆听流动：基于光流的自监督视觉声源定位Dennis Fedorishin*Deen Dayal Mohan*Bhavin Jawade Srirangaraj Setlur美国纽约州布法罗市布法罗大学{dcfedori，dmohan，bhavinja，setlur，govind} @ buffalo.edu摘要在没有明确注释的视频中学习定位声源是视听研究的一个新领域。该领域的现有工作集中于创建注意力图以捕获两个模态之间的相关性，在视频中，通常情况下，表现出运动的对象是产生声音的对象。在这项工作中，我们捕捉到这个特性，通过建模的光流在视频中作为一个更好的帮助在本地化的声源之前。我们进一步证明，流为基础的注意力的增加，大大提高了视觉声源定位。最后，我们在标准声源定位数据集上对我们的方法进行了基准测试，并在Soundnet Flickr和VGG声源数据集上实现了最先进的性能。代码：https://github.com/denfed/heartheflow。1. 介绍近年来，视听理解领域已经成为一个非常活跃的研究领域。这可能是由于大量视频数据作为社交媒体和其他平台上用户生成内容的一部分而产生。最近的视听理解方法利用流行的深度学习技术来解决具有挑战性的问题，例如动作识别[13]，深度虚假检测[34]和其他任务。给定视频，视听理解中的一个当观察自然场景时，对人类来说定位声音所源自的区域/对象其中一个主要原因是人类听觉的双耳性质。然而，数字媒体中的大多数视听数据是单声道的，这使得音频定位任务变得复杂。此外，自然出现的视频不具有图像中音频源的位置的明确注释。这*按字母顺序的图1.给定具有音频的视频，声源定位的目标是定位视频帧中产生声音的对象/区域。我们的方法引入光流作为信息之前，以提高视觉声源定位性能。使得训练深度神经网络以理解用于定位的视听关联的任务成为挑战性任务。由于自监督学习（SSL）在视觉[8，16]，语言[9，26]和其他多模态应用[2，22]中的成功，最近的声源本地化方法[6，30]采用了基于SSL的方法来克服对注释的需求。一种这样的方法[6]，找到在图像中的不同空间位置处卷积提取的音频和视觉表示之间的余弦相似性。他们依赖于自我监督训练，通过从这些预测的相似性矩阵中创建积极和消极的关联。这种自举方法已被证明可以改善声源定位。在这一研究发现之后，最近视觉声源定位中的大多数方法都集中在创建鲁棒的优化目标以获得更好的视听关联。然而，一个有趣的方面，2279受到相对较少关注的问题是创建信息先验以改进音频与正确的先验可以被视为图像中声音可能起源的潜在我们可以在两阶段对象检测方法中进行比较，其中区域建议网络用于识别图像空间中可能是对象的然而，生成用于声源定位的潜在候选区域更具挑战性，因为所生成的先验应该从多模态角度是相关的。为了生成这些信息先验的声音可能来自哪里，我们利用光流。使用光流来创建增强的先验知识背后的直觉是光流可以对对象的表观运动的模式进行建模的事实这一点很重要，因为在大多数情况下，视频中移动的对象往往是声源。强制执行约束以优先考虑倾向于相对运动的对象可能有助于创建更好的声源定位。本文提出了一种基于光流的定位网络，可以创建信息先验执行卓越的声源定位。本文的贡献如下：1. 我们探讨了创建信息先验视觉声源定位，这是一个复杂的研究方向，以前的方法。2. 我们建议使用光流作为一个额外的信息源，以创建信息丰富的先验。3. 我们设计了一个基于光流的定位网络，使用交叉注意力，形成更强的视听协会的视觉声源定位。4. 我们在两个基准数据集上进行了广泛的实验：VGG Sound和FlickrSoundNet的实验结果表明了该方法的有效性。我们的方法始终取得优于国家的最先进的结果。我们进行严格的消融研究，并提供定量和定性的结果，显示我们的新的定位网络的优越性。2. 相关工作通过联合视听学习生成鲁棒的多模态表示是一个活跃的研究领域，已在多个视听任务中得到应用。联合视听学习领域的初步工作集中在概率方法上。在[17]中，视听信号被建模为来自多变量高斯过程的样本，视听同步被定义为模态之间的相互信息。[12]专注于首先学习最大化两种模态之间的互信息的低维子空间此外，他们使用非参数密度估计器探索了这些视听信号[20个]提出了一种时空分割机制，该机制依赖于运动对象的速度和加速度作为视觉特征，并使用典型相关分析将音频与相关视觉特征相关联。近年来，基于深度学习的方法已被用于探索创建更好的双峰表示。它们大多采用双流网络来单独编码每种模态，并采用基于对比损失的监督来对齐两种表示[19]。像[1，32]这样的方法使用源分离通过基于运动冗余的融合和同步来定位音频。Fur-1999 [25]通过创建从粗到细粒度的视听表示对齐，此外，像[24，25]这样的方法使用类特定的显着性图。[33]使用类注意力地图，以帮助生成显着地图，用于更好的声源定位。最近，方法集中于创建特定于声音定位的目标函数。[6]引入了tri-map的概念，它将背景挖掘技术结合到自监督学习环境中。该三重图包含一个正相关区域、无相关区域（背景）和一个忽略区域，以避免视觉空间中的不确定区域。[30]介绍了一种通过挖掘显式阳性来进行声音定位的无阴性方法。此外，该方法使用预测编码技术来创建音频和视觉模态之间的更好的特征对准。这些方法主要集中在为视觉声源定位创建更强的优化目标。研究领域的一个补充方向是探索为视听联想创造更多信息的先验。在本文中，我们探索这样一个想法，它利用光流。[3]的作者已经探索了光流在某些视听任务中的应用，如检索。在这项工作中，我们将探讨使用光流作为一个信息丰富的视觉声源定位之前。光流提供了一种方法来估计连续帧之间的早期的作品[5，18，31]提出了光流预测作为能量最小化问题，利用连续优化的几个目标项。光流图可以大致分为两种类型：稀疏和密集。稀疏光流表示帧中显著特征的运动，而密集光流表示整个帧的运动流矢量。稀疏光流估计的早期方法包括Lucas-Kanade算法[21]，该算法利用亮度恒定方程来优化最小二乘近似，假设光流保持局部平滑并且相邻像素的相对位移恒定。Farneback[10]提出了一种稠密光流估计技术，其中利用二次多项式来近似两个像素的像素邻域2280∈∈Σ。.Σ Σ−⟨··⟩KvKvpavg帧，然后使用这些多项式来计算全局位移。FlowNet[11]提出了第一种基于CNN的方法来估计光流图，其中他们计算了两个连续帧的中间卷积特征图之间的静态互相关，并将其放大以提取光流图。从指示视听对应的正和负区域可用的地面实况生成，我们可以在监督设置中制定学习目标：对于数据集中的给定样本k（具有图像帧Ik和音频Ak），正和负响应可以是定义为3. 方法POS1=M，S|M K|k k→k在本节中，我们将首先介绍Neg1=1−M，S1+11991年1月，有监督环境下的声源定位问题。在此之后，我们将描述当前的自我监督方法，激发对更好的本地化的需求|1 − Mk|k k→k文君k→j（三）提出了一种基于光流的声源定位网络的设计与实现方法。3.1. 问题陈述给定一个由音频和视觉模态组成的视频，视觉声源定位的目标是找到产生音频的视觉模态中的空间区域考虑由N帧组成的视频令对应于视频帧的图像为I，其中IRWixHix3，并且A为从帧周围的音频生成的频谱图表示，其中ARWaxHax1。音频定位的问题可以被认为是在I中找到与以下项具有高关联/相关性的区域：A.更正式地说，这可以写为：这里，Sk→k是指来自等式2的余弦相似度S，当使用Ik和Ak。类似地，S k→j是当图像和音频不是来自同一视频时的余弦相似度。、表示内积。最终的学习目标与[23]类似：L=logexp（位置k）（4）exp（阳性k）+exp（阴性k）X3.2. 自监督定位在大多数真实世界场景中，生成二进制掩码M所需的地面实况将丢失。因此，需要一种不依赖于明确的地面实况注释的训练目标。实现该目标的一种方式是如[6]中所提出的用生成的伪掩模替换地面真实掩模。伪掩模可以fv=Φ（I;θi）; fa=φ（A;θj）P（ I，A）= ω（ fv，fa）（一）通过基于阈值对相似度矩阵S进行二值化来生成。更具体地，给定来自等式2的Sk→k，伪掩码可以写为：其中Φ（I;θi）和Φ（A;θj）对应于与视觉和音频模态相关联的基于卷积神经网络的特征提取器，并且fv∈Rmxn xc和fa∈PM=σ（S k→k− ε）/τ（5）其中ε是标量阈值。σ表示sigmoid函数，Rmxn xc是相应的低维特征地图，分别。ω是找到关联的函数，在S中映射相似性值的图k→k ，即下面P（I，A）是原始图像空间中具有生成音频的源的区域。重要的是要注意，将特征空间中的关联外推到原始图像空间的对应区域（即P（I，A））是微不足道的。给定上述特征图，找到特征表示之间的关联的一种方式是：Aavg= GAP（ fa）阈值为0，阈值以上为1。τ是控制锐度的温度。此外，[6]通过消除潜在的噪声关联进一步细化了伪掩码。这是通过考虑高于和低于被认为是可靠的相似性值的如果一个值在这些阈值之间，它更正式地说：PMp=σ（Sk→k−p）/τf i.A平均值S=||fi||. ||，<$i ∈ [1，m<$n ]||,∀i∈[1,m∗n]（二）PMn=σ（Sk→k−n）/τ位置=1° CPM，S° Cp其中GAP（fa）是全局平均合并表示a，KNeg|PMk|1kk→kn（六）音频特征图的特征。S表示该音频表示与视觉特征图中的每个空间位置的余弦相似性。这里m和nKK2281K门恩k→jΣ是宽度，特征图的高度如果二元掩码M∈Rmxn x1K= |1 − PM n|1 − PMk，S k→k1+1，SK J2282图2.我们的基于光流的声音定位方法的概述。给定一个选定的视频帧和该帧周围的音频，我们从这两种模态中提取特征，然后将其用于关注帧中的发声对象我们进一步计算稠密光流场从所选择的和后续的帧，并使用流功能，以出席对帧中的移动对象在这里，Rep和Ren是正阈值和负阈值，rep。一旦计算出正面和负面响应，总体训练目标类似于等式4。在上述方法中，如果在初始训练迭代处生成的等式5中的伪掩码与地面实况的伪掩码相同，则引导预测并执行自监督训练是合乎逻辑的。然而，这不是保证的，因为与各个模态（在等式1中）相关联的特征提取器是随机初始化的。在那里-因此，在自监督训练的初始迭代期间，相似性矩阵Sk→k中不对应于信息性的正或负区域，因为特征提取器未被训练。如果一个特征提取器是用来自分类任务的预训练权重初始化的，例如ImageNet上的视觉提取器，网络通常会向图像中的对象激活将此特性视为以对象为中心的先验，其可用于自监督声音定位，因为帧中最显著的对象通常是发出声音的对象。然而，可能出现音频源不是帧中最显著的对象这将在初始迭代中产生次优关联Sk→k，当用于自监督训练时，在等式6中提到的任何一个都将导致次优性能。因此，有必要构建更有意义的在计算Sk→k时，先验知识可以改善视听关联，随后改善自监督学习。3.3. 基于光流的定位网络动机需要一些有意义的先验知识，使更好的视听协会，我们从对象检测的角度来处理这个问题。在早期的目标检测方法（如R-CNN [15]和Fast R-CNN [14]）中，选择性搜索被用作生成区域建议的方法。选择性搜索提供了一组可能存在感兴趣对象的可能位置。基于选择性搜索的方法的一种替代方法这些区域建议网络中的大多数具有辅助训练目标，以便产生包含潜在对象的区域。使用这些目标来在自监督设置中生成潜在的感兴趣区域变得具有挑战性。此外，仅基于视觉模态，使用选择性搜索或常规区域预测网络来生成候选区域可能不太适合于强制执行诸如视觉声源定位的跨模态任务的先验。作为一个更好的选择，我们使用光流来生成信息定位建议。使用视频帧的光流可以有效地捕获移动的对象，2283√∈v∈⊕×ing. 大多数情况下，这些物体是声音的来源在像素空间中捕获光流通常可以是改善视听关联的良好先决条件。此外，由于光流倾向于关注物体的相对运动而不是显著物体，因此它可以补充倾向于关注后者的预训练视觉模型的先验。我们设计了一个如图2所示的网络，该网络接收在两个相邻视频帧之间计算的光流，并在特征图fv中生成区域，这些区域充当先验，以创建更好的视听关联。定位网络由从图像和流模态中提取的特征表示之间的交叉关注组成。给定流特征表示f f和视觉特征表示f v，我们使用单独的投影层来投影这些特征表示，以创建两个张量K v和Q f。 β作为张量Kv和Qf沿通道维度的外积计算。也就是说，如果Kv和Qf∈ Rmx n x d，则所得的β ∈ Rmx n x d x d计算如下：β=softmax（Kv<$Qf）（7）Dsoftmax函数应用于最终维度以规范化注意力矩阵。目标是计算要应用于每个空间位置的注意力，从而为每个空间位置产生大小为dxd的交叉注意力矩阵我们从视觉模态VvRmxn xd计算另一个张量。对于Vv中的每个空间位置，我们有一个d维表示，我们将其乘以β中相应的dxd注意力矩阵。即：E=Vijβij;i∈[1，m];j∈[1，n]（8）最后，E被投影回来，以产生最终的交叉参与提案先验EpRmxn xc。为了将此先验强加于执行视听关联，我们将Ep添加到视觉特征图fv，如图2所示。增强的视听关联可以写为：fenh=fvEp4.1.1Flickr SoundNetFlickr SoundNet [4]是一个从Flickr平台收集的超过200万个无约束视频的集合。为了直接与之前的作品进行比较，我们构建了两个10 k和144 k视频的子集，它们被预处理成提取的图像-音频对，在第2.1节4.3. Flickr SoundNet评估数据集由250个图像-音频对组成，带有标记的边界框位于图像中的声源上，由[28]手动注释。4.1.2VGG SoundVGG Sound [7]是一个包含20万个视频剪辑的数据集，分布在309个声音类别中。与Flickr SoundNet类似，我们构建了10 k和144 k图像-音频对的子集来训练我们提出的模型。为了进行评估，我们利用 VGG SoundSource [6]数据集，该数据集包含跨越220个声音类别的5000个标注的图像-音频对。与Flickr SoundNet测试集（约有50个声音类别）相比，VGG Sound Source具有更多的声音类别，使其成为声音本地化更具挑战性的场景。4.2. 评估指标为了与先前的作品进行适当的比较，我们使用两个指标来量化音频定位性能：一致性交叉点超过联合（cIoU）和cIoU评分曲线下面积（AUC）[28]。cIoU通过测量地面实况注释和定位图的交集与并集来量化定位性能，其中地面实况是多个注释的聚合，提供单个共识。AUC通过从0到1变化的阈值创建的cIoU曲线下面积计算在我们的实验中，我们显示了cIoU在0.5阈值下的结果，表示为cIoU0。5，和AUC评分，表示为AUCcIoU。4.3. 实现细节S增强=伊恩 .Aavg，i∈m<$n（九）本文将声源定位定义为低噪声声源定位，将音频的摘录校准到其在IM中的原始位置，伊恩 ||. ||Aavg||年龄帧，两者都是从其各自的视频剪辑中提取的为其中表示逐元素加法。一旦获得增强的视听关联，我们使用等式6来计算正面和负面响应。我们使用等式4中提到的优化目标来端到端地训练4. 实验4.1. 数据集为了训练和评估我们提出的模型，我们遵循该领域的先前工作，并使用两个大规模视听数据集：在Flickr SoundNet和VGG Sound两者中，我们提取视频的中间帧以及以中间帧为中心的3秒音频和计算出的密集光流场，以构建图像流音频对。对于图像帧，我们将图像大小调整为224 224，并执行随机裁剪和水平翻转数据增强。为了计算对应于中间帧的光流场，我们取视频V的中间帧和后续帧，分别由Vt和Vt+1表示，并且使用Gunnar Farneback [10]算法来生成对应于表示运动幅度的水平和垂直流矢量的2通道流场。我们模拟-F||F2284†×方法训练集关闭0.5AUCcIoU方法训练集关闭0.5AUCcIoU[第28话]0.4360.449[第28话]0.1600.283粗对细[25] 0.522 0.496[6]第六届全国政协委员VGGSound10k0.297 0.358AVObject[1]Flickr 10k0.546 0.504SSPL [30] 0.314 0.369LVS价格 [6] 0.730 0.578HTF（我们的）0.393 0.398SSPL [30] 0.743 0.587[第28话]0.185 0.302HTF（我们的）0.860 0.634AVObject [1] 0.297 0.357[第28话]0.660 0.558LVS指数 [6] 0.301 0.361SSPL [30]0.7590.610HTF（我们的）0.8650.639[6]第六届全国政协委员0.7190.587硬位置[29] 0.768 0.592表2. VGG声源测试数据集上的定量结果，其中模型在VGG声音的两个训练子集上进行训练。方法测试集cIoU 0。5AUC cIoU方法的推导，“ilarly执行流场的随机裁剪和水平翻转，这与图像增强一致地执行。对于音频，我们采样3秒的视频在16 kHz和构建一个对数缩放的频谱图，使用的bin大小为256，FFT窗口的512个样本，和步幅的274个样本，导致在一个形状为257 300。在[6]之后，我们使用ResNet18骨干作为视觉和音频特征提取器。同样，我们使用ResNet18作为光流特征提取器。我们在ImageNet上预训练视觉和流特征提取器，并随机初始化音频网络。在训练过程中，我们保持视觉特征提取器参数冻结。对于所有实验，我们使用Adam优化器训练模型，学习率为10- 3，批量大小为128。我们为10k和144ksam训练了100个epoch的模型Flickr SoundNet和VGGSound上的多个子集我们设定p= 0。65，n= 0。4，τ = 0。03，如等式6所述4.4. 定量评价在本节中，我们将我们的方法与之前的工作[1，6，19，25，28，29，30]进行了自我监督视觉声源定位的标准化Flickr SoundNet和VGG Sound Source测试数据集的各种训练配置结果分别见表1和表2如表1和表2所示，我们的方法HTF显著优于所有现有方法，创造了自监督声源定位的新的对表3. VGG声源测试数据集上听到和听不到类子集的定量结果。每个模型都在属于110个（听到的）类的50k个样本上进行训练。在Flickr测试集上，我们在10k Flickr样本上训练时实现了11.7%的cIoU和4.7%的AUC，在144k Flickr样本上训练时实现了10.6%的cIoU和2.9%的 AUC同样，在VGG声源测试集上，当在10k VGG声音样本上训练时，我们提高了7.9% cIoU和2.9% AUC，当在144k样本上训练时，我们提高了5.5% cIoU和2.0% AUC。此外，我们通过在VGG Sound和Flickr SoundNet数据集上对其进行评估来研究我们方法的鲁棒性。具体来说，我们用144k VGG声音样本训练我们的模型，并在Flickr SoundNet测试集上进行测试。与[6，29，30]相比，我们显著优于所有方法，如表1所示，这表明我们的模型能够在数据集上很好地推广。我们进一步研究我们的方法在[6]之后，我们从VGG Sound中抽取了110个声音类别进行训练，并对训练期间使用的相同110个类别（听到的）和110个其他不相交（未听到的）声音类别进行测试。如表3所示，我们在听到和未听到的测试子集上都优于[6]。此外，我们强调，未听到的子集的性能略优于听到的子集，表明我们的模型对未听到的声音类别表现良好。利用类似于[6]的自监督损失公式，我们看到我们的方法在以下方面明显优于它：DMC [19]0.6710.568LVS [6]VGGSound 144k0.2880.359[6]第六届全国政协委员0.7020.588[29]第二十九话0.3460.380LVS [6]Flickr 144k0.6970.560SSPL [30]0.3390.380[29]第二十九话0.7620.597HTF（我们的）0.3940.400[30]第30话：我的世界0.605HTF（我们的）0.8480.640表1.Flickr SoundNet测试数据集上的定量结果[6]第一届世界卫生大会HTF（我们的）0.3730.3360.386其中模型在Flickr SoundNet和VGG Sound 144k的两个训练子集上进行训练。“*” Denotes our faithful[6]VGGSS Unheard 1100.270HTF（我们的）0.3930.3490.4002285图3.我们的方法在每个测试集上的定性结果示例可视化来自在每个测试集的相应144k训练集上训练的模型我们的方法有效地定位对发声物体表现出运动。图最好用彩色显示图4.我们的方法在Flickr SoundNet测试集上的定性结果示例来自在Flickr 144k集合上训练的模型。即使在没有有意义的光流的情况下，我们的方法仍然可以定位到声源。图最好用彩色显示。这两个测试数据集跨越所有训练设置和实验。我们强调，这些改进是从将一个更丰富的信息之前，基于光学流，到声音定位的目标。在第4.6节中，我们进一步研究了结合光流的直接影响以及我们的其他设计选择。4.5. 定性评价在图 3 中，我们在 Flickr SoundNet 和 VGG SoundSource测试集上可视化并比较了LVS [6]和我们的方法的如图所示，我们的方法可以准确地定位各种类型的声源。与LVS [6]相比，我们研究了本地化改进-跨多个样本的分段，特别是在发声对象通过移动表现出高流量幅度的情况下。例如，在第一列中，LVS [6]仅定位了探测车辆的一小部分，而我们的方法完全定位了车辆，其中展示了显著的在第五列中，我们的方法更准确地定位于体育场中的两个人群，这两个人群都是表现出运动的声源。然而，研究几乎不存在光流视频中的帧可能表现出很小的在这些情况下，没有有意义的光流定位。在图4中，我们看到，即使在没有显著光流的情况下，我们的方法与LVS [6]相比仍然可以更好地定位这加强了光流被用作可选的先验，其中高运动区域（当存在时）可以用于更好地定位，但不是必需的。在下面的章节中，我们进一步研究了将光流等先验引入自监督框架的确切效果。4.6. 消融研究在本节中，我们将探讨我们的设计选择对多项消融研究的影响如第3.2节所述我们引入光流作为这些先验之一，除了在ImageNet上预训练视觉网络以提供以对象为中心的先验之外。在表4中，我们研究了这些设计选择中的每一个的单独影响，即添加流注意机制，视觉编码器的ImageNet权重，以及在训练期间冻结视觉编码器。当在没有任何先验知识的情况下训练模型（模型4.a）时，我们看到性能受到影响，因为几乎没有意义-2286×××模型流量预训练冷冻关闭0. 5 AUCcIoU模型流网络训练集cIoU 0. 5AUCcIoU视力视力a × × ×0.129 0.275b × × 0.315 0.364c× φ 0.306 0.362d φ 0.271 0.3432009年1月1日至2009年3月31日2019年12月31日表4.视觉编码器结合光流与策略之烧蚀研究。所有模型都在VGG Sound 10k上进行训练，并在VGG Sound Source测试集上进行测试。为自我监督的目标提供充分的信息。然而，当简单地添加前面描述的光流注意力（模型4.d）时，我们看到了很大的性能改进，因为网络现在可以使用光流来更好地局部化，因为移动对象通常是呈现声音的对象。类似地，当使用ImageNet预训练权重时（表4.b），我们看到了显着的性能提升，因为模型现在具有以对象为中心的先验，其中图像中的突出当结合两种先验（模型4.e）时，我们看到了更进一步的性能改进，这表明了将多个信息先验纳入自我监督声音本地化目标的重要性我们进一步探讨了在训练过程中冻结视觉编码器的效果。如前所述，在分类任务（如ImageNet）上预训练的网络将在显著对象周围具有高激活（以对象为中心的先验）。当在自监督设置中训练时，网络可以从其原始权重转移，而是具有较少的以对象为中心的焦点，这对于声源定位来说可能是次优的。当在非流设置（模型4.c）中冻结网络时，与未冻结的对照（模型4.b）相比，我们看到per-cycle略有下降然而，当在光流设置（模型4.f）中冻结网络时，我们看到与未冻结视觉编码器（模型4.e）的流设置相比略有我们推断强制使用视觉编码器为了保持其以对象为中心的特性，同时流编码器可以推理并关注图像的其它部分，产生了信息量更大的表示，从而提高了定位性能。最后，我们探索光流编码器的变化，以更好地理解如何使用光流信息我们将可学习的ResNet18编码器替换为单个最大池化层，看看简单的存在是否仍然可以为定位声音提供信息。如表5所示，当使用简单的最大池化层（模型5.a）时，我们仍然注意到没有光流的网络（模型4.a-c）的显著性能改进。然而，我们看到，a MaxPoolVGGS 10k0.379 0.393BResNet18 0.3930.398c MaxPoolVGGS 144k0.381 0.393DResNet18 0.3940.400个表5.在训练环境中对流量编码器网络配置的消融研究所有型号都在VGG声源测试仪上进行测试。使用可学习编码器时的最大池化层，如ResNet18网络。虽然最大池化层仅捕获特定位置处的移动的存在，但可学习的编码器允许对流信息进行更深层次的推理例如，图3中的第八列显示了一个光流场，其中发声物体（牵引车）没有移动，而是周围的环境在移动。在这种情况下，使用最大池化编码器，网络偏离探测对象，而可学习的编码器可以更好地推理给定帧中的流，从而提高整体定位性能。5. 结论在这项工作中，我们介绍了一种新的自我监督的声源定位方法，使用光流来帮助在一帧视频中的发声对象的定位。在视频中，移动的物体通常是发出声音的物体。我们利用这一观察，使用光流作为先验的自我监督学习设置。我们制定了自监督目标，并描述了相应的视频帧上的光流交叉注意机制。我们在标准化数据集上评估我们的方法，并与以前的作品进行比较，并在所有实验和评估中显示最先进的结果。此外，我们进行了广泛的消融研究，以显示包括信息先验（如光流）到自监督声音定位目标中以提高性能的必要性和效果。虽然我们在这项工作中探索光流，但还可以探索其他先验知识，以进一步提高声源定位。例如，预训练音频编码器可能会提供对发出的声音的类别此外，例如使用流估计方法或跨多个帧聚合流来改进光流生成可以潜在地改进光流信号以最终改进总体定位性能。我们把这些假设的探索留给未来的工作。致谢：这项工作得到了识别技术研究中心（CITeR）和国家科学基金会（ NSF ）的支持，资助号为1822190。2287引用[1] Triantafyllos Afouras ， Andrew Owens ， Joon SonChung，and Andrew Zisserman.视频中视听对象的自监督学习欧洲计算机视觉会议，第208-224页。Springer，2020年。[2] Hassan Akbari，Liangzhe Yuan，Rui Qian，Wei-HongChuang，Shih-Fu Chang，Yin Cui，and Boqing Gong.Vatt：Transformers，用于从原始视频、音频和文本进行多模态自监督学习。神经信息处理系统的进展，34：24206[3] Relja Arandjelovic和Andrew Zisserman。会发出声音的物体。在欧洲计算机视觉会议（ECCV）的会议记录中，第435-451页[4] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴声音网络：从未标记的视频中学习声音表示. 神经信息处理系统进展，2016。[5] M. J. Black和P.阿南丹光流鲁棒估计的框架。第四届国际会议。计算机视觉，ICCV-93，第231-236页，柏林，德国，1993年5月。[6] 陈洪烈，谢伟迪， Triantafyllos Afouras ， Arsha Na-grani，Andrea Vedaldi和Andrew Zisserman。定位视觉声音很难。在IEEE/CVF计算机视觉和模式识别会议论文集，第16867-16876页[7] Honglie Chen，Weidi Xie，Andrea Vedaldi，and AndrewZisserman. Vggsound：一个大规模的视听数据集。在ICASSP 2020-2020 IEEE声学，语音和信号处理国际会议（ICASSP），第721-725页。IEEE，2020年。[8] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[10] 贡纳·法内巴克。基于多项式展开的两帧运动估计在斯堪的纳维亚国际年龄分析会议上，第363-370页。施普林格，2003年。[11] Philipp Fischer ， Alexey Dosovitskiy ， Eddy Ilg ，PhilipH ？usser ， CanerHazirbas ， VladimirGolkov ，Patrickvander Smagt ， Daniel Cremers ， and ThomasBrox.Flownet ：使用卷积网络学习光流。 CoRR ，abs/1504.06852，2015年。[12] John W Fisher III，Trevor Darrell，William Freeman和Paul Viola。学习联合统计模型的视听融合和分离。神经信息处理系统进展，13，2000。[13] Ruohan Gao ， Tae-Hyun Oh ， Kristen Grauman ， andLorenzo Torresani.听听看：通过预览音频识别动作。在IEEE/CVF计算机视觉和模式识别会议论文集，第10457-10467页[14] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[15] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 580[16] Je a n-BastienGrill ， FlorianStrub ， FlorentAltch e´ ，CorentinTallec，Pierre Richemond，Elena Buchatskaya，Carl Doersch ， Bernardo Avila Pires ， Zhaohan Guo ，Mohammad Ghesh- laghi Azar，et al.引导你自己的潜意识自我监督学习的新方法。神经信息处理系统的进展，33：21271[17] 约翰·赫尔希和哈维尔·莫维兰音频视觉：利用视听同步来定位声音。神经信息处理系统进展，12，1999。[18] 贝特霍尔德湾作者声明：John H. Schunck确定光流。第内特尔，17（1[19] 胡迪，聂飞平，李雪龙。用于无监督视听学习的深度多模态聚类在IEEE/CVF计算机视觉和模式识别会议论文集，第9248-9257页[20] Hamid Izadinia，Imran Saleemi，and Mubarak Shah.多模态分析用于运动发声物体的识别和分割。 IEEETransactions on Multime-dia，15（2）：378[21] 布鲁斯·D卢卡斯和金田健夫。一种迭代图像配准技术及其在立体视觉中的应用。在 Proceedings of the 7thInternational Joint Conference on Artificial Intelligence-Volume 2，IJCAI摩根考夫曼出版公司[22] 诺曼·穆、亚历山大·基里洛夫、大卫·瓦格纳和谢赛宁。Slip：自我监督与语言-形象预训练相结合。arXiv：2112.12750，2021。[23] Aaron van den Oord、Yazhe Li和Oriol Vinyals。用对比预测编码进行表征学习。arXiv：1807.03748，2018。[24] Andrew Owens和Alexei A Efros。具有自我监督多感官特征的视听场景分析。在欧洲计算机视觉会议（ECCV）的论文集，第631-648页[25] 芮茜，迪虎，海因里希·丁克尔，吴梦月，徐宁，林伟耀。多声源定位由粗到细。欧洲计算机视觉会议，第292-308页Springer，2020年。[26] Colin Raffel ， Noam Shazeer ， AdamRoberts ，KatherineLee，Sharan Narang，Michael Matena，YanqiZhou，Wei Li，Pe- ter J Liu，et al.使用统一的文本到文本Transformer探索迁移学习的局限性。 J. 马赫学习.Res. ，21（140）：1[27] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，2015年28日。[28] Arda Senocak、Tae-Hyun Oh、Junsik Kim、Ming-HsuanYang和In So Kweon。学习定位声源2288in visual视觉scenes场景.在IEEE计算机视觉和模式识别会议论文集，第4358- 4366页[29] Arda Senocak，Hyeonggon Ryu，Junsik Kim，and In SoKweon.从语义相似的样本中更好地学习声音定位。在ICASSP 2022-2022 IEEE声学、语音和信号处理国际会议，第4863-4867页中。IEEE，2022年。[30] Zengjie Song，Yuxi Wang，Junsong Fan，Tieniu Tan，and Zhaoxiang Zhang.自我监督预测学习：视觉场景中声源定位的一种无负像方法。在IEEE/CVF计算机视觉和模式识别会议论文集，第3222- 3231页[31] 克里斯托弗·扎克托马斯·波克霍斯特·比肖夫。一种基于对偶的实时tv-l1光流计算方法。在Pro-CENTRAL 29 thDAGM SymposiumSpringer，2007.第29届DAGM模式识别研讨会：DAGM 2007 ;会议日期：2007年9月12日至2007年9月14日。[32] Hang Zhao，Chuang Gan，Wei-Chiu Ma，and AntonioTorralba.运动的声音。在IEEE/CVF计算机视觉国际会议论文集，第1735-1744页[33] Bol

下载后可阅读完整内容，剩余1页未读，立即下载