自监督视频声源定位的基于建议方法

142 浏览量更新于2023-10-25 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1029一种基于建议的自监督视频声源定位方法Hanyu Xuan1，Zhiliang Wu1，Jian Yang1，Yan Yan2*，Xa vier Alameda-Pineda3†1南京理工大学计算机科学与工程学院2美国伊利诺伊理工学院计算机科学系3因里亚大学Grenoble Alpes，CNRS，Grenoble INP，LJK，38000 Grenoble，France{xuanhanyu，wu zhiliang，csjyang}@ njust.edu.cn，yyan34@iit.edu，xavier. inria.fr摘要人类可以通过观看场景和收听相应的音频提示来容易地识别声音在哪里以及如何为了在机器上实现这种跨模态感知由于语义对象级定位对于潜在的实际应用更具吸引力，我们认为这些现有的基于地图的方法只提供了声源的粗粒度和间接描述。在这篇文章中，我们提倡一种新的基于建议的范式，可以直接执行语义对象级本地化，没有任何手动注释。我们将全局响应图作为一个无监督的空间约束，根据它们如何覆盖声源的估计全局形状来对建议进行加权。因此，我们的建议为基础的声源定位，可以投到一个更简单的多实例学习（MIL）的问题，通过过滤，ING对应于大的声音不相关的区域的那些实例与多个数据集上的几个基线相比，我们的方法实现了最先进的（SOTA）每平方米。1. 介绍在人类多模态感知中[35]，视听事件在时间上的自然共现为更好的感知提供了潜在的线索[4]。这种时间共现来自于“声音是由物体的振动产生的”这一事实通过这种内在的和普遍的对应，我们可以从它们产生的声音中区分和关联不同的视觉表现，即，声源可以在视觉上被定位和检测。机器智能还应该具有类似人类的视觉场景声源定位能力，即，的*通讯作者†本研究得到ANR ML 3RI（19-CE 33 -0008-01）的支持。图1.基于地图的范例使用地图（图。(a)和图(c))通过内插操作产生以执行伪像素级定位或通过后处理步骤进行间接检测。这类地图的典型问题：1）倾向于突出最有区别的区域;2）可能遇到病理性偏差，例如，3）选择最佳阈值是不平凡的，因为不同的在本文中，我们提倡一种新的基于提议的范例，它直接执行类不可知声源的语义对象级本地化（图1）。(b)和图（d））。一旦声源出现在图像中，就可以定位它们。这种能力可以在许多实际应用中发挥重要作用。例如，救援机器人可以找到灾难后呼救的人[42]，声音可以帮助摄影师更好地聚焦，因为声源通常是照片中更有趣的主题[19]。为此，一些作品[29，38，44]利用注意力地图以弱监督的方式定位声源。其他方法修改CNN框架以生成用于声源定位的类激活图[48]。然而，这些方法只能执行类特定的，而不是类不可知的本地化，由于图像级注释的使用。收集这些手动注释不仅是劳动密集型和耗时的，而且往往是主观的和容易出错的。作为解决这个问题的一种有前途的方法，自监督学习[25]因其出色的数据效率和泛化能力而被引入到这项任务中。例如，一些作品[1，6，20，21，31，47]通过从大量未标记视频中学习的置信度得分图来定位类别不可知的声源。1030这样的地图不仅是一种有效的方式来解释网络的决定，而且还被用来定位声源。如图1（a），这些基于地图的范例的长期弱点是，它往往导致突出最具歧视性的部分，从而覆盖部分区域，而不是对象的整个此外，基于地图的范例可能在训练样本中遇到病理性偏差，此时前方对象偶然地总是与相同的背景对象相关，例如，图中“火车”的轨道第1段（c）分段。此外，上采样操作（即，插值函数）来生成这样的映射，并且引入了许多不确定性。我们认为，在基于地图的范例中生成的地图不仅执行粗粒度（伪像素级）的定位，但也太光滑，以指示声源的准确边界。对于实际应用，声源的语义尽管声源的边界框也可以通过具有固定阈值的后处理步骤从这样的图中推断出，如图1中的绿色和粉色边界框所示。1（a）和图1（c）中，选择最佳阈值，因为不同的阈值可能导致具有不同大小和位置的边界框。尽管视觉对象检测[10，22，24，50]已经被广泛研究并取得了有希望的结果，但这些当前流行的对象检测框架不能用于对象级声源定位。一方面，这项任务涉及音频和视觉，而不仅仅是视觉。另一方面，视频中的所有对象都可以产生声音，包括由于其大的变化而难以获得注释的对象。换句话说，声源定位必须以类别不可知的方式进行处理，因此即使可能，也极难获得位置级、帧级或甚至视频级注释。在本文中，我们主张一个范式转变的声源定位，并提出了一种新的建议为基础的方法，它执行语义对象级定位的类不可知的声源。主要是，我们渴望在这项任务中迈出下一个合乎逻辑的步骤。受弱监督对象检测（WSOD）[28，36，46]的巨大成功的启发，我们将基于建议的声源本地化问题作为多实例学习（MIL）[11]问题，其中声源检测器（实例分类器）作为隐藏节点放入网络中，以端到端的方式学习。将音频信息作为弱注释的在我们的设置中，视听信号的时间共现被用作唯一可用的监督。在这种监管薄弱的情况下，仅考虑不考虑所有实例的全局范围的局部实例可能使我们的模型难以训练。此外，实例中存在大量与声音无关的对象，这在训练期间引入了分心。为此，我们将全球响应地图（GRM），它揭示了声源的粗略位置，并提供有关其全球形状的信息，作为一个unsupervised的空间约束，以加权的本地实例，根据他们如何覆盖估计的GRM。我们的动机是，虽然一些实例仅部分捕获声源，但与GRM具有高空间重叠的实例可以覆盖整个声源，或者至少包含更大的部分。直观地说，这种预测只覆盖了整个帧的一部分区域，而忽略了没有对象存在的背景，使得我们的模型更加关注声源可能存在的区域，因为声源不可能存在于背景中。我们的主要贡献可概括如下：• 一种新的基于建议的声源定位解决方案，它直接执行语义对象级定位;• 引入无监督空间约束，建立有效的三流框架，简化了问题，提高了训练效率;• 减轻了基于地图的方法的缺点，从而提高了SOTA性能。2. 相关作品视听表征学习旨在自动地从数据中学习一种通用的、有效的模式表征。它的动机是这样一个事实，即表示的质量通常决定了机器学习算法的成功[5]。Aytar等人[3]使用视听信号之间的时间共现来学习强大的音频表示。采用了学生-教师培训过程，该过程利用未标记的视频作为将知识从视觉转移到音频的桥梁。Owens等人[27]试图学习增强的视觉表征，将声音视为监督信号。尽管这些方法设法学习增强的音频或视觉表示，但它们没有解决学习联合音频-视觉表示的问题。因此，Chung et al.[7]使用了一个名为SyncNet的CNN网络来学习联合视听表示。Halperin等人[15]使用SyncNet学习的联合表示来实现语音和视频之间的动态时间对齐，将重新录制的语音片段与预先录制的视频同步。这些方法利用了基于二进制匹配的成对损失1031n=1VVVV联系我们V图2.我们所倡导的基于建议的声源定位的图，其中不同的流由不同的颜色表示，GRMgn被利用作为可靠的先验来投射由等式定义的基于建议的声源定位问题。1到一个更简单的MIL问题公式方程。二、忽略上下文信息。Chung等人[8]应用多路匹配策略来训练模型。受这些工作的启发，我们开发了一个类似的自我监督训练任务。弱监督目标检测的目的是通过只使用图像级而不是位置级的注释来检测目标。MIL流水线之后的许多方法[9，28，33，46它们将图像视为一个袋子，并将建议提取器捕获的区域建议视为实例，以在MIL约束1下训练实例分类器。分类损失通常用于选择最可信的正向预测。后续工作通过利用空间关系[36，37]，更好的优化[2，23，40]和分段协作[12，43，45]。受这些方法的启发，我们提出了基于建议的声源定位问题作为一个MIL问题。虽然WSOD接受精心策划和自注释的视听对可能是不相关的，例如屏幕外的声音。声源定位的目的是定位声源，一旦他们出现在图像中。一些作品[29，38，44]使用注意力地图以弱监督的方式定位特定于类的声源，其中Tian et al.[38]介绍了一个视听远程学习网络，以实现声源定位，钱等。[29]以粗到细的方式进行跨模态特征对齐，Xuan等人。[44]使用跨模态注意来探索相同模态和跨模态信号的潜在隐藏相关性。一些方法[1，6，20，21，31，47]通过置信度得分图来定位类别不可知的声源。Arandjelovic`等人[1]将音频和视觉特征投射到公共空间。Chen等人[6]介绍了一种自动背景挖掘技术。Hu等人。[20]利用深度多模态聚类（DMC）来执行有效的视听匹配。[21] Hu等人采用了两阶段学习策略。ArdaSenocak等人[31]第三十一话注意力机制。Zhao等人[47]使用了混合然后分离的学习策略。这些现有的工作可以总结为基于地图的范例，其仅执行粗粒度的本地化或声源的间接检测。与之不同的是，我们提出了一种基于建议的方法，可以定位语义对象级而不是伪像素级，类不可知而不是类特定的声源。3. 方法3.1. 问题公式化令N表示视频序列中的帧的数目，其中，RW×H，W和H分别表示框架I n的宽度和高度。我们提取以相应帧IN为中心的固定持续时间的音频剪辑An。我们的目标是检测在每个帧In中产生声音An的对象。我们将框架In中所有类不可知的提议的集合表示为（In），可以使用现成的提议提取器（如Selective Search [39]或EdgeBox [49]）轻松获得我们的任务是找到一个只包含声源的子集VS（I n）V（I n）.（一）乍一看，它似乎类似于经典的WSOD[32，36]，但WSOD和我们的有本质的区别由于WSOD中提供的图像级注释满足MIL约束1，因此WSOD采集的子集S是非空的。然而，我们任务中的集合S可能是的一个空子集，因为没有可用的手动注释。S（In）=0意味着声源可能在屏幕之外，因此我们无法在相应的视频帧中看到它们。比如，摄影师的画外音。1正包至少有一个实例对应于某个类别的实例，而负包中没有实例包含该类别。1032∈∈∈VV以加权平均的方式，即，vn=i=1 wnvn.nn∈nk=1nk=1n在本文中，我们提出了一种新的三流框架，包括一个音频流，一个帧流和一个建议流，旨在建立可见对象和音频内容之间的关联。我们采用的自然共现的视听样本的时间作为唯一可用的监督。类似于其他端到端WSOD框架[28，36，46]，我们的方法建立在感兴趣区域（RoI）池化层[14]，RoI对齐层[16]或空间金字塔池化（SPP）层[17]之上，以在不同的模型加速建议中共享卷积（Conv）计算。3.2. 符号和概述帧In被馈送到视觉编码器中以产生固定大小的特征图vn=[v1，. . .，vc] Rdv×c.相应地，音频片段这里，wnRc是空间注意力权重，表示为wn=（Uvvn）T（Ussn），其中矩阵Uv和Us用于将vn和sn投影到相同的维度。表示softmax函数，用于归一化。直观地说，这种内积运算测量音频和视觉特征之间的余弦在将权重向量wn整形为每个视觉特征图的空间维度c之后，可以通过使用插值函数将整形的wn上采样到图像大小来获得位置图mnRW×H我们认为，基于地图的方法执行模糊定位和间接检测的声源，通过这样的位置地图。一方面，插值操作试图利用低维向量wn来补充并生成高维向量mn，由于到cW×H。不可避免地，这样的操作引入了nu-An被送入音频编码器以产生高级功能snRds。这里，c表示每个视觉特征图的矢量化空间维度，dv表示视觉特征图的数量，并且da表示每个音频特征的维度。分别这些视听特征{sn，vn}N用作─许多不确定性，导致模糊的定位。另一方面，位置图mn太平滑而不能指示声源的准确边界。虽然所获得的mn仅反映了声源的粗粒度描述，但它提供了可靠的spa。提交到特定于模态的LSTMn=1来模拟时间的变化关于它的位置和形状的先验知识。为了这一点-悬垂性然后，引入了音频引导视觉注意模块，用于计算当前的全局特征值，姿态，我们将mn归一化以生成GRMgn，即，gn=（mn−min（mn））/max（mn），可视为帧n并生成GRMgn。作为帧中每个像素上的概率分布对于提案流，我们首先使用选择性搜索作为提案提取器。建议选择网络利用生成的GRM与粗粒度的声源的位置和形状来选择声音相关的建议。保留K个最有信心的建议，表示为当VB（I n）={r k}K . 然后，这些保留的建议VB在那里产生声音An。生成的GRMgn被用作无监督的空间约束，以根据它们覆盖GRM的程度来对所有提取的建议进行加权。我们假设GRM中具有足够高值的那些建议应至少包括声源的一部分，而具有足够低值包含与声音无关的区域（例如，背景）。的被馈送到SPP层以提取它们对应的特征Bn={bk}K，其中bk∈Rdb，db是维数每个建议的置信度可以通过简单地将相应的像素值累积在GRMg中来计算。每个提案的特点。由于来自视听模态的异质数据中样本之间的巨大差距，我们采用一些全连接（FC）层将三个流的输出转换为相同的维度 d ，这使得它们具有可比性。Respectively, we denote the outputs of audio stream,frame stream and proposal stream as f s , f att andn在这一点上，我们的建议为基础的方法定义的方程。1可以转化为：VSVV−B→VVSVB，（2）从VBV开始。这意味着我们只需要找到声音在集合V中的源。使用包含较少亲-{fbox}K，其中ffattfboxn n B B∈Rdnkk=1在叱，nk. 本地化网络-简化了我们的问题。我们治疗的是VB而不是V工作利用了在公共可比较空间中具有相同维度的这些特征来执行基于提议的声源定位。我们的方法的示意图如图所示。2，并将在下面详细说明。3.3. 建议选择网络由于声音包含有关其来源和位置的丰富信息，一些现有的基于地图的方法[1，20，21，44]启发我们在搜索声源位置时利用音频信号作为指导手段模拟与之相反，全局特征vatt∈Rdv 可以获得作为一个包，使用MIL策略检测声源。直觉上，在帧的特定区域而不是整个帧中更容易找到声源。此外，尽管GRM可以仅捕获声源的最有区别的部分，但是与GRM具有最高空间重叠的这些保留的建议B可以覆盖整个声源，或者至少包含更大的部分，从而导致更准确的定位。3.4. 定位网络语义对象级声源可以被本地化nΣc阿特伊伊通过评估保存的亲，1033V∈VnnnnnLnLnnnnnNKnnnnnnnnn2n整个视频表示为L=N（Ltri+λLedu），LΣL−对{An，我n Nn=1 在一段视频中，VGGish [18]预先训练了音频片段A、B和对应的音频片段A、n。为了应对所提取的建议数（In）小于K的罕见情况，我们设计了二进制掩码e=[e1，e2，. . .，e K] RK，其中第k个元素e k指示对应的提议是否存在。我们使用余弦相似性来衡量关联：fsTf盒表1.基于不同准则的屏上/屏外声音识别的准确性比较，即，距离度量m_on和全局激活值d_on。AveSSL我上了。64.671.8don.66.270.5我上了。戴上。71.278.5dk=ReLU（nSNK框）·ek，（3）fn其中ReLU函数用于抑制负相关值，这在[31，41]中已经讨论过语义对象级声源VS可以被定位4. 实验4.1. 数据集和实施详细信息声源定位3（SSL）数据集[31]保存了从Flickr-SoundNet数据集中选择的2786个这些计算的相似度{dk}K，将被解，跟踪在Sect。四点三。nk=1其中Flickr-SoundNet数据集[3]包含来自Flickr的超过200万个无约束视频。有三个注释-对于提案流，我们可以通过使用这些相似性来加权相应的提案级特征fv，通过听20秒的声音，并在占主导地位的区域上绘制一个边界框，响应建议，即，fv是归一化的{dk}K=ΣKαk·f盒，其中αk声音来自于画面。值得注意的是，我们雇用了跑-从Flickr-SoundNet中选择的声音图像对nk=1以生成与声源相关的新表示，从而导致更加关注产生声音的高概率区域3.5.损失函数我们的借口任务的伪注释可以根据视听剪辑是否在时间上共同出现而自动获得。我们使用来自视频的fv作为查询，其正对fs+是来自同一视频的相应音频片段，而负对fs-是来自另一个随机选择的视频的音频片段。距离比损失tri2[31]使正对（fv，fs+）彼此靠近，但负对（fv，fs−）彼此远离作为训练样本。声源的结果在SSL数据集上定量评估本地化。MUSIC3数据集[47]包括685个未修剪的视频，536个独奏和149个二重奏，涵盖11类音乐乐器。请注意，有些视频现在无法在YouTube上播放，我们最终获得了489个独奏和141个二重唱视频。为了进行定量评估，我们利用[21]中提供的边界框作为测试集的基础事实，其中边界框由经过良好训练的Faster RCNN检测器w.r.t11仪器生成。MUSIC-Synthetic3数据集[21]通过随机选择四个1s的不同音频的独奏视听对，然后将四个音频剪辑中的随机两个与抖动混合作为多源音频波形，并将这些剪辑中的四个帧关联作为多源视频帧。这意味着有两个工具生产-此外，我们应用欧氏距离损失edu[41]在帧流和建议流之间建立连接以生成GRM。edu项鼓励帧级特征fatt和建议级特征fv之间的距离尽可能小，即，edu=fvfatt2. 值得注意的是，虽然fv和fatt都被用来表示帧In，但是它们的焦点是不同的。如图2，前者由帧流输出，集中于产生声音的近似区域，而后者由建议流输出，更关注与声源。我们模型的最终损失函数L其中λ是平衡参数。n=1nn在合成的视听样本中，其他两个是无声的。视听事件3（AVE）数据集[38]包括4143个样本，涵盖了广泛的现实生活场景，包括音乐表演，主要街道，公共演讲等。每个样本包含10 s的视听信号。这些样本充满了突然的视图变化和不同类型的噪声。值得注意的是，尽管AVE数据集提供了二级和视频级事件类别注释，但我们在训练期间不使用任何注释由于没有在提供了真实数据的基础上，我们给出了AVE数据集上的一些可视化局部化结果。2具体表述见补充材料。3我们使用的所有数据集都可以在线获得。下载这些数据集的网站可以在补充材料中找到。4我们使用的所有代码都是MIT许可证。n}k=1. 它结合了两个地区实施细节4. 给定一系列音频帧1034VVnk=1--nk=1--表2.声源定位与基于SOTA地图的方法[1，6，20，21，31，47]在三个数据集上的性能比较MUSIC-solo, MUSIC-Synthetic andSSL.报告IoU@0.5、AUC和cIoU音乐独奏音乐合成SSLIoU@0.5AUCIoU@0.5AUCcIoUAUCPixelPlayer [47]40.543.335.511.860.450.3声音的对象[1]26.135.820.310.263.648.2注意[31]37.238.725.912.366.055.8DMC [20]29.138.031.616.367.156.8[21]第二十一话51.443.640.023.568.756.9[6]第六话52.344.140.623.669.957.3我们58.046.346.730.172.861.4AudioSet [13]上的VGG16 [34]和ImageNet [30]上预训练的VGG16 [ 34]分别用于初始化音频编码器和视觉编码器的权重。此外，我们将VGG16的最后一个最大池层替换为SPP层，以提取提案的特征。为了增加每个视觉特征图的大小，我们将倒数第二个最大池层及其后续的Conv层替换为扩张的Conv层。在训练阶段，我们使用带有默认参数的Adam优化器。根据经验，正则化权重λ被设置为0。五、考虑到GPU上可用的内存量，我们将批处理大小设置为128。评价指标。为了定量评估所提出的方法，我们使用[6，21，31]中采用的评估指标。对于MUSIC-合成数据集和 MU-SIC 数据集两者，采用联合上的交叉（IoU）和曲线下面积（AUC）作为评估度量，其使用声源的预测区域和注释的边界框来计算对于SSL数据集，由于提供了多个注释，因此采用共识IoU（cIoU）2作为评估指标。4.2. 屏幕上/屏幕外声音识别正如在Sect中提到的。3.1、视频中声源可能不在屏幕上，这会导致S=0。因此，我们首先需要识别声音是在屏幕上还是在屏幕外，即，屏幕上或屏幕外的声音识别。基于地图的方法[20，26，31]利用距离度量m on来识别屏幕上或屏幕外的声音，其中距离度量m on通常被设置为可比较的公共空间中所有正样本和负样本的欧几里得距离的中值的平均值。与基于地图的方法相比，我们提出的方法还可以通过使用等式中计算的相似度d kK来执行屏幕上/屏幕外的声音识别。3 .第三章。具体地，我们可以获得全局激活值d〇 n以测量帧In和声音An之间的相似性，其中d〇 n被定义为这些相似性的最大值当don足够大时，即，d on>0.2、我们认为声音是由相应的物体在相应的空间中产生的sponding视频clip剪辑，that is，the sound声音is on screen屏幕.综上所述，距离度量m_on和全局激活值d_on可以用作屏上/屏外声音识别的判断标准我们认为，仅使用mon或don作为标准过于严格。因此，我们定义了一个较宽松的标准，即，只要符合其中一项准则，我们便会认为声音是在荧幕上播放如选项卡的最后一行所示1、增加一个新的标准（即，don）改进了AVE数据集和SSL数据集上的屏幕上/屏幕外声音识别的性能。4.3. 与SOTA的定量比较在判断屏幕上的声音之后，即，S=0，我们基于由等式计算的相似性dkK3、阐述如下。我们在三种不同的情况下将我们的方法与一些最近的基于SOTA地图的方法[1，6，20，21，31，47]进行了比较。与这些方法的定量比较结果见表1。二、单一声源场景首先，我们关注一个简单的场景，即视频中最多有一个声源。在这种情况下，我们使用具有全局激活值don的建议作为最终定位结果。在MUSIC-solo数据集上评估性能。与基于地图的方法相比，我们的建议为基础的方法取得了竞争力的性能。基于地图的方法倾向于定位最具区别性的区域，从而导致不期望的结果。多个声源场景多个声源可能同时出现在视频中。为在MUSIC合成数据集中，每个视频中有两个声源。为了处理这种情况，具有最高置信度的两个不重叠的建议被输出作为最终的本地化结果。如Tab.所示。2.我们的基于建议的方法显著优于基于地图的方法。在这种情况下，基于地图的方法通常获得粗粒度的1035图3.在这种情况下，与两种最近的基于地图的弱监督方法[38，44]进行定性比较：一辆车开走了然后又出现在视频里最好用彩色观看。表3. SSL数据集上的消融研究，其中负号cIoUAUC我们的（K=10）68.956.2我们的（K=20）72.861.4我们的（K=30）73.157.3我们的-ProSelectNet位置图mn58.969.248.559.3地图覆盖整个发声区域，而不区分每个声源，导致AUC较低。值得注意的是，PixelPlayer [47]可以在具有单个声源的简单场景中有效地将特定视觉区域与音频相关联，但是遭受具有多个声源的嘈杂场景，因为它高度依赖于训练期间输入音频的质量。复杂的真实场景对于场景复杂的真实视频，声源定位对机器来说是一个挑战。与MUSIC数据集和MUSIC-Synthetic数据集相比，Flickr-SoundNet数据集涵盖了更复杂的场景。如Tab.所示。2.我们的基于建议的方法优于其他基于地图的方法。值得注意的是，AV匹配[21]使用两阶段学习策略，这非常依赖于第一阶段中预先学习的知识相比之下，我们的方法不需要构建复杂的学习策略。4.4. 定性比较为了进一步验证我们的方法的有效性，我们将一些定位结果与两种基于地图的弱监督方法进行了比较，AVE-net[38]和Att-net [44]，在两个代表性的场景中。关于VI-表4.使用来自Flickr-SoundNet数据集的不同数量的训练样本对SSL数据集进行性能评估。cIoUAUC关注 [三十一]我们关注 [三十一]我们10k43.645.444.951.350k-55.6-55.490k-63.7-58.7144k个66.072.855.861.4定性比较的结果如图所示。3和图4，其中我们基于建议的方法输出的最终定位结果用红色标记。值得注意的是，两者都采用视频级注释，而我们没有使用任何手动注释。如图3、在前6s，当汽车正在移动，声音越来越弱时，我们的方法以越来越低的置信度定位汽车在最后2s，当汽车越来越近，声音越来越明显时，我们的方法以越来越高的置信度捕获汽车。如图4，在前4秒中演奏打击乐器，而在接下来的6秒中演奏四弦琴。我们在每帧中标记这两个可能的声源和相应的置信度随着两种工具的切换，相应的信心也在发生变化。总之，基于地图的方法，无论是基于弱监督还是基于自监督设置，都存在Sect.1.一、我们的基于建议的方法在一定程度上弥补了这些缺点，从而更准确地定位。我们的方法在MUSIC-合成数据集和SSL数据集上的更多可视化结果可在补充材料中获得。此外，还分析了该方法在某些极端情况下的不足之处1036n=1nVV图4.在这种情况下，与两种最近的基于地图的弱监督方法[38，44]进行定性比较：在视频中正在演奏两种乐器，其中两个主要的可能声源用橙色和红色边界框标记。最好用彩色观看图5.位置图的可视化，其中图。(a)是由我们的基于提议的方法生成的，图。(b)是由基于地图的注意力产生的[31]。场景文中给出了失效结果和极限分析作为补充资料。4.5. 消融研究有效性验证消融研究首先，我们探讨的影响，K值在节。3.4关于声源的定位性能。如Tab的前三行所示3、当K为20时，我们的方法在cIoU和AUC上都达到了最好的性能。此外，GRM在Sect.3.3被用作用于选择声音相关提议的为了评估其必要性，我们忽略了我们的建议选择网络，只使用音频流和建议流，建议选择，而且直接执行声源定位。我们评估了SSL数据集上的位置地图的本地化性能。结果显示在选项卡的最后一行。3 .第三章。与基于地图的方法相比（见表1. 2）、我们的位置图达到了竞争的效果。此外，我们还将我们的位置图与基于地图的注意力生成的位置图进行了可视化[31]。一个直观的比较可以在图中找到。五、由于引入了提案流，我们的位置图倾向于捕获更大和更完整的声源形状4.6. 讨论不难发现，基于地图的方法只使用帧级特征，而我们的基于建议的方法也利用了建议级特征提议级特征的引入使得我们的位置图可以在一定程度上缓解基于地图的方法生成的位置图的缺点，从而实现更精确的定位。另一方面，增加一个新的标准使我们的模型能够更准确地识别屏幕上/屏幕外的声音。此外，建议抽取器的使用使得我们的方法也就是说，用距离比损失N训练我们的模型我是特里。避免了不平凡的后处理步骤。It means that we need to find the sound source S in all pro-由选择性搜索提取的数据。如表5行3、性能明显下降这一结果表明，使用选定的提案比使用所有提案更好，如第2.2节所述。三点三有效性验证选项卡。4显示了使用来自Flickr-SoundNet数据集的不同数量的训练样本时对SSL数据集的性能评估正如预期的那样，随着训练样本的增加，Attention [31]和我们的性能都在逐渐提高。与Attention[31]相比，我们的方法在SSL数据集上实现了更好的性能。类似于基于地图的方法，我们在Sect.3.3不仅可以用于生成GRM，5. 结论在本文中，我们提出了一种新的基于建议的声源定位解决方案，它执行类不可知的声源的语义对象级定位。首先，我们给出了基于建议的方法的形式化定义.全局响应图作为无监督的空间约束被并入，以过滤具有大量声音无关对象和背景的提议。这些保留的建议被视为带有“噪声“注释的MIL问题在多个数据集上与基于地图的方法进行了定量和定性比较，证明了该方法的有效性我们还比较了基于地图的方法和基于建议的方法之间的一些差异。1037引用[1] Relja Arandjelovic和Andrew Zisserman。会发出声音的物体。欧洲计算机视觉会议，2018年。一二三四六[2] A.阿伦角Jawahar和M。库玛基于相异系数的弱监督目标检测。在IEEE计算机视觉和模式识别会议（CVPR）的论文集中，第9424-9433页，2019年。3[3] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴声音网络：从未标记的视频中学习声音表示. 神经信息处理系统进展（NeurIPS），第892-900页，2016年。二、五[4] 帕斯卡·贝林雪莉·费克图凯瑟琳·贝达德思考声音：声音感知的神经关联。Trends in Cognitive Sciences，8（3）：129-135，2004. 1[5] Yoshua Bengio Aaron Courville和Pascal Vincent表示学习：回顾与新的视角。IEEE Transactions on PatternAnalysis and Machine Intelligence（PAMI），35（8）：1798-1828，2013。2[6] 陈洪烈，谢伟迪， Triantafyllos Afouras ， Arsha Na-grani，Andrea Vedaldi和Andrew Zisserman。定位视觉声音很难。在IEEE/CVF计算机视觉和模式识别会议论文集，第16867-16876页一、三、六[7] Joon Son Chung和Andrew Zisserman。超时：在野外自动假唱。在2016年亚洲计算机视觉会议（ACCV）的会议记录中，第251-263页。2[8] 郑秀焕郑俊松康洪国完美匹配：改进了用于视听同步的跨模态嵌入在IEEE国际声学、语音和信号处理会议（ICASSP）会议中，第3965-3969页，2019年。3[9] Ramazan Gokberk Cinbis，Jakob Verbeek，and CordeliaSchmid.基于多重多示例学习的弱监督目标定位。IEEETransactions on Pattern Analysis and Machine Intelligence（PAMI），39（1）：189- 203，2016。3[10] 范琦、卓伟、唐志强、戴玉荣。基于注意-rpn和多关系检测器的少镜头目标检测。在计算机视觉和模式识别（CVPR）IEEE会议论文集，第4013- 4022页，2020年。2[11] Zhouyu Fu ， Antonio Robles-Kelly ， and Jun Zhou.Milis：带有实例选择的多实例学习。IEEE Transactionson Pattern Analysis and Machine Intelligence（PAMI），33（5）：958-977，2010。2[12] 伟峰阁、司北央、益州羽。基于弱监督学习的多标记分类、目标检测和语义分割的多证据在计算机视觉和模式识别（CVPR）IEEE会议论文集，第1277- 1286页，2018年。3[13] Jort F Gemmeke、Daniel PW Ellis、Dylan Freedman、Aren Jansen 、 Wade Lawrence 、 R Channing Moore 、Manoj Plakal和Marvin Ritter。音频集：音频事件的本体和人类标记的数据集。在Proceedings of the IEEE声学，语音和信号处理国际会议（ICASSP），第776-780页，2017年。6[14] 罗斯·格希克。快速R-CNN。In Proceedings of the IEEEIn- ternational Conference on Computer Vision (CVPR),pages 1440–1448, 2015. 4[15] Tavi Halperin，Ariel Ephrat，and Shmuel Peleg.语音到嘴唇的动态时间对准。在IEEE声学，语音和信号处理国际会议（ICASSP）的会议记录中，第3980-3984页，2019年。2[16] K.他，G.吉基奥萨里山口Doll？r和R.娘娘腔。面具r-cnn。IEEE Transactions on Pattern Analysis and MachineIntelligence（PAMI），42（2）：386-397，2020。4[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。IEEE Transactions on Pattern Analysis and MachineIntelligence（PAMI），37（9）：1904-1916，2015。4[18] Shawn Hershey，Sourish Chaudhuri，Daniel PW Ellis，Jort F Gemmeke ， Aren Jansen ， R Channing Moore ，Manoj Plakal ， Devin Platt ， Rif A Saurous ， BryanSeybold，et al.用于大规模音频分类的Cnn在IEEE声学，语音和信号处理国际会议（ICASSP）的会议记录中，第131-135页，2017年。5[19] 阿拉·阿布·希拉尔和塔比特·米斯马尔。基于声音信号检测的无人机定位系统，用于跟踪和照相。2020年第11届IEEE 年度信息技术、电子和移动通信会议（IEMCON），第0008-0011页，2020年。1[20] 胡迪，聂飞平，李雪龙。用于无监督视听学习的深度多模态在IEEE计算机视觉和模式识别会议（CVPR）的论文集中，第9248-9257页，2019年。一二三四六[21] Di Hu ， Rui Qian ， Minyue Jiang ， Xiao Tan ， ShileiWen，Errui Ding，Weiyao Lin，and Dejing Dou.通过自监督视听匹配的有区别的神经信息处理系统进展（NeurIPS），2020年。一、三、四、五、六、七[22] L. Jiao，F. Zhang，F. Liu，S.扬湖，澳-地Li，Z. Feng和R.屈基于深度学习的物体检测综述。IEEE Access，7：128837-128868，2019。2[23] 杰泽群，魏云超，金小杰，冯佳世，刘伟。用于弱监督对象定位的深度自学学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第4294-4302页3[24] Wei Ke，Tianliang Zhang，Zeyi Huang，Qixiang Ye，Jianzhuang Liu，and Dong Huang.用于视觉对象检测的多锚点学习。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第10206-10215页，2020年。2[25] Yann乐存。自监督学习：的计划让深度学习数据高效。 h t t p s ： //bdtechtalks.com/2020/03/23/yann-lecun-self-supervised-learning/. 1[26] Andrew Owens和Alexei A.埃夫罗斯具有自我监督多感官特征的视听场景分析。在欧洲计算机视觉会议（ECCV）的论文集，第631-648页，2018年。61038[27] Andrew Owens 、 Jiajun Wu 、 Josh H McD

下载后可阅读完整内容，剩余1页未读，立即下载