没有合适的资源?快使用搜索试试~ 我知道了~
16867本地化视觉声音的艰难之路陈洪烈,谢伟迪,Triantafyllos Afouras,Arsha Nagrani,Andrea Vedaldi,Andrew ZissermanVGG,英国{hchen,weidi,afourast,arsha,vedaldi,az}@ robots.ox.ac.uk图1:视觉声源定位:我们在视频中定位声源,无需手动注释。我们的主要贡献是一个自动的负面挖掘技术,通过可微阈值的跨模态对应得分地图到一个三地图。我们使用背景区域与给定的声音低相关性作为摘要这项工作的目的是本地化的声源,在视频中可见,而不使用手动注释。我们的关键技术贡献是表明,通过训练网络明确区分具有挑战性的图像片段,即使是包含发出声音的对象的图像,我们也可以显着提高本地化性能。我们通过引入一种机制来挖掘硬样本并将其自动添加到对比学习公式中来优雅地做到这一点。我们表明,我们的算法在流行的Flickr SoundNet数据集上实现了最先进的性能。此外,我们介绍了VGG-Sound Source(VGG-SS)基准,这是最近引入的VGG-Sound数据集的一组新注释,其中每个视频剪辑中可见的声源都明确标记有边界框注释。这个数据集比现有的类似数据集大20倍,包含跨越200多个类别的5K视频,并且与Flickr SoundNet不同,它是基于视频的。在VGG-SS上,我们还证明了我们的算法在几个基线上达到 了 最 先 进 的 性 能 。 代 码 和 数 据 集 可 以 在http://www.robots.ox.ac.uk/上找到vgg/research/lvs/.1. 介绍虽然计算机视觉的研究主要集中在感知的视觉方面,但自然对象的特征不仅仅是外观。大多数物体,特别是,发出声音,无论是在他们自己的权利,或在他们与环境的相互作用-想想狗的树皮,或锤子敲击钉子的特征声音。对自然物体的充分了解不应忽视它们的声学特性。相反,建模设备和声学的结合通常可以帮助我们更好、更有效地理解它们。例如,几位作者已经表明,可以使用声音来自动发现和定位视频中的对象,而无需使用任何人工监督[1,2,14,17,24,30]。本文考虑了“视觉声音”的定位问题在视频中发出特征声音的视觉对象。受先前作品的启发[2,14,30],我们将其表述为找到视频中视觉和音频流之间的相关性。这些论文表明,不仅可以成功地学习这种相关性,而且一旦完成,所产生的卷积神经网络可以被“解剖”以在空间上定位声源,从而将其归因于特定对象。然而,除了架构本身的设计之外,在此之前的工作中有一点是为了提高最终模型的本地化特别是,虽然有几个模型[1,2,30]确实包含了一种空间注意力的形式,这也应该有助于定位发声对象作为副产品,但这些模型仍然无法提供对对象的良好覆盖,通常检测太少或太多。为了解决这个问题,我们提出了一个新的训练方案,明确寻求空间定位的声音,16868视频帧。与对象检测类似[35],在大多数情况下,图像中只有一个小区域包含感兴趣的对象,在我们的情况下是学习准确的对象检测器涉及明确寻找这些背景区域,优先考虑那些容易与感兴趣对象混淆的区域,也称为硬底片[7,13,21,28,31,35]。然而,由于我们对发出声音的物体的位置缺乏监督,我们无法分辨哪些盒子是阳性的或阴性的。此外,由于我们寻求解决定位问题而不是检测问题,因此我们甚至没有边界框,因为我们寻求的是相关图像区域的分割。为了在我们的无监督(或自监督)设置中包含硬证据,我们提出了一种通过可区分阈值的自动背景挖掘技术,即。与给定声音具有低相关性的区域被合并到用于对比学习的否定集合我们没有使用硬边界,而是注意到一些区域可能是不确定的,因此我们将Tri-map的概念引入到训练过程中,为我们的模型留下一个“忽略”区域。据我们所知,这是第一次,背景区域已明确考虑到解决声源定位问题时。我们表明,这个简单的变化显着提高了标准基准测试的声音本地化性能,如Flickr SoundNet [30]。为了进一步评估声音定位算法,我们还引入了一个新的基准,基于最近引入的VGG-Sound数据集[4],其中我们为“发声”对象提供高质量的边界框注释I.E.产生声音的对象,用于跨越200个不同类别的5K视频。这个数据集比现有的声音本地化基准大20倍,并且更加多样化,例如Flickr SoundNet(后者也是基于静态图像而不是视频)。我们相信这VGG-Sound Source(简称VGG-SS)是一个新的基准测试工具,它将有助于这一领域的进一步研究在实验中,我们在这个数据集上建立了几个基线,并进一步证明了我们的新算法的好处2. 相关工作2.1. 视听声源定位学习通过利用视频中视觉和音频线索的自然共现来定位声源解决该任务的早期尝试使用了低概率模型[9,16,20],或者提出了将视频分割成时空管并通过典型相关分析(CCA)将其与音频信号相关联[18]。现代方法使用深度神经网络解决这个问题-通常采用双流,通过利用视听对应进行对比损失训练,即匹配从同一视频中提取的音频和视觉例如,[2,14,27,30]将对象的外观与其特征声音或音频叙述相关联;Huet al.[17]首先在每种模态中对音频和视觉表示进行聚类,然后将所得质心与对比学习相关联; Qian等人。[26]提出了一种弱监督方法,其中从CAM获得对象的近似位置以引导模型训练。除了使用对应,Owens和Efros [25]还通过同步来定位声源,这是一个相关的目标,也在早期的作品中进行了研究[6,22],而[19]在这个模型中加入了显式注意力。 Afouras等人[1]还利用视听并发来训练视频模型,该模型可以区分和分组相同类别的实例。替代方法使用视听源分离目标来解决任务。例如Zhaoet al. [38]采用混合和分离的方法来学习将视频帧中的像素与分离的音频源相关联,而Zhao等人。[37]通过光流为模型提供运动信息来扩展该方法Rou-ditchenko等[29]训练一个双流模型来共同分割视频和音频,产生热图,根据音频语义粗略地突出显示对象这些方法依赖于包含单一声源的视频的可用性,通常在精心策划的数据集中找到。在其他相关工作中,Ganetal. [10]学习从立体声中检测汽车,通过蒸馏视频对象检测器,而高等。[11]通过利用空间信息将单声道提升为立体声。2.2. 视听本地化基准现有的视听本地化基准汇总于表1(侧重于测试集)。Flickr SoundNet 声源定位基准[30]是从FlickrSoundNet数据集[3,33]的视频中随机采样的单帧的注释集合。它是目前声源定位任务的标准基准;我们将在第4节中讨论其局限性,并介绍我们的新基准。视听事件(AVE)数据集[34]包含4,143个10秒视频剪辑,跨越28个视听事件类别,具有时间边界注释。LLP [36]包含11,849个YouTube视频剪辑,涵盖25个类别,总计32.9从AudioSet收集的时间[12]。开发集稀疏地用对象标签注释,而测试集在帧级别上包含密集的视频和音频声音事件标签。注意,AVE和LLP测试集仅包含声音的时间定位(在帧级),16869没有空间边界框注释。基准数据集数据数量#类视频BBoxFlickr SoundNet [30]250∼50‡×CAVE [34]†40228C×LLP [36]†1,20025C×VGG-SS5,158220CC表1:与现有声源定位基准的比较请注意,VGG-SS有更多的图像和类。这些数据集只包含声音的时间定位,而不是空间定位。我们通过人工检查确定了这一点3. 方法我们的目标是定位视频中发出特征声音的对象,而不使用任何手动注释。类似于先前的工作[2],我们使用双流网络从未标记的视频中提取视觉和音频表示。对于定位,我们计算在图像中的通过这种方式,我们得到了一个积极的3.1. 视听特征表示给定一个具有N个视觉帧和音频的短视频剪辑,并将中心帧视为视觉输入,即,X ={I,a},I∈R3×Hv×Wv,a∈R1×Ha×Wa. 在这里,我指的是到视觉帧,以及到原始音频波形的频谱图。以这种方式,两种模态的表示都可以通过CNN来计算,我们分别表示为f(·;θ1)和g(·;θ2)。对于每个视频Xi,我们获得视觉和音频表示:Vi=f(Ii;θ1),Vi∈Rc×h×w,(1)Ai= g(ai; θ2),Ai∈ Rc.(二)注意,视觉和音频表示具有相同数量的通道c,这允许通过使用点积或余弦相似性来比较它们。然而,视频表示也具有空间范围h×w,这对于空间定位是必不可少的。3.2. 视听通信给定等式的视频和音频表示。在(1)和(2)中,我们使用音频作为探测向量,通过计算表示的余弦相似性,将剪辑i的音频与剪辑j的图像对应起来Ai,[Vj]:uv信号将声音和相关空间位置聚集在一起[Si→j]uv=A[V], uv∈[h]× [w].ǁ选项。对于学习,我们也需要一个相反的负信号。通过将声音与其他可能不相关的视频中的位置相关联来获得弱的声音。与之前的工作[1,2]相比,我们的关键贡献是在包含发声物体的相同图像中明确寻找包含背景或非发声物体的硬负位置我们的架构的概述可以在图2中找到。虽然使用硬否定的想法是直观的,但有效的实现并不那么微不足道。事实上,当我们寻找硬否定时,没有确凿的证据表明任何区域实际上是积极的(听起来)还是消极的(不听起来),因为视频没有标记。一个不正确的分类的一个区域作为积极的或消极的可以摆脱定位算法完全。我们解决这个问题,通过使用一个强大的对比框架,结合软阈值和三重映射,这使我们能够有效地处理不确定的区域。在第3.1至3.3节中,我们首先描述了在其oracle设置中使用对比学习的视听定位任务,假设对于每个视听对,我们确实具有图像中哪个区域发出声音的地面实况注释。在第3.4节中,我们介绍了我们提出的思想,它取代了甲骨文,并讨论了我们的方法和现有方法之间的差异。i i:uv这导致映射Si→j∈Rh×w,其指示剪辑j中的每个图像位置对剪辑i中的音频的响应有多强。为了计算余弦相似度,视觉和听觉特征被L2归一化.请注意,我们通常对来自同一剪辑的图像和音频相关性感兴趣,这是通过设置j=i捕获的。3.3. 使用Oracle进行视听本地化在文献中,视听局部化的训练模型被视为学习这两个信号之间的对应关系,并被公式化为对比学习[1,2,17,26,30]。在这里,在深入研究自监督方法之前,我们首先考虑对比学习的oracle设置,其中地面实况注释可用。这意味 的 我们 是 给定 一 培训 设置 D={d1,d2,. . .,d k},其中,每个训练样本di=(Xi,mi)由如上所述的视听样本Xi加上分割掩码mi∈Bh×w组成,其中分割掩码m i ∈ B h × w用于与发射的对象重叠的那些空间位置。声音和其他地方的零因此,在训练期间,目标是联合优化f(·;θ1)和g(·;θ2),使得Si→i仅对发出音频中存在的声音在本文中,我们考虑了一种特殊类型的对比学习,即InfoNCE [23]。16870我图2:架构概述。 我们使用视听对作为双流网络的输入,如(a)所示,f(·;θ1)和g(·;θ2)分别表示视觉和音频特征提取器。然后计算音频向量和视觉特征图之间的余弦相似度,得到一个大小为14 × 14的热图。(b)示出了软阈值以不同的参数被应用两次,生成正、负区域。最终的Tri-map和不确定区域在(c)中突出显示。优化. 对于数据集(或批次)中的每个剪辑i,我们将正面和负面响应定义为:1P=m,S,声源的整形器视觉定位;然而,虽然这在Oracle设置中容易实现,但是在自我监督训练中获得硬负片需要一些注意,如下面所讨论的。我|M i|我1i→i1Σ3.4. 自监督视听定位N i= |1 − m |1 − m i,S i→ i“我的天,i/=jS_1→ j_(?)在本节中,我们描述了一种简单的替换方法硬底片“我的天,简单的否定使用oracle,并不断引导模型以实现更好的本地化结果。在高水平上,亲-其中,··,··表示Frobenius内积。为了解释这个方程,请注意内积只是对指定张量的元素乘积求和,1表示所有1的h×w表达式中的第一项表示从同一图像内的“背景”(不发出特征性声音的区域)计算的硬负片因此,可以定义优化目标提出的想法继承了自我训练的精神,其中预测被视为伪地面真理进行再训练。具体地,给定数据集D={X1,X2,. . .,Xk},其中只有视听对可用(但不是掩码m,i),可以以与章节3.2相同的方式计算音频和视觉输入之间的对应映射Si → i。为了得到伪地面真值掩码mi,我们可以简单地对映射Si→i进行阈值化:.如:1克朗ΣΣexp(P)m=一、如果Si→i≥π0,否则L= − ki=1日志iexp(Pi)+exp(Ni)然而,显然,这种使用Heaviside函数的阈值化是不可微的。接下来,我们解决这个问题讨论几种现有的自我监督视听定位方法[1,2,14,30]是类似的。关键的区别在于构造正集合和负集合的方式。例如,在[30]中,通过使用软最大运算符生成的热图被用于池化正图像,并且来自其他视频剪辑的图像被视为负图像;相反,在[2]中,正图像来自最大池化对应图Si→i,而负图像来自最大池化Si→j,对于ji。至关重要的是,所有这些方法都错过了上面定义的硬负项,该硬负项是从包含声音的相同图像内的背景区域计算的。直觉上,这个术语很重要,通过放松阈值运算符的问题。平滑Heaviside函数。在这里,我们采用平滑阈值算子来保持架构的端到端可微性:mi=sigmoid((Si→i−)/τ)其中τ是指阈值参数,τ表示控制锐度的温度。处理不确定的区域。 与Oracle设置不同,从模型预测中获得的伪地面实况可能存在噪声,因此我们建议设置16871在在正负区域之间的在图像分割文献中,这通常被称为Tri-map,也用于抠图[5,32]。方便地,这可以通过应用两个不同的阈值培训目标。我们现在能够在自动计算积极和消极的同时替换oracle。这导致了我们的最终公式:mip=sigmoid((Si→i−p)/τ)min=sigmoid((Si→i−n)/τ)1从每个剪辑中提取中心帧。我们使用在OpenImages上预训练的Faster R-CNN对象检测器[28]来预测所有相关对象的边界框。在[4]之后,我们使用word2vec模型来匹配语义相似的视觉和在这个阶段,大约有8k帧被自动注释。(2)人工图像标注。然后我们手动注释剩余的帧。在这一点上存在三个主要挑战:(i)存在定位非常困难或不可能的情况,因为对象不可见(例如,在极端照明条件下),太小Pi=|mmIPΣ多个对象和一致的注释方案必须(3)最后,(3)可以有多个1Ni=|1−mm²|1−m1in,Si→i+hwj/=i1,Si→j同一帧中同一类的实例,并且知道哪些实例正在使L= − 1克朗ki=1Σ日志Σexp(Pi)exp(Pi)+exp(Ni)声音来自一个单一的图像。我们用三种方法来解决这些问题:首先,我们删除类别(例如,主要是环境声音,如风,冰雹等),这是具有挑战性的本地化,大约50类;式中,Rlp和Rnn是两个阈值参数(已验证在实验部分),其中αp> αn。例如,如果我们设置p=0。6且n=0。4、对应性得分在0以上的地区。6被认为是积极的,低于0。4阴性,而落在[0. 四,零。范围被视为“不确定”区域,并在训练过程中被4. VGG-声源基准测试如第2节所述,SoundNet-Flickr声源定位基准[30]通常用于此任务的评估。然而,我们发现它在以下方面是不令人满意的:i)它包含的总实例(250)和探测对象类别(approximates50)的数量都是有限的,ii)仅提供某些参考帧,而不是整个视频剪辑,这使得它不适合于视频模型的评估,以及iii)它不提供对象类别注释。为了解决这些缺点,我们建立在最近的VGG-Sound数据集[4]上,并引入了VGG-SS,这是一个基于视频的视听本地化基准。来自YouTube。4.1. 测试集注释管道在下面的部分中,我们描述了一个半自动的过程,用边界框来注释发出声音的对象,我们应用它来获得超过5 k个视频剪辑的VGG-SS,跨越220个类。(1)自动生成bbox。我们使用整个VGG-声音测试集,包含15 k 10秒的视频剪辑,第二,如图3a所示,当声音来自多个对象的交互时,我们注释围绕交互点的(3)人工视频验证。 最后,我们使用VIA软件对视频进行手动验证[8]。我们通过观看每个带注释的帧周围的5秒视频来做到这一点,以确保声音与边界框中的对象相对应。这对于在帧中存在多个候选物体的情况尤其重要,然而,只有一个物体发出声音,例如,人类的歌声表2总结了工艺每个阶段后的统计数据和最终数据集。第一阶段为整个VGG-Sound测试集(309个类,15k帧)生成边界框候选项;然后手动注释过程删除不清楚的类和帧,产生大约260个类和8 k帧。我们最终的视频验证进一步清理了测试集,产生了一个高质量的大规模视听基准-VGG-Sound Source(VGG-SS),比现有的大20倍[30]。5. 实验在下面的章节中,我们将描述用于全面评估的数据集、评估协议和实验细节|168720.0~0.20.2~0.40.4~0.60.6~0.80.8~1.07.41%2.98%12>2个百分之八十九点六(a) VGG-SS基准测试示例(b) 边界框区域(c) 边界框图3:VGG-SS统计。图3a:示例VGG-SS图像和注释,显示类别多样性(人类、动物、车辆、工具等)图3b:VGG-SS中边界框区域的分布,大多数框覆盖不到图像区域的40%。图3c显示了边界框数量的分布-大约10%的测试数据具有挑战性,每个图像有多个边界框。阶段目标#课程#视频1自动BBox生成30915K2手动注释2608K3视频验证2205K表2:每个注释阶段后VGG-SS中的类和视频数量评估我们的方法。5.1. 训练数据为了训练我们的模型,我们考虑了两个大规模的视听数据集,广泛使用的Flickr SoundNet数据集和最近的VGG-Sound数据集,下面将详细介绍只有原始视频的中心帧用于训练。注意,其他帧,例如。(3/4的视频)进行训练,没有观察到相当大的性能变化。FlickrSoundNet:这个数据集最初在[3]包含超过200万个不受约束的视频,Flickr。为了与最近的工作[17,26,30]进行公平比较,我们遵循相同的数据分割,使用10k或144k图像和音频对的子集VGG-Sound:VGG-Sound最近发布了超过20万个剪辑,用于300种不同的声音类别。该数据集是方便的视听,在这个意义上,发出声音的对象通常是可见的相应的视频剪辑,这自然适合本文中考虑的任务。同样,为了进行公平的比较,我们对由不同大小的图像和音频对组成的训练集进行了实验。10K,144K和全套。5.2. 评价方案为了定量评估所提出的方法,我们采用了[26,30]中使用的评估指标:报告了两个测试集上每个模型的联合一致性交集(cIoU)和曲线下面积(AUC),如下所述。Flickr SoundNet测试集: 在[17,26,30]之后,我们报告Flickr SoundNet基准测试的250个带注释的图像-音频对的性能这个测试集中的每一帧都伴随着20秒的音频,以它为中心,并用3个单独的边界框进行注释,指示声源的位置,每个边界框由不同的注释器执行。VGG-Sound Source(VGG-SS):我们还在VGG-Sound上重新实现和训练了几个基线,并在我们提出的VGG-SS基准上对其进行评估,如第4节所述。5.3. 实现细节由于Flickr SoundNet由图像-音频对组成,而VGG-Sound包含短视频剪辑,当在后者上训练时,我们选择视频剪辑的中间帧并在其周围提取3s音频片段以创建等效的图像-音频对。音频输入为257×300幅声谱图。来自音频编码器CNN的音频输出的维度是512D向量,其是从17×13×512的特征图最大池化的,其中17和13分别指频率和时间维度。对于视觉输入,我们将图像调整为224×224×3张量,而不进行裁剪。对于视频和音频流,我们使用轻量级的ResNet18 [15]作为主干。根据基线[17,26],我们还在ImageNet上预训练 我们使用的是p=0。65,且n=0。四,τ=0。03.所有模型都使用Adam优化器进行训练,学习率为10−4,批量大小为256。在测试过程中,我们直接将全长音频频谱图输入网络。6. 结果在下面的部分中,我们首先将我们的结果与FlickrSoundNet和VGG-SS数据集的最新工作进行了详细比较。然后,我们进行消融分析,显示的重要性,硬底片和三地图在自我监督的视听定位。百分之41.2%百分之百分168736.1. Flickr SoundNet测试集在本节中,我们通过在相同数量的数据上进行训练(使用各种不同的数据集)来比较最近的方法。如表3所示,我们首先将训练集固定为具有10k训练样本的Flickr SoundNet,并将我们的方法与[2,14,26]进行比较。我们的方法明显优于以前最好的方法,差距很大(0.546%对0.582%)。其次,我们还使用10 k个随机样本在VGG-Sound上进行训练,这显示了使用VGG-Sound进行训练的好处。第三,我们切换到由144k个样本组成的更大的训练集,与最先进的方法相比,这使我们进一步提高了5%[17]。为了在我们提出的方法中梳理出各种因素的影响,即。介绍了硬否定和使用Tri-map与不同的训练集,即。Flickr 144 k与VGG-Sound144 k,我们进行了消融研究,如下所述。方法训练集CIoUAUC[30]第三十话Flickr10k0.4360.449[26]第二十六话Flickr10k0.5220.496AVObject[1]Flickr10k0.5460.504我们Flickr10k0.5820.525我们VGG-Sound10k0.6180.536[30]第三十话Flickr144k0.6600.558DMC [17]Flickr144k0.6710.568我们Flickr144k0.6990.573我们VGG-Sound144k0.7190.582我们VGG-Sound Full0.7350.590表3:Flickr SoundNet测试集的定量结果我们使用不同的训练集和训练数据的数量胜过所有最近的作品模型位置阴性对照三重映射CIoUAUC一C××0.6750.568BCC×0.6670.544CCCC0.7190.582表4:消融方法。本文研究了硬否定的数量,只有适当数量的否定才有利于模型的建立。6.2. 消融分析在本节中,我们使用来自VGG-Sound的144 k样本训练数据来训练我们的方法,并在Flickr SoundNet测试集上对其进行评估。我们的目标是研究在自监督学习公式中引入硬负区域和Tri映射的好处。如表4所示,我们首先注意到,方法CIoUAUC[30]第三十话0.1850.302AVobject [1]0.2970.357我们0.3440.382表5:VGG-SS测试集的定量结果。所有模型都在VGG-Sound 144 k上训练,并在VGG-SS上测试。没有帮助:比较仅使用阳性训练的模型A和添加来自互补区域的阴性的模型B稍微降低了性能。这是因为所有非阳性区域都被视为阴性,而物体周围的区域通常很难定义。因此,对于所有像素决定它们是正的还是负的是有问题的。其次,通过使用Tri-map比较模型b和模型c,其中在训练过程中忽略了阳性和阴性之间的一些区域,我们获得了4.4%的大增益,证明了定义“不确定”区域并允许模型自调整的重要性我们在扩展的Arxiv版本中显示更多结果。6.3. VGG声源的比较在本节中,我们将在新提出的VGG-SS基准上评估模型如表5所示,与表3中的结果相比,所有模型的CIoU都显著降低,表明VGG-SS是比Flickr SoundNet更多样化和更具挑战性的基准。然而,我们所提出的方法仍然优于所有其他基线方法约5%的大幅度.6.4. 定性结果在图4中,我们使用不同的阈值对热图进行阈值化,例如:p=0。65,且n=0。4(与培训期间在正区域和负区域中分别精确地突出显示对象和背景我们在图5中可视化预测结果,并注意到所提出的方法提供了更清晰的热图输出。这再一次表明了在训练过程中考虑硬否定的好处。6.5. 开放设置视听定位到目前为止,我们已经在包含相同声音类别的数据上训练和测试了我们的模型(闭集分类)。在本节中,我们将确定我们在听到/看到的类别上训练的模型是否可以推广到以前从未听到/看到的类别,即。到打开设定好的场景为了测试这一点,我们从VGG-Sound中随机抽取110个cat-egories(看到/听到)进行训练,并在另一组110个un-seen/un-heard类别的不相交集合上评估我们的网络(完整列表请参阅sup.net)。16874图4:Tri-map可视化示例。我们在这里显示图像,热图和三重图。Tri-map有效地识别了对象和不确定区域,使模型只学习受控的硬否定。注释AV对象(10k数据)我们的(10k数据)Attection10k(144k数据)我们的(144k数据)注释AV-object(10 k数据)Ours(10 k数据)Attection10k(144k数据)我们的(144k数据)(a) Flickr SoundNet测试集上的可视化(b)VGG-SS测试集图5:在各种方法和数据量上训练的模型的定性结果。第一列显示覆盖在图像上的注释,接下来的两列显示在10k数据上训练的预测,最后两列显示在144k数据上训练的预测我们的方法在预测中没有假阳性,因为硬阴性在训练中受到惩罚7. 结论表6:未听过类别的VGG-SS定量结果。我们改变训练集(类)并保持测试集固定(VGG-SS的子集)。补充)。我们使用大约7万个样本来区分听过和听不到的类别。听到和未听到的评估如表6所示,对于听到的分割,我们还在包含旧类和新类的70k样本上训练模型。性能差异仅为2%,这表明我们的网络能够推广到闻所未闻或看不见的类别。这并不奇怪,因为几个类别之间的相似性。例如,如果训练语料库包含人类语音,人们会期望模型能够定位人类歌唱,因为两个类在音频和视觉特征方面具有语义相似性。我们重新审视无监督的视觉声源定位的问题。为了完成这项任务,我们引入了一个新的大规模基准测试,称为VGG-Sound Source,它比现有的基准测试(如Flickr SoundNet)更具挑战性。我们还提出了一个简单的,一般的和有效的技术,显着提高现有的声源定位器的性能,明确挖掘硬负图像的位置,在同一图像中包含的声音对象。使用三重映射和可微阈值的这一想法的仔细实现使我们能够显著优于现有技术。确认这项工作得到了英国EPSRC CDT的支持,牛津大学-谷歌DeepMind研究生奖学金,谷歌博士奖学金,EPSRC 计 划 资 助 Seebibyte EP/M013774/1 和 VisualAIEP/T028572/1。#训练数据测试类CIoUAUC70k听到1100.2890.36270k闻所未闻1100.2630.34716875引用[1] Triantafyllos Afouras , Andrew Owens , Joon SonChung,and Andrew Zisserman.视频中视听对象的自监督学习在Proc. ECCV,2020中。一、二、三、四、七[2] Relja Arandjelovic和Andrew Zisserman。的对象声音在Proc. ECCV,2017年。一、二、三、四、七[3] 尤瑟夫·艾塔卡尔·冯德里克和安东尼奥·托拉尔巴声音网络:从未标记的视频中学习声音表示.在神经信息处理系统的进展,2016年。第二、六条[4] Honglie Chen,Weidi Xie,Andrea Vedaldi,and AndrewZis-瑟曼。Vggsound:一个大规模的视听数据集。在声学,语音和信号处理国际会议,2020年。第二、五条[5] 放大图片创作者:David H.Salesin和Richard Szeliski。复杂场景的视频抠图。ACMTransactions on Graphics,21(3):243-248,2002年7月。SIGGRAPH 2002 Proceedings,special issue. 5[6] 郑俊山和安德鲁·齐瑟曼 唇读野外在Proc. ACCV,2016年。2[7] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度直方图。载于Proc. CVPR,2005年。2[8] 阿布舍克·杜塔和安德鲁·齐瑟曼。 via注释图像、音频和视频软件。在Proc. ACMM,MM 19的第27卷,美国纽约,2019年10月ACM ACM出现在第27届ACM多媒体国际会议(MM 19)的会议记录5[9] 约翰·W·费舍尔三世,特雷弗·达雷尔,威廉·T·弗里曼,保罗是中提琴。学习视听融合和分离的联合统计模型。载于NEURIPS,2000年。2[10] Chuang Gan,Hang Zhao,Peihao Chen,David Cox,and An-托尼奥·托拉尔巴。具有立体声的自监督移动车辆跟踪。在IEEE计算机视觉国际会议论文集,第7053-7062页2[11] 高若涵和克里斯汀·格劳曼。 2.5D视觉声音。 在CVPR,2019年。2[12] Jort F Gemmeke,Daniel PW Ellis,Dylan Freedman,Aren Jansen , Wade Lawrence , R Channing Moore ,Manoj Plakal和Marvin Ritter。音频集:音频事件的本体和人类标记的数据集。在2017年IEEE声学、语音和信号处理国际会议上,第776-780页。IEEE,2017年。2[13] Ross Girshick、Jeff Donahue、Trevor Darrell和Jitendra马利克丰富的特征层次结构,用于精确的对象检测和语义分割。在Proc. CVPR,2014中。2[14] 大卫·哈瓦特, 阿德里亚·雷卡森斯 叙里斯乡Chuang,Antonio Torralba,and James Glass.从原始的感官输入中共同发现视觉对象和口语单词。在欧洲计算机视觉会议(ECCV)的会议记录中,第649-665页,2018年。一、二、四、七[15] 何开明,张翔宇,任少卿,孙健。用于图像识别的深度残差学习。在procCVPR,2016. 6[16] J Hershey和JR Movellan视听:通过视听同步定位声音。在NEURIPS,第12卷,1999中。2[17] 狄虎,聂飞平,李雪龙。深多模态clus-无监督视听学习。 在proc CVPR,2019年6月。一、二、三、六、七[18] Hamid Izadinia,Imran Saleemi,and Mubarak Shah.多模态分析在运动发声目标识别与分割中的应用。IEEETransactions on Multime-dia , 15 ( 2 ) : 378-390 ,2012。2[19] Naji Khosravan,Shervin Ardeshir和Rohit Puri。 在-用 于 视 听 同 步 的 张 力 模 块 。 arXiv 预 印 本 arXiv :1812.06071,1,2018。2[20] Einat Kidron,Yoav Y Schechner和Michael Elad。像素那个声音。载于Proc. CVPR,2005年。2[21] Tsung-Yi Lin , Priya Goyal , Ross Girshick , KaimingHe,and Piotr Dollr.用于密集目标检测的焦点损失 Proc.ICCV,2017年。2[22] EtienneMarcheret 、 GerasimosPotamianos 、 JosefVopicka和Vaibhava Goel。使用深度神经网络检测视听同步2015年国际语音通信协会第十六届年会。2[23] Aaron van den Oord,Yazhe Li,and Oriol Vinyals.代表-用对比预测编码进行感知学习。arXiv预印本arXiv:1807.03748,2018。3[24] Andrew Owens和Alexei A.埃弗罗斯 视听场景具有自我监督的多感官特征的分析。在procECCV,2018年。1[25] Andrew Owens和Alexei A.埃弗罗斯具有自我监督多感官功能的视听场景分析。Proc.ECCV,2018年。2[26] 芮茜,迪虎,海因里希·丁克尔,吴梦月,徐宁,林伟耀。多声源定位由粗到细。在Proc. ECCV,2020中。二、三、六、七[27] Janani Ramaswamy和Sukhendu Das。看到声音,听到像素。在IEEE/CVF计算机视觉应用冬季会议(WACV)上,2020年3月。2[28] 任少卿,何开明,Ross Girshick,孙健。Faster R-CNN:Towards Real-time Object Detection withRegion Proposal Networks. InNEURIPS,2016. 第二、五条[29] Andrew Rouditchenko,Hang Zhao,Chuang Gan,JoshMc-德莫特和安东尼奥·托拉尔巴。自监督视听共分割。 在proc ICASSP,第2357-2361页。IEEE,2019年。2[30] Arda Senocak,Tae-Hyun Oh,Junsik Kim,Ming-Hsuan杨和仁素坤学习在视觉场景中定位声源。在Proc.CVPR,2018年。一、二、三、四、五、六、七[31] Abhinav Shrivastava,Abhinav Gupta和Ross Girshick。训练基于区域的对象检测器与在线硬示例挖掘。在Proc.CVPR,2016年。2[32] 陶欣,高红云,沈晓勇,王珏,季-阿雅佳。 用于深度图像去模糊的尺度递归网络。在Proc. CVPR,第8174-8182页,2018年。5[33] Bart Thomee 、 David A Shamma 、 Gerald Friedland 、Ben-Elizalde、Karl Ni、Douglas Poland、Damian Borth和Li-Jia Li。多媒体研究的新数据。Communications of the ACM,59(2):64-73,2016. 2[34] 田亚鹏,石静,李博臣,段志尧,徐振良.无约束视频中的视听事件定位。在Proc. ECCV,第247-263页,2018年。二、三[35] 保罗·维奥拉和迈克尔·琼斯鲁棒的实时对象解压缩保护IEEE视觉统计与计算理论研讨会论文集,2001年。2[36]丁泽宇,李亚鹏,徐晨良。 统一多-双感官知觉:弱监督视听视频16876解析在ECCV,2020年。二、三[37] Hang Zhao,Chuang Gan,Wei-Chiu Ma,and AntonioTorralba.运动的声音。Proc. ICCV,2019. 2[38] Hang Zhao,Chuang Gan,Andrew Rouditchenko,Carl Von-德里克,乔什·麦克德莫特,安东尼奥·托拉尔巴。像素的声音在Proc. ECCV,2018中。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功