视觉声源定位：挑战、技术与自动负样本挖掘

PDF格式 | 1.43MB | 更新于2025-01-16 | 177 浏览量 | 举报

"本地化声源的挑战与技术贡献" 在计算机视觉领域，尤其是在与音频相关的任务中，本地化声源是一项重要的挑战。这项工作旨在解决在无手动注释的情况下，于视频中定位声源的问题。研究团队的主要贡献是一种自动负面挖掘技术，它通过可微阈值的跨模态对应得分地图，将图像片段与特定声音的关联度转化为三地图形式。这种方法特别关注那些具有挑战性的图像，即使它们包含了发出声音的对象。研究者发现，通过训练网络识别并区分那些与声音低相关的背景区域，可以显著提升声源定位的性能。他们引入了一种机制，能够自动挖掘难以分类的样本，并将其纳入对比学习的过程中，以此增强模型的学习能力。实验结果表明，他们的算法在FlickrSoundNet数据集上表现出了最先进的性能。同时，研究团队推出了VGG-SoundSource (VGG-SS)基准，这是一个基于VGG-Sound数据集的新注释集合，每个视频片段中的声源都有精确的边界框注释。VGG-SS比现有的同类数据集大20倍，包含5000多个视频，覆盖200多个类别，且它是基于视频而非静态图像的。在VGG-SS上，该算法同样展现出最佳性能。这篇论文的介绍部分指出，尽管计算机视觉研究通常聚焦于视觉感知，但实际上自然物体的声音特征同样重要。许多物体在运动或与其他物体交互时都会产生声音，理解和利用这些声学特性有助于我们更深入地理解世界。过去的研究已经证明，可以利用声音信息来自动检测和定位视频中的物体，而无需人工监督。这篇论文提出了一个创新的方法来应对本地化声源的挑战，通过自动挖掘技术提高了模型的鲁棒性和准确性，并提供了一个大规模的、多类别声源标注的数据集，为未来的研究提供了宝贵的资源。代码和数据集可在VGG研究团队的网站上获取，这为其他研究者进一步探索视觉与声音的交叉领域研究提供了便利。

16867

本地化视觉声音的艰难之路

陈洪烈，谢伟迪，Triantafyllos Afouras，Arsha Nagrani，Andrea Vedaldi，Andrew Zisserman

VGG，英国

{hchen，weidi，afourast，arsha，vedaldi，az}@ robots.ox.ac.uk

图1：视觉声源定位：我们在视频中定位声源，无需手动注释。我们的主要贡献是一个自动的负面挖掘技术，通过

可微阈值的跨模态对应得分地图到一个三地图。我们使用背景区域与给定的声音低相关性作为

摘要

这项工作的目的是本地化的声源，在视频中可见，

而不使用手动注释。我们的关键技术贡献是表明，通

过训练网络明确区分具有挑战性的图像片段，即使是

包含发出声音的对象的图像，我们也可以显着提高本

地化性能。我们通过引入一种机制来挖掘硬样本并将

其自动添加到对比学习公式中来优雅地做到这一点。

我们表明，我们的算法在流行的

Flickr SoundNet

数据集

上实现了最先进的性能。此外，我们介绍了

VGG-

Sound Source

（

VGG-SS

）基准，这是最近引入的

VGG-

Sound

数据集的一组新注释，其中每个视频剪辑中可见

的声源都明确标记有边界框注释。这个数据集比现有

的类似数据集大

倍，包含跨越

200

多个类别的

视

频，并且与

Flickr SoundNet

不同，它是基于视频的。在

VGG-SS

上，我们还证明了我们的算法在几个基线上达

到了最先进的性能。代码和数据集可以在

http://www.robots.ox.ac.uk/

上找到

vgg/research/lvs/.

介绍

虽然计算机视觉的研究主要集中在感知的视觉方

面，但自然对象的特征不仅仅是外观。大多数物体，

特别是，发出声音，无论是在他们自己的权利，或在

他们与环境的相互作用-想想狗的树皮，或锤子敲击钉

子的特征声音。对自然物体的充分了解不应忽视它们

的声学特性。相反，建模设备和声学的结合通常可以

帮助我们更好、更有效地理解它们。例如，几位作者

已经表明，可以使用声音来自动发现和定位视频中的

对象，而无需使用任何人工监督[1，2，14，17，24，

30]。

本文考虑了“视觉声音”的定位问题在视频中发出特

征声音的视觉对象。受先前作品的启发[2，14，30]，

我们将其表述为找到视频中视觉和音频流之间的相关

性。这些论文表明，不仅可以成功地学习这种相关

性，而且一旦完成，所产生的卷积神经网络可以被“解

剖”以在空间上定位声源，从而将其归因于特定对象。

然而，除了架构本身的设计之外，在此之前的工作中

有一点是为了提高最终模型的本地化特别是，虽然有

几个模型[1，2，30]确实包含了一种空间注意力的形

式，这也应该有助于定位发声对象作为副产品，但这

些模型仍然无法提供对对象的良好

覆盖

，通常检测太

少或太多。

为了解决这个问题，我们提出了一个新的训练方

案，明确寻求空间定位的声音，

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

视觉声源定位：挑战、技术与自动负样本挖掘

sound source localization

毕业设计基于麦克风阵列的声源定位技术

声源本地化：项目：机器人平台上的声源本地化和语音活动检测

【A计权技术深度解析】：噪声分析必备的技巧与案例

ACTRAN 2020自定义安装：个性化工作环境的打造方法

vue.js v2.5.17

DM8-SQL语言详解及其数据管理和查询操作指南

1108_ba_open_report.pdf

anslow_02_0109.pdf

以下是OpenCV在不同操作系统下的下载与安装教程

最新资源