利用视觉上下文语义进行声源定位

80 浏览量更新于2023-10-15 收藏 12.93MB PDF 举报

声源定位

特征表示

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

51990利用视觉上下文语义进行声源定位0周新驰 1 * 周东展 1 � 胡迪 2 周航 3 欧阳万里 101 悉尼大学 2 中国人民大学高灵人工智能学院 3 百度公司0{ xinchi.zhou1,d.zhou,wanli.ouyang } @sydney.edu.au0dihu@ruc.edu.cn, zhouhang09@baidu.com0摘要0在无约束的视觉场景中进行自我监督的声源定位是音频-视觉学习的重要任务。在本文中，我们提出了一个视觉推理模块，明确利用丰富的视觉上下文语义，从而缓解了以前工作中对视觉信息利用不足的问题。精心设计的学习目标为提取的视觉语义提供更强的监督信号，同时增强音频-视觉交互，从而得到更强大的特征表示。广泛的实验结果表明，我们的方法显著提升了各种数据集上的定位性能，即使没有在ImageNet上预训练的初始化。此外，通过利用视觉上下文，我们的框架可以同时完成音频-视觉和纯视觉推理，扩展了声源定位任务的应用范围，进一步提高了我们方法的竞争力。01. 引言0我们生活在一个被视觉和听觉信息包围的世界中，感知这种多模态数据可以帮助我们更好地理解我们的环境[20, 41, 11,36]。人类可以自发地捕捉到声音和物体外观之间的相关性。例如，我们可以将聊天和笑声与一群经过的人联系起来。为了模拟人类的感知能力，近年来广泛探索了音频-视觉智能系统，并取得了显著的改进。声源定位是音频-视觉学习领域中的一项重要任务，旨在在音频信号的指导下定位声音对象。然而，获取物体位置的精细注释，例如分割掩码和边界框，可能非常昂贵，特别是对于大规模数据集。为了克服这个问题0* 同等贡献。0由于这个限制，许多研究[5, 33, 29, 22,8]以自我监督的方式解决定位问题，利用音频-视觉对应关系作为监督信号。因此，即使没有精确的位置注释，模型也能生成良好的声源定位结果。尽管取得了成功，但当前声源定位框架仍存在一些问题需要解决。0利用视觉上下文语义对声源定位具有重要意义，但在许多声源定位框架[5, 31, 33,22]中被忽视。我们确定了充分利用丰富的视觉上下文语义的两个优势。首先，人类倾向于通过视觉搜索环境来定位声音对象，而有效的搜索通常源于对周围环境的分析。例如，当听到鸟儿的歌唱声时，我们会下意识地寻找树木，然后找到鸟儿。因此，视觉上下文对于人类完成物体定位是重要的。其次，视觉语义本质上具有辨别性，如先前的研究所示[19,40]，利用视觉领域内的内在辨别性相关性对学习过程是有益的。通过与这些独特的视觉语义进行交互，增强了音频-视觉协作，深度模型可以发展出更全面的场景感知。0我们的关键洞察是，内部视觉判别应与音频信息有效协调，以最大化监督效用。我们引入了一个视觉推理模块到声源定位系统中，以利用视觉上下文语义。该模块生成推理地图，指示显著上下文区域的分布以及这些区域内对应的视觉特征。我们精心设计了学习目标，以引导视觉语义，使提取的上下文特征更好地适应定位目标。具体而言，鼓励视觉语义与音频特征展示更高的相似性，使其更加关注声音对象。52000此外，我们采用一致性损失来最小化音频-视觉定位图和推理图之间的分布差异。通过这种方式，进一步促进了跨模态信息流动，从而得到更强大的特征表示，并最终提高了定位性能。我们还强调，我们的框架不依赖于大规模数据集的预训练，例如ImageNet[25]，而是通过从头开始训练来取得竞争性的结果。此外，由于我们的视觉推理模块可以生成多个物体置信度图，我们还可以通过组合这些图像获得纯视觉输入的定位热图。实验结果表明，纯视觉热图仍然可以产生令人满意的定位结果。因此，应用场景可以从多模态（视听）推理扩展到单模态（纯视觉）推理，并且输入数据的要求也减少了。我们的贡献可以总结如下：（1）我们引入了一个视觉推理模块来利用视觉语义，克服了许多先前框架中对视觉信息利用不足的缺点。（2）我们设计了特定的损失函数来指导视觉语义，提高了整个框架的定位性能。实验结果表明，我们的方法在各种数据集上都显著优于基线方法。（3）我们的框架实现了多模态和单模态推理，扩展了声源定位任务的应用范围。我们希望这次初步探索能为自监督视觉定位领域提供新的视角。02. 相关工作0视听学习。近年来，随着深度学习的成功，视听学习[49,43]引起了广泛关注。许多子领域取得了巨大进展，如视听表示学习[4, 24, 5, 6, 29]，视听生成[14, 28, 48,18]，视觉声音分离[13, 47, 46, 15, 12, 16,7]等。视频中音频和视觉信息之间的相关性为各种视听任务提供了自然的监督，使得可以使用大规模的无标签视频数据进行训练。Arandjelovic等人[4]使用对应关系指导训练音频和视觉网络，并发现两个网络都能有效地学习特征表示。Owens等人[29]联合建模音频和视觉组件，预测两个输入是否在时间上对齐。[21,3]利用特征聚类方法实现音频和视频表示的自监督学习。我们的工作也采用了对应关系监督来训练声源定位框架，同时结合了视觉推理模块来捕捉视觉领域内的内在差异。0声源定位。自监督声源定位方法利用视频中音频和视觉信息的共现[5, 29, 33, 21, 31, 8, 22, 35, 34]。[5,29]利用视听对应或时间同步作为监督信号来学习特征表示。在[33]中，作者采用预测的得分图来过滤视觉特征并计算跨模态相似性。钱等人[31]使用CAMs以弱监督的方式找到对象的近似位置。赵等人[47,46]提出了“混合与分离”范式，同时学习分离和视觉定位。胡等人[22]建立一个字典来存储来自不同类别的对象特征，并实现类别感知的声音对象定位。[38]提出了一种无负样本的方法来解决假负采样问题。[37]通过引入来自选择性搜索算法[39]的外部物体置信度图作为伪定位注释，考虑了视觉场景信息。由于置信度图是预先处理的，因此在训练过程中无法更新，这可能增加了过拟合噪声标签的风险。相反，我们的框架以端到端的方式进行优化。[44]还设计了一种基于提议的范式来增强视听定位系统。[8,27]试图从视听定位图中挖掘帧内难样本。然而，他们的方法并没有直接研究视觉领域，而是专注于相对隐含的跨模态关联。相反，我们的方法明确地发现视觉上下文语义，然后利用音频信号提供指导。通过这种方式，我们的方法可以利用视觉场景的区分性和跨模态监督，从而实现更好的定位性能。0多模态学习中的视觉上下文。视觉上下文语义在许多计算机视觉任务中已经得到了探索，因为利用它通常可以提升深度模型的性能[42, 10, 45,26]。除了纯视觉领域外，视觉上下文语义在多模态学习中也起着重要的作用，因为它们可以促进全面的场景感知的发展。Chatterjee等人[7]利用视觉结构作为图形，为视觉声音分离提供更好的指导。[32]提出了TriBERT框架，实现了跨三种模态的上下文特征学习。Shi等人[37]将来自选择性搜索[39]的视觉注意力图作为伪定位注释引入到声源定位任务中，但这些外部视觉信息需要额外的预处理，并且在训练过程中无法随网络参数更新。我们的方法采用视觉推理模块来明确利用视觉上下文语义，并采用特定的约束来促进�exp (siiav)Bj=1 exp (sijav),(2)52010音频-视觉交互可以有效提高定位性能。此外，除了常规的音频-视觉定位推断之外，我们的推理模块还能够进行纯视觉推断，从而扩展了视觉定位主题的应用范围并可能提供新的解决方案。03. 方法03.1. 整体框架0声源定位任务的目标是在音频线索的指导下对发出声音的对象进行空间定位。整体框架如图1所示。对于给定的音频-视觉对，我们可以得到音频-视觉对应图Sav和由视觉特征得到的推理图Srea。在训练阶段，我们使用Sav计算音频-视觉对应（AVC）损失，该损失要求框架能够区分正（相关）和负（不相关）的音频-视觉对。推理图Srea负责在音频-视觉上下文损失的监督下显式地发现视觉上下文语义。为了进一步加强音频-视觉交互作用，我们引入了交叉映射一致性损失，以最小化视觉推理图和音频-视觉对应图之间的分布差异。在测试阶段，如果音频信息可用，我们可以进行常规的声源定位推断，利用音频-视觉对应图来定位发出声音的对象。然而，并不总是有音频线索可用。我们认为我们的方法也适用于只有单个图像或视频中音频轨道损坏的情况。在这种情况下，我们采用聚合的视觉推理图来替代原始的音频-视觉对应图。实验结果表明，纯视觉测试与音频-视觉测试相比可以达到相当的性能（请参考第4.5节）。这个优势放宽了对输入数据的要求，从而扩大了声源定位任务的应用范围。03.2. 音频-视觉对应学习0对于视频剪辑i中的任意音频-视觉对{ai,vi}，我们的目标是找到vi中与ai具有最高相关分数的区域。因此，我们将vi输入到视觉网络中提取视觉特征Vi∈RC×H×W，其中C、H、W分别表示通道、高度、宽度。为简单起见，这里省略了批次索引。音频输入ai也被输入到音频网络中提取音频特征Ai∈RC。通过在通道维度上将视觉特征和音频特征相乘，我们可以得到预测的对应热图0Siiav(x, y) = 0cVi(c, x, y) × Ai(c), (1)0其中x，y表示H×W平面上的坐标。请注意，在计算对应热图之前，音频和视觉特征都沿C维度进行了归一化。预测的热图Siiav表示每个像素的视觉特征的对应分数。然而，我们需要获取表示最终决策（对应或不对应）的整体对应分数。因此，我们在对应热图上应用全局最大池化来生成对应分数siiav。经验上，与全局平均池化操作相比，全局最大池化将导致更好的性能。一个可能的原因是许多像素是无效的或信息较少的，对整个分数图进行平均池化操作将不可避免地引入这些噪声像素。因此，监督信号会被削弱，最终导致次优结果。相反，最大池化操作可以抑制噪声像素，并仅保留具有最高响应的值，这将有利于训练过程。对应损失要求网络在样本级别上区分正样本和负样本。如果音频和视觉输入来自同一视频剪辑，则将它们标记为正样本，否则为负样本。在实践中，负样本是在整个小批次中构建的。通过这种方式，模型可以获得更多样化的负样本和更强的监督信号。学习目标定义如下：0Lavc = -10B0i = 1log0�0其中B表示训练期间的批次大小，sijav表示小批次中vi和aj之间的对应分数。对应损失鼓励网络增加正样本之间的相似性，同时抑制负样本之间的相似性。03.3.利用视觉上下文语义0音频-视觉对应学习主要关注音频和视觉对之间的全局相关性。尽管全局最大池化可以有效抑制信息较少的像素，但在计算整体对应分数时，一些有用的像素也可能被移除。Chen等人[8]考虑到了这个问题，并首次将硬负区域纳入声源定位问题。我们认为，视觉领域内固有的区分性属性仍未得到充分的发挥1x1 ConvReorder! ∈ ℝ!×#×$$%&' ∈ ℝ(×#×$Similarity score set% ∈ ℝ(×!Sorted score set ℋ' ∈ ℝ!Matrix MultiplicationPosNeg52020视觉编码器0音频编码器0视觉推理0AVC损失0跨图0一致性损失0��0�0��0�0频谱图0推0拉0推0拉0AV上下文损失0推0图1.整个声源定位框架的概述。给定一个音频-视觉对，我们可以获取音频-视觉对应图Sav和直接从视觉特征派生的推理图Srea。除了常规的音频-视觉对应（AVC）损失外，我们提出了音频-视觉上下文损失和跨图一致性损失，以引导对视觉上下文语义的利用，增强音频-视觉交互并带来更强大的特征表示。为简化起见，视频索引被省略。0视觉推理模块AV-Ranking0图2.视觉推理模块和av-排序策略的示意图。视觉特征V通过一个1×1的卷积层传递，生成推理地图Srea，该地图指示了可能的目标位置的分布。推理地图的标签（pos/neg）由区域特征O和相应的音频特征A之间的相似性决定。为简单起见，省略了视频索引。0由于样本选择是基于音频-视觉相关性图，因此无法利用这种机制。相反，我们提出了一个视觉推理模块，同时利用自然的视觉结构和跨模态关联。03.3.1视觉推理模块结构0推理模块的结构如图2左侧所示。在我们的推理模块中，第一步是将视觉特征V投影到视觉判别空间中，模型通过卷积层自动找到图像中有意义的区域。特征投影通过一个卷积层完成，卷积核大小为N×C×1×1，输出是一组推理地图Srea∈RN×H×W，其中N是所选区域的数量。卷积核可以看作是一个0一组可学习的投影权重。由于推理地图Srea指示了可能的目标位置的分布，我们将推理地图作为权重对视觉特征V进行求和，以获得所选区域的特征，表示为O∈RN×C：0O(n,c) = �0h,w V(c,h,w) × Srea(n,h,w) (3)0虽然推理机制可以帮助利用视觉上下文，但我们认为直接将该模块添加到现有框架中并不有效。相反，有必要使用专门设计的损失函数，为发现的视觉语义提供清晰的指导，并进一步增强跨模态交互。03.3.2视觉推理的学习目标0推理模块选择的区域可能包含前景和背景区域，通过音频线索的av-排序策略进行区分，如图2右侧所示。如果未指定，我们省略视频索引i，并从同一视频中操作视觉和音频特征。通过计算区域特征O和相应音频特征A之间的点积，我们可以得到一组相似性分数{hk|k=1,2,...N}。然后将相似性分数按降序排序，生成重新排序的分数集H和相应的索引集I：0H = sorted({h1, h2, ..., hN}), I = argsort({h1,h2, ..., hN}) (4)52030H中的前NP个值被视为正子集，而最后NQ个值被视为负子集。区分正负区域的策略在训练过程中提供了更高的灵活性，因为它鼓励模型独立发现跨模态交互模式，这可能导致更强的特征表示。正分数P和负分数Q可以通过对正子集和负子集中的值进行平均计算得到。然后我们可以定义音频-视觉上下文损失Lcontext，如公式5所示，其形式与公式2类似。0Lcontext = -10B0B0i=10exp(Pi)+exp(Qi)0exp(Pi)0其中Pi和Qi分别是小批量内第i个匹配的音频-视觉对的平均正分数和负分数。推理地图Srea和AV-对应关系图Sav都指示了目标对象的潜在位置，但它们来自不同的特征源，即Srea通过视觉上下文语义，Sav通过音频-视觉相关性。为了促进这两种来源之间的信息交互，我们对这两种类型的定位热图施加一致性约束。在计算损失值之前，需要从推理地图中过滤掉负片段。我们从索引集合I中取前NP个索引，并利用这些正索引来选择代表发声对象的地图。通过在NP个前景地图上的每个像素上取平均值，我们获得了聚合地图S'rea∈RH×W，其形状与Sav相同。我们通过最小化聚合推理地图和AV-对应关系地图之间的分布差异来实现一致性约束，如下所示：0L div = D JS (S' rea || S av), (6)0其中D JS指的是Jensen-Shannon散度。03.3.3 最终目标0整个声源定位框架的最终目标包括了音频-视觉对应和视觉上下文语义利用的所有损失。0L = L avc + λ1 L context + λ2 L div, (7)0其中λ1和λ2是用于平衡学习目标重要性的损失权重。04. 实验04.1. 实现细节0该框架使用Adam优化器[23]进行训练，学习率为1e-4，批量大小为128。权重衰减设置为1e-4。损失权重λ1和λ2设置为0.1。所有实验都是在4个NVIDIA 2080TIGPU上使用PyTorch框架[30]实现的。有关模型配置和数据处理的详细信息，请参见补充材料。04.2. 数据集和评估指标0VGGSound.VGGSound数据集[9]是最近发布的音频-视觉数据集，由从YouTube抓取的10秒视频剪辑组成。我们在220个类别的子集上训练我们的模型，并在VGG-SS测试集[8]上评估结果。VGGSound-MI.我们从VGGSound数据集中创建了另一个用于训练和评估的子集，其中包含来自39种乐器的约30,000个剪辑。这个子集模拟了数据量较小和类别分布更集中的情况。类别列表将在补充材料中提供。Flickr SoundNet.这个数据集最初在[6]中提出，包含来自Flickr的超过200万个视频剪辑。根据之前的工作[33, 31,8]，我们采用了人工注释的子集进行定量评估。在我们的设置中，我们随机采样了10,000个视频剪辑进行训练，并在250个注释对上进行评估。AudioSet.AudioSet是另一个大规模的音频-视觉数据集，提出于[17]。我们采用了大约50,000个视频剪辑的子集，涵盖了15种乐器。我们使用“不平衡”分割的视频进行训练，使用“平衡”分割的视频进行测试。更多细节请参见补充材料。评估指标。根据之前的工作[33, 8,35]，我们采用共识交并比（CIoU）和曲线下面积（AUC）作为评估指标，这些指标是根据预测的声音对象位置和Ground-Truth边界框计算的。04.3. 定量结果0在本节中，我们将我们的方法与最近的不同数据集上的声源定位方法进行比较。在VGGSound和VGGSound-MI上的结果总结在表1中。从结果可以看出，我们的方法在不同的评估指标上始终明显优于所有竞争框架，这证明了明确利用更丰富的视觉上下文语义的有效性。具体而言，对于VGGSound数据集，AUC从0.366增加到0.376（+1.0%），CIoU@0.5从0.322增加到0.350（+2.8%）；对于VGGSound-MI子集，AUC增加52040VGGSound VGGSound-MI 方法 CIoU@0.5 AUCCIoU@0.5 AUC0Attention [33] 0.185 0.302 0.243 0.335 DMC [21]0.193 0.286 0.270 0.362 AVobject [2] 0.297 0.3570.339 0.382 LCBM [35] 0.322 0.366 0.347 0.392 LVS[8] 0.303 0.364 0.333 0.389 我们的方法 0.350 0.3760.365 0.4020表1.VGGSound和VGGSound-MI数据集上的定量结果。CIoU@0.5表示CIoU指标的IoU阈值为0.5。LCBM[35]是一种弱监督框架，因为它在训练过程中使用了类别标签，而其他方法是自监督训练的。0从0.392增加到0.402（+1.0%），CIoU@0.5从0.347增加到0.365（+1.8%）。结果还验证了改进在不同数据量和类别分布下的鲁棒性。此外，我们的框架是从头开始训练的，没有使用任何类别标签，进一步表明了我们方法的优势。0在所有竞争方法中，与我们最相似的工作是LVS[8]，因为背景区域在监督中被明确考虑到。然而，结果表明，我们的方法与视觉推理模块展现出更好的定位性能。我们怀疑可能的原因如下。首先，LVS仅依赖于视听对比模式，而我们的方法同时利用了视觉领域内的内在区分属性和跨模态关联。这两个来源可以相互补充，并提供更多样化的监督信号。其次，通过使用视觉推理模块和相关损失增强了跨模态协同作用。通过更合理地捕捉视听交互，模型可以从多模态语义中学习更强的特征表示，并提高整体的定位性能。0我们还在Flickr-SoundNet和AudioSet子集上进行实验，以检验模型在不同数据集上的适应性。FlickrSoundNet上的结果总结在表2中。我们可以看到，当在VGGSound或FlickrSoundNet数据集上训练时，我们的模型优于竞争方法LVS[8]。对于AudioSet子集，与基线方法相比，我们的方法在AUC和CIoU@0.5上分别获得了+2.1%和+3.0%的增益。这些结果进一步证明了我们的模型在不同数据集上的通用性。04.4. 消融实验0在这一部分，我们进行了消融实验，以研究我们方法中提出的各种因素的影响。0模型训练集测试集 CIoU@0.5 AUC LVS [8]VGGSound Flickr 0.651 0.551 我们的方法 0.7750.5960LVS [8] Flickr10k Flickr 0.582 0.525 我们的方法0.631 0.5510表2.Flickr-SoundNet数据集上的实验结果。我们在VGGSound和Flickr-SoundNet（有10k个样本）数据集上进行训练。0L上下文 Ra L分割 CIoU@0.5 AUC00.307 0.35400.329 0.36200.340 0.37000.350 0.3760表3.消融实验。所有模型都在VG-GSound数据集上进行训练，并在VGG-SS测试集上进行评估。我们探索了不同学习目标和av-ranking策略（表示为Ra）的影响。结果表明，每个提出的模块都对性能提升有贡献。04.4.1 av-ranking策略的效果0对于推理模块预测的区域，我们提出了一种av-ranking策略，根据与相应音频向量的相似性将它们分为正面区域和负面区域。为了消除这个因素，我们通过简单地按顺序标记区域特征，例如直接将前几个映射指定为正面，剩余的映射指定为负面，替换了av-ranking策略。从表3的结果中，我们可以观察到av-ranking策略表现出更好的性能，这可能来自于训练过程中的灵活性。具体而言，模型可以自由地为每个视听对找到最合理的特征匹配解决方案，而不是强制视觉语义遵循某种顺序。因此，视觉网络可以更有效地感知音频线索，从而提高定位准确性。04.4.2 不同学习目标的影响0我们研究了我们方法中学习目标的影响，如表3所示。仅使用AV对应损失进行训练作为基线方法。我们注意到，即使没有av-ranking策略，使用L上下文仍然优于基线方法，这证明了明确地融入视觉上下文语义的优势。此外，av-ranking策略提供了一种更合理的训练机制，从而放大了这种正面效果。通过通过分歧损失L div最小化音频-视觉对应图与视觉推理图之间的分布差距，我们建立了连接两种模态的新桥梁。通过更高效的音频-视觉交互，模型可以获取更全面的信息并提高定位准确性。52050方法 CIoU@0.5 AUC0基准 0.307 0.354 Vanilla0.301 0.350 我们的方法0.350 0.3760表4.在VGG-SS测试集上比较基准推理和我们的方法。基准表示原始网络，而'Vanilla'表示仅将视觉推理模块添加到原始网络以增强视觉特征。这两种方法仅使用Lavc进行训练。0因此，学习到的特征表示更加鲁棒，这可能解释了应用差异损失时的进一步收益。总体而言，我们可以观察到所有提出的学习模块都对性能改进有所贡献。04.4.3 与基准推理相比0尽管视觉推理模块可以利用视觉上下文语义，但仅仅将推理结构添加到现有的主干网络是不够的，还需要特别设计的监督。表4显示了采用没有明确监督（标记为'Vanilla'）的推理模块与我们方法之间的比较。我们可以看到，普通推理的性能甚至稍微差于基准方法，可能是由于无约束特征与定位任务的不兼容。因此，仅仅通过采用推理模块无法实现改进，但是我们特别设计的学习目标可以有效提高定位性能。04.5. 仅图像推断0通过在训练过程中明确利用视觉上下文语义，我们的框架具有仅基于图像推断的固有优势。换句话说，我们的模型也可以在视频中没有音频轨道可用或当前数据以单个图像的格式存在的情况下工作，这扩展了声源定位任务的应用范围。在进行仅图像推断时，我们采用聚合的推理地图替换原始的AV对应地图来预测对象位置。由于当前没有音频线索可用，我们对所有推理地图应用池化操作来完成组合，而不是像公式6中那样合并前景地图。将所有推理地图组合的理由是负区域的响应在训练过程中逐渐减少，以便正语义可以主导聚合的推理地图。图5显示了仅图像推断的结果，我们可以看到单模态推断可以达到与音频-视觉对应物相当甚至稍微更好的性能。据我们所知，这个吸引人的特性在以前的声音0VGGSound VGGSound-MI 方法 CIoU@0.5 AUCCIoU@0.5 AUC0基准 0.307 0.354 0.326 0.381 我们的方法（音频-视觉）0.350 0.376 0.365 0.402 我们的方法（仅图像） 0.3520.378 0.372 0.4040AV检测器[1] - - 0.369 0.3980表5.在VGGSound和VGGSound-MI数据集上进行仅图像推断的结果。仅图像推断可以达到与音频-视觉对应物相当甚至更好的性能。0源定位工作。结果进一步证明了学习到的视觉上下文语义的可靠性。在[1]中，作者从AV定位热图中提取伪边界框注释，并采用这些注释来训练目标检测器。因此，该框架还实现了从音频-视觉定位到单模态定位的过渡，因为检测器可以直接推断图像。由于代码和模型目前尚未发布，我们重新实现了他们的方法，并在表格中报告了结果。我们认为，检测器的训练依赖于精心选择的超参数，并消耗额外的计算资源。因此，直接比较这两种方法可能不合适，因为我们的方法可以在没有后续训练或额外框架的情况下实现仅基于图像的推断。这种固有优势为视觉领域的定位提供了一种新的可行解决方案。[1]的优势在于预训练的检测器可以识别图像中的实例和对象类别，而我们的模型无法实现这一点。我们希望将来能将这个属性与我们的框架结合起来。04.6. 定性结果0我们在VGG-SS测试集上可视化了AV定位图，并与LVS[8]方法进行了比较，如图3所示。结果表明我们的方法具有更好的定位能力。我们还可以看到，即使在相对困难的情况下，如伪装的蟒蛇（图3右下角），我们的方法仍能生成公平的定位预测，而LVS则产生了整个帧的更广泛结果。可视化结果进一步验证了充分利用视觉上下文语义的有效性。补充材料中提供了更多可视化示例。05. 讨论与未来工作0除了性能改进，我们观察到明确利用视觉上下文还有助于训练过程。图4展示了训练过程中不同时期的AUC值，我们可以看到我们的方法始终在整个过程中优于基准。我们推测利用视觉上下文语义可以提供更多多样化的监督，从而促进模型的发散。训练的稳定性也反映了我们方法的鲁棒性。04216200.300.320.340.360.38AUC52060原始 LVS 我们的方法0原始 LVS 我们的方法0原始 LVS 我们的方法0图3. 在VGG-SS测试集上与LVS [8]进行声源定位的定性结果对比。0视觉上下文可以带来更多多样化的监督，从而促进模型的发散。训练的稳定性也反映了我们方法的鲁棒性。0时期0基准我们的方法0图4.训练过程中不同时期的AUC值。我们比较了我们的方法（利用视觉语义）和基准方法之间的性能。0实验证明，在声源定位任务中利用视觉上下文语义具有优势。然而，我们框架中采用的简单视觉推理模块只是一种可行的解决方案之一。未来，我们将研究更多多样化的架构来完成视觉语义提取，例如多级特征融合、特征金字塔等。此外，不应忽视适当的学习目标对增强跨模态交互的重要性。我们的方法证明，利用丰富的无约束场景视频实现自监督纯视觉定位是可行的方式，因为我们的模型在仅图像推理下达到了与音频-视觉对应方法相当甚至更好的性能。尽管有这一令人兴奋的发现，仍然存在许多问题需要解决，例如对象区分。具体而言，预测的热图仅指示对象位置，不包含类别信息。[22]学习进行对象区分。0学习进行声音对象定位，但推理仍依赖音频信息。将类别区分和纯视觉推理能力合理结合的方式仍需探索。此外，对于多对象场景的实例级别区分也是一个值得考虑的问题。06. 结论0在这项工作中，我们深入研究了在声源定位任务中利用视觉上下文语义，克服了许多先前工作中对视觉上下文线索利用不足的问题。我们精心设计了学习目标，可以为提取的视觉语义提供更强的指导，同时加强音频-视觉交互。实验结果表明，我们的方法可以有效提升各种数据集上的声源定位性能。此外，由于模型在训练过程中明确挖掘视觉语义，我们的框架可以实现多模态（音频-视觉）和单模态（仅图像）推理，两种推理类型达到类似的性能。这一独特优势扩展了声源定位的应用领域，并可能为自监督视觉定位主题带来新的方向。0致谢0WanliOuyang受澳大利亚研究理事会DP200103223资助，澳大利亚医学研究未来基金MRFAI000085资助，CRC-P智能材料回收设施（SMRF）-Curby软塑料资助，以及CRC-PARIA-盲人视觉空间假肢. DiHu受中国国家自然科学基金（NO.62106272）和中国科协青年杰出科学家资助计划（2021QNRC001）的支持.[28] Tae-Hyun Oh, Tali Dekel, Changil Kim, Inbar Mosseri,William T Freeman, Michael Rubinstein, and Wojciech Ma-52070参考文献0[1] Triantafyllos Afouras，Yuki M Asano，FrancoisFagan，Andrea Vedaldi和Florian Metze.通过音频-视觉对应进行自我监督的目标检测.arXiv预印本arXiv:2104.06401，2021年.0[2] Triantafyllos Afouras，Andrew Owens，Joon SonChung和Andrew Zisserman.从视频中自我监督学习音频-视觉对象.在欧洲计算机视觉会议上，第208-224页. Springer，2020年.0[3] Humam Alwassel，Dhruv Mahajan，BrunoKorbar，Lorenzo Torresani，Bernard Ghanem和Du Tran.通过跨模态音频-视频聚类进行自我监督学习.神经信息处理系统进展，33：9758-9770，2020年.0[4] Relja Arandjelovic和Andrew Zisserman. 看、听和学习.在IEEE国际计算机视觉会议论文集上，第609-617页，2017年.0[5] Relja Arandjelovic和Andrew Zisserman. 发出声音的物体.在欧洲计算机视觉会议（ECCV）论文集上，第435-451页，2018年.0[6] Yusuf Aytar，Carl Vondrick和Antonio Torralba. Soundnet:从无标签视频中学习声音表示.神经信息处理系统进展，29，2016年.0[7] Moitreya Chatterjee，Jonathan Le Roux，NarendraAhuja和Anoop Cherian. 用于音频源分离的视觉场景图.在IEEE/CVF国际计算机视觉会议论文集上，第1204-1213页，2021年.0[8] 陈宏烈，谢伟迪，Triantafyllos Afouras，ArshaNagrani，Andrea Vedaldi和Andrew Zisserman.以困难的方式定位视觉声音.在IEEE/CVF计算机视觉和模式识别会议论文集上，第16867-16876页，2021年.0[9] 陈宏烈，谢伟迪，Andrea Vedaldi和Andrew Zisserman.Vggsound: 一个大规模的音频-视觉数据集. 在ICASSP2020-2020 IEEE国际会议上，第721-725页. IEEE，2020年.0[10] 陈云鹏，MarcusRohrbach，颜志成，颜水成，冯家石和Yannis Kalantidis.基于图的全局推理网络.在IEEE/CVF计算机视觉和模式识别会议论文集上，第433-442页，2019年.0[11] Francesca Frassinetti，Nadia Bolognini和ElisabettaL`adavas. 通过跨模态视觉-听觉交互增强视觉感知.实验性脑研究，147（3）：332-343，2002年.0[12] 甘闯，黄灯，赵航，Joshua B Tenenbaum和AntonioTorralba. 音乐手势用于视觉声音分离.在IEEE/CVF计算机视觉和模式识别会议论文集上，第10478-10487页，2020年.0[13] 高若涵，Rogerio Feris和Kristen Grauman.通过观看无标签视频学习分离物体声音.在欧洲计算机视觉会议（ECCV）论文集上，第35-53页，2018年.0[14] 高若涵和Kristen Grauman. 2.5D视觉声音.在IEEE/CVF计算机视觉和模式识别会议论文集上，第324-333页，2019年.0[15] 高若涵和Kristen Grauman. 共分离视觉对象的声音.在IEEE/CVF国际计算机视觉会议论文集上，第3879-3888页，2019年.0[16] 高若涵和Kristen Grauman. Visualvoice:带有跨模态一致性的音频-视觉语音分离.在2021年IEEE/CVF计算机视觉和模式识别会议（CVPR）上，第15490-15500页. IEEE, 2021.0[17] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, ArenJansen, Wade Lawrence, R Channing Moore, Manoj Plakal,and Marvin Ritter.音频集：音频事件的本体和人工标记数据集。在《2017年IEEE国际声学、语音和信号处理会议(ICASSP)》中，页码776-780，IEEE，2017年。0[18] Shiry Ginosar, Amir Bar, Gefen Kohavi, Caroline Chan, An-drew Owens, and Jitendra Malik.学习对话手势的个体风格。在《IEEE/CVF计算机视觉和模式识别会议论文集》中，页码3497-3506，2019年。0[19] Robert Harb and Patrick Kn¨obelreiter.Infoseg：通过最大化互信息进行无监督语义图像分割。在《DAGM德国模式识别会议》中，页码18-32，Springer，2021年。0[20] Nicholas P Holmes and Charles Spence.多感官整合：空间、时间和超加性。《CurrentBiology》，15(18):R762-R764，2005年。0[21] Di Hu, Feiping Nie, and Xuelong Li.深度多模态聚类用于无监督音频视觉学习。在《IEEE/CVF计算机视觉和模式识别会议论文集》中，页码9248-9257，2019年。0[22] Di Hu, Rui Qian, Minyue Jiang, Xiao Tan, Shilei Wen, ErruiDing, Weiyao Lin, and Dejing Dou.通过自监督音频视觉匹配进行判别性声音对象定位。《神经信息处理系统进展》，33:10077-10087，2020年。0[23] Diederik P Kingma and Jimmy Ba.Adam：一种用于随机优化的方法。arXiv预印本arXiv:1412.6980，2014年。0[24] Bruno Korbar, Du Tran, and Lorenzo Torresani.从自监督同步中协同学习音频和视频模型。《神经信息处理系统进展》，31，2018年。0[25] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton.使用深度卷积神经网络进行Imagenet分类。《神经信息处理系统进展》，25，2012年。0[26] Xudong Lin, Lin Ma, Wei Liu, and Shih-Fu Chang.上下文门控卷积。在《欧洲计算机视觉会议》中，页码701-718，Springer，2020年。0[27] Yan-Bo Lin, Hung-Yu Tseng, Hsin-Ying Lee, Yen-Yu Lin,and Ming-Hsuan Yang.通过迭代对比学习进行无

下载后可阅读完整内容，剩余1页未读，立即下载