基于音频的弱监督对象检测的多模态学习方法

12 浏览量更新于2023-10-16 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2185来自音频的补充提示有助于在弱监督对象检测Cagri Gungor1和Adriana Kovashka1，21智能系统计划，2匹兹堡大学计算机科学系cagri. pitt.edu，kovashka@cs.pitt.eduhttps://cagrigungor.github.io/AudioVisualWSOD/摘要我们解决了在噪声环境中学习对象检测器的问题，这是弱监督学习的重大挑战之一我们使用多模态学习来帮助定位感兴趣的对象，但与其他方法不同的是，我们将音频视为辅助模态，有助于解决视觉区域检测中的噪声。首先，我们使用视听模型为训练集生成新的“地面实况”标签，以去除视觉特征和噪声监督之间的其次，我们提出了音频和类预测之间的第三，我们提出了一个基于声音的我们使用对比学习来执行基于区域的视听实例区分，其作为中间任务并且受益于来自音频的互补线索来提高对象分类和检测性能。我们表明，我们的方法，更新噪声地面真相，并提供间接和注意力路径，大大提高了性能的 AudioSet 和VGGSound数据集相比，单模态预测，甚至那些使用对比学习。我们的方法通过在AudioSet上达到最先进的水平，在对象检测任务中优于以前的弱监督检测器，并且我们的声音定位模块在AudioSet和MUSIC上的表现优于几种最先进的方法。1. 介绍最近，人们对多通道学习的兴趣有所增加，其中多个通道可用于帮助检测对象或事件的存在。特别地，存在使用音频和视觉信息进行预测的几个任务。示例包括多模式预训练，图1.插图我们的贡献之一，利用互补的音频线索。我们的方法包括一个基于区域的视听实例判别模块，该模块产生视听区域相似性，结合视觉分类分数，以创建通过音频的间接视觉路径，并提高预测对象标签的准确性。其中视觉表示是在音频表示的帮助下联合学习的（使用原始声音或从中提取任何当前语音），以及声音定位，其中产生声音的对象的位置是基于视觉特征推断的。从多模态数据中学习提供了新的机会：然而，当标签（例如，对象类别）时，这些标签可能是有噪声的。特别是对于视频数据，即使标签（例如一个2186从伴随的语音中提取的对象标签）作为一个整体应用于视频剪辑，对象可能不会出现在该剪辑的所有帧中。在本文中，我们探讨了将音频作为一种辅助方式来处理的潜力，这种辅助方式有助于处理基于视觉特征的模型预测中的噪声和错误。我们的方法与声音定位有关[2，21，4，44，28，22，24]，因为我们学习了与先前工作类似的音频对应的视觉区域。然而，这是不同的，因为我们的主要任务是物体检测，在这里，物体可以被检测到是否发出声音。我们表明，如果有相关的音频伴随着图像，从音频的补充线索提高检测性能。我们相信我们的研究在工业上具有巨大的潜力，特别是对于经常检测到发出噪音的物体的自动驾驶汽车。我们专注于弱监督的视频对象检测的任务，其中对象注释仅在视频级别可用我们考虑一个嘈杂的设置，其中不是所有的帧级对象标签是正确的，由于从多模态数据中提取的挑战然后，我们提出了三种机制，音频作为一个帮手模态，以帮助应对噪音，并提供了一个措施的信心，从视觉通道的预测。我们的第一个创新依赖于直觉，即噪声将以不同的方式影响视觉和视听预测，因为音频提供了互补的线索。因此，为了处理视觉预测中的噪声，我们根据视听模型的预测计算一个新的然后，我们用这个新的地面实况集重新训练所有模型。我们的第二个创新使用视觉帧和对应音频（通过基于区域的视听实例区分获得）之间的关联来提供辅助的附加证据以预测给定帧（或帧的区域）中特别是，我们寻找音频作为视觉特征和对象预测之间的中间联系，并使用此间接路径进行预测。无论原始数据集中的标签是干净的还是有噪声的，这一贡献和下一个贡献都显著提高了分类性能。我们的贡献的这一部分在图中示出。1.一、我们的第三项创新是使用声音作为注意力机制来确定重要的视觉区域，作为处理噪声预测的进一步技术。特别是，给定区域和声音标记的关联矩阵，我们计算每个区域的聚合重要性，并使用它来加权我们的区域级对象预测。我们在两个数据集上进行实验，VGGSound [9]和AudioSet [18]。此外，我们使用MUSIC [44]数据集与先前的声音定位方法进行比较。VGGSound和AudioSet符合我们感兴趣的多模态学习的特征，即它们包含从音频和视频特征中获取丰富的互补信息然而，这些数据集包含相对干净的对象类别标签，这与我们设想的设置不匹配，因为提供这种干净的标签需要人工努力。为了使设置更真实，我们在视频剪辑级别人为地在这些数据集中的标签中引入噪声，通过翻转一小部分剪辑标签来模仿互联网上存在的自然噪声-例如，网络用户在将视频上传到社交媒体网站时提供的自然语言描述形式的噪声监督。我们表明，我们的方法非常有效地帮助应对训练集中的噪声，我们取得了与使用昂贵的无噪声训练集的结果此外，我们还展示了我们的每个方法组件的单独特别是，我们的基于声音的间接和注意力路径在声音定位模块中仅使用对比学习和实例识别来提高结果。这种改进适用于干净和嘈杂的视频剪辑标签设置。我们的方法比AudioSet上的其他弱监督对象检测器性能更好[18]。此外，我们的声音定位模块在AudioSet[18]和MUSIC数据集[44]上优于最近的几种方法，尽管声音定位不是我们的主要任务。概括起来，我们的贡献是：（1）一种通过从音频通道推断附加的地面实况标签并利用这些标签重新训练视觉通道来处理对象标签中的噪声的方法;（2）使用音频作为视觉输入和预测标签之间的额外链接的方法（即，对象标签应该可以单独从视觉通道推断，也可以间接地从视觉通道推断：通过与标签相关联的声音标记，其本身与视觉输入相关）;以及（3）使用声音来推断哪些视觉区域对于预测对象标签是重要的方法。2. 相关工作弱监督目标检测（WSOD）。WSOD是学习预测对象的类别和位置的任务，仅从训练时可用的图像级标签。这个问题意味着一个多实例学习框架，其中图像中的区域被认为是一个“袋子”，图像级对象标签表明袋子中至少有一个物品包含该对象。因此，图像级预测可以被计算为对感兴趣对象的区域级分数的（加权）求和，然后可以在该图像级预测上用公式表示损失。示例方法包括[6，36，39，17，35]。一些方法依赖于迭代改进，其中高分提案被视为伪地面实况[36，40，43，31，33，35]。还存在通过提取有噪声的标签信息2187从标题或字幕数据[41，10，42，38，14]。与这些工作相反，我们使用视觉和音频数据执行WSOD，通过使用音频来提供视觉预测的置信度，并且我们通过这种额外的方式处理提取的标签中的噪声。多模式预训练。研究者们提出了在多模态联合的背景下，通过对比学习等技术来学习视觉表征。模态通常是图像、视频、文本和声音。例如，Miech et al.[26]学习在学习空间中将视频和时间上共同发生的叙述紧密地投射在一起，而非共同发生的视频和叙述应该远离。Alayrac等人[3]学习如何最好地融合视觉，听觉和语言形式。Chen等人[11]通过蒸馏确保图像，视频和声音特征之间的合作。Bertasius等人[5]和Zareian等人。[42]通过对比学习获得对象检测任务的表示，但需要一些手动标记的边界框。Morgado等人[27]仅考虑视觉和听觉特征（无语音），以及模态内和模态间的对比表示。还使用Transformer架构学习了表示，例如在海量数据集上学习的联合图像-文本表示的上下文中（CLIP [29]，UNITER [12]，LXMERT [34]，Vilbert[25]等）。或者更小的数据集[13]。这些工作执行预训练，其中在不同共现模态之间缺乏语义匹配方面的一些噪声是可以容忍的。相反，我们专注于下游对象检测任务，以监督的方式训练标签，其纯度很重要。因此，我们提出了如何使用声音作为一个帮手的方式，以帮助应付噪声的视觉预测。Afouras等人[1]从视听数据中提取监督信号，以自监督方式教导目标检测器。在第一阶段，他们的方法在对比声音定位网络中学习伪标签和盒子。在第二阶段，伪标签和盒子用于训练Faster-RCNN [30]。他们还尝试了一个弱监督的版本，使用地面真实标签而不是伪标签。与Afouras等人不同，[1]中，我们提出了一种新型的端到端网络，该网络将对象检测器和声音定位模块一起训练。我们在对象检测训练和推理过程中使用音频信号，因此音频模态对测试数据的性能有直接影响。例如，在检测测试图像中的汽车对象期间，汽车的音频被用于改进检测。此外，我们使用视觉区域的建议，而他们使用空间视觉功能，以本地化的视觉区域的帮助下，音频。虽然我们在不到一天的时间内在AudioSet上在2个GPU上训练了5个epoch，但Afouras[1]在AudioSet上在64个GPU上训练了230个epoch超过3天。声音定位和分离。声音定位[4，8，28，24]是在视觉上找到发声区域现场[4，8]计算音频和空间视觉特征之间的相似性以产生热图。[16，44，15]通过基于视觉信号估计频谱图掩码来执行声音混合的分离。[37，2，32]提出音频引导注意力机制。[2]利用视听并发来训练能够区分和分组相同类别的出现的视频模型。[4，37，8]使用对比学习来链接音频和视觉信息，以进行定位和分离。[21，22]提出使用对象字典并使用类别级视听分布匹配来训练模型以理解声源的类别。现有技术不具有特殊的对象检测模块，并且不使用任何对象检测标签，也不进行检测训练。据我们所知，我们的方法是第一种以端到端方式在对象检测网络中使用声音的方法。我们的注意力方法在音频的指导下检测重要的视觉区域，类似于先前的工作[37，2，32]，但发现用于增强对象检测模块中视觉特征的预测。在以往的声音定位工作中，音频是视觉区域定位不可或缺的一种方式。然而，我们的目标检测模块检测所有的目标对象不考虑他们是否产生声音。在音频不存在或不相关的情况下，我们的方法仍然可以检测对象。与[4，37，8]不同的是，我们在对比学习中使用区域建议而不是空间视觉特征。虽然以前的工作使用的指标，如IoU，CIoU和AUC，我们使用的mAP指标从对象检测文献。虽然[21，22]产生类伪标签，但我们在弱监督对象检测模块中使用图像级标签。然而，我们的声音定位模块不使用标签。它产生了阶级不可知论的预测。3. 方法我们的目标是学习基于视觉的物体探测器，在音频模态的帮助下，以弱监督的方式。我们将我们的工作设置在经典的弱监督对象检测（WSOD）设置中。然而，我们使用基于区域的视听实例判别来定义对象预测的声音间接路径，以及视觉区域的基于声音的注意机制。我们的方法包括图中描述的三个阶段。2：用于弱监督检测的视觉检测模块、音频检测模块和基于区域的视听实例判别模块。3.1. 视觉检测模块视觉模块紧密遵循弱监督对象检测中的先前工作[6，41，38]。我们提取视觉提案及其附带的功能。图像被馈送到视觉卷积层。然后，使用ROIAlign来裁剪建议，并且2188尼加拉瓜i，c尼加拉瓜i，c联系我们∈i，ci，ci，cΣdetCLS1vpcomb=vp detvpcls，vp梳i，cCCi，cCC图2.我们提出了一个基于区域的视听实例判别模块，其产生的相似性（中）是从视觉（上）和音频（下）模块计算，并结合视觉模块使用声音作为辅助，以提高视觉检测模块的性能。由边缘框[45]生成，导致固定大小的卷积特征图。最后，一个盒子特征提取器被应用于提取一个固定长度的特征，为每个视觉re。计算mAP结果。实验（vdet）exp（vcls）gion。我们用vi其中i ∈ {1，… M}表示视觉vpdet=i，cMexp（vdet），vpcls=i，cCexp（vcls）给定帧的区域V这一过程导致视觉区域特征向量φ（vi）∈Rd（d= 4096）。k=1k，ck=1i，k（二）因为没有区域级标签可用，所以在训练期间，我们优化图像级标签v_p_c的视觉预测，其中c1，...，C和C是类的数量。建议特征φ（vi）被馈送到两个并行完全连接的层中以计算视觉检测分数vi，c E∈R1 和分类得分vi，c∈R：最后，视觉聚合图像级预测v_p_c计算如下，其中v_p_c[0，1]的值越大，表示图像中存在c的可能性越高. ΣMΣi，ci，ci，cc=σi，ci=1vdet=wde t|φi（v）+bde t，vcls=wcls|φi（v）+bcls（一）假设标签yc= 1当且仅当类别c存在时，用于训练模型的视觉分类损失为这些分类和检测分数被转换成概率，使得vpcls是类别c在当前提议vi中的概率，并且vpdet是vi对于预测图像级标签yc是重要的概率。分类和检测得分概率的元素乘法vpcomb用于计算损失，并在推理中定义如下。同样，由于没有提供区域级别的标签，我们必须通过优化这种损失来间接获得区域级别的分数。C（三）2189Lv=−[yclogv<$pc+（1−yc）log（1−v<$pc）]（4）c=12190联系我们∈ BB∈RΣC∈JC1所述M，c3.2. 音频检测模块我们从对数梅尔频谱图中提取每个区域的音频特征。让sj其中j1、…N表示视频中的音频区域s，并且N是可变的并且取决于音频的持续时间的音频区域的数量。我们将音频分成每秒音频的区域。由于每个音频区域包含不同强度的信息，因此我们认为使用音频区域而不是使用整个频谱图可以提高我们使用噪声对比估计（NCE）[19]通过考虑图像和音频对（v，s）来定义对比学习哪里是图像-音频对批次。对被定义为来自视频的随机采样帧和该视频的音频通道。NCE损失的第一个组成部分将图像与负音频样本进行对比，以测量图像与批次中其他音频对的匹配程度：在视听实例辨别中的表现。这1L=−exp（S（v，s））日志处理结果是音频区域特征向量R（sj）∈Rds→v|B|（v，s）∈Bexp（S（v，s））+（v'，s'）∈Bexp（S（v，s′））（八）（d=4 096）。聚合的视频级声音预测S_p_c的计算类似于视觉检测模块，并且音频预测S_p_c的计算类似于分类损失定义为：CNCE损失的第二个组成部分将音频与负图像样本进行对比，以测量音频与批次中其他图像对的匹配程度Ls=−<$[yclogs<$pc+（1−yc）logg（1−s<$pc）]（5）1L=−exp（S（v，s））日志c=13.3. 基于区域的视听实例判别v→s|B|（v，s）∈Bexp（S（v，s））+（v'，s'）∈Bexp（S（v′，s））（九）tion我们基于区域的视听实例判别模块使用对比学习框架进行训练，其中音频表示与负面视频表示进行对比，反之亦然，受[27]的启发。我们的方法的目的是学习视觉区域特征φ（v i）和音频区域特征φ（sj）之间的多对多关系。换句话说，我们的方法学习哪个视觉区域与哪个声音区域相关以及相关程度。视觉区域特征φ（vi）和音频区域特征φ（s，j）共享相同的d维嵌入空间，因此它们可以被对比。我们进一步对φ（vi）和φ（sj）向量进行L2归一化。计算这些特征向量的余弦相似性以获得音频和视觉区域的相似性，期望视觉再现。显示对象的区域与具有相应对象的声音的音频区域相关。相似性由下式给出：h（vi，sj）=<$φ（vi），<$（sj）<$/ρ，i∈{1，…M}，j∈{1，.，N}将这两个分量相加以获得NCE损耗：LNCE=Ls→v+Lv→s（10）我们用三个定义的损失共同优化我们的框架，最终的损失由下式给出：L=λ1LNCE+λ2Lv+λ3Ls（11）其中λ1、λ2和λ3是加权超参数。3.4. 间接路径（Indirect Path）接下来，我们将描述如何使用声音作为辅助模态来为仅视觉预测提供置信度或调整仅视觉预测。我们定义了一个间接的路径来链接视觉帧和音频之间的预测对象标签在一个给定的帧。我们使用基于区域的视听实例识别模块来进行这种关联。音频和视觉区域的相似性h（v，s）以及来自视觉检测模块vpcomb的组合的分类和检测得分概率被矩阵相乘。最后，聚合图像级间接路径预测计算如下：其中ρ是可学习的温度参数。我们接下来计算聚合视觉相似度a（vi）这是我们注意力路径的一部分。这种视觉上的相似表示每个视觉区域与相应的视觉区域之间的关系ipj，c= h（v，sj）|VP梳，Nc=σj=1ipj，c（十二）响应视频剪辑中的音频集我们的注意力路径和最强烈关注的视觉区域，基于其中h（v，s）|01- 02 - 03 -02|是转置的）和vpcomb=[vp comb，. . . ，vp comb] ∈ RM ×1. 的更大值ΣΣ（六）音频集S可以被计算为：2191N我a（vi）=maxa（vi，sj），S（v，s）=maxa（vi）（7）j=1i=pc[0，1]意味着类c存在于图像中时更高的li k这意味着类c将具有强预测概率，如果视觉区域强烈指示2192E ∈Ri，c·i，c.ΣE ∈R∈Σ∈但是视觉区域与声音区域密切相关。换句话说，只有当有证据表明某个物体发出声音时，我们才会做出有把握的预测。此外，ip c=[ip1，c，. . .，ip N，c]N×1表示图中的间接路径二、间接路径仅用于分类，因为在视觉区域级别没有计算分数。3.5. 声音作为注意力路径作为我们的第二个贡献，我们定义了一个注意路径的声音模态，这表明视觉区域的重要性该辅助路径有助于提高分类和检测性能。视觉相似性a（vi）（等式2）7）用于通过执行逐元素乘法来对视觉区域分数vp_comb进行加权。因此，包括关于对象的更多信息的对应视觉区域用于检测的注意力路径api，c和用于分类的聚合注意力路径计算如下：神经网络的泛化能力和噪声对不同模态的不同影响。我们首先用嘈杂的标签训练视听模型，然后使用模型（第二节）。3.6）对训练集进行预测。如果模型预测c=pc不同于噪声标签和C_（？）7（要确定它是一个强大的足够的预测来清除噪音），我们改变噪音标签以预测作为新的GT标签：yk=1（k=a r gmax c<$pc）<$1（c<$pk>0. 第七章（十五）其中1（）表示指示符函数。我们对整个训练集遵循这个过程并生成新的GT标签。然后，我们用新标签重新训练所有模型变量。4. 实验我们评估我们的方法的分类和检测任务的组成部分。我们测试以下方法：• 仅视觉直接路径（VISUAL-ONLY，Sec.第3.1节）和音频只直接路径（SOUND-ONLY，Sec. 3.2）;api，c=a（vi）vpcomb，c=σMi=1亚太区（十三）• 同样的路径，但训练与视听实例歧视和对比学习（节。 3.3 ），导致 VISUAL-ONLY-CONT 。和SOUND-ONLY其中，a=pc[0，1]。此外，AP C=[ap1 ，c，. . . ，ap M，c]Mx1表示图1中的注意路径。2，也用于组合路径（第二节）。3.6）。注意力路径用于检测和分类，因为视觉区域（ap i，c）和帧分数（appc）都是可用的。3.6. 声音作为路径间接路径和注意路径是不同的路径，其从音频向视觉检测器提供补充线索，以帮助对抗噪声。我们结合这些途径来从这两种线索中获益。我们将注意力路径apc输入到间接路径计算中，以使它们与音频和视觉区域h（v，s）的相似性配合，如下所示：CONT.;• 我们的方法贡献：声音作为间接路径（SOUND-INDIRECT ， Sec. 3.4 ），声音作为注意力路径（SOUND-ATTENTION，Sec. 3.5）和声音作为路径的组合（SOUND-COMBINATION，Sec.3.6）。我们在三种不同的设置下评估了所有方法：干净（其中标签被期望在视频级别是干净的，但是一些噪声仍然存在，因为不是视频中的所有帧都表现出标签集合中提到的对象）、嘈杂（其中我们翻转20%的视频标签以获得更真实的场景）和新GT。最后一个设置使用的标签是使用我们的SOUND-UPDATE方法获得的（第我们在表2中将我们的检测性能与最先进的检测器Afouras [1]和PCL [35]进行了比较。此外，我们评估了视听实例区分的性能cpN=σh（v，s）|AP（十四）国家方法与最先进的声音定位文件[44，4，32，20，21，1]，见表4。Cj=1J.C.4.1.实验装置其中c≠pc[0，1]。路径的组合仅用于分类。3.7. 更新训练集标签的深度神经网络不是简单地记忆噪声，而是可以在对噪声数据进行训练后进行泛化。此外，我们期望噪声标签以不同的方式对视觉和视听预测产生影响基于这些信息，作为我们的最后贡献，我们使用声音的预测作为路径模型的组合来定义新的地面实况（GT）训练集标签此方法使用4.1.1数据AudioSet[18] 是一个大型的视听数据集，由来自YouTube的10秒视频组成。在训练过程中，我们使用AudioSet-Instruments [ 4 ]的[21]共15种乐器。我们使用AudioSet-Instruments的完整的AudioSet-Instruments用于表4中的类不可知单对象定位。VGGSound[9]是一个视听通讯数据集，由10秒的剪辑组成，从视频中提取，2193清洁方法mAP3050mAP（50 mAP）噪音新GT（S OUND-U PDATE）mAP30映射50[2019 - 05 - 15 00：05：05]地图30映射50[2019 - 05 - 15 00：05：05]方法地图30映射50[2019 - 05 - 1500：05：05]PCL [35]39.017.54.4一个FOURAS-自我。[1]第一章44.328.09.6一个福拉斯-弱的。[1]第一章50.630.910.3S OUND-A TTENTION（OURS）53.330.811.6表2. 比较检测方法表1.在AudioSet（顶部）和VGGSound（底部）上使用干净、嘈杂和新GT标签的视觉方法的mAP（%）结果。每列的最佳执行者以粗体显示。音频集。基线每列的最佳执行者以粗体显示。AudioSet VGGSound方法清洁嘈杂新款GT清洁嘈杂新款GTVISUAL-ONLY60.158.759.879.577.082.7VISUAL-ONLY-CONT。62.259.460.482.977.881.5SOUND-I间接62.959.660.785.478.483.3SOUND-ATTENTION63.159.660.885.578.583.5SOUND-COMBINATION63.559.961.186.379.484.3SOUND-ONLY71.769.870.476.774.375.9听着-哦，不-听着。73.271.171.978.675.876.5表3.在Au- dioSet和VGGSound上使用干净、嘈杂和新GT标签的视觉（前五行）和音频（后两行）方法的准确度（%）每列的最佳执行者以粗体显示，并且我们提出的所有优于VISUAL- ONLY-CONT的方法。有下划线。上传到YouTube我们选择了一个子集，其中包括10k训练和2k测试视频，13个类（吉他，汽车，狗，火车，小提琴，键盘，摩托艇，鼓，飞机，直升机，长号，摩托车和萨克斯管）。我们手动注释了800个用于地面实况框的测试帧。我们根据这些注释生成mAP结果。MUSIC数据集包含685个视频，其中包括536个独奏和149个二重唱。有11种不同类型的乐器。我们在测试期间使用每个乐器类别中的前五个/两个视频进行独奏/二重奏。剩下的视频用于培训。我们使用这个数据集只将我们的声音定位模块与其他论文进行比较，我们使用[21]提供的注释。虽然我们在MUSIC-solo上执行类不可知的定位，但在MUSIC-dual上执行类感知的定位是遵循先前的文献。噪声标签我们生成新GT标签的动机类似于[41]，即减少噪声以提高检测，但我们的新颖性是从声音中受益。[41]使用包含嘈杂字幕的COCO数据集[23]。但是，它不包含声音，我们找不到任何包含声音对象和噪声监督的数据集。因此，我们选择常用的视听数据集，AudioSet和VGGSound，并人工创建噪声来模仿自然噪声。为了制造噪音，我们随机改变20%的标签。我们观察到新的GT标签将AudioSet的噪音降低到4%，VGGSound降低到5%。4.1.2实现细节在训练视觉检测器之前，我们使用边缘框[ 45 ]提取最多1000个建议，边缘框[45]通常用于弱监督检测[6，35]，来自OpenCV [7]。我们只在推理过程中使用间接路径、注意路径和路径组合。它们不是训练的一部分，但它们所依赖的视听相似性是在训练中学习的。进一步的实施细节可在补充文件中找到。4.2. 声音作为辅助模态我们提出的SOUND-INDIRECT和SOUND-ATTENTION方法受益于互补音频线索，优于VISUAL-ONLY 和VISUAL-O NLY-CONT。在所有噪声和数据集设置中仅使用视觉信号进行分类的方法（表 3 ）。注意VISUAL-ONLY-CONT。也受益于声音（通过对比学习），但仅在表示学习期间，而我们提出的方法直接影响对象预测结果，从而优于VISUAL-ONLY-CONT。S OUND-I间接和 S OUND-A TTENTION链接是-以不同的方式在音频和视频之间提供独特的互补线索。因此，我们观察到SOUND-COMBINATION优于间接和注意路径，并在所有设置中达到最佳结果（表3）。请注意，我们使用S OUND-I NDIRECT、S OUND- ATTENTION和S OUND-C OMBINATION路径仅在推理中，这意味着它们是从与VISUAL-ONLY-CONT相同的训练网络中获得的，并且在我们的结果中没有训练的随机性效应。在仅存在音频信号的边缘情况下，如 SOUND-ONLY和SOUND-ONLY-CONT（表3），仅可以执行音频识别。重要的是，我们使用 SOUND-ATTENTION进行检测（注意SOUND-INDIRECT在此设置中无法评估），并且它大大优于VISUAL-ONLY和VISUAL-ONLY-CONT。导致表1中的所有噪声、数据集和mAP设置。这表明，使用音频线索提高了对象检测的性能。VISUAL-ONLY48.326.710.130.214.84.241.221.76.7VISUAL-ONLY-CONT。52.930.411.331.815.54.643.523.97.9SOUND-ATTENTION53.330.811.633.116.04.944.325.68.6VISUAL-ONLY36.317.65.827.113.93.830.315.34.8VISUAL-ONLY-CONT。38.920.06.430.214.34.933.116.75.3SOUND-ATTENTION41.821.47.032.815.15.236.418.15.72194i，c图3.定性比较VISUAL-ONLY（顶部）和我们提出的SOUND-ATTENTION（底部），VGGSound上有干净的标签。我们为每个图像显示具有最高置信度的框地面实况对象依次是直升机、吉他、鼓、火车、狗。MUSIC-独奏MUSIC-双音频设置方法IoU@0.5AUCCIoU@0.3AUCIoU@0.5AUCS OUND-OF-P IXELS[第四十四届]40.543.316.816.838.240.6[4]第四季第4集26.135.813.218.332.739.5[32]第三十二话37.238.721.519.436.539.5DMC [20]29.138.017.321.132.838.2DSOL [21]51.443.630.222.138.940.9[1]第一次----50.647.5OURS50.846.241.126.043.440.3表4.与MUSIC-solo、MUSIC-dual和AudioSet数据集上的声音定位方法进行比较。每栏的最佳表演者用粗体表示。4.3. 清洁和嘈杂环境的比较，SOUND-UPDATE我们实验我们的方法在三个不同的噪声设置，这是干净的，嘈杂的，和新的GT。我们使用噪声标签，以获得新的GT标签的帮助下，SOUND-COMBINATION，导致SOUND-UPDATE。我们观察到新GT设置中的结果优于噪声设置中的结果，这表明使用音频来帮助清理标签集并改善视觉预测（SOUND-UPDATE）是非常有效的。4.4. 定性分析我们将VISUAL-ONLY和SOUND-ATTENTION的目标检测性能可视化在图中。3 .第三章。SOUND-ATTENTION在检测不同对象方面比V ISUAL-ONLY更成功，V ISUAL-O NLY仅检测对象的某些部分，包括示例中的不相关区域。此外，在示例中，检测到的SOUND-ATTENTION 的框具有比检测到的VISUAL-ONLY 的框（在0.03和0.06之间）更高的置信度分数（在0.13和0.40之间）。置信度分数在示例中的框的左上置信度分数定义为等式中的vpcomb。3 .第三章。4.5. 检测方法表2中给出了主要的比较，因为我们建议将对象检测作为主要任务。我们的SOUND-TTENTION方法在表2中的AudioSet上明显优于PCL [35]和AFOURAS-SELF SUPERVISED[1]。尽管AFOURAS-WEAKSUPERVISED[1]的性能略好于我们使用mAP@50度量的方法，但SOUND-ATTENTION方法在更宽松和更严格的mAP度量中明显优于它，并且我们在AudioSet上达到了最先进的水平。4.6. 声音定位方法表4中的比较是支持性的，其示出了尽管定位模块旨在辅助检测模块，但是与MUSIC和AudioSet数据集上的最先进方法相比，其在个体基础上也具有竞争力声音定位是一个任务，其中的声音模态是必不可少的推理。只有产生声音的目标因此，我们使用视听区域相似性（等式10）。6）而不是提出视觉检测模块产生定位结果。我们使用具有超过阈值的视听相似性的边界框的并集来获得遵循声音定位文献的热图。我们在检测模块中使用每个视觉区域的类预测来在MUSIC双数据集中执行类感知定位。我们的方法优于大多数本地化方法。5. 结论我们已经演示了声音如何帮助解决弱监督对象检测中的噪声问题。我们的方法创建了新的GT标签，以减少监督中的噪音。SOUND-UPDATE成功地处理了噪声，改善了分类和检测结果.间接路径（SOUND-INDIRECT）通过音频作为中间连接提供额外的证据。此外，我们提出了基于声音确定相关视觉区域的注意路径（SOUND-ATTENTION鸣谢：本材料基于美国国家科学基金会资助的工作。2046853. CG还得到了匹兹堡大学智能系统项目奖学金的支持。2195引用[1] Triantafyllos Afouras，Yuki M Asano，Francois Fagan，An- drea Vedaldi，and Florian Metze.从视听对应中进行自我监督的对象检测在IEEE/CVF计算机视觉和模式识别会议（CVPR）论文集，第10575-10586页[2] Triantafyllos Afouras ， Andrew Owens ， Joon SonChung，and Andrew Zisserman.视频中视听对象的自监督学习欧洲计算机视觉会议论文集（ECCV），第208Springer，2020年。[3] Jean-BaptisteAlayrac ， AdriaRecasens ， RosaliaSchneider，ReljaArandjelo vic´，JasonRamapuram，Jef freyDeFauw ， Lu-cas Smaira ， Sander Dieleman ， andAndrew Zisserman.自监督多模态通用网络。神经信息处理系统进展，33：25-37，2020。[4] Relja Arandjelovic和Andrew Zisserman。会发出声音的物体。在欧洲计算机视觉会议（ECCV）的会议记录中，第435-451页[5] Gedas Bertasius和Lorenzo Torresani Cobe：从叙述教学视频中嵌入情境化对象。神经信息处理系统进展（NeurIPS），33：15133[6] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第2846-2854页[7] 加里 · 布拉德斯基 OpenCV 库博士 Dobb's Journal ：Software- ware Tools for the Professional Programmer，25（11）：120- 123，2000.[8] 陈洪烈，谢伟迪， Triantafyllos Afouras ， Arsha Na-grani，Andrea Vedaldi和Andrew Zisserman。定位视觉声音很难。在 IEEE/CVF计算机视觉和模式识别会议（CVPR）论文集，第16867-16876页[9] Honglie Chen，Weidi Xie，Andrea Vedaldi，and AndrewZisserman. Vggsound：一个大规模的视听数据集。在ICASSP 2020-2020 IEEE声学，语音和信号处理国际会议（ICASSP），第721-725页。IEEE，2020年。[10] Kai Chen，Hang Song，Chen Change Loy，and DahuaLin.从纪录片中发现和学习新的对象在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2017年。[11] Yanbei Chen，Yongqin Xian，A Koepke，Ying Shan，and Zeynep Akata.以组合式对比学习提炼视听知识。在IEEE/CVF计算机视觉和模式识别会议（CVPR）论文集，第7016-7025页[12] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter：通用图像-文本表示学习。欧洲计算机视觉会议（ECCV），第104-120页。Springer，2020年。[13] Karan Desai和Justin Johnson Virtex：从文本注释中学习视觉表示。InProceedings ofIEEE/CVF计算机视觉和模式识别会议（CVPR），第11162-11173页，2021年。[14] Mingfei Gao，Chen Xing，Juan Carlos Niebles，JunnanLi ， Ran Xu ， Wenhao Liu ， and Caiming Xiong. 开放vocabul- lary object detection with pseudo bounding-boxlabels。欧洲计算机视觉会议（ECCV），2022。[15] Ruohan Gao，Rogerio Feris，and Kristen Grauman.通过观看未标记的视频学习分离物体声音。在欧洲计算机视觉会议（ECCV）的会议记录中，第35-53页[16] Ruohan Gao和Kristen Grauman。共同分离视觉对象的声音。在IEEE/CVF国际计算机视觉会议（ICCV）论文集，第3879[17] 高岩、刘博笑、南郭、叶小春、方晚、游海航、樊东瑞。C-midn：具有分割指导的耦合多实例检测网络，用于弱监督对象检测。在IEEE计算机视觉国际会议（ICCV）的会议中，2019年。[18] Jort F Gemmeke、Daniel PW Ellis、Dylan Freedman

下载后可阅读完整内容，剩余1页未读，立即下载