基于音频-视觉自监督目标检测

98 浏览量更新于2023-10-25 收藏 14.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

105750基于音频-视觉对应的自监督目标检测0Triantafyllos Afouras 1 *† Yuki M. Asano 2 * Francois Fagan 3 Andrea Vedaldi 3 Florian Metze 301 牛津大学 2 阿姆斯特丹大学 3 Meta AI0afourast@robots.ox.ac.uk0摘要0我们解决了无监督学习目标检测的问题。与弱监督目标检测不同，我们不假设图像级别的类别标签。相反，我们从音频-视觉数据中提取监督信号，使用音频组件来“教导”目标检测器。虽然这个问题与声源定位相关，但它要困难得多，因为检测器必须按类型对对象进行分类，列举每个对象的实例，即使对象是无声的也要这样做。我们通过首先设计一个具有对比目标的自监督框架来解决这个问题，该框架同时学习分类和定位对象。然后，不使用任何监督，我们简单地使用这些自监督的标签和框来训练基于图像的目标检测器。通过这种方式，我们在目标检测和声源定位任务上超过了以前的无监督和弱监督检测器。我们还展示了我们可以将这个检测器与地面真实类别对齐，每个伪类别只需要一个标签，以及我们的方法如何学习检测超出乐器范围的通用对象，如飞机和猫。01. 引言0尽管最近在学习图像和视频表示方面取得了重大进展，但这还没有转化为自动学习可解释和可操作概念的能力。我们指的是仍然需要一些手动标签来将无监督表示映射到有用的概念，如图像类别或对象检测。因此，在本文中，我们考虑了在没有任何手动监督的情况下学习可解释概念的问题。特别是，我们专注于文献中尚未广泛探讨的问题：学习在没有任何手动标签的情况下同时检测和分类对象。0* 共同第一作者。†在FAIR实习期间完成的工作。0图1.我们通过观看视频来训练一个目标检测器。在不使用任何手动注释的情况下，我们通过首先自标记框和对象类别，然后将其作为目标来教导检测器，学会在图像中检测不同的对象。所示的检测结果是我们训练模型的输出；为了可视化目的，我们显示了匈牙利匹配的标签。0这个问题与弱监督目标检测（WSOD [16,61]）有关，不同之处在于，在WSOD中，学习算法会给出图像级别的标签，告诉它图像是否包含给定对象类型的出现。受最近在自监督学习方面的工作的启发，我们试图用从视频数据观察中提取的内部监督信号来替换这种外部监督的来源。视频比图像更丰富，例如因为它们包含运动。在这里，我们关注视频的多模态方面，并使用声音作为学习视觉数据中的对象的弱而嘈杂的线索。多模态自监督的力量在自监督表示学习中已经得到了证明，并且在视频聚类中也得到了证明。然而，虽然视频聚类可以提供关于离散类别的数据解释，但它不提供有关相关对象位置的任何信息。105760图像中的对象。另一方面，声源定位[7, 11, 49,65]正是考虑在图像中定位声音源的问题。因此，将图像分类和声源定位简单地结合起来，希望自动学习对象的类型和位置，这是很诱人的。0不幸的是，这种方法不能得到令人满意的对象检测器。要理解原因，重要的是要注意声源定位的目标是在听到声音时定位声音。这对于检测器来说是不够的，因为许多对象只偶尔发出声音，当它们静音时，它们对声源定位变得不可见。相反，视觉领域中的检测器应该在对象无法听到时也能响应。此外，声源定位方法通常只提取给出可能对象位置分布的热图；相比之下，检测器通过输出特定实例的边界框来解决更难的问题，即枚举图像中出现的所有单个对象实例。0为了解决这些问题，我们应该将声音组件视为学习对象检测器的有用线索，而不是必要的线索。相反，我们考虑将输入的一系列原始视频转化为对象类别和位置的列表，以训练基于图像的检测器。0从高层次上看，我们的方法基于以下观察：我们可以使用声源定位网络来了解视频中可能的发声对象位置。从此，我们可以提取一系列边界框伪注释用于对象检测器的训练。因为后者只使用视觉模态，所以即使没有相关声音，它也可以立即转移到对象的检测上。0然而，一个挑战是声源定位不提供训练类别特定检测器所需的类别信息，实际上只学习了用于通用对象的区域建议网络，存在高误报率。为此，我们注意到大多数声源定位器都是基于噪声对比公式的，与基于聚类的方法一起，目前是自监督表示学习的最新技术。从此，我们得出一个联合公式，可以同时从中受益并学习定位声源并对其进行分类，而无需任何监督。然后，可以使用此结果来训练任何现成的对象检测器，例如Faster-RCNN[72]，以在没有任何监督的情况下学习对象检测器，如图1所示。0在实证上，我们通过在VGGSound [21]和AudioSet[31]上进行训练和测试，以及仅在OpenImages[52]的子集上进行测试来测试我们的方法。02. 相关工作0视听声源定位。声源定位的早期工作包括概率模型的定位[26，39，49]和分割[45]，但最近的重点已经转向双流神经网络。例如，[7，37，77]提出了一种对比学习方法，匹配数据的视觉和音频组件。[40，44]的工作通过对视觉和音频特征进行聚类，并通过对比损失将它们与质心关联起来。其他工作[2，63]通过利用同一视频中的视听同步来学习热图，以前用于嘴唇到口腔同步和活跃说话者检测[23，56]，或通过利用显式注意模块[48]来学习热图。赵等人[102，103]通过训练混合分离目标来学习将像素与音频源关联起来。其他人[69]将从类标签[19，76]学习的激活图与对比目标相结合，使用不同级别的监督和融合技术[70]，或通过挖掘困难的负位置来改进热图[20]。与我们的工作最相似的是[42]，他们首先使用对比目标训练源定位模型，然后使用学习到的热图提取对象表示，使用K-means对其进行聚类。然后，将聚类分配用于在音频和视频编码器之上训练分类器。该论文继续使用这些学习到的表示来有区别地定位声源，同时在“鸡尾酒会”场景中抑制安静的对象。与我们的工作相比，以上任何一种方法都不能检测和计数单个对象出现，因为它们产生热图。此外，它们在推理过程中都需要音频，因此无法用于单个图像或检测无声对象。0音频-视觉类别发现。学习视觉类别通常被视为图像聚类，这方面有大量的先前工作，如最近的“深度聚类”方法[10,18, 46, 89, 94,97]，或者带有分割的聚类[90]。然而，对于音频-视觉数据的聚类工作较少。在[5]中，作者通过从对立的模态构建两组标签，用于跨模态表示学习，将Deep Cluster[18]扩展到视频领域。[75]的工作将聚类与音频-视觉共分割相结合，实现了音频-视觉源分离。在[9]中，作者通过学习两种模态之间的共享标签集，将[10]的自标记方法扩展到多模态数据。本工作在后者的基础上构建，以补充和提升联合学习框架中的声源定位。0弱监督目标检测（WSOD）。弱监督检测使用（手动）图像级别的类别标签，而不使用边界框注释。许多方法105770图2.基于音频-视觉对应的自监督目标检测：我们将噪声对比和基于聚类的自监督学习相结合，生成自检测（边界框和标签），并将其用作训练检测器的目标。训练好的检测器可以在不需要音频的图像上检测多个类别的对象。0基于一种多实例学习[17, 32, 57, 85, 91, 95, 96, 98, 99,101]或提案聚类[84]的形式。该领域的最新研究[47,73]结合了各种想法，如自训练[106]和空间丢弃[92]，或者探索混合注释的使用[74]。其他研究通过添加课程学习[100]、使用视频中的运动线索[81]、对抗训练[79]、结合分割和检测[30, 54,78]或建模对象位置的不确定性[8]来获得改进。其他方法使用CAM或类似技术[15, 19, 27, 76, 80,105]作为弱监督的显著性或定位图。最近的研究表明，显著性方法也可以应用于自监督网络[13,34]，例如用于对象共定位[13]。0自监督多模态学习。我们的工作还与使用多种模态进行表示学习[5, 6, 10, 12, 59, 66, 67]和同步[24, 50,64]的方法相关。最近的一些论文利用语音作为弱监督信号来训练视频表示[53, 58, 60, 82,83]，而[3]则使用语音、音频和视频。一些工作将从一种模态学习的知识蒸馏到另一种模态[1, 4, 28,104]。其他工作将光流和其他模态[35, 36, 68,102]纳入到学习表示中。例如，[87]的工作通过音频-视觉注意力学习在时间上定位音频事件。CMC[86]学习对数据的多个视图（如不同的颜色通道）不变的表示。多模态自监督也用于学习0声源分离在[29]中有相关研究，尽管他们假设已经有预训练的检测器。03. 方法0我们的目标是仅使用无标签视频学习目标检测器，同时学习对象的枚举、定位和分类。我们的方法包括三个阶段，如图2所示：首先，我们使用聚类和对比学习来学习有用的表示；其次，我们通过结合训练好的定位和分类网络来提取边界框和类别；第三，我们使用这些自提取的标签和边界框作为目标来训练一个现成的目标检测器。接下来，我们将解释每个阶段，并将读者引用到arXiv版本以获取更多的架构和训练细节。03.1. 表示学习0声源空间定位。我们的方法首先通过使用[7]中启发的对比学习公式训练声源定位网络（SSLN）。SSLN是通过对（v，a）进行训练而学习的，其中v ∈ R 3 × H ×W是一个视频帧（即静止图像），a ∈ R T ×F是在该特定视频帧中心处捕获的音频的频谱图。我们考虑了一对深度神经网络。第一个网络f v ( v ) ∈ R C × h ×w从视频帧中提取出一个C维特征向量的场，每个空间位置一个。我们使用符号f v u ( v ) ∈ R C来表示与位置u ∈ ψ= {1，...，h} × {1，...，w}相关联的特征向量。hu(v, a) = ⟨f vu(v), f v(a)⟩/ρ,u ∈ ψ,S(v, a) = maxu∈ψ hu(v, a).La→v(B) = − 1|B|�(v,a)∈Blogexp S(v, a)(v′,a′)∈B exp S(v, a′).Lv→a(B) = − 1|B|�(v,a)∈Blogexp S(v, a)(v′,a′)∈B exp S(v′, a).NC( ) = (a→v( ) +v→a( ))/2(1)Lv(B|y) = − 1|B|La(B|y) = − 1|B|�(v,a)∈Blog softmax(y(v, a) | ga(a)).Lclust(B|y) = (Lv(B|y) + La(B|y))/2.(2)1|D|�(v,a)∈D1{y(v,a)=k} =L(B|y) = λLNC(B) + (1 − λ)Lclust(B|y)(4)105780这里h ×w是计算空间特征的分辨率，通常是视频帧分辨率H ×W的一部分。第二个网络f a ( a ) ∈ RC提取音频信号的特征向量。重要的是，空间特征和音频特征共享相同的C维嵌入空间，因此可以进行对比。我们进一步假设向量f v u ( v )和f a ( a)进行了L2归一化（通过在相应的网络末尾添加归一化层实现）。然后使用两个特征向量的余弦相似度来计算空间位置的热图，期望与声音相关的对象会有更强的响应。该热图由以下公式给出：0其中ρ是可学习的温度参数。对于多模态对比学习公式[25，62，67]，将热图转换为视频v和音频a之间的总体得分。这是通过取响应的最大值来完成的：0对比学习目标通过考虑批次B中的视频（v，a）∈B来定义。这包括两个项。第一个测试视频帧与批次中可用的特定音频的匹配程度：0第二个类似，测试音频与其特定视频帧的匹配程度：0这两个损失在噪声对比损失中平均：0类别自标记。空间定位不提供任何类别信息，而我们的目标是还将数据集中的不同对象与“名称”相关联。为此，我们考虑了[9]的自标记方法。简要解释一下公式，令y ( v, a ) ∈Y = {1，...，K}为与训练对(v,a)相关联的标签。我们还考虑了两个分类网络。第一个将视频v映射到类别得分g v ( v ) ∈ RK，并通过最小化标准交叉熵损失进行优化：0( v,a ) ∈B log softmax( y ( v, a ) |g v ( v )) .0请注意，这个分类损失等同于对聚类索引（而不是图像索引）进行对比损失，而且没有进行归一化：由于最后的分类层可以被视为与每个对应聚类特征进行点积运算，它将表示推向对应聚类的特征，并远离其他聚类。另一个网络 g a ( a )是类似的，但使用音频信号：0正如[ 9 ]中所述，两个损失之间的关键联系是标签 y在模态之间共享。这是通过对两个损失求平均来实现的：0注意，标签 y 是未知的；根据[ 9]的方法，这些标签是通过分类网络进行交替学习，最小化相同的损失函数（ 2）。为了避免退化解，必须指定标签的边际分布，例如使用简单的等分约束：0对于所有 k = 1 , . . . , K (3)0其中 D表示整个数据集（所有批次的并集）。通过使用SK算法（如[ 9 ]中所述）可以高效地优化 y。联合训练。总结起来，给定数据集 D，我们随机选择批次 B ，优化损失函数：0其中 λ 是一个平衡超参数。该损失函数在定位网络 f v 和 f a 以及分类网络 g v 和 g a上进行优化。这些网络共享相同的主干网络 q v 和 q a0它们的区别仅在于它们的头部，因此可以写成 f v = ˆ f v ◦q v , g v = ˆ g v ◦ q v , f a = ˆ f a ◦ q a 和 g a = ˆ g a ◦q a 。该模型通过交替更新标签 y （使用等式（ 2）在约束（ 3 ）下）和通过优化等式（ 4）来更新网络进行训练。03.2. 提取用于检测的自标签0一旦定位和分类网络训练完毕，就可以使用它们来提取用于训练检测器的自注释。这可以分为两个步骤：提取物体边界框和找到它们的类别标签。边界框提取。为了获得对象的“自边界框”，我们使用[ 105]建议的简单启发式方法：将热图 h ( v, a ) 以值 ϵ ( h )进行阈值化，然后识别出最大的连通组件，并获得紧凑的边界框。ϵ(h) = β maxu∈ψ hu + (1 − β) 1|ψ|�u∈ψhu.(5)y∗(v, a) = arg maxy∈Y[gvy(v) + gay(a)].(6)+105790在该组件周围提取一个边界框 t � ( v, a ) ∈ Ω 2（该符号表示边界框由左上角和右下角的位置确定）。阈值由超参数 β动态确定，它是热图的最大响应和平均响应的凸组合控制的：0类别标注。如上所述，为了训练检测器，我们每个帧仅提取一个对象。同样，我们只需要为帧提取一个类别标签。这可以通过获取视觉和音频分类网络的最大响应来实现：0过滤注释。假设帧包含一个主要对象引入了噪声，但简化了问题，并使我们能够使用音频来获得更纯净的聚类。值得注意的是，我们不要求上述方法对于所有帧都有效，而是依靠我们的检测器来平滑处理特定和嘈杂的自注释以学习一个整体的检测结果。03.3. 训练目标检测器0上述过程得到了一个训练三元组的短列表 ( v, t � , y � ) ∈ Ddet ，其中 v 是一个视频帧（一张图像）， t �是提取的边界框， y �是其类别标签。我们使用这个数据集来训练一个现成的检测器，特别是Faster R-CNN [ 71]，因为它在速度和质量之间有良好的折衷。回想一下，给定一张图像 v ，Faster R-CNN检测器考虑一组边界框提议m ∈ M ( v ) � Ω 2 。然后，它训练网络 y ( m ) = f clsdet ( m | v ) ∈ { 1 , . . . , K, bkg } 和 t ( m ) = f loc det( m | v ) ∈ R 4 ，分别推断出边界框提议 m 的类别标签y ( m ) 和一个经过精细调整的全分辨率边界框 t ( m )。标签空间还扩展到包括一个背景类别bkg，因为大多数提议不会落在任何对象上。检测器通过找到提议和注释之间的关联来进行训练。为此，如果 m � =arg max m ∈ M ( v ) IoU( m, t � ) 是与伪地面实况边界框t � 最匹配的提议，那么优化目标为：0Ldet(v,t�,y�)=Lreg(t(m�),t�)+Lcls(y(m�),y�)0m ∈M(v):IoU(m,t�)<τLcls(y(m),bkg).0这里Lreg是边界框角坐标的L1损失，Lcls是标准的交叉熵损失。直观地说，0该损失要求最佳提议m�与伪标注的类别y�和边界框t�匹配，同时将与类别bkg匹配度较差（τ≤0.7）的提议m映射到背景类别。有关生成提议的区域提议网络的训练方法的更多细节，请参见arXiv版本。0讨论。训练一个检测器显然是解决我们设定的问题所必需的。然而，它也可以被看作是从嘈杂的自我注释中提取“干净”信息的一种方式。具体来说：（i）单个注释中的噪声在整个数据集上被平滑处理；（ii）由于内置的NMS步骤，即使每个训练图像只有一个自我注释，检测器仍然学会提取多个物体；（iii）通过学习拒绝大量的错误边界框提议，检测器学会比自我注释更精确。04. 实验0首先介绍数据集、实验设置和相关基准方法；然后将我们的方法与这些方法进行比较，通过消融实验和泛化能力进行进一步分析。04.1. 数据集0AudioSet-Instrument. AudioSet[31]是一个大规模的音频-视觉数据集，包含来自YouTube的10秒视频片段。我们使用AudioSet-Instruments[7]的“不平衡”分割子集进行训练，其中包含110个声音源类别，以及由[43]使用的更受限制的子集，涵盖13个乐器类别。按照之前的工作，我们使用“平衡”子集对[43]提供的注释进行评估。0VGGSound.VGGSound包含来自YouTube的超过200K个10秒片段，涵盖309个物体类别，其中音频和视频之间存在一定程度的相关性。我们通过只保留50个音乐乐器类别创建一个子集，得到约54K个训练视频，还有另一个子集，只保留其中39个类别，这些类别可以大致映射到测试集的注释（详见arXiv版本）。对于VGGSound，使用来自[29]的监督检测器获得伪标注的测试集注释，遵循[43]的方法。0OpenImages. 作为评估，我们还使用OpenImages[52]数据集中包含的音乐乐器子集，涵盖15个类别。04.2. 基准方法0目前还没有关于无监督学习多个物体类别的目标检测器的先前工作。相反，我们与弱监督检测器（因此使用图像级标签）和仅生成热图而不是检测结果的无监督定位方法进行比较。105800图3. 在OpenImages测试集上与弱监督目标检测方法PCL[84]进行定性结果和比较。我们的方法能够准确地检测出物体，并捕捉到它们的边界，即使它是在没有任何监督的情况下进行训练的。为了可视化目的，我们展示了与匈牙利方法匹配得到的标签。更多定性结果请参见arXiv版本。0对于弱监督检测，我们考虑了PCL[84]，这是我们找到的最强的基准方法的实现。作为我们的第二个基准方法，我们考虑了基于热图的定位方法，与我们类似，使用跨模态自监督学习。在这里，我们与[43]的最新方法DSOL进行比较，该方法产生一个大致定位物体并生成类伪标签的热图。最后，我们还与其他基准方法进行比较，例如简单地预测一个大的中心框和类别无关的区域提议方法，如选择性搜索，并使用在COCO[55]上进行监督训练的RPN。更多细节请参见arXiv版本。04.3. 实现细节。0评估类别伪标签。由于类别伪标签不带有类别名称（它们只是聚类索引），因此它们必须与人工标注的类别对应起来进行评估。根据先前在无监督图像聚类方面的工作[10, 14, 46,89]，我们应用匈牙利匹配[51]将学习到的聚类与地面真实类别进行匹配。重要的是，匹配是在检测器训练之后进行的，仅用于评估；这意味着检测器不使用任何手动标签。检测器训练。除非另有说明，定位器和检测器都是在VGGSound和AudioSet上进行训练的，而OpenImages仅用于评估。我们对VGGSound中的乐器数量没有任何信息，并使用所有没有单个/多个对象筛选的视频。为了与DSOL进行公平比较，并且仅针对表2中的相关实验，我们使用单乐器子集在AudioSet上进行训练以学习定位器。聚类数目。对于VGGSound训练，如果没有另外说明，我们使用K =39，与训练集中的39种对象类型相匹配。由于数据集大致平衡，我们使用如[9]中所述的均匀边缘。对于0在AudioSet训练中，我们使用K =30和高斯边缘。更多的实现细节可以在arXiv版本中找到04.4. 结果0自监督目标检测。我们在三个测试集上对我们的评估结果进行了总结，我们在表1中考虑了这三个测试集。根据图像目标检测文献，我们使用不同的IoU阈值的mAP作为评估指标。尽管我们的方法在训练过程中没有使用任何手动注释，但我们的方法明显优于PCL基线。只有当mAP计算的IoU阈值大幅放宽（0.3IoU）时，PCL在某些数据集上才能超过我们的方法。然而，对于更严格的阈值，我们的方法效果更好，这表明我们的检测具有相对较高的空间精度。为了了解噪声类别自标签的影响，我们还使用来自我们的定位网络的边界框标签训练和测试了一个检测器（我们的-弱监督），但是利用了地面真实的视频类别。结果表明，性能差异很小，在VGGSound和AudioSet中的AP50下降了3%。这进一步证明了我们的类别自标签的准确性，同时也显示了我们的模型在利用弱监督方面的潜力。按类别性能细分。为了更好地了解我们方法的优势和劣势，我们在表3中报告了按对象类别的性能细分。我们观察到，模型对于具有独特外观的大型对象类别（如手风琴和竖琴）始终能够获得良好的结果，但对于小型对象（如双簧管）或者数量接近的对象（如鼓）则较弱。与视听热图的比较。在表2中，我们将在AudioSet上训练的方法与最先进的声源定位方法进行了比较。为了与这些方法进行公平比较，我们将我们预测的边界框与置信度的并集进行转换Center Box*✓29.65.61.515.13.50.720.74.20.8Selective Search* [88]✓5.21.10.42.80.40.17.42.10.7COCO-trained RPN*✗33.47.51.619.04.10.824.411.12.6OpenImages28.575.330.26.66.515.014.580.428.822.528.857.09.718.16.3Audioset28.041.344.90.95.521.739.582.652.72.517.446.78.0--VGGSound39.488.639.41.850.03.434.995.650.214.456.3100.02.211.03.8mAP50# GT-cls. K VGGS O.Images392034.424.4393035.125.1393939.428.5395041.027.5mAP501-shot36.425.110-shot37.125.8105810VGGSound Audioset OpenImages 方法无标签? ↘ mAP 30 mAP 50 mAP mAP 30 mAP 50 mAPmAP 30 mAP 50 mAP0PCL (WSOD) [ 84 ] � 54.9 27.7 7.6 39.0 17.5 4.4 37.9 14.5 3.5 我们的-弱监督 � 67.6 42.9 14.2 50.630.9 10.3 48.9 33.7 9.50我们的-自助盒子* � 48.1 29.6 10.0 27.8 14.1 4.8 NA NA NA 我们的-完整 � 52.3 39.4 14.7 44.3 28.09.6 39.9 28.5 7.60表1.自监督目标检测。我们报告了三个测试数据集上的目标检测指标，并发现我们的方法在大多数指标上远远优于其他无监督方法，甚至优于弱监督基线。对于用于训练检测器的自助盒子，我们报告了类别不可知的评估结果，结果显示后者的性能远远优于它们，这突显了我们方法的优势。0单乐器多乐器方法 IoU-0.5 AUC cIoU-0.30像素声音 [ 103 ] 38.2 40.6 39.8 物体声音 [ 7] 32.7 39.5 27.1 注意力 [ 77 ] 36.5 39.5 29.9DMC [ 41 ] 32.8 38.2 32.0 DSOL [ 43 ] 38.940.9 48.70我们的方法 50.6 47.5 52.40表2.与声音定位方法的比较。由于我们的检测器不需要音频，我们直接在视频帧上进行检测。我们的模型优于基线方法。基线数据来自[42 ]。0数据集 mAP 50 手风琴大提琴鼓笛子喇叭吉他竖琴钢琴萨克斯管小提琴班卓琴长号小号双簧管0表3. 每类别mAP细分对于带有“-”的条目，测试集中不包含该类别的样本。0表4. 聚类数 K.我们的方法相对稳健（AP下降 <5%）对于自标记聚类的数量。0匹配 VGGS O.Images匈牙利算法 39.4 28.5 最大值39.6 30.1 手动 41.0 29.50表5.匹配策略。即使有39个标签，我们的方法也能准确执行。0将高于一定阈值的聚类转化为二进制图，并将后者作为伪热图来使用相同的评估代码。我们的方法在无类别单目标定位和有类别多目标定位方面优于其他方法，在推理过程中不使用音频信号。然而，我们注意到cIOU不是一个非常可靠的检测器（甚至声音定位器）评估指标，因为它偏向于召回率高于精确率：通过对所有类别的指标进行平均，最频繁出现的类别（例如鼓，吉他，钢琴）会主导指标。因此，我们建议研究界使用并在本文中报告均值平均精度（mAP）值作为更具指示性的指标。0消融：聚类数 K.在表4中，我们进行了一个实验，改变聚类数 K，从而改变检测器学习的目标类别数，同时保持测试集（包含15个类别）不变。我们观察到，当 K大于实际类别数时，我们的方法在一定范围内表现良好，并且当使用较少的聚类时性能逐渐下降。0数据高效的检测器对齐。在表5中，我们对聚类与匹配进行了研究。0与基准标签相比，我们使用匈牙利算法将聚类分配给基准标签进行评估。我们可以通过使用多数投票来提高这一步骤的计算效率，这在VGGSound上的准确性相同，而在OpenImages上提高了1.6%。使用手动分组策略（详见arXiv版本）可以获得另一个小的提升。我们还可以通过以下方式提高统计效率。虽然评估协议假设所有视频都被标记，并计算最佳分配，但在实际应用中，我们希望尽可能少地使用标记数据来命名聚类。为此，我们仍然使用多数投票，但假设每个聚类只有前 m个视频（基于关联强度）被标记。我们发现，即使只使用 m=1（即39个注释），我们的方法在VGGSound和OpenImages上仍然分别达到37.1%和25.3%。这与匈牙利算法相比下降了3%，通过使用 m =10（即390个注释）可以进一步减少至2.3%。0定性分析。我们在图3中展示了在具有挑战性的图像中成功检测到的物体的示例，同时还包括了PCL基线的输出。尽管我们的模型在训练过程中没有手动显示任何物体边界，但我们看到它可以学习到非常准确的边界框，并且可以成功地识别复杂场景中的多个物体。我们在arXiv版本中提供了更多示例。0迈向通用物体检测。迄今为止，所呈现的结果集中在仪器的子集上进行了重点研究，仅为了确保与先前的工作可比性。由于自监督学习的一个主要目标是利用大量未标记的数据，我们希望ClassAP30AP50AP[50:95:5]105820图4.超越乐器的物体检测。我们提出的方法可以学习准确检测更一般的类别的物体，只要它们可以与特征声音相关联。这里展示的结果来自一个在完整的VGGSound数据集上直接训练的模型，该数据集包括309个不同的视频类别。我们的方法成功地学习到了非乐器物体的检测，即使在复杂的多实例情况下也是如此。0平均值 45.6 24.4 6.50飞机 62.7 27.0 6.5 救护车 56.9 30.9 7.1 鸟 26.5 15.8 3.7汽车 29.8 18.4 5.1 猫 67.7 28.0 7.7 计算机键盘 53.342.6 12.9 计算机鼠标 35.9 25.4 8.8 青蛙 43.5 19.5 4.7狮子 34.1 22.2 4.9 雪地摩托 64.3 14.3 3.50表6. 通用物体类别的结果。0调查我们提出的方法在应用于更大规模时的普遍性和鲁棒性。为此，我们通过将整个VGGSound数据集纳入其中，而不进行任何过滤，将我们的预训练数据集增加了约10倍。我们将K设置为300，并保持所有训练参数不变；结果是一个可以分类300个伪类的无监督训练的物体检测器。与之前一样，我们使用匈牙利算法将这些类别与VGGSound标签进行匹配，并从OpenImages数据集中选择了十个我们有注释的类别（详细信息请参见arXiv版本）。0在图4中，我们展示了在OpenImages上进行的一些检测的定性结果。数值结果在表6中给出。我们发现，即使对于可变形的物体，如猫，我们也可以获得高达67.7％的AP30值，即使对于形状不同的物体，如飞机（见图4，右下角），我们也可以获得良好的性能62.7％。虽然AP50:95:5指标的结果表明仍有改进的空间，但这些初步结果表明，利用更大规模和更多样化的视频数据集进行自监督学习物体检测是一个有前途的途径。我们注意到，由于训练数据上进行了最小的筛选，并且在嘈杂的数据集中使用了大量不同的物体类别，这种训练设置非常具有挑战性。这些结果进一步突显了我们提出的方法的潜力。05. 讨论0局限性和社会影响。我们将读者引向arXiv版本，对失败案例进行了广泛的检查。检测失败表现为多个实例分组、缺失实例或部分物体检测，这些在WSOD文献中都有详细记录。另一个错误是检测到错误的物体，这些物体通常与感兴趣的物体一起出现，这是由于数据中的偏差造成的（例如，嘴部区域作为风乐器）。错误的分类经常发生，原因包括：i）视觉上相似的类别混淆-例如，喇叭和小号；ii）不正确的语义匹配；iii）由于物体的方向引起的混淆-例如，将垂直的小提琴误认为是大提琴。关于训练，可能还有进一步的优化可能性，例如更多的端到端设计。与监督检测相比，我们方法的一个缺点是对学习概念的人类控制减少了，这可能需要在部署之前进行额外的手动验证。0结论。我们提出了一种通过观看无标签视频纯粹进行自我监督训练强大的目标检测器的方法。我们证明了我们的最佳模型的性能优于基于热图的方法，同时不需要音频，并且优于弱监督基线，即使在筛选出训练后的噪声样本的数据集中。我们还解决了使用匈牙利算法进行评估的一个缺点，通过展示自我监督检测器的数据有效对齐仅需要一个伪标签图像。最后，我们将我们的方法应用于音乐乐器之外的领域，并发现它可以在这种不太筛选的情况下学习合理的检测器，为通用的自我监督目标检测铺平了道路。0致谢。Y.M.A感谢AWS提供的MLRA资助。105830参考文献0[1] Triantafyllos Afouras, Joon Son Chung, and AndrewZisserman. ASR就是你所需要的：用于唇读的跨模态蒸馏.在ICASSP会议上发表的论文，2020年. 30[2] Triantafyllos Afouras, Andrew Owens, Joon Son Chung,and Andrew Zisserman. 从视频中自我学习音频-视觉对象.在ECCV会议上发表的论文，2020年. 20[3] Jean-Baptiste Alayrac, Adri`a Recasens, RosaliaSchneider, Relja Arandjelovic, Jason Ramapuram, Jeffrey DeFauw, Lucas Smaira, Sander Dieleman, and AndrewZisserman. 自我监督多模态通用网络.0[4] Samuel Albanie, Arsha Nagrani, Andrea Vedaldi, andAndrew Zisserman. 利用野外交叉模态转移进行语音情感识别.在ACMM会议上发表的论文，2018年. 30[5] Humam Alwassel, Dhruv Mahajan, Bruno Korbar,Lorenzo Torresani, Bernard Ghanem, and Du Tran.通过交叉模态音频-视频聚类进行自我监督学习.在NeurIPS会议上发表的论文，2020年. 2 , 30[6] Relja Arandjelovic and Andrew Zisserman. 看、听和学习.在ICCV会议上发表的论文，2017年. 30[7] Relja Arandjelovic and Andrew Zisserman. 发出声音的物体.在ECCV会议上发表的论文，2018年. 2 , 3 , 5 , 70[8] Aditya Arun, C. V. Jawahar, and M. Pawan Kumar.基于不相似系数的弱监督目标检测.在CVPR会议上发表的论文，2019年. 30[9] Yuki M. Asano, Mandela Patrick, Christian Rupprecht,and Andrea Vedaldi.通过多模态自我监督从头开始标记无标签视频.在NeurIPS会议上发表的论文，2020年. 1 , 2 , 4 , 60[10] Yuki M. Asano, Christian Rupprecht, and AndreaVedaldi. 通过同时聚类和表示学习进行自我标记.在ICLR会议上发表的论文，2020年. 2 , 3 , 60[11] Yusuf Aytar, Carl Vondrick, and Antonio Torralba.Sound-Net: 从无标签视频中学习声音表示.在NeurIPS会议上发表的论文，2016年. 20[12] Yusuf Aytar, Carl Vondrick, and Antonio Torralba.Soundnet: 从无标签视频中学习声音表示.在NeurIPS会议上发表的论文，2016年. 30[13] Kyungjune Baek, Minhyun Lee, and Hyunjung Shim.Psynet: 利用点对称变换进行自我监督目标定位的方法.在AAAI会议上发表的论文，2020年. 30[14] Miguel A Bautista, Artsiom Sanakoyeu, EkaterinaTikhoncheva, and Bjorn Ommer. Cliquecnn:深度无监督样本学习. 在NeurIPS会议上发表的论文，2016年. 60[15] Loris Bazzani, Alessandra Bergamo, Dragomir Anguelov,and Lorenzo Torresani. 利用深度网络进行自学习目标定位.在WACV会议上发表的论文，页码1-9，2016年. 30[16] Hakan Bilen, Vinay P. Namboodiri, and Luc Van Gool.使用潜在变量的物体和动作分类.在BMVC会议上发表的论文，2011年. 10[17] Hakan Bilen and Andrea Vedaldi. 弱监督深度检测网络.在IEEE计算机视觉模式识别（CVPR）会议上发表的论文，2016年. 30[18] Mathilde Caron, Piotr Bojanowski, Armand Joulin, andMatthijs Douze. 用于无监督学习的视觉特征的深度聚类0. In ECCV , 2018. 20[19] Adity

下载后可阅读完整内容，剩余1页未读，立即下载