自监督视频学习的ACAV100M数据集

74 浏览量更新于2023-10-13 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10274ACAV100M：用于视听视频表示学习的SanghoLee*，*Jiwan Chung*，Youngjae Yu，GunheeKim首尔国立大学Thomas Breuel，GalChechik NVIDIAResearch微软研究院https://acav100m.github.io摘要视觉观察与其对应的声音之间的自然关联提供了用于学习视频表示的强大的自我监督信号，这使得不断增长的在线视频量成为有吸引力的训练数据源。然而，由于编辑/配音的音频，大部分在线视频包含不相关的视听信号，并且在这种未经策划的视频上训练的模型已经显示出学习次优表示。因此，现有的自监督方法依赖于具有语义概念的预定分类的数据集不幸的是，构建这样的数据集需要劳动密集型的手动注释和/或验证，这严重限制了在线视频用于大规模学习的效用在这项工作中，我们提出了一个自动数据集策展方法的基础上子集优化，其目标是最大限度地提高视频中的音频和视觉通道之间的相互信息。我们证明了我们的方法可以找到具有高视听对应性的视频，并表明与在现有手动策划数据集上训练的模型相比，在我们的数据上训练的自监督模型具有竞争力。我们的方法最显著的优点是可扩展性：我们发布了ACAV100M，其中包含1亿个具有高视听对应性的视频，非常适合自监督视频表示学习。1. 介绍我们的长期目标是学习识别视频中的对象、动作和声音，而不需要手动的地面实况标签。这不仅是一个理论上有趣的问题，因为它模仿了所有的发展*同等贡献max$（$，$）S U$∈S未策展互联网视频数据集管理ACAV100M我们的：子集优化噪音AV对应常规：劳动密集型高AV对应X注释验证图1.我们解决了从未经策划的互联网视频构建大规模视听数据集而不依赖于手动注释或验证的挑战。我们解决了一个约束优化问题，找到一个子集，最大限度地提高视频中的音频和视觉信号之间结果是一个新的100M视频数据集，具有高视听对应性，非常适合自监督视频表示学习。虽然本发明的方法可以提高婴儿的听觉和视觉感知能力[21]，但是它也具有巨大的实际重要性，因为对视听数据进行精确的手动标记是不切实际的。与静态图像上的自监督学习相比[50，28，25，12]，视听输入带来了额外的挑战：视频的大部分可能不包含相关信息，并且听觉和视觉输入可能不总是一致的。因此，现有的关于视听数据的自监督方法要么从视听对应概率高的数据集开始必要的数据集通常是手动创建的或依赖于特定于域的属性（例如，[9，20]及以下）。如果我们想要在不手动生成和/或选择视频剪辑的情况下对全长（分钟、小时）视频执行自监督学习，则我们需要从全长视频的不同集合中策划音频/视频剪辑的这样的集合的自动化方式我们考虑从无标签的10275视频作为两步处理：（1）自动数据集处理，其生成具有有用的自我监督信号的短的相关剪辑，例如，视听对应，以及（2）对短剪辑的集合进行操作的自监督学习方法本文关注于步骤（1）而不是步骤（2），提供了一种自动化的方式来获取任意长度的通用或特定于域的视频的集合，并将其减少为包含高部分相关音频-视频对应的较短剪辑的集合。这一步的输出是一个数据集，它可以可以用作视听数据[34，3，54]上现有自监督算法的输入，以及新的自监督技术的开发。为了实现步骤（1），我们假设访问大量无约束视频，并以视听对应的信息论度量作为选择标准来解决子集选择问题。具体来说，我们找到一个子集，最大限度地提高视频的音频和视频通道之间的互信息（MI）。这是依赖于视听对应的自我监督学习方法的必要条件我们解决的主要技术挑战是如何有效地测量视听MI，并找到一个子集，最大限度地提高MI在一个可扩展的方式。考虑到视频处理通常是计算和存储密集型的，我们特别强调可扩展性，即，我们想要一种能够容易地处理数亿个视频剪辑的方法。MI估计具有悠久的研究历史[53，35]，包括最近的自监督方法[50，28，12]，其使用噪声对比估计[23]作为学习对象。虽然在我们的工作中使用这些方法来评估MI是很诱人的，但我们很快就会遇到“鸡和蛋”的问题：为了获得用于估计视听MI的这种模型，我们需要一个训练数据集，在该训练数据集中，我们可以可靠地构建具有高概率视听对应的正对;但这正是我们首先要找到的！人们可能认为从互联网上随机选择视频就足够了，但这已经显示出产生次优表示[3];我们的实验结果还表明，自监督模型确实受到噪声的真实世界视听对应的影响。在这项工作中，我们转向基于聚类的解决方案，通过测量两个数据分区之间的一致性来估计MI[42，67]。为了规避“鸡和蛋”的使用现成的模型是视频数据集生成中的标准实践与使用它们作为概念分类器的现有方法不同[8，1，43，47，11]，这里我们使用它们作为通用特征提取器。为了避免基于训练现成模型的一组受限概念来估计MI，我们对跨多个层计算的特征执行聚类（而不是仅对每个层进行聚类）。估计层），其已被证明提供不与特定概念相关联的一般特征描述符[76]。为了使我们的方法可扩展，我们避免使用诸如劳埃德算法[52]之类的内存繁重的组件此外，我们用小批量贪婪方法近似求解子集最大化目标[13]。通过与地面实况和嘈杂的现实世界的对应关系的对照实验，我们表明，我们的基于聚类的方法是更强大的现实世界的对应模式，导致优越的经验性能比对比MI估计方法。我们以前所未有的规模在大量视频上展示了我们的方法：我们处理了1.4亿个全长视频（总时长1,030年），并产生了1亿个10秒剪辑（31年）的数据集，具有高度的视听对应性。我们称这个数据集为ACAV100M（自动创建的100M视频的音频视觉数据集的缩写）。它比视听学习文献中使用的当前最大视频数据集大两个数量级，即，AudioSet [20]（ 8个月），并且是文献中最大视频数据集的两倍，即，[44]第44话（15年）为了评估我们的方法在自我监督视听表示学习中的效用Kinetics-Sounds [4]为20 K级，VGG-Sound [11]为200 K级，AudioSet [20]为2 M级。在具有三个下游数据集UCF 101 [62]，ESC-50 [56]和Kinetics- Sounds [4]的线性评估协议下，我们证明了在我们的数据集上预训练的模型具有竞争力或优于在基线数据集上预训练的模型，这些数据集是通过仔细注释或手动验证构建的。总结一下，我们的主要贡献是：1）我们提出了一种信息论子集优化方法来寻找具有高比例相关视听对应的大规模视频数据集。2)我们通过使用地面实况和嘈杂的现实世界对应模式的受控实验来评估我们的管道的不同组件。3）我们发布了ACAV100M，这是一个包含100M视频的大规模开放域数据集，用于视听表征学习的未来研究。2. 相关工作大规模数据管理。已经收集了几种不同类型的视听视频数据集：（1）人工标记的，例如，AudioSet[20] ， AVE [65] ，（ 2 ）域特异性，例如， AVAActiveSpeaker [58] ， AVA Speech [10] ， Greatest Hits[51]，FAIR-Play [19]，YouTube-ASMR-300 K [75]，以及（3）来自消费者视频网站的未标记，无限制的集合，例如，Flickr-SoundNet [5，4].10276AudioSet [20]包含约2 M剪辑，对应于通过关键字搜索从YouTube检索到的音频事件;人工评价者验证候选视频中音频事件的存在。Moments in Time [46]包含超过一百万个不同视觉和听觉事件的剪辑;使用关键词（动词）选择视频剪辑，并手动检查剪辑和关键词之间的高度对应性。 HowTo100M[44]包含1.36亿个片段，这些片段是从YouTube上通过文本搜索重新检索的1.22亿个有叙述的教学网络视频中分割出来的，并具有基于元数据的额外过滤步骤。网络视频和文本（WVT）[64]包含7000万个剪辑，这些剪辑是通过基于Kinetics-700 [9]类别的关键字搜索网络获得的，并保留视频和相关文本。Chen等人[11]创建了200 K剪辑的数据集用于视听研究;剪辑最初是通过YouTube上的关键字搜索获得的，并且用预先训练的视觉分类器对帧进行分类。由于关键词和视觉类并不完全对应，因此需要在迭代和交互过程中对随机采样的剪辑进行我们正在建立系统，用于学习视听对应的多样化，不受限制的输入。这需要大量的训练数据，使得手动收集和标记成本高且不切实际。与之前涉及昂贵的人工干预的数据集策展过程不同，我们为大规模视听数据集引入了一个自动和可扩展的数据策展管道。子集选择。我们的工作集中在数据子集的选择;广泛的先前工作存在于监督[66，72，61，71]，无监督[24，73]和主动学习设置[39，60]中。在文献中已经探索了子集选择的不同标准。子模块函数自然地对信息、多样性和覆盖率的概念进行建模[70]，并且可以使用贪婪算法[45，48]进行有效优化。像coreset [2]这样的几何标准旨在近似具有相对较小子集的大型数据集上的几何范围度量。输入特征值和/或标签之间的互信息（MI）已被成功地用作概率激励标准[22，40，63]。我们建议使用MI作为子集选择的目标函数，并做出以下两个独特的贡献：首先，我们使用MI来测量音频和视觉特征之间的MI公式视频内的视听对应。其次，我们将MI应用于大规模视频数据集的策展问题。在基于聚类的MI估计的情况下，我们证明，优化MI目标与贪婪算法是一个实用的解决方案，为建设一个大规模的管道。3. 数据收集管道我们的管道包括四个步骤：（i）从网络获取原始视频并基于元数据对其进行过滤，（ii）将视频分割成剪辑并利用预先训练的提取器提取特征，（iii）估计音频和视觉表示之间的相互信息（MI），以及（iv）选择使MI最大化的剪辑子集。3.1. 获取候选人视频我们抓取YouTube下载各种主题的视频。与之前使用精心策划的关键字集[11]的工作不同，这可能会无意中引入偏见，我们的目标是捕捉网站中存在的主题的自然分布。为了确保主题、文化和语言的多样性，我们使用不同的关键字、地点、事件、类别等创建搜索查询组合。以获得初始视频列表。在下载视频之前，我们使用元数据（由YouTubeAPI提供）处理搜索结果，以过滤掉可能的低质量/低视听对应视频。我们使用持续时间来排除短于30秒的视频（以避免低质量视频）和长于600秒的视频（以避免大量存储成本）。我们还排除包含所选关键词（在标题或描述中）或来自某些类别的视频游戏、动画、屏幕播放和音乐视频-因为大多数视频呈现非自然场景（计算机图形）和/或低视听对应。最后，我们使用fastText [31，32]从标题和描述中检测语言，并保留构成累积比率为0的标题和描述。9、产生八种语言（英语、西班牙语、葡萄牙语、俄语、日语、法语、德语和韩语）。结果是1.4亿个全长视频，总时长为1，030年（中位数：198秒）。为了最小化存储成本，我们下载360 p分辨率的视频;这仍然消耗1.8PB的存储空间。处理如此大规模的数据需要精心设计的数据管道。我们在下面讨论我们的模块化管道。3.2. 分割特征提取剪辑分割。为了避免多余的剪辑，我们提取多达三个10秒的剪辑，从每个全长视频。我们通过检测镜头边界（使用FFmpeg中的scdet过滤器）和基于MPEG-7视频签名（使用FFmpeg中的签名过滤器）计算成对剪辑相似性来实现这一点然后，我们选择最多3个片段，使用局部搜索[30]给出最小总成对分数这给了我们大约3亿个剪辑。特征提取。为了测量300M剪辑的音频和视频通道之间的对应关系，我们需要良好的特征表示。理想的表示将从低级细节（例如，纹理和流动）到高级概念（例如，语义范畴）。然而，这样的oracle提取器很难获得，并且数据的庞大规模使得端到端学习最佳特征提取器因此，我们认为，10277←←∅←的Vi=1← ∪←Nb··exp（S（zv，za）/τ）Xi=1Xj=1--|一||V|㈠（j）{CV }∪ {CA}C我们使用“现成的”预训练模型来提取特征，即，SlowFast [15]在Kinetics-400 [33]上预训练，VGGish [27]在YouTube-8 M [1]上预训练，分别用于视觉和音频功能3.3. 通过MI最大化进行接下来，我们选择在视觉和音频通道之间表现出强对应性的剪辑。为此，我们估计音频和视频信号之间的互信息（MI）计算精确的MI是不可行的，因为它需要估计高维变量的联合分布，但确实存在几个近似解[68]。在这里，我们实现并比较两种方法：噪声对比估计器（NCE）[23]，其测量连续特征空间中的MI，以及基于聚类的估计器，其经由矢量量化计算离散空间中的MI。前者估计每个视频剪辑的MI，而后者估计一组视频剪辑的MI。正如我们稍后在实验中所示，我们发现基于聚类的MI估计器对现实世界的噪声更具鲁棒性。3.3.1基于NCE的MI估计对比方法已成为在不同数据视图之间估计MI的流行方法[50，28]。我们在预先计算的音频/视觉特征上添加线性投影头，并使用对比损失[12]训练它们。小批量生产的（v i，a i）Nb 其中v和ai分别是视觉和音频特征，我们最小化exp（S（zv，za）/τ）l（vi，ai）=−logΣi i ，（1）j=1我 J算法一：批量贪婪子集选择输入：初始数据集D，MI估计器F，目标子集大小M，批量大小b，选择大小s输出：XD，|X|= MX0←，i ←0而|Xi|25%。质心的数量。我们改变质心的数量K8，16，32，64，128来看看我们的方法对参数的敏感程度。我们在Kinetics-Sounds上应用批量大小b=100和选择大小s=25 图3显示，尽管不同数量的质心的最终性能相似，但它们显示出不同的趋势：欠聚类（k=8，16）在早期迭代中显示出高精度，而过聚类（k={64，128}）在后期阶段显示出较慢的下降。5. 大规模评估图2. 贪婪算法与批处理贪婪算法，具有不同的选择与批处理大小比率，s/b。阴影区域显示了在Kinetics-Sounds上运行5次获得的99%置信区间。批量贪婪算法在该比例为25%时具有较好的鲁棒性。10090807060500.00K 3.00K 6.00K 9.00K迭代图 3. 质心个数的敏感性分析。我们基于 Kinetics-Sounds（c=32）中的类类别的地面实况数来确定欠聚类/过聚类。阴影区域显示5次运行的99%置信区间。集.我们比较了贪婪算法和批量贪婪算法，批量大小b=160，不同的选择大小s=5，10，20，40，80。如图2所示，贪婪算法和批处理贪婪算法之间的性能差距很小（贪婪：98.970与具有（b，s）=（160，5）：98.020的批量贪婪算法相比），这验证了我们对批量贪婪算法的使用。虽然批量大小本身对子集质量没有很大的影响，但选择大小与批量大小的比率（s/b）高度影响检索性能;在几种（b，s）配置中，当比率超过0.25时，性能急剧下降这主要取决于网络：通过构造，存在50%的机会，样品将是阳性的。我们认为，构建的数据集包含大约25%的简单阳性，即，对应度非常高的视频。当选择比s/b不超过易正比时，批量贪婪算法在不引入我们以不同的尺度（20 K，200 K，2 M）构建数据集，并将其与视听学习文献中常用的现有数据集进行比较：Kinetics-Sounds [4]（20K）、VGG-Sound [11]（200K）和AudioSet [20]（2M）。请注意，所有三个数据集都涉及人工注释[4，20]或手动验证[11]。为了证明我们的方法的可扩展性，我们还生成了具有10M和100M视频的数据集，并评估了它们的性能。对于对比方法，我们从随机抽取的1024个批次上训练线性投影头。100M视频请注意，这些附加视频仅用于训练用于MI估计的投影头（第12节）。3.3.1），一旦数据集策展完成就丢弃;所有方法在所有下游任务上在相同的评估协议下使用相同数量的视频。我们训练了三个时期的模型，并根据余弦相似度对整个视频集（300M）进行排名[12]。然后，我们采取顶级N20K， 200K，2M排名的视频为决赛数据集。对于基于聚类的变体，我们改变数量-对于每个大小的数据集，聚类C的BER为100、200、500、1000、20005.1. 下游任务的线性评估为了评估数据集的质量，我们在不同的数据集上预训练相同的模型，并评估它们在下游任务上的性能。这个想法是，如果一个模型比其他模型表现得更好，那么用于训练该模型的数据集必须优于其他数据集。我们使用SimCLR的自监督目标从头开始预训练视听CNN [12];我们分别使用3D ResNet- 50 [16]和ResNet-50[26]作为视觉和音频CNN。我们遵循线性评估协议[12]，在学习和冻结模型的顶部添加线性分类器我们对三个下游任务进行测试：UCF 101上的视觉动作识别[62]， ESC- 50上的声音分类 [56]，以及 Kinetics-Sounds上的视听动作识别[4]（我们将线性分类器的视听特征连接起来）。注意，训练过程对于所有模型都是我们报告的平均准确度跨越官方分裂贪婪比=0.0312比率 =0.0625比率 =0.1250 比率 =0.2500 比率=0.5000精度精度n质心s=8（欠聚类g）的n质心n质心n质心s=16（下群集S=32s=64（过度聚类ing）g）的n质心s=128（过簇ing）10282UCF101ESC-50动力学-声音前1名准确度前5名精度图4.下游任务的线性评估。UCF 101上视频分类的前1/5准确率（%）[62]，ESC-50上的音频我们根据下游任务和预训练数据集的规模对结果进行分组。基线是Kinetics-Sounds [4]（20 K），VGG-Sound [11]（200 K）和AudioSet [20]（2 M）。UCF 101和ESC-50。我们在补充材料中提供了这些实验设置的详细信息。图4显示，在我们的数据集（绿色条）上预训练的模型在20K，200K和2M尺度下与基线数据集（粉红色条）相比实现了相似甚至更好的性能。我们与随机集合（黄色条）显示改进不是来自我们抓取的初始池（300M集合），而是来自结果数据集中的视听对应的较高部分。我们的聚类方法MI估计（绿色条）一般优于对比方法（蓝色条），表明其鲁棒性嘈杂的现实世界的视听对应。最后，我们报告了使用基于聚类的MI估计模块产生的10M和100M数据集获得的结果（由于计算原因，我们省略了这些尺度的基线结果10米和100米型号带来的显著性能提升考虑到我们的数据策展过程不涉及人为干预（即，没有手动注释和验证）这是一个有希望的结果，显示了大规模自监督学习的潜力：可以获得任意尺度的数据集，并通过利用数据集中提供的高部分视听对应来开发自监督模型。5.2. 人工评价我们进行了用户研究，以评估感知的存在/不存在的视听对应的视频剪辑。我们比较了来自四个数据集的剪辑：AudioSet[20]，VGG- Sound [11]，我们的聚类（2 M规模，1 K聚类）和随机（从300 M集合中抽取）。我们从这些数据集中的每个数据集中准备100个随机采样的剪辑，总共400个剪辑。我们招募了12名参与者，并向每个参与者提供100个剪辑（每个数据集25个剪辑），并询问他们音频和视觉是否对应。这为我们提供了每个视频3票（我们提供的细节数据集多数票（%）弗莱斯AudioSet65.660.4385VGG-Sound84.000.4634我们的（2M）69.000.5110随机44.000.6112表3.评估来自不同数据集的视频中的感知视听对应的人类评估结果补充材料中的调查表）。表3显示了多数投票准确性和评分者间一致性（通过Fleiss Kappa [18]测量）。每个数据集的Fleiss我们的显着提高了视听对应超过一个随机子集（69%与。44%），甚至比AudioSet的评级略高。AudioSet的注释过程集中在音频事件上，因此我们怀疑有几个视频不包含可见的声源。我们和VGG-Sound之间还有很大的差距;我们注意到，我们的过程发现视听对应，而不依赖于如在VGG-Sound中所做的人工验证。6. 结论这项工作补充了现有的自我监督表示学习研究路线，主要有三个贡献：i）提出了一种用于视听表示学习的自动和可扩展的数据收集管道，ii）证明了基于MI的子集选择可以在人工和实际设置中检索对应关系，以及iii）发布由我们的管道管理的1亿个剪辑组成的大规模开放域视频数据集。鸣谢。首尔国立大学的作者得到了韩国政府资助的信息通信技术规划评估研究所（IITP）资助（MSIT）（No.2017-0- 01772，视频图灵测试，No.2019-0-01082，SW StarLab）。10283引用[1] Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，PaulNatsev ， George Toderici ， Balakrishnan Varadarajan ，and Sudheendra Vijayanarasimhan. Youtube-8 M：一个大规模视频分类基准。arXiv预印本arXiv：1609.08675，2016。[2] Pankaj K Agarwal ， Sariel Har-Peled ， and Kasturi RVaradarajan. 通过 Coresets 的几何近似。 Combinatorialand Computational Geometry，52：1[3] Humam Alwassel、Dhruv Mahajan、Lorenzo Torresani、Bernard Ghanem和Du Tran。跨模态音视频聚类的自监督学习。arXiv预印本arXiv：1911.12667，2019。[4] Relja Arandjelovic和Andrew Zisserman。看、听、学。InICCV，2017.[5] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴声音网络：从未标记的视频中学习声音表示。InNeurIPS，2016.[6] David Bau 、 Bolei Zhou 、 Aude Oliva 和 AntonioTorralba。通过网络分解解释深度视觉表示。PAMI，41（9）：2131[7] 里昂·博图和约舒亚·本吉奥K-Means算法的收敛性在NeurIPS，1995中。[8] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。ActivityNet：人类活动理解的大规模视频基准。CVPR，2015。[9] JoaoCarreira，EricNoland，ChloeHillier，andAndre wZis-serman.关于Kinetics-700人类行为数据集的简短说明。arXiv预印本arXiv：1907.06987，2019.[10] 放大图片作者：Daniel P.W. Ellis，Andrew Gallagher，Liat Kaver ， Radhika Marvin ， Caroline Pantofaru ，Nathan Reale，Loretta Guarino Reid，Kevin Wilson，andZhonghua Xi.AVA-Speech：A Densely Labeled Dataset ofSpeech Activity in Movies. InInterspeech，2018.[11] 陈洪烈，谢伟迪，安德烈·维达尔迪，安德鲁·齐斯瑟曼。 VGGSound ：一个大规模的视听数据集。在ICASSP，2020年。[12] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，2020。[13] Yuxin Chen和Andreas Krause。近最优批处理模式主动学习和自适应子模块优化。ICML，2013年。[14] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。CVPR，

下载后可阅读完整内容，剩余1页未读，立即下载