没有合适的资源?快使用搜索试试~ 我知道了~
声音的物体Rel jaAranddjelovi´c1anddandrewZissserman1,21DeepMind2牛津大学工程科学系VGG抽象。在本文中,我们的目标是,第一,网络,可以嵌入音频和视觉输入到一个共同的空间,这是适合于跨模态检索;第二,在给定音频信号的情况下,可以定位在图像中发声的对象的网络。我们实现了这两个目标的训练,从未标记的视频,仅使用视听对应(AVC)作为目标函数。这是来自视频的跨模态自我监督的形式为此,我们设计了新的网络架构,可以通过使用AVC任务进行训练,用于跨模态检索和定位图像中的声源 我们做出了以下贡献:(i)表明音频和视觉嵌入可以学习,使模式内(例如音频到音频)和模式间检索;(ii)探索用于AVC任务的各种架构,包括用于摄取单个图像、或多个图像、或单个图像和多帧光流的视觉流的架构;(iii)示出可以定位在图像内发声的语义对象(仅使用声音,没有运动或流信息);以及(iv)给出关于如何避免数据准备中的不期望的捷径的警示故事.1介绍最近人们对从图像和音频中进行跨模态学习的兴趣激增[1-4]。这种激增的一个原因是以视频形式(例如来自YouTube)的几乎无限的训练材料的可用性,这些材料可以提供图像流和(同步的)音频流,并且这种跨模态信息可以用于训练深度网络。跨模态学习本身在计算机视觉中有着悠久的历史,主要是以图像和文本的形式[5-7]。虽然音频和文本共享它们本质上都是顺序的事实,使用音频来搭配图像的挑战与使用文本的挑战显著不同。文本比音频更接近于语义注释。用text,e。G. 在图像的预更新的形式中,可以直接获得副本(例如“狗”),然后问题是提供与图像中的新记录和空间区域之间的对应关系[ 5,8]。 对于音频,获取语义不那么直接,图像分类,因为概念狗不能直接从信号中获得,而是需要像ConvNet这样的东西来获得它(考虑分类关于其是否包含狗的图像,以及将音频剪辑分类为是否包含狗的声音)。2R. Arandjelovi'c andA.滋·斯·尔·曼·恩(a) 带声音的输入图像(b)声音在哪里?Fig. 1.声音在哪里?给定输入图像和声音片段,我们的方法在没有单个标记示例的情况下学习定位发出声音的对象在本文中,我们的兴趣是在跨模态学习的图像和au-dio [1-4,9-12]。特别是,我们使用未标记的视频作为源材料,并采用视听对应(AVC)作为训练目标[4]。简而言之,给定视频帧和1秒音频的输入对,AVC任务要求网络决定它们是否对应。 正(匹配)和负(失配)对的标签被直接获得,因为视频提供视觉流和音频流之间的自动对准一一来自由于标签是直接从数据本身构建的,因此这是“备份”[ 13-22]的示例,其被称为未备份数据。AVC任务刺激学习的视觉和音频表示是有区别的,以区分匹配和不匹配的对,并且在语义上有意义。后者是这种情况,因为网络解决该任务的唯一方法是如果它学习对两种模态的语义概念进行分类回想一下,视觉网络只能看到一帧视频,因此它无法通过利用运动信息来学习作弊。在本文中,我们提出了两个网络,使新的功能:在第3节中,我们提出了一个网络架构,它可以产生直接适合于跨模态检索的嵌入;在第4节中,我们设计了一个网络和学习过程,能够定位声源,即。 回答基本问题- “图像中的哪个物体发出声音?“.图1中示出了示例。这两个都是从头开始训练的,没有任何标签,使用相同的无监督视听对应任务(AVC)。2数据集在整个论文中,我们使用公开可用的AudioSet数据集[23]。它由来自YouTube的10秒剪辑组成,重点是音频事件,并且可以使用视频级别的音频类别标签(每个视频可能超过1个)。声音的物体3但噪声较大;标签被组织在本体中。为了使数据集更易于管理和有趣,我们过滤了乐器,唱歌和工具的声音,产生110个音频类(完整列表已给出在附录[24]中),删除不感兴趣的类,如呼吸、正弦波、音效、次声、静音等。视频是具有挑战性的,因为许多视频质量很差,音频源并不总是可见的,并且音频流可以被人为地插入到视频之上,例如,通常的情况是,视频是由音乐作品和专辑封面、命名歌曲的文本、音乐家的静止帧、或者甚至完全不相关的视觉图案(如风景)等编辑的。数据集已经带有一个公共的训练-测试分割,我们随机分割公共训练集按90%-10%的比例分成训练集和验证集。最终的AudioSet-Instruments数据集分别包含263 k、30 k和4.3k 10 s片段,分别位于train、val和test分割我们再次强调,我们的任何方法都没有使用任何标签,因为我们将数据集纯粹视为无标签视频的集合。标签仅用于定量评估目的,例如评估我们的无监督跨模态检索的质量(第3.1节)。3跨模式检索在本节中,我们描述了一种能够从头开始学习良好的视觉和音频嵌入的网络架构,此外,这两个嵌入被对齐,以便能够跨模态进行查询,例如,使用图像来搜索相关的 声音。视听嵌入网络(AVE-Net)的目的是明确地促进跨模态检索。输入图像和1秒的音频(表示为对数频谱图)分别由视觉和音频子网络(图2a和2b)处理,然后进行特征融合,其目标是确定图像和音频在AVC任务下是否对应。在图2c中完整详细地示出了架构。要强制要素对齐,AVE-Net将对应性得分计算为归一化的视觉和音频嵌入之间的欧几里德距离的函数。这个信息瓶颈,即总结图像和音频是否对应的单个标量值,迫使两个嵌入对齐。此外,在训练期间使用欧几里德距离是至关重要的,因为它使该距离的特征“有区别”,用于使该距离能够保持有效[ 26]。这两个子网络为每个模态产生128-D L2归一化嵌入。计算两个128-D特征之间的欧几里得距离,并且该单个标量通过微小的FC,该FC缩放和移动距离以校准它用于随后的softmax。FC的偏置基本上学习关于距离的阈值,高于该阈值,两个特征被认为不对应。与以往作品的关系 在[4]中引入并在图2d中 示 出 的 L 3 - N e t 也使用AVC任务进行训练。不过,L3-Net影音4R. Arandjelovi'c andA.滋·斯·尔·曼·恩对应:是/否?对应:是/否?Conv4_23x316x12x512Conv4_13x316x12x512泳池3 2x216x12x256Conv3_23x332x25x256Conv3_13x332x25x256泳池22x232x25x128conv2_23x364x50x128conv2_13x364x50x128泳池12x264x50x64Conv1_23x3128x100x64conv1_13x3步幅2128x100x64257x200x1257x200x1224x224x3224x224x3224x224x3(a) Vision ConvNet1秒48kHz音频(b) 音频ConvNet1秒48kHz音频(c) AVE-Net1秒48kHz音频(d) L3-Net [4]图二. ConvNet架构。每个块代表一个单独的层,其中文本提供更多信息每个卷积层后面是批量归一化[25]和ReLU非线性,第一个全连接层(fc1)后面是ReLU。所有池层执行最大池化,并且它们的步幅等于内核大小。(a)和(b)示出了分别从图像和音频输入执行初始特征提取的视觉和音频ConvNets(c)我们的AVE-Net被设计为产生对齐的视觉和音频嵌入,因为用于决定两个输入是否对应的唯一信息(单个标量)是嵌入之间的欧几里得距离(d)相比之下,L3-Net [4]架构通过级联和一对完全连接的层来组合两种模态,这些层产生对应或不对应的分类分数。这些特征不足以用于跨模态检索(如将在第3.1节的结果中示出的),因为它们没有以任何方式对齐相比之下,AVE-Net将完全连接的层移动到视觉和音频子网络中,并直接优化跨模态检索的特征。训练与通过对比损失[27]进行的度量学习相似,但(i)与需要调整边缘超参数的对比损失不同,我们的是无参数的,(ii)它显式计算对应或不输出,从而使其直接与L3-Net相当,而对比损失需要另一个距离阈值的超参数。王等人[28]也训练用于跨模态检索的网络,但使用也包含边缘超参数的三重损失,他们使用预训练的网络,并考虑具有完全监督的对应标签的不同模态(图像-文本)。在并行工作中,Hong etal. [29]使用类似的技术Conv4_23x314x14x512Conv4_13x314x14x512泳池32x214x14x256Conv3_23x328x28x2563x328x28x256泳池22x228x28x128conv2_23x356x56x128conv2_13x356x56x128泳池12x256x56x64对数谱图softmax2fc31x2 2欧氏距离1音频ConvNet16x12x512池416x121x1xfc1 512x128128fc2 128x128128L2标准化128对数谱图softmax2128x2 2fc11024x128128concat1024257x200x1音频ConvNet16x12x512池416x121x1x图像ConvNet14x14x512池414x141x1x视觉子网对数谱图音频子网视觉子网音频子网L2标准化128fc2 128x128128fc1 512x128128池414x141x1x512图像ConvNet14x14x512声音的物体5预训练的网络和用于音乐和视频的联合嵌入的三重丢失。[12]最近的工作也训练了跨模态检索的网络,但使用ImageNet预训练网络作为教师。在我们的例子中,我们从头开始训练整个网络。3.1评价和结果在AudioSet-Instruments train-val集上训练架构,并在第2节中描述的AudioSet-Instruments测试集上进行评估。下文第3.3节中给出了实施细节。在视听对应任务中,AVE-Net的正确率为81.9%,略高于L3-Net的80.8%。然而,AVC性能不是最终目标,因为该任务仅用作学习良好嵌入的代理,因此这里真正感兴趣的测试是检索性能。为了评估模态内(例如图像到图像)和跨模态检索,我们使用AudioSet-Instruments测试数据集。从每个测试视频中随机采样单个帧和环绕1秒的音频以形成检索数据库。测试作为查询的图像/音频和作为数据库的图像/音频的所有组合,例如,音频到图像使用音频嵌入作为查询向量来搜索视觉嵌入的数据库,回答问题“哪个图像可以发出这个声音?”; 图像到图像使用视觉嵌入作为查询向量来搜索相同的数据库。评价指标。检索系统的性能评估使用标准的措施它测量了前k个检索项目的排名列表的质量(我们始终使用k=30),标准化为[0, 1]范围,其中1表示完美的排名,其中项目以非递增的相关性查询顺序进行排序。有关相关性定义的详细信息,请参阅附录[24]。中的每个项目测试数据集被用作查询,并且平均nDCG@30被报告为最终检索性能。回想一下,标签是有噪声的,并且注意,我们每个视频仅提取单个帧/1 s音频,因此可能错过相关事件,因此理想的nDCG为1是极不可能实现的。基线。我们与L3-Net进行比较,因为它也是以无监督的方式进行训练的,并且我们使用与我们的方法相同的程序和训练数据来训练它。由于L3-Net不适用于跨模态检索,因此表示没有以任何方式对齐,我们还测试了与CCA对齐的L3此外,视觉特征提取从VGG-16网络的最后一个隐藏层中,以完全监督的方式在ImageNet [30]上进行训练。对于跨模态检索,使用CCA将VGG 16-ImageNet视觉特征与L3-Net音频特征对齐,这是一个强大的基线,因为视觉特征是完全监督的,而音频特征是最先进的[4]。请注意,vanillaL3-Net产生512-D表示,而VGG 16产生4096-D视觉描述符。出于计算原因,为了与我们的AVE-Net进行公平比较,6R. Arandjelovi'c andA.滋·斯·尔·曼·恩表1.跨模态和模态内检索。我们的方法与无监督和有监督基线在AudioSet-Instruments测试集上的平均nDCG@30方面的比较。列标题分别表示查询和数据库的模态,其中im代表图像,aud代表音频。我们的AVE-Net令人信服地击败了所有基线。方法伊姆-伊姆伊姆奥德奥德伊姆奥德随机机会.407.407.407.407L3-Net [4].567.418.385.653带CCA的L3.578.531.560.649VGG16-ImageNet [30].600–––VGG 16-ImageNet +L3-音频CCA.493.458.464.618AVE-Net.604.561.587.665产生128-D嵌入,所有基于CCA的方法都使用128个分量。对于所有情况,表示都是L2归一化的,因为我们发现这可以显着提高性能;注意,AVE-Net在体系结构中包括L2归一化,因此重新归一化是冗余的。结果查询-数据库模态的所有组合的nDCG@30在表1中示出。对于模态内检索(图像-图像,音频-音频),我们的AVE-Net优于所有基线,包括图像-图像的VGG 16-ImageNet,它在另一项任务中以完全监督的方式进行训练。有趣的是,我们的网络在训练过程中从未见过相同的模态对,因此它没有被明确地训练用于图像-图像和音频-音频检索。然而,模态内检索是因为传递性-小提琴的图像在特征空间中接近于小提琴的声音,小提琴的声音进而接近于小提琴的其他图像。请注意,尽管学习本质上由于AVE-Net与L3-Net在相同的任务和训练数据上具有相同的信息,因此我们的AVE-Net优于L3-Net,因为它是“感知”欧氏距离的对于跨模态检索(图像-音频,音频-图像),AVE-Net击败了所有基线,验证了我们的无监督训练是有效的。L3-Net表示显然没有跨模态对齐,因为它们的跨模态检索性能是在随机机会的水平与CCA对齐的L3-Net特征有趣的是,使用CCA将ImageNet上训练的视觉特征与最先进的L3-Net音频特征进行对齐,比其他方法表现得更差,这证明了从更多样化的数据集进行无监督学习的情况,因为仅仅使用ImageNet预训练的网络作为黑盒特征提取器是不够的。图3显示了一些定性检索结果,说明了我们的方法的有效性。系统通常会从数据库中检索相关项目,同时会犯一些合理的错误,例如将古筝的声音与原声吉他混淆。声音的物体7图3.第三章。跨模态和模态内检索。每列显示一个查询和检索到的结果。纯粹出于可视化目的,因为难以显示声音,所以示出与声音对齐的视频的帧而不是实际的声音形式。声音图标或缺少声音图标分别指示音频或视觉模态例如,最后一列示出了按图像到音频数据库中的查询,因此,根据“对于该查询,该查询是否可以使用最多的应用程序?“注意,许多音频检索项确实是正确的,尽管它们对应的帧是不相关的--例如带有白色文本的蓝色图像的音频确实包含鼓-这只是真实世界YouTube视频的噪声有多高的假象。3.2将AVE-Net扩展到多帧研究使用来自多个帧的信息是否可以帮助解决AVC任务也是有趣的。仅对于这些结果,我们评估对来自图2a的架构的两个修改以处理不同的视觉输入为了简洁起见,在附录[24]中解释了架构的细节,但总体思路是,对于AVE+MF,我们输入25帧并将卷积层从2D转换为3D,而对于AVE+OF,我们使用[31]风格的双流网络组合来自光流的单个帧和10帧的信息AVE+MF和AVE+OF网络在AVC任务上的性能是84。7%和84. 9%,而与我们的81.9%相比,我们的信息网络是独立的。然而,当对检索进行评估时,它们未能提供提升,例如,AVE+OF网络对于im-im、im-aud、aud-im和aud-aud分别达到0.608、0.558、0.588和0.665;这可与前5个检索项目查询8R. Arandjelovi'c andA.滋·斯·尔·曼·恩vanilla AVE-Net使用单个帧作为输入(表1)。对这种令人印象深刻的结果的一种解释是,与大多数无监督方法的情况一样,训练目标的表现不一定与学习特征的质量及其在感兴趣的任务上的表现完全相关。更具体地,AVE+MF和AVE+OF可以使用在输入处可用的运动信息,以通过利用一些较低级别的信息(例如,运动的变化可以与声音的变化相关,诸如当看到手指演奏guitar或长笛时)来更容易地解决AVC任务,这进而为网络学习良好的语义嵌入提供较少的激励。出于这个原因,单个帧输入用于所有其他实验。3.3防止快捷方式和实施防止快捷方式。 深度神经网络因发现微妙的数据而臭名昭著,这些数据可用于在“cheat”中进行扩展,并且无法以期望的方式解决这些问题;一个例子是在[14]中滥用色差来解决相对位置任务。为了防止这种行为,我们发现重要的是要仔细实现AVC负对的采样尽可能类似于正对的采样。详细地说,通过对随机视频进行采样,在该视频中挑选随机帧,然后选取帧在其中点处的1秒音频。通过随机采样两个不同的视频并从一个视频中选取随机帧并从另一个视频中选取随机的1秒音频片段来生成负对是很诱人的。然而,这在正音频样本和负音频样本之间产生轻微的统计差异,因为正音频样本的中点总是与负音频样本的中点对齐。一帧,因此是0.04秒的倍数(视频帧速率是25fps),而底片没有这样的限制。这提供了一个捷径,因为网络似乎能够学习识别以0.04s的倍数采集的音频样本,从而区分阳性和阴性。它可能通过利用MPEG编码和/或音频重采样的低级伪影来这样做。因此,通过这种朴素的负对生成实现,网络不太愿意强烈学习语义上有意义的信息。为了防止这种情况发生,负对的音频也仅从0.04s的倍数进行采样。在没有捷径预防的情况下,AVE-Net在AVC任务上实现了87.6%的人为高准确率,而在适当的采样安全机制下为81.9%,但在检索任务上没有捷径预防的网络的性能始终差1-2%。请注意,为了公平起见,我们也使用捷径预防来训练L3-Net[4]中的L3-Net训练不会遇到这个问题,因为通过随机地将音频和帧错位长达1秒来执行额外的数据增强,无论是正面还是负面。我们也应用这种增强,但我们的观察对于未来可能需要精确对齐的非监督方法(例如视听同步)来说很重要。声音的物体9实作详细数据。我们遵循与[4]中相同的设置和实现细节。也就是说,输入帧是224× 224彩色图像,而1秒音频以48kHz重新采样,转换成对数频谱图(窗口长度0.01s和半窗口重叠),并作为257× 200灰度图像处理。使用标准数据增强-网络使用交叉熵损失进行训练,用于二进制分类任务Adam优化器[32],权重衰减10- 5,以及通过网格搜索获得的学习率。训练使用16个GPU并行完成,并在TensorFlow中实现同步更新,其中每个工作者处理128个元素的批处理,因此有效批处理大小为2048。注意,与[4]的设置的唯一小差异是:(i)我们在第一卷积层中使用2个像素的步幅,因为我们发现它不会影响性能,同时产生4倍加速并节省GPU内存,从而能够使用4倍更大的批次(2倍的额外因素是通过使用更好的GPU);以及(ii)我们使用[33]风格的学习率时间表,其中学习率每16个epoch降低6%。通过这种设置,我们能够完全重现[4]的L3-Net结 果, 甚 至实 现了 更 好的 性能 (ESC-50分 类基 准上 的+0.5%[34]),这可能是由于改进的学习率计划和更大批次的使用。4定位发出声音一个理解视听世界的系统应该把物体的外观和它发出的声音联系起来,这样就能够回答“物体在哪里发出声音?”“他提出了一种用于学习定位发声对象的实时检测和训练过程,同时仍然在没有监督的情况下操作,无论是在对象位置级别还是在它们的身份上。我们再次利用的AVC任务,并表明,通过适当地设计网络,它是可以学习本地化发声对象在这个极具挑战性的无标签的情况下。与目标是学习解释声音的整个图像的单个嵌入的标准AVC任务相比,声音本地化的目标是找到解释声音的图像的区域,而其他区域不应与其相关并且属于背景。为了使其操作化,我们在多实例学习(MIL)框架中制定了问题[35]。也就是说,在空间网格上提取局部区域级图像描述符为了找到与声音良好相关的区域的目标,使用最大相似性得分作为图像-音频一致性的度量。然后以与AVC任务相同的方式训练网络,即预测图像和音频是否对应。对于对应的对,该方法鼓励一个区域高度响应并因此定位对象,而对于不匹配的对,最大得分是最小的。10R. Arandjelovi'c andA.滋·斯·尔·曼·恩对应:是/否?224x224x3257x200x1对数谱图1秒48kHz音频见图4。视听对象定位(AVOL-Net)。符号和一些构建块与图2共享音频子网与AVE-Net中的相同视觉网络,而不是全局池化特征张量,继续以14× 14分辨率操作,其中相关的FC(vision-fcl,vision-fc2,fc 3)被控制到他们的“完全一致的”等式(即,fc 1,fc2,fc 3)。e. 1×1卷积(conv5、conv6、conv7)。音频和所有视觉嵌入之间的相似性揭示了发出声音的对象的位置,而最大相似性被用作对应性得分。应该是低的,从而使得整个分数图为低,如所期望的,指示不存在发出输入声音的对象。本质上,音频表示形式是一种具有“锁定”的过滤器,用于以类似于注意力机制的方式重新评估图像我们的视听对象定位网络(AVOL-Net)如图4所示。与AVE-Net(图2c)相比,视觉子网络不池conv4 2功能,但保持在14× 14分辨率上运行。为了实现这一点,视觉子网络的两个全连接层fc1和fc2被转换为1×1卷积conv5和conv6。特征归一化以使特征能够在背景区域上具有低响应。14× 14个128-D视觉描述符中的每一个与单个128-D音频描述符之间的相似性经由标量积来计算,从而产生14× 14相似性分数图。类似于AVE-Net , 使 用 tiny1×1 编 码 来校准分数( fc 3 编 码 被 称 为 “fully 编码”),接着是S形模型,该S形模型以每个空间位置的图像-音频对应性分数的形式产生定位输出。所有空间的最大池化最大池14x14 1对应:在哪里?S形14x14x1Conv7 1x114x14x1每个位置14x14对应评分所有两两标量积14x14x1音频ConvNet16x12x512池4 16x121x1x512fc1 512x128128fc2 128x128128视觉子网音频子网Conv61x114x14x128Conv51x114x14x128图像ConvNet14x14x512声音的物体11在一些实施例中,执行对位置的匹配以获得最终对应性分数,其然后用于使用逻辑损失对AVC任务进行训练。与以往作品的关系。虽然通常暗示对象本地化,但以前的跨模态作品无法实现这一目标。Harwath等人。[2]演示了在口语文本的音频域中定位对象,但没有设计用于定位的网络。在[4]中,从头开始训练的网络在内部学习物体检测器,但从未被证明能够回答“发出声音的物体在哪里?”这个问题与我们的方法不同,它也没有在训练时考虑到这种能力。 相反,它们的热图是通过检查只给出输入图像的各种神经元的反应而产生的。输出是完全独立于声音计算的,因此不能回答我们的方法与[36]和[37]有相似之处,他们分别使用最大和平均池来学习对象检测器,而不是在单一视觉模态设置中使用边界框注释,而是使用ImageNet预训练网络和图像级标签。基于MIL的方法还与注意力机制有联系,因为它可以被称为“无限的”[8,38]。 不仅如此,我们不使用来自多个音频通道的信息,这可以帮助本地化[39],因为(i)该设置通常需要多麦克风装备的已知校准,这对于不受约束的YouTube视频是未知的,(ii)通道的数量在视频之间变化,(iii)YouTube上的音频质量显著变化,而基于多麦克风输入的本地化方法[39]是不可能的。形成易于噪声和混响,以及(iv)我们希望我们的系统学习检测语义概念,而不是通过访问多麦克风信息来“欺骗”本地化。最后,与我们类似的技术出现在[40]的并行工作中,而[41,42]的后期工作也是4.1评价和结果首先,AVC任务上的定位网络(AVOL-Net)的准确性与第3节中的AVE-Net嵌入网络的准确性相同,这是令人鼓舞的,因为这意味着切换到MIL设置不会导致准确性和检测两种模态中的语义概念的能力的损失图5中展示了网络定位声音的对象的能力它能够在具有挑战性的成像条件下,以不同的视角和尺度更详细的讨论,包括一些失败案例的分析,可在图标题。正如从无监督方法所预期的那样,它不一定检测整个对象,而是可以仅关注特定的有区别的部分,例如手和钢琴键盘之间的界面。这与更哲学的问题相互作用,即什么是物体以及是什么在发出声音12R. Arandjelovi'c andA.滋·斯·尔·曼·恩图五.是什么发出的声音?AVOL-Net在不可见试验数据上的定位输出更多信息请参见图1和https://goo.gl/JVsJ7P。回想一下,新工作是一个独立的框架,并且通过使用表单中的mot来实现“cheat”。每对图像显示输入帧(左)和输入帧的定位输出以及覆盖在帧上的1秒音频(右)。 注意,可检测的对象的范围很广,诸如键盘、手风琴、鼓、竖琴、吉他、提琴、钢琴、钢琴模型、萨克斯管等。 因此,尽管在照明、比例和视角方面存在显著的混乱和变化,但仍然实现了分区。还可以检测多个相关对象:两把小提琴两个人唱歌还有一个管弦乐队最后一行显示了失败的情况,其中前两个可能反映了训练数据中的噪声,因为许多视频只包含音乐单或覆盖有音乐播放的文本,在第3-4列中,网络可能只检测到场景的突出部分,而在第5-6列中,它未能检测到发声对象。整个乐队?系统应该如何处理留声机或收音机,因为它们可以产生任意的声音?从图5中令人印象深刻的结果中,我们想到的一个问题是,网络是否只是简单地检测图像中的显著对象,这不是我们想要的行为。 为了验证这一假设,我们可以提供不匹配的帧和音频对作为输入,询问网络回答“什么会发出这种声音?“,并且检查显著对象是否仍然在不考虑无关声音的情况下被突出显示。图6示出了实际上并非如此,例如当在小提琴的图像上演奏鼓时,本地化图是空的。相反,当另一把小提琴被演奏时,网络会突出显示小提琴。此外,为了完全拒绝显着性假设因此,网络已经真正学会了理清声音的物体13见图6。什么会发出这种声音?与图5类似,AVOL-Net本地化输出被示出为给定输入图像帧和1 s的音频。然而,这里帧和音频不匹配。图像的每个三元组示出了覆盖在帧上的(左)输入音频、(中间)输入帧和(右)定位输出。纯粹为了可视化的目的,因为难以显示声音,所以与声音对齐,而不是实际的声音形式(左)。关于第一三元组的示例:(左)由长笛的图像示出的长笛声音,(中)钢琴和长笛的图像,(右)来自中间图像的长笛被突出显示为我们的两个工作流,并且我们充分考虑了这个问题“为什么在钢琴中没有长笛的声音会被放大?“I need a chrow the input frame is fixed edwhile the input audio varies,showing that object localization does depend on thesound and therefore oursystem不仅仅是检测场景中的显著物体,而是实现最初的目标- 定 位 发 出 声 音 的 物 体 。图像中的多个对象,并为它们中的每一个保持有区别的嵌入。为了定量地评估定位性能,从验证数据中随机抽取500个剪辑,并且中间帧注释有产生声音的仪器的定位然后,我们比较了两种预测定位的方法(如[36]):第一,总是预测图像中心的基线方法;第二,通过输入剪辑的声音产生的AVOL-Net热图的模式基线达到57.2%,而AVOL-Net达到81.7%。这表明AVOL-NET不是简单地突出显示图像中心的显著对象失败案例主要是由于第2节中描述的AudioSet数据集的问题注意,有必要对数据进行注释,而不是使用标准基准点,因为PASCAL VOC、COCO、DAVIS、KITTI等数据集不包含乐器。这也意味着没有现成的仪器对象检测器,因此无法使用边界框来注释AudioSet帧。最后,图7显示了视频的本地化结果。注意,每个视频帧和周围音频被完全独立地处理,因此不使用运动信息,也不存在任何时间平滑。结果重申了系统在各种姿态下检测物体的能力14R. Arandjelovi'c andA.滋·斯·尔·曼·恩见图7。是什么发出的声音?可视化与图5相同,但这里的每列包含来自单个视频的帧,间隔1秒。帧被完全独立地处理,不使用运动信息,也不存在任何时间平滑。我们的方法可靠地检测发声物体在不同的姿势(列1-2),和镜头(列3)。此外,它能够在发出声音的对象之间切换,例如在吉他课期间的交错语音和并且根据变化的音频上下文来突出显示不同的对象请查看此YouTube播放列表(https://goo.gl/JVsJ7P)以获取更多视频结果。5结论和今后的工作我们已经证明,通过适当的网络设计,无监督的视听对应任务可以学习两个全新的功能:跨模态检索和基于语义的声音对象定位。AVE-Net被证明比监督基线更好地执行跨模态检索,而AVOL-Net表现出令人印象深刻的对象本地化能力。潜在的改进可以包括修改AVOL-Net以具有显式的软注意力机制,而不是当前使用的最大池化。鸣谢。我们感谢Carl Doersch关于预防捷径的有用见解。书目[1] Aytar,Y.冯德里克角Torralba,A.:SoundNet:从未标记的视频中学习声音在:NIPS。(2016年)[2] Harwath,D.,Torralba,A.,Glass,J.R.:具有视觉上下文的口语无监督学习。在:NIPS。(2016年)[3] Owens,A.,Jiajun,W.,McDermott,J.,弗里曼,W.,Torralba,A.:环境声音为视觉学习提供监督。见:Proc. ECCV。(2016年)[4] Arandjelovi'c,R., Zisseerman,A. :好吧,听着,听着。 In:Proc.ICCV.(2017)[5] Barnard,K.,Duygulu,P.,de Freitas,N.,Forsyth,D.,Blei,D.,Jordan,M.:匹配文字和图片。 JMLR 3(Feb 2003)1107[6] Duygulu,P.,Barnard,K.,de Freitas,J.F.G.,福赛斯,D.A.:作为机器翻译的对象识别:为固定的图像词汇学习词典见:Proc.ECCV。(2002年)[7] Frome,A.,科罗拉多州科拉多Shlens,J.,Bengio,S.,迪恩JRanzato,文学硕士,Mikolov,T.:Devise:一个深度视觉语义嵌入模型。在:NIPS。(二零一三年)[8] 徐,K.,Ba,J.,基罗斯河Courville,A.Salakhutdinov河泽梅尔河Ben- gio,Y.:Show,attend and tell:Neural image caption generationwith visual attention.arXiv预印本arXiv:1502.03044(2015)[9] de Sa,V.R.:从未标记的数据中学习分类在:NIPS。(1994年)[10] Kidron,E.,Schechner,Y. Y.,Elad,M.:像素的声音。In:Proc.CVPR.(2005年)[11] Owens,A.,Isola,P.,McDermott,J.H.,Torralba,A.,阿德尔森E.H.自由人,W.T.:视觉指示的声音。In:Proc.CVPR。(2016)2405[12] Aytar,Y.冯德里克角Torralba,A.:看,听,读:深度对齐表示。CoRR abs/1706.00932(2017)[13] Dosovitskiy,A.,Springenberg,J.T.,Riedmiller,M.,Brox,T.:使用卷积神经网络的判别式无监督特征学习。在:NIPS。(2014年)[14] Doersch,C. Gupta,A.,Efros,A.A.:通过上下文预测的无监督视觉表示学习。In:Proc. CVPR. (2015年)[15] 阿格拉瓦尔,P.,卡雷拉,J.,Malik,J.:学习通过移动来观察。见:Proc.ICCV。(2015年)[16] 王,X.,Gupta,A.:使用视频的视觉表示的无监督学习。见:Proc.ICCV。(2015)2794[17] 张,R.Isola,P.,Efros,A.A.:彩色图像着色。In:Proc.ECCV,Springer(2016)649[18] 米斯拉岛Zitnick,C.L.,赫伯特,M.:Shuffle and learn:使用时间顺序验证的无监督见:Proc. ECCV。(2016年)[19] Pathak,D., Kra¨henb u¨hl,P., Dona hue,J., Darrell,T.,Efros,A.A. :C〇 ntextencoders:通过修复进行特征学习。In:Proc.CVPR。(2016)253616R. Arandjelovi'c andA.滋·斯·尔·曼·恩[20] Noroozi,M.,Favaro,P.:通过解决拼图游戏进行视觉表示的无监督学习见:Proc. ECCV。(2016年)[21] Fernando,B.,Bilen,H.,Gavves,E.,Gould,S.:使用奇一网络的自监督视频见:Proc.ICCV。(2017年)[22] Doersch,C.齐瑟曼,A.:多任务自监督视觉学习。见:Proc.ICCV。(2017年)[23] Gemmeke , J.F. 埃 利 斯 , 副 总 统 , Freedman , D. Jansen , A. ,Lawrence,W.摩尔共和国Plakal,M.,Ritter,M.:音频集:音频事件的本体和人类标记的数据集。在:ICASSP中。(2017年)[24] Arandjelovi'c,R., Zisseerman,A. :Objethatsound.CoRRabs/1712.06651(2017)[25] Ioffe,S.,Szegedy,C.:批量归一化:通过减少内部协变量偏移来加速深度网络In:Proc.ICML. (2015年)[26] Arandjelovi'c,R., Gronat,P., T或ii,A. ,Pajdla,T., Sivic,J. :NetVLAD:用于弱监督位置识别的CNN架构。IEEE PAMI(2017)[27] Chopra,S.,哈德塞尔河LeCun,Y.:区别性地学习相似性度量,并应用于人脸验证。In:Proc. CVPR.第一卷,IEEE(2005)539[28] Wang,L.,美国,李,Y.,Lazebnik,S.:学习深度结构保持图像-文本嵌入。In:Proc. CVPR. (2016年)[29] Hong,S.,Im,W.,S. Yang,H.:CBVMR:使用软模态内结构约束的基于内容的视频音乐检索。In:ACM ICMR.(2018年)[30] 西蒙尼扬,K.,齐瑟曼,A.:用于大规模图像识别的极深卷积网络。在:学习代表国际会议。(2015年)[31] 西蒙尼扬,K.,齐瑟曼,A.:用于视频中动作识别的双流卷积网络在:NIPS。(2014年)[32] 金玛,D.P.,Ba,J.:Adam:随机最佳化的方法。见:ICLR程序。(2015年)[33] 塞格迪角刘伟,Jia,Y.,Sermanet,P.,Reed,S.,Anguelov,D.,Erhan,D.,Vanhoucke,V.,Rabinovich,A.:更深的回旋。In:Proc. CVPR. (2015年)[34] Piczak, K.J.: ESC: 环 境声 音 分 类 数据 集 见 : Proc. ACMM。(2015年)[35] Dietterich,T.G.,Lathrop,R.H.,Lozano-Perez,T.:用平行轴
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功