没有合适的资源?快使用搜索试试~ 我知道了~
多感官融合的自监督学习表示视频和音频的联合特征
基于自监督多感官特征安德鲁·欧文斯Efros加州大学伯克利分校抽象。当视觉和听觉事件同时发生时,弹跳球的重击声,嘴唇张开时的讲话开始,这表明可能有一个共同的潜在事件产生了这两种信号。在本文中,我们认为,视频信号的视觉和音频组件应建模联合使用融合的多感官表示。我们建议通过训练神经网络来预测视频帧和音频是否在时间上对齐,以自监督的方式学习这样的表示。我们将这种学习表示用于三种应用:(a)声源定位,即在视频中可视化声音源;(b)视听动作识别;以及(c)屏幕上/屏幕外音频源分离,例如,从外国官员的讲话中去除屏幕外翻 译 的 声 音 。 代 码 、 模 型 和 视 频 结 果 可 在 我 们 的 网 页 上 获 得 :http://andrewowens.com/multisensory。1介绍作为人类,我们通过许多同步的感官流来体验我们的世界当我们咬一口苹果时,我们不仅尝到了它的味道,而且-正如史密斯和加瑟指出的那样-我们还听到了它的嘎吱声,看到了它的红色外皮,感受到了它的核心的凉爽感觉的巧合给我们提供了强有力的证据,证明它们是由一个共同的、潜在的事件产生的[2],因为它们不太可能仅仅是偶然地在多个模态中同时发生。因此,这些跨模态的时间共现提供了有用的学习信号:被训练来检测它们的模型应该发现对其他任务有用的多模态结构。然而,在许多传统的计算机视觉研究中,我们一直在避免使用其他非视觉形式,这使得感知问题变得更难,而不是更容易。在本文中,我们学习了一个时间,多感官表示,融合了视频信号的视觉和音频分量。我们建议在不使用任何手动标记数据的情况下训练该模型。也就是说,而不是明确地告诉模型,例如,它应该将移动的嘴唇与讲话或砰的一声与弹跳的球联系起来,我们让它通过自我监督训练发现这些视听联系[3]。具体来说,我们在一个“借口”任务上训练神经网络,该该网络观察原始音频和视频流-其中一些是对齐的,一些是随机移动了几秒钟-我们要求它区分两者。事实证明,这是一项具有挑战性的训练任务,它迫使网络将视觉运动与音频信息融合在一起,并在此过程中学习有用的视听特征表示。我们证明了我们的多感官表示在三个视听应用的有用性:(a)声源定位,(b)视听动作识别;2欧文斯和埃弗罗斯“Cutting(a) 声音定位(b)动作识别(c)屏上/屏下音频分离图1:应用。 我们使用自我监督来学习一种视听表示,它:(a)可以用来可视化视频中声源的位置;(b)可用于视觉和视听动作识别;(c)可应用于分离屏幕上和屏幕外声音的任务。在(c)中,我们通过在视觉上掩蔽每个扬声器并要求其预测屏幕上的音频来演示我们的源分离模型预测的声音仅包含可见说话者的语音请访问我们的网页获取视频结果:http://andrewowens.com/multisensory。以及(c)屏幕上/屏幕外声源分离。图1示出了这些应用的示例在图1(a)中,我们使用我们的网络学习的注意力地图,即,斧头的撞击,嘴巴的张开,音乐家的手的移动。在图1(b)中,我们示出了我们学习的特征在视听动作识别中的应用,即一个厨师切洋葱的视频在图1(c)中,我们展示了我们的新颖的屏幕上/屏幕外声源分离模型本文的主要贡献在于:1)学习了一种融合了音频和视觉信息的通用视频表示; 2)定性地(通过声源可视化)和定量地(在动作识别任务上)评估该表示的有用性;以及3)提出了一种新的视频条件源分离方法,该方法使用我们的表示来分离屏幕上和屏幕外的声音,并且是第一种成功地用于真实世界视频片段的方法,例如,电视广播。我们的功能表示以及所有应用程序的代码和模型都可以在线获得。2相关工作来自心理物理学的证据虽然我们经常认为视觉和听觉是不同的系统,但在人类中,它们通过一个被称为多感官整合的过程紧密交织在一起。也许这种现象最引人注目的证明是McGurk效应[5],这是一种错觉,其中嘴巴的视觉运动改变了人们听力也会影响视力:例如,声音的时间会影响我们是否感觉到两个移动的物体正在碰撞或重叠[2]。此外,心理学家认为,1有关特别生动的演示,请参阅:https://www.youtube.com/观看?v=G-lN8vWm3m0[6]预测的屏幕声音时间频率基于自监督多感官特征的视听场景分析3在处理的相当早期阶段融合音频和视觉信号[7,8],并且这两种模态在感知分组中联合使用。例如,当观看者第一次观看视频中的音频和视觉不相关的视频时,McGurk效应不太有效,因为这导致信号变得“未绑定”(即,“未绑定”)。不分上下)[9,10]。这种多模态感知分组过程通常被称为视听场景分析[11,7,12,10]。在本文中,我们从心理学的启发,并提出了一个自我监督的多感官特征表示作为视听场景分析的计算模型。自我监督学习自监督方法通过训练模型来解决从输入数据本身导出的任务来学习特征,而无需人工标记。从de Sa [3]的早期工作开始,已经有许多自我监督的方法学习寻找视觉和声音之间的相关性[13,14,15,16]。然而,这些方法已经学习了静态图像和环境声音之间的对应关系[15,16],或者已经分析了非常有限的域中的运动[14,13](例如[14]仅建模鼓槌撞击)。我们的学习任务类似于Arandjelovic和Zisserman [16],它预测图像和音轨是否从相同(或不同)的视频中采样。然而,他们的任务是可以通过识别语义(例如:室内对室外场景)。相比之下,我们的输入总是来自同一个视频,我们预测它们是否对齐;因此我们的任务需要运动分析来解决。时间也被用作监控信号,例如预测视频中的时间顺序[17,18,19]。相比之下,我们的网络学习分析视听动作,这些动作可能对应于显著的物理过程。视听对准当我们研究自监督学习的对齐时,它也被研究作为一个目的本身[20,21,22]例如。在唇读应用中[23]。Chung和Zisserman [22],最密切相关的方法,训练具有嵌入损失的双流网络。由于对齐语音视频是他们的最终目标,他们使用面部检测器(用标签训练)和跟踪系统来裁剪说话者的面部。这使得他们能够用2D CNN来解决这个问题,该2D CNN将在嘴周围裁剪的5个通道连接帧作为输入(他们还提出使用他们的图像特征进行自我监督;虽然这些结果很有希望,但只是非常初步的)。声音定位在视频中视觉定位声音来源的目标历史悠久。Hershey等人的开创性工作[24]通过使用高斯过程模型测量视觉运动和音频之间的互信息来定位声源。随后的工作还考虑了子空间方法[25],规范相关性[26]和关键点[27]。我们的模型通过自我监督学习将运动与声音相关联,而无需我们明确地建模。视听源分离盲源分离(BSS),即分离音频流中的各个声源-也称为鸡尾酒会问题[28] -是经典的音频理解任务[29]。研究人员已经提出了许多成功的概率方法来解决这个问题[30,31,32,33]。最近的深度学习方法涉及预测对音频聚类进行编码的嵌入[34,35],或优化排列不变损失[36]。很自然地,也希望包括视觉信号来解决这个问题,通常被称为视听源分离。例如,[37,25]根据与光流的相关性掩蔽频率;[12]使用图形模型;[27]使用谐波先验;[38]使用4欧文斯和埃弗罗斯基于稀疏性的因子分解方法;[39]使用了聚类方法。其他方法使用面部检测和多麦克风波束形成[40]。这些方法对声音和运动之间的关系做出了强烈的假设,并且大多数被应用于实验室录制的视频。研究人员已经提出了基于学习的方法来解决这些限制,例如。[41]使用混合模型来预测分离掩模。最近,[42]提出了一种卷积网络,可以隔离屏幕上的语音,尽管这种模型相对较小(在来自一个扬声器的视频上进行测试)。我们通过将我们的表示与u-net [43]回归模型相结合,对更具挑战性的互联网和广播视频进行屏幕上/屏幕外源分离。与我们同时独立的工作,一些小组已经提出了源分离和声音定位的密切相关的方法Gabbay等人[44,45]使用视觉到声音的方法来分离语音,并提出了卷积分离模型。与我们的工作不同,他们假设说话者的身份是已知的。Ephrat等人[46]和Afouras et al.[47]使用面部检测和跟踪系统将不同的说话者分组,从包含多个说话者的视频中分离用户选择的说话者的语音。Zhao等人的工作[48]和Gao etal.[49]对于多个可见对象(例如,乐器)。这个任务涉及到将物体与它们通常根据其外观发出的声音相关联,而我们的任务涉及到分离多个扬声器的“细粒度”运动分析任务。最近也有关于使用网络的注意力地图来定位声源的工作这些方法与我们的方法类似,但它们主要定位静态图像中的对象和环境声音,而我们的方法则响应视频中的动作。3学习自我监督的多感官表征我们建议使用自我监督来学习表示,通过训练模型来预测视频的音频和视频流是否瞄准声音在训练过程中,我们向神经网络提供视频剪辑。其中一半的视频和音频流是同步的;在另一组中,我们将音频移动了几秒钟。我们训练一个网络来区分这些例子。更具体地,我们学习模型p(y| I,A),其预测图像流是否I和音频流A通过最大化对数似然来同步:L(θ)= 1 E [log(p(y=1| I,A))+log(p(y=0|(A))]、 (1)I,A,tθ0θ t其中As是偏移s秒的音轨,t是随机时间偏移,θ是模型参数,y是流同步的事件。这个学习问题类似于噪声对比估计[54],它训练模型来区分真实示例和噪声;这里,噪声示例是未对齐的视频。融合的视听网络设计解决这一任务需要跨模态的低层次信息例如,为了检测人类语音视频中的未对准,该模型必须将嘴唇的细微运动与声音中的话语我们假设,早期融合的音频和视频流是很重要的建模行动,产生的信号,在这两种方式。因此,我们建议使用具有早期融合设计的3D多感觉卷积网络(CNN)来解决我们的任务(图2)。2基于自监督多感官特征的视听场景分析5游泳池/465×1×1转换,64/4失调音fcS形全局平均池[3×3×3conv]×4,512/[1,2,2][3×3×3conv]×4,256/[1,2,2][3×3×3conv]×4,128/[2,2,2]1×1×1转化率,1281×1×1转化率,512瓦片连接[3×3×3conv]×4,64/[2,2,2]3×1×1转化率,128pool/[1,2,2] pool/3视频帧波形图2:融合的视听网络。我们训练一个早期融合的多感官网络来预测视频帧和音频是否在时间上对齐。我们包括卷积对之间的残差连接[53]。我们将输入表示为T×H×W体积,并将步幅表示为为了生成未对齐的样本,我们将音频合成地移位几秒。在融合之前,我们对视频流应用少量的3D卷积和池化操作,将其时间采样率降低4倍。我们还apply- ply一系列的跨越1D卷积的输入波形,直到其采样率匹配的视频网络。我们融合了两个子网络级联其激活通道,空间平铺后的音频激活。然后,融合网络进行一系列3D卷积,然后进行全局平均池化[55]。我们在卷积对之间添加残差连接。我们注意到网络架构类似于ResNet-18 [53],但具有额外的音频子网络,以及3D卷积而不是2D卷积(以下是膨胀卷积的工作[56])。培训我们用4.2秒训练我们的模型。视频,随机移动音频2.0到5.8秒。我们在大约75万个视频的数据集上训练我们的模型从AudioSet随机采样[57]。我们使用全帧速率视频(29.97赫兹),结果在125帧每个例子。我们从调整大小的256×256视频帧中选择随机的224×224裁剪,应用随机左右翻转,并使用21 kHz立体声。我们从较长的视频片段中采样(10秒)。视频.优化细节可以在补充材料中找到。我们发现,该模型在对齐任务中获得了59.9%的准确率(机会=50%)。虽然乍一看这似乎很低,但我们注意到,在许多视频中,声音发生在屏幕外[15]。此外,我们发现这项任务对人类也具有挑战性为了更好地了解人类的能力,我们向来自Amazon Mechanical Turk的30名参与者展示了60个对齐/移动的视频对,并要求他们识别出声音不同步的视频对。我们给了他们15美元5×7×7转换,64/[2,2,2][15×1×1conv]×2,256/4[15×1×1conv]×2,128/4[15×1×1conv]×2,128/46欧文斯和埃弗罗斯图3:可视化声源。我们显示的视频帧在举行了AudioSet视频与最强的类激活图(CAM)响应(我们按每个图像缩放其范围以补偿宽范围的值)。图4:具有最弱类激活映射响应的示例(参见见图3)。secs.的视频(所以他们有显着的时间背景),并使用大,5秒。运动一样的他们以66分的成绩完成了任务。6%±2。4%的准确度。为了帮助理解模型可以预测同步的操作,我们还评估了其在Kinetics数据集[58]类别上的准确性(请参见补充材料)。它在涉及人类语言的课程中最为成功:例如,在一个实施例中,新闻主播,回答问题,作证。当然,最重要的问题是学习的视听表征是否对下游任务有用。因此,我们把注意力转向应用。4可视化声源的位置评估我们的表示的一种方法是可视化它检测到的视听结构。我们假设,一个好的视听表示将特别注意视觉声源-屏幕上发出声音的动作,或者其运动与声音的发生高度相关。我们注意到,在野外视频的声源的概念中存在模糊性。例如,音乐家基于自监督多感官特征的视听场景分析7运球篮球劈柴吹黑管弹吉他演奏风琴洗牌踢踏舞弹木琴图5:在手动删除仅对面部激活的帧(几乎出现在所有类别中)后,Kinetics-Sounds数据集[16]中类别的最强CAM响应。我们注意到,没有标记的数据用于训练。我们不重新缩放每个图像的热图(即,在该可视化中使用的范围在各示例中是一致的)。他们的喉咙和大号都可能被称为声音的来源。因此,我们使用这个术语来指代与声音产生相关的运动,并通过网络可视化来研究它。要做到这一点,我们应用类激活图(CAM)的方法周等人。[59],它已被用于定位环境声音[52]。给定空时视频补丁Ix、其对应的音频Ax以及由我们的模型的最后一个卷积层f(Ix,Ax)分配给它们的特征,我们可以估计对齐概率:p(y |I x,Ax)= σ(wf(I x,Ax)),(2)其中y是二进制对齐标签,σ是sigmoid函数,w是模型的最终仿射层。因此,我们可以通过预测的大小来衡量一个斑块的信息含量--根据我们的假设,它是声源的可能性|wf(Ix,Ax)|.有人可能会问,这种自我监督的本地化方法如何与生成方法(例如经典的互信息方法)相关[24,25]。为了帮助理解这一点,我们可以将我们的视听观察看作是通过生成过程产生的(使用类似于[60]的分析):我们对标签y进行采样,它确定了对齐,然后有条件地对Ix和Ax进行采样。而不是计算两种模态之间的互信息(这需要生成模型8欧文斯和埃弗罗斯模型Acc.表1:对UCF-101的行动识别(第1部分)。我们比较了没有标签(顶部)和语义标签(底部)的预训练方法。我们的模型在有声音和没有声音的情况下训练,显著优于其他自我监督方法。注有“*”的数字来自其相应的出版物;我们重新训练/评估了其他模型。自监督方法不具有的),我们基于我们学习的模型p(y)找到提供关于潜在变量y的最多信息的补丁/声音|I x,Ax)。可视化我们的网络响应哪些操作?首先,根据等式2,我们询问测试集中哪些时空补丁最具信息性。 我们在图3中显示了排名靠前的补丁,类激活图显示为热图,并覆盖在相应的视频帧上。从这个可视化中,我们可以看到网络对面部和移动的嘴巴是有选择性的。最强烈的反应,而不是面孔往往是不寻常的,但突出的视听刺激(例如。两个顶级视频包含闪光灯和音乐)。为了进行比较,我们在图4中显示了响应最弱的视频;这些视频包含相对较少的面孔。接下来,我们询问模型如何响应不包含语音的视频,并将我们的方法应用于Kinetics-Sounds数据集[16] -Kinetics [58]类的子集,这些类往往包含独特的声音。我们展示了各种类别的最高响应的例子,在删除的例子中,反应仅仅是一张脸(出现在几乎每一个类别)。我们在图5中显示了结果。最后,我们询问了模型的注意力如何随着运动而变化。为了研究这一点,我们计算了视频的基于CAM的可视化,我们已经将其包含在补充视频中(我们还在图1(a)中显示了一些手工选择的示例这些结果定性地表明,模型的注意力随屏幕上的运动而变化。这与单帧方法模型[50,52,16]相反,单帧方法模型主要关注发声对象而不是动作。5动作识别我们已经通过可视化看到,我们的表示传达了关于声源的信息我们现在问它是否对识别任务有用为了研究这一点,我们使用UCF-101数据集[64]微调了我们的动作识别模型,使用从对齐任务中学习到的权重初始化权重。我们在表1中提供了结果,并将我们的模型与其他无监督学习和3D CNN方法进行了比较。我们使用2.56秒的子序列进行训练,遵循[56],我们使用随机翻转和裁剪以及小(最多一帧)音频移位进行增强。在测试时,我们遵循[65]并对每个视频的25个剪辑的模型中间224×224的裁剪。有关优化的详细信息,请参见补充资料。多感官(全)百分之八十二点一多感官(频谱图)多感官(随机配对[16])多感官(仅视觉)多感官(划痕)I3 D-RGB(划痕)[56] O3 N [19]*Purushwalkam等人[61]*C3D [62,56]*Shuffle [17]*Wang等人[63、61]*81.1%78.7%77.6%68.1%68.1%60.3%百分之五十五点四基于自监督多感官特征的视听场景分析9分析我们看到,首先,我们的模型明显优于以前应用于此任务的自监督方法,包括Shuffle-and-Learn[17](82.1% vs.50.9%准确度)和O3N [19](60.3%)。我们怀疑这部分是由于这些方法要么处理单个帧,要么处理短序列,并且它们解决了不需要大量运动分析的任务。然后,我们将我们的模型与使用监督预训练的方法进行了比较,重点关注最先进的I3D[56] I'm not gonna do.虽然我们的自监督模型与在密切相关的Kinetics数据集上预训练的I3D版本(94.5%)之间存在很大差距,但我们的模型(包括声音和视觉)的性能接近于使用ImageNet预训练的(仅视觉)I3D [66](84.2%)。接下来,我们用[ 16 ]的自我监督任务训练我们的多感官网络,而不是我们自己的。通过随机配对来自不同视频的音频和视觉流而不是通过引入未对准来创建负示例。我们发现这个模型的表现明显比我们的差(78.7%),这可能是因为它的任务在很大程度上可以在不分析运动的情况下解决。最后,我们问我们的模型的组件如何有助于其性能。为了测试模型是否从音频获得其预测能力,我们训练了模型的变体,其中音频子网络被消融(激活设置为零),发现这导致性能下降5%。这表明声音对我们的结果很重要,我们的视觉特征在孤立的情况下也很有用。我们还尝试训练一种基于频谱图而不是原始波形的模型变体,发现这产生了类似的性能(详见补充材料)。 为了衡量我们的自我监督预训练的重要性,我们将我们的模型与随机初始化的网络(即从头开始训练),发现性能显著下降(14%)-与从I3 D中删除ImageNet预训练的幅度相似。这些结果表明,该模型已经学习了一种对视觉和视听动作识别都有用的表示。6屏上/屏下音视频源分离我们现在将我们的表示应用于经典的视听理解任务:分离屏幕上和屏幕外的声音。为此,我们提出了一个源分离模型,使用我们学到的功能。我们对这个问题的表述类似于最近的视听和仅音频分离工作[34,36,67,42]。我们通过将输入视频的(“屏幕上”)音频轨道与来自随机视频的随机选择的(“屏幕外”)轨道相加来创建合成声音混合然后,我们的模型负责分离这些声音。任务我们考虑将混合音频的频谱图作为输入的模型并恢复两种混合物组分的光谱图。我们最简单的屏幕上/屏幕外分离模型学习最小化:LO(xM,I)=xF−fF(xM,I)1+xB−fB(xM,I)1,(3)其中xM是混合声音,xF和xB是包括它的屏幕上和屏幕外声音的频谱图(即,前景和背景),并且fF和fB是我们的模型我们还考虑模型,分割的两个声音,而不考虑他们的屏幕上或屏幕外的出处,使用排列不变损失(PIT)的余等人。[36]第30段。10欧文斯和埃弗罗斯屏上屏下+多传感器网络U网视频+混合音频混合声谱图图6:使我们的视听网络适应源分离任务。我们的模型将输入的声谱图分成屏幕上和屏幕外的音频流。在每个时间下采样层之后,我们的多感官特征与在频谱图上计算的u我们反转频谱图以获得波形。 该模型对原始视频进行操作,而不需要任何预处理(例如:无面部检测)。这种损失类似于公式3,但它允许屏幕上和屏幕外的声音交换而没有损失:LP(xF,xB,x1,x2)=min(L(x1,x2),L(x2,x1)),(4)其中L(xi,xj)=xi−xF1+xj−xB1且x1和x2是预测。6.1源分离模型我们使用u-net编码器-解码器[43,69,70]来增强我们的视听网络,该u-net编码器-解码器将混合声音映射到其屏幕上和屏幕外分量(图6)。 为了向u-网络提供视频信息,我们在三个时间尺度上包括我们的多感觉网络的特征:我们将每个时间尺度的最后一层与具有最接近的时间采样率的编码器层连接。在拼接之前,我们使用线性插值使视频特征与音频采样率相匹配;然后,我们在空间上对它们进行平均池化,并在频域上对它们进行平铺,从而重新塑造我们的3D CNN的时间/高度/宽度形状以匹配2D编码器的时间/频率形状。我们使用类似于[69]的u-net参数,添加一对卷积层来补偿频谱图中大量的频率通道我们预测对数频谱图的幅度和相位(我们将相位损失按0.01缩放,因为它在感知上不太重要)。为了获得波形,我们反转预测的频谱图。我们强调,我们的模型使用原始视频,没有预处理或标签(例如没有面部检测或预训练的监督特征)。训练我们使用VoxCeleb数据集[71]评估了我们的模型分离语音的任务。我们将训练/测试分开以具有不相交的说话者身份(72%,基于自监督多感官特征的视听场景分析11方法所有混合性别同性网格传输开/关SDR SIR SAR开/关SDR开/关SDR开/关SDR表2:来自VoxCeleb的语音混合物的源分离结果(按混合物中说话者的性别细分我们使用到真实对数频谱图的1距离(越低越好)来评估屏幕上/屏幕外声音预测误差(开/关)。我们还使用盲源分离指标(越高越好)[68]。VoxCeleb短视频(200ms)SDR上的SDR SIR SAR我们的(开/关)7.6 5.3 7.8 10.8Hou等人[42] 4.5Gabbay等人[44] 3.5-u-net PIT [36]-7.010.3十一点零Deep Sep.[67]表3:短(200ms)视频上的视听和仅音频分离方法的比较。我们将屏幕上音频预测(On-SDR ) 的 SDR 与 重 新 采 样 到2kHz的音频进行比较。8%,20%用于培训、验证和测试)。在训练期间,我们采样了2.1秒。从较长的5秒剪辑剪辑,并将每个波形我们使用帧长为64 ms、步长为16 ms的频谱图,生成128×1025个频谱图。在每个小批量优化中,我们随机配对视频剪辑,使一个成为另一个的屏幕外声音我们共同优化了我们的多传感器网络和U-NET模型,使用我们的自监督表示初始化权重(详见补充材料)。6.2评价我们将我们的模型与各种分离方法进行了比较:1)我们用其他特征替换了我们的自监督视频表示,2)与使用盲分离方法的仅音频方法相比,3)并且与其他视听模型相比。消融由于我们的主要目标之一是评估学习特征的质量,因此我们比较了我们模型的几种变体(表2)。首先,我们用在Kinetics数据集上预训练的I3 D网络[56]替换了多感官特征-这是一种基于3D CNN的表示,对于动作识别非常有效(第5节)。该模型的表现明显较差(11.4 vs.图12.3频谱图(等式3的损失为1)。一个可能的解释是,我们的预训练任务需要大量的运动分析,而即使是单帧动作识别仍然可以表现良好[65,72]。然后,我们询问我们的表示的性能有多少来自运动特征,而不是来自识别说话者的属性(例如,性别)。为了测试这一点,我们仅用单个帧训练模型(在时间上复制以生成一个开/关+PIT11.2 7.6 12.110.210.6 8.8 11.8 6.5 13.07.8全开/全关11.47.011.59.810.78.411.95.713.17.3单11.46.911.49.810.88.411.95.713.17.3单个帧14.85.07.8十点三13.27.216.23.117.85.7无早期融合11.67.011.010.111.08.412.15.713.56.9划痕12.95.89.79.411.87.613.94.215.26.3I3D +动力学12.36.610.79.711.68.212.95.114.46.6[36]第三十六话–7.311.4十点三–八点八–5.9–第八条第一款12欧文斯和埃弗罗斯对关闭混合物混合物对关闭对关闭预测的地面实况预测的地面实况混合物预测地面实况对关闭混合物预测地面实况图图7:我们的屏上/屏下分离模型的定性结果我们展示了来自我们的测试集的两个合成混合物的输入帧第一种(男性/男性混合物)比第二种(女性/男性混合物)包含更多的伪影。第三个视频是一个真实世界的混合体,其中一个女性发言者(同时)将一个男性西班牙语发言者翻译成英语。最后,我们将两个(男性)发言人在电视新闻节目中的讲话分开。虽然这些真实世界的例子没有地面实况,但源分离方法定性地分离了两种声音。有关视频源分离结果,请参阅我们的网页(http://andrewowens.com/multisensory)视频)。我们发现性能显著下降(11.4 vs. 14.8损失)。在两个说话者性别相同的情况下,这种下降特别大-嘴唇运动是一个重要的线索。人们可能还会问,早期的视听融合是否有帮助--毕竟,网络也会融合频谱图编码器-解码器中的模态。为了测试这一点,我们消融了我们的多感官网络的音频流,并重新训练了分离模型。该模型获得了更差的性能,表明融合的音频即使在其他地方可用时也是有帮助的。最后,虽然编码器-解码器仅使用单声道音频,但我们的表示使用立体声。为了测试它是否使用双耳提示,我们将所有音频转换为单声道并重新评估。我们发现,这并没有显著影响性能,这可能是由于使用立体声提示的困难????基于自监督多感官特征的视听场景分析13在野外互联网视频(例如,39%的音轨是单声道的)。最后,我们还将我们学习的模型转移(没有重新训练)到GRID数据集[73],这是一个实验室记录的数据集,其中人们在普通背景前说简单的短语,发现方法的相对顺序相似。为了更好地了解我们模型的有效性,我们将其与仅音频分离方法进行了比较。虽然这些方法不适用于屏幕上/屏幕外分离,但我们修改了我们的模型,使其使用额外的置换不变损失(等式4)分离音频,然后使用盲分离度量[68]比较这些方法:信号失真比(SDR),信号干扰比(SIR)和信号伪影比(SAR)。为了方法之间的一致性,我们将预测波形重新采样到16kHz(所有方法使用的最小值),并使用混合相位来反转我们模型我们将我们的模型与PIT-CNN进行了比较[36]。该模型使用VGG风格[74]CNN通过完全连接的层预测两个软分离掩码这些映射乘以输入混合物以获得分割的流。虽然这种方法在短片段上工作得很好,但我们发现它在较长的输入上失败了(例如,在表2所示的实验中获得1.8SDR)。为了创建更强的PIT基线,我们因此创建了我们的u-net模型的仅音频版本,优化了PIT损失而不是我们的屏幕上/屏幕外损失,即用u-net替换VGG类型的网络和掩码我们证实,该模型在短序列上获得了类似的性能(表3),并发现它在较长的视频上成功训练最后,我们与预训练的分离模型[67]进行了比较,该模型基于递归网络并在TSP数据集[75]上进行了训练我们发现,当用PIT损失训练时,我们的视听模型优于所有这些方法,除了在SAR度量上,其中u-netPIT模型稍好(其主要测量所生成的波形中伪影的存在)。特别是,当混合物中两个说话者的性别相同时,我们的模型明显优于仅音频方法(表2)。有趣的是,我们发现当转移到实验室记录的GRID数据集时,仅音频方法在盲分离度量上仍然表现得更好,我们假设这是由于显著的域偏移。视听分离我们比较了侯等人的视听分离模型。[42]。该模型的目的是增强先前已知的扬声器的语音,但我们将其应用到我们的任务,因为它是最密切相关的先验方法。我们还评估了Gabbay等人的网络。[45](与我们并行的方法)。我们使用与我们相同的程序训练这些模型([45]使用说话人身份来创建硬混合;而是假设说话者身份是未知的并且随机混合)。两种型号都采用非常短的(5帧)视频输入。因此,在[45]之后,我们评估了200ms视频(表3)。对于这些基线,我们使用[ 45 ]的Viola-Jones [ 76 ]嘴唇检测器(我们不使用人脸检测)裁剪说话者嘴巴周围的视频这些方法在它们的(Mel-)STFT表示中使用少量频带,这限制了它们的定量性能。为了解决这些限制,我们仅评估屏幕上的音频,并在计算SDR之前将音频下采样到低的常见速率(2 kHz)。我们的模型明显优于这些方法。我们常说:“常”,就是“常”。14欧文斯和埃弗罗斯将频谱图,并且我们怀疑其在源分离度量上的性能可能会受到其音频表示中相对较少的频带数量的6.3定性结果我们的定量结果表明,我们的模型可以成功地分离屏幕上和屏幕外的声音。然而,这些度量在其传达预测声音的质量的能力方面是有限的(并且对可能在感知上不重要的因素(诸如频率表示)敏感因此,我们也提供定性的例子。真实混合物在图7中,我们显示了来自我们的实验室的两种合成混合物的结果。测试集和两个真实世界的混合物:一个西班牙语到英语的同声翻译和一个电视采访。我们利用我们的模型是完全卷积的这一事实,将其应用于这些8.3秒。视频(比训练视频长4倍我们在网页上的视频中提供了额外的源分离示例。这包括(合成混合的)测试视频的随机样本,以及包含屏幕上和屏幕外声音的野外视频的结果。多个屏幕上的声源为了证明我们的模型如图1所示,当左侧的扬声器被隐藏时,我们会听到右侧的扬声器,反之亦然。请观看我们的视频以了解结果。大规模培训我们训练了一个更大的模型变化显著更多数据。为此,我们结合了VoxCeleb和VoxCeleb2 [77]数据集(约100个)。8倍的视频),如[47],并通过从AudioSet中采样大约8%的时间的背景音轨来模拟环境声音。提供更多的时间在上下文中,我们使用4.1秒进行训练视频(约256个STFT时间样本)。我们还通过将频谱图帧长度减少到40ms(513个频率样本)、预测频谱图幅度而不是其对数、以及将相位损失的权重增加到0.2来简化模型。请观看我们的视频以了解结果。7讨论在本文中,我们提出了一种学习时间多感官表征的方法,并通过实验表明,它对三个下游任务有用:(a)预训练动作识别系统,(b)使声源的位置可视化,以及(c)屏幕上/屏幕外源分离。我们认为这项工作为未来的研究开辟了两个潜在的方向。第一个是开发学习融合多感官表征的新方法。我们提出了一种方法-检测时间错位-但也可以结合其他学习信号,例如环境声音提供的信息[15]。另一个方向是使用我们的表示来完成额外的视听任务。我们在这里介绍了几个应用程序,但还有其他的音频理解任务可能会受益于视觉信息,同样,视觉应用程序可以受益于融合的音频信息。致谢本工作得到了DARPA基金FA 8750 -16- C-0166,U.C.的部分支持。伯克利长期网络安全中心和伯克利DeepDrive。我们感谢Allan Jabri、David Fouhey、Andrew Liu、Morten Kolbæk、Xiaolong Wang和Jitendra Malik的有益讨论。基于自监督多感官特征的视听场景分析15引用1. 史密斯,L. Gasser,M.:具身认知的发展:婴儿的六个教训人工生命11(1-2)(2005)132. Sekuler,R.:声音改变视觉运动感知。03TheDog(1997)3. de Sa,V.R.:使用未标记数据学习分类。神经信息处理系统进展(1994)1,34. Shimojo,S.,Shams,L.:感觉模态不是单独的模态:可塑性和相互作用。神经生物学当前观点(2001)25. McGurk,H.,MacDonald,J.:听到嘴唇和看到声音。01 TheDog(1976)6. 英国广播公司:眼见为实吗?(2010年)27. Schwartz,J.L.,Berthommier,F.,Savariaux,C.:视听情景分析:视听言语知觉中“早期”整合过程的证据第七届口语处理国际会议。(2002年)38. Omata,K.,Mogi,K.:视听一体化中的融合与组合伦敦皇家学会会刊A:数学、物理和工程科学。(2008年)39. Nahorna,O.,Berthommier,F.,Schwartz,J.L.:麦葛克效应中听觉与视觉流的结合与分离The Journal of the Acoustical Society of America132(2)(2012)106110. Nahorna,O.,Berthommier,F.,Schwartz,J.L.:视听演讲场景分析:解结合和再结合动力学的特征Mcgurk效应。The Journal of the Acoustical Society of America137(1)(2015)36211. Barker,J.P.,Berthommier,F.,Schwartz,J.L.:原始av连贯性是分割的辅助手段吗现场?AVSP'98听觉-视觉语音处理国际会议。(1998年)312. Hershey,J.,Attias,H.,Jojic,N.,Kristjansson,T.:语音处理的视听图形模型在:声学,语音和信号处理,2004年。诉讼(ICASSP'04)。IEEE国际会议。第五卷IEEE(2004)V13. Ngiam,J.,Khosla,A. Kim,M.,南,J.,李,H.,Ng,A.Y.:多模态深度学习。在:ICML。(2011年)314. Owens,A.,Isola,P.,McDermott,J.,Torralba,A.,阿德尔森E.H.弗里曼,W.T.:视觉指示的声音。CVPR(2016)315. Owens,A.,吴,J.,McDermott,J.H.,弗里曼,W. T.,Torralba,A.:环境声音为视觉学习提供In:ECCV.(2016)3、5、1416. Arandje lo vic´,R.,齐瑟曼,A.:看,听,学。ICCV(2017)3,7,8,917. 米斯拉岛Zitnick,C.L.,Hebert,M.:洗牌和学习:使用时间顺序验证的无监督学习在:欧洲计算机视觉会议,Springer(2016)52718. 魏,D.,Lim,J.J.,Zisserman,A.,弗里曼,W.T.:学习和使用时间之箭在:CVPR中。(2018年)319. Fernando,B.,Bilen,H.,Gavves,E.,Gould,S.:使用奇一网络的自监督视频表示在:2017年IEEE计算机视觉和模式识别会议(CVPR),IEEE(2017)572920. McAllister,D.F.罗德曼,R. D.,Bitzer,D.L.,Freeman,A.S.:语音的唇同步。在:视听语音处理:计算&认知科学ap-proaches。(1997年)321. Marcheret,E.,Potamianos,G. Vopicka,J.,Goel,V.:使用深度神经网络检测视听同步。第十六届国际语音通信协会年会。(2015年)316欧文斯和埃弗罗斯22. Chung,J.S.,齐瑟曼,A.:超时:自动对口型在:多视图唇读研讨会,ACCV。(2016年)323. Chung,J.S.,Senior,A.Vinyals,O.,齐瑟曼,A.:在野外读唇语句子CVPR(2017)324. 赫尔希J.R.Movellan,J.R.:视听
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功