没有合适的资源?快使用搜索试试~ 我知道了~
像素的声音Hang Zhao1,Chuang Gan1, 2,Andrew Rouditchenko1,CarlVondrick1, 3,Josh McDermott1,and Antonio Torralba11麻省理工2麻省理工学院-IBM沃森人工智能实验室3哥伦比亚大学{hangzhao,roudi,jhm,torralba}@ mit.edu{ganchuang1990,cvondrick}@ gmail.com抽象。我们介绍PixelPlayer,一个系统,通过利用大量的未标记的视频,学习定位图像区域,产生的声音和分离的输入声音到一组组件,代表每个像素的声音 我们的方法利用视觉和音频模态的自然同步来学习共同解析声音和图像的模型,而不需要额外的人工监督。在一个新的MUSIC数据集上的实验结果表明,我们提出的Mix-and-Separate框架在源分离上优于几个基线。 定性结果表明,我们的模型可以学习视觉中的声音,从而实现独立调整声源音量等应用。关键词:跨模态学习,声音分离与定位1介绍世界产生了丰富的视觉和听觉信号源。我们的视觉和听觉系统能够识别世界中的物体,分割物体覆盖的图像区域,并隔离物体产生的声音。虽然听觉场景分析[5]在环境声音识别[26,18]和源分离[4,6,52,41,42,9]领域中被广泛研究,但视觉和声音之间的自然同步可以为视觉中的接地声音提供丰富的监督信号[17,21,28]。训练系统从视觉或声音中识别然而,在本文中,我们利用联合视听学习来发现在没有人工监督的情况下产生声音的对象[36,30,1]。我们表明,通过使用听觉和视觉信息,我们可以以无监督的方式学习,从视觉外观或声音中识别对象,定位图像中的对象,并分离来自每个对象的音频分量。我们引入了一个新的系统称为Pix-elPlayer。给定一个输入视频,PixelPlayer将伴随的赵航等2Fig. 1. PixelPlayer在视频中定位声源,并将音频分离到其组件中,而无需监督。a)输入视频帧I(x,y,t)和视频单声道声音信号S(t)。b)系统通过分离输入声音来估计输出声音信号Sout(x,y,t)。 每个输出分量对应于来自视频中的空间位置(x,y)的声音。c)分量音频波形和采样;结构清晰的音频序列。d)系统估计e)像素空间中的声音分量的聚类相同的颜色被分配给具有相似声音的像素作为聚类的示例应用,PixelPlayer将使得能够对视频中的不同声源进行独立的音量控制将音频转换成分量并在视频中空间定位它们。PixelPlayer使我们能够收听视频中每个像素发出的声音。图1示出了PixelPlayer的工作示例(检查项目网站4以获得示例视频和交互式演示)。在该示例中,系统已经用大量视频进行了训练,这些视频包含以不同组合演奏乐器的人,包括独奏和二重奏。没有提供关于每个视频中存在哪些乐器、它们位于何处以及它们的声音的标签。在测试期间,输入(图1.a)是一起演奏的几种乐器的视频,包含视觉帧I(x,y,t)和单声道音频S(t)。PixelPlayer执行视听源分离和定位,分裂输入声音信号以估计输出声音分量Sout(x,y,t),每一个对应于来自视频帧中的空间位置(x,y)的声音。作为示例,图。图1.c示出了11个示例像素的恢复的音频信号。平坦的蓝色线对应于被系统认为是无声的像素。非无声信号对应于来自每个单独乐器的声音。图1.d示出了来自每个像素的音频信号的估计声能或音量。请注意,系统正确检测到声音来自两个乐器,而不是来自背景。图图1.e示出了如何根据像素的分量声音信号对像素进行聚类相同的颜色被分配给产生非常相似的声音的像素。将声音融入视觉的能力将对涉及视频识别和处理的一系列应用产生重大影响像素-4http://sound-of-pixels.csail.mit.edu像素的声音3因此,播放器区分和定位来自源的声音的能力将使得对来自每个对象的声音的处理更少,并且将有助于听觉识别。我们的系统还可以促进视频中的声音编辑,例如,能够为特定对象调整音量或从特定来源删除音频。与这项工作同时进行的是,在同一次会议上发表的论文[11,29]也展示了将视觉和音频结合起来将声音分解为组件的能力。[11]展示了人的外表如何帮助解决语音领域中的[29]演示了一个视听系统,该系统将屏幕上的声音与视频中不可见的背景声音本文的研究内容如下。在第2节中,我们首先回顾了视觉和声音社区的相关在第3节中,我们提出了利用跨模态上下文作为监督信号的系统。在第4节中,我们描述了一个用于视觉-音频基础的新数据集。在第5节中,我们提出了几个实验来分析我们的模型。主观评价见第6节。2相关工作我们的工作主要涉及声源分离、视听交叉模态学习和自监督学习等领域,本节将简要讨论这些领域。声源分离。声源分离,也被称为“声屏障分离”[25,14],是一种简单的声屏障分离方法。经典方法包括信号处理方法,诸如非负矩阵分解(NMF)[42,8,40]。最近,深度学习方法越来越受欢迎[45,7]。声源分离方法能够实现从音乐/人声分离[39]到语音分离和增强[16,12,27]的应用我们的问题与经典的声源分离问题不同,因为我们希望将声音分离成视觉和空间上接地的组件。学习视听对应。计算机视觉领域的最新研究探索了视觉和声音之间的关系。一种工作已经开发出用于从无声视频生成声音的模型[30,51]。视觉和声音之间的对应也被用于学习表征。例如,[31]使用音频来监督视觉表示,[3,18]使用视觉来监督音频表示,[1]使用声音和视觉来共同监督彼此。在与我们的论文相关的工作中,人们研究了如何根据运动[19]或语义线索[2,37]在视觉中定位声音,但是他们没有从混合信号中分离出多个声音。自我监督学习。我们的工作建立了通过在图像[10,22,33,38,24],视频[46,32,43,44,13,20],甚至无线电信号[48]中进行水平对准来学习感知模型的努力。这些方法利用监督学习的能力,同时不需要手动注释,而是从构造中的结构导出监督信号。赵航等4图二.生成像素的声音的过程:像素级视觉特征通过在应用于T帧的扩张ResNet的输出上的时间最大池化来提取。输入的音频频谱图通过一个U-Net,其输出是K个音频通道。每个像素的声音由音频合成器网络计算音频合成器网络输出要应用于输入频谱图的掩模,该掩模将选择与像素相关联的频谱分量最后,将逆STFT应用于针对每个像素计算的频谱图以产生最终声音。自然数据我们的模型同样是自我监督的,但使用自我监督来学习在视觉中分离和接地声音。3音视频源分离与定位在本节中,我们将介绍PixelPlayer的模型架构,以及建议的Mix-and-Separate训练框架,该框架可以根据视觉学习分离声音。3.1模型架构我们的模型是由一个视频分析网络,一个音频分析网络,和一个音频合成器网络,如图所示。二、视频分析网络。视频分析网络从视频帧中提取视觉特征。它的选择可以是用于视觉分类任务的任意架构。在这里,我们使用ResNet-18模型的扩张变体[15],将在实验部分详细描述。对于大小为T×H×W×3的输入视频,ResNet模型提取大小为T×(H/16)×(W/16)×K的每帧特征。在时间池化和S形激活之后,我们获得具有大小K的每个像素的视觉特征ik(x,y)。音频分析网络。音频分析网络采用U-Net [35]架构的形式,将输入声音拆分为K个分量skk=(1,… K)。我们根据经验发现,使用音频频谱图视频分析网络音频合成器网络K输入视频帧(I)∑kk(k,)k+0k=1扩展的ResNet扩展的ResNet扩展的ResNetK个图像通道像素的声音iSTFT(,)yXK音频分析网络S1输入音频估计音频质量(one每个x,y位置)STFTS2声音频谱图SKK个音频通道音频U-Net……时间最大池化像素的声音5视频分析网络空间最大池化视频分析网络空间最大池化在%1^1中输入音频合成器网络l〇 ss(S1,S2,^1,^2)Es timat edsoun d22音频合成器网络K渠道K个图像通道…K个音频通道音频分析网络K个图像通道K渠道图3.第三章。在混合两个视频(N= 2)的情况下,我们提出的混合和分离框架的训练管道虚线框表示图1中详述的模块二、来自两个视频的音频信号被加在一起以生成具有已知组成源信号的输入训练网络分离以相应视频帧为条件的音频源信号;其输出是两个声音信号的估计。请注意,我们并不假设每个视频都包含单个声源。此外,未提供注释。因此,该系统学习在没有传统监督的情况下分离各个源。因此,本文中描述的网络使用声音的时频(T-F)表示。首先,对输入混合声音应用短时傅里叶变换(STFT)以获得其频谱图。然后将频谱图的幅度转换为对数频率标度(在第2节中分析)。5),并被馈送到U-网络中,其产生包含输入声音的不同分量的特征的K个特征图。音频合成器网络。合成器网络最终通过采用像素级视觉特征ik(x,y)和音频特征sk来预测预测的声音。输出声谱图由基于视觉的声谱图掩模技术生成。具体地,估计可以将像素的声音与输入分离的掩模M(x,y),并将其最后,将预测得到的频谱图幅值与输入频谱图的相位相结合,用逆短时傅里叶变换进行恢复,得到预测波形3.2混合与分离的自监督训练Mix-and-Separate训练过程的思想是人为地创建复杂的听觉场景,然后解决听觉场景分析问题。视频1帧I1视频1声音S1S1+S2视频声音2视频2帧I2赵航等6分离和接地声音。利用音频信号近似相加的事实,我们混合来自不同视频的声音以生成复杂的该模型的学习目标是分离以与之相关联的视觉输入为条件的感兴趣的声源。具体来说,为了生成复杂的音频输入,我们随机采样N个视频{In,Sn},其中n =(1,…N)。In和Sn表示这是一个典型的框架,也是一个完整的框架。输入值为Σmixture通过音频输入的线性组合创建为Nn=1 S n.该 模 型 的 特 征 在 于 , 给 定 audio_imix 图 和 关 于dig_id_eo_S_n= f(S_imix,In)的cor_r_s_p的值,S_n=f(S_imix,In)。图3示出了在N=2的情况下的训练框架。 训练阶段与测试阶段的不同之处在于:1)我们从训练集中随机地采样多个视频,混合样本音频和目标以在给定它们对应的视觉输入的情况下恢复它们中的每一个; 2)通过时空最大池化而不是像素级特征来获得视频级视觉特征。请注意,尽管我们在训练过程中有明确的学习目标,但它仍然是无监督的,因为我们不使用数据标签,也不做假设关于采样数据。在我们的系统中的学习目标是频谱图掩模,它们可以是二进制或比率。在二进制掩模的情况下,通过观察目标声音是否是每个T-F单元中的混合声音中的主导分量来计算第n个视频的地面实况掩模的值Mn(u,v)=¢Sn(u,v)≥Sm(u,v)),m =(1,…,N),(1)其中(u,v)表示T-F表示中的坐标,并且S表示频谱图。每像素S形交叉熵损失用于学习。对于比率掩模,视频的地面实况掩模被计算为目标声音和混合声音的幅度的比率。M(u,v)= Sn(u,v)。(二)nSmix(u,v)在这种情况下,每像素L1损失[47]用于训练。注意,由于干扰,地面实况掩码的值不一定保持在[0, 1]4MUSIC数据集最常用的具有视听对应关系的视频是音乐记录,因此我们为所提出的任务引入乐器视频数据集,称为MUSIC(乐器组合的多模态源)数据集。我们检索的音乐视频从YouTube的关键字查询。在此期间,我们添加了一些关键字作为“cover”,以查找更多的相关信息不经过后期处理或编辑。MUSIC数据集有714个未修剪的音乐独奏和二重奏视频,一些样本视频如图所示4.第一章数据集涵盖11个仪器类别:像素的声音7见图4。来自我们视频数据集的示例帧和相关声音。最上面一行显示的是独唱视频,最下面一行显示的是二重唱视频。声音在时频域中显示为频谱图,频率为对数标度。长笛萨克斯管特朗佩a)、b)视频持续时间(秒)图五、数据集统计:a)显示视频类别的分布有565个独奏视频和149个二重唱视频b)示出了视频持续时间的分布平均持续时间约为2分钟。手风琴、木吉他、大提琴、单簧管、二胡、长笛、萨克斯管、小号、大号、小提琴和木琴。图5示出了数据集统计。统计数据显示,由于视频的自然分布,二重唱表演不如独唱表演平衡。例如,几乎没有大号和小提琴二重奏的视频,而有很多吉他和小提琴二重奏的视频5实验5.1音频数据处理在将音频数据输入到模型之前,我们需要执行几个步骤。为了加速计算,我们将音频信号子采样到11kHz,使得保留的最高信号频率为5.5kHz。这保留了乐器的最重要的感知频率,并且仅略微降低了整体音频质量。每个音频样本大约为6秒,在训练期间从未修剪的视频中随机裁剪。在音频样本上计算窗口大小为1022且跳长为256的STFT,从而产生声音的512 ×256时频(T-F)表示。我们进一步在对数频率标度上对该信号进行重新采样,以获得256 ×256 T-F表示。此步骤类似于使用Mel-Frequency簧管大提琴原声吉他二胡手风琴不大号小提木琴二重唱萨克斯管吉他吉他木琴小号大号大号长号吉他小提琴大提琴吉他长笛木琴单簧管吉他长笛小提琴计数赵航等8规模,例如在语音识别[23]。对数频率标度具有以下双重优点:(1)与人类听觉系统的频率分解的相似性(在低频下,频率辨别在绝对项上更好),以及(2)对于诸如乐器的谐波声音的平移不变性(其基频和高阶谐波随着音高变化在对数频率标度上平移),很好地适合ConvNet框架。T-F单位的对数幅度值用作音频分析网络的输入。在从我们的模型获得输出掩码之后,我们使用逆采样步骤将我们的掩码转换回大小为512× 256的线性频率尺度我们最后执行逆STFT以获得恢复的信号。5.2模型配置在所有的实验中,我们使用ResNet-18模型的变体作为视频分析网络,并进行了以下修改:(2)去除最后一个残差块的步长,并使该块中的卷积层具有2的膨胀;(3)添加具有K个输出通道的最后3× 3卷积层。对于每个视频样本,它以大小为224× 224× 3的T帧作为输入,并在时空最大池化后输出大小为K的特征。音频分析网络由U-Net改进它具有7个卷积(或下卷积)和7个去卷积(或上卷积),其间具有跳跃连接。它取一个大小为256× 256× 1的音频频谱图,输出K个大小为256× 256×K的特征图。音频合成器从视频和音频分析网络获取输出,将它们与加权求和融合,并输出将应用于频谱图的掩码。音频合成器是具有非常少的可训练参数(K个权重+1个偏置)的线性层。它可以被设计成具有更复杂的计算,但我们在这项工作中选择了简单的操作来显示可解释的中间表示,这将在5.6节中显示我们的最佳模型采用3帧作为视觉输入,并使用K= 16的特征通道数5.3实现细节我们在模型训练中的目标是学习自然视频(包括独奏和二重奏),在验证集上进行定量评估,并最终解决混合自然视频的源分离和定位问题因此,我们将MUSIC数据集分为500个视频用于训练,130个视频用于验证,84个视频用于测试。其中,500个训练视频同时包含独唱和二重唱,验证集只包含独唱,测试集只包含二重唱。在训练过程中,我们从MUSIC数据集中随机抽取N= 2个视频,可以是独唱、二重唱或无声背景。无声视频是通过将无声音频波形与来自ADE数据集的图像随机配对而制作的[50],该ADE数据集像素的声音9NMF[第四十二届]DeepConvSep[七]《中国日报》光谱回归比的掩模二进制掩码线性标尺对数标度线性标尺对数标度NSDR 3.146.125.126.678.566.948.87先生6.708.387.7212.8513.7512.8715.02特区10.1011.0210.4313.8714.1911.1212.28表1.模型性能的基线和不同的变化,我们提出的模型,在NSDR/SIR/SAR评估。对数频率尺度中的二进制掩蔽在大多数度量中表现最好。包含自然环境的图像。该技术通过引入更多无声视频,在定位声音对象时更好地正则化模型。概括地说,输入音频混合可以包含0到4个乐器。我们还尝试了组合更多的声音,但这使得任务更具挑战性,模型并没有学习得更好。在优化过程中,我们使用动量为0的SGD优化器。9.我们将音频分析网络和音频合成器的学习率都设置为0。001,视频分析网络的学习率为0. 0001,因为我们在ImageNet上采用了预训练的CNN模型。5.4声音分离性能为了评估我们的模型的性能,我们还使用混合和分离过程来制作合成混合音频的验证集,并评估分离。图6示出了我们的最佳模型的定性结果,其预测应用于混合物谱图的二进制掩模。第一行显示了我们混合在一起的每个采样视频的一帧,第二行显示了音频混合的频谱图(以对数频率标度),这是音频分析网络的实际输入。第三和第四行显示了真实掩码和预测掩码,它们是我们模型的目标和输出。第五行和第六行示出了在对输入频谱图应用掩模我们可以观察到,即使在混合测试程序中进行了复杂的测试,我们的改进版也能成功地将目标仪器组件分离出来为了量化所提出的模型的性能,我们使用以下指标:归一化信号失真比(NSDR),信号干扰比(SIR),和信号伪影比(SAR)对我们的合成视频的验证集。NSDR被定义为分离信号与地面真实信号相比的SDR和混合信号与地面真实信号相比的SDR的差异这表示与使用混合物作为每个分离的源相比,使用分离的信号的改进。本文报道的结果是通过使用开源mir eval[34]库获得的。10Hang Zhao et al.视频帧混合频谱图混合物对1混合对2混合对3地面真值掩码预测掩码地面实况频谱图预测谱图图六、合成音频混合的视觉引导源分离的定性结果本实验仅用于定量模型评价。结果示于表1中。在所有模型中,基线方法NMF [42]和DeepConvSep[7]使用音频和地面实况标签来进行源分离。我们模型的所有变体都使用我们描述的相同架构,并采用视觉和声音输入进行学习。谱回归是指在给定输入混合谱图的情况下直接使输出谱图值回归而不是输出谱图掩模值的模型。从表中的数字,我们可以得出结论:(1)基于掩蔽的方法通常优于直接回归;(2)在对数频率范围内工作比在线性频率范围内工作更好;(3)基于二进制掩蔽的方法实现了与比率掩蔽类似的性能。同时,我们发现NSDR/SIR/SAR度量不是用于评估感知分离质量的最佳度量,因此在Sec 6中,我们进一步对音频分离质量进行用户研究。5.5声音的视觉基础正如论文标题所示,我们从根本上解决了两个问题:声音的定位和分离。声音定位。第一个问题与空间基础问题有关,即“什么样的空间基础问题才能解决?”“这是一个在F i g中被发现的问题。7:对于普通的n像素的声音11了图7.第一次会议。“Which i c h p i x el s a rem a k i n g sound und s?“一个不规则的分布是由一个空间和一个像素空间组成的。叠加的热图显示了每个像素的体积。了图 8. “这是怎么回事?“在空间中的空间。 Over lad colormap用不同的颜色示出不同的音频特征。通过分析数据集中的视频,我们计算图像中每个像素的声能(或音量)可以看出,该模型准确地定位了探测仪器。声音的群集。第二个问题与另一个问题有关:“这是什么东西?””结果示于图8、同一视频帧中的不同乐器和背景具有不同的颜色嵌入,表示它们发出的不同声音。识别通道激活。 考虑到我们的模型可以分离不同乐器的声音,我们探索了不同类别的通道激活。对于每个类别的验证样本,我们找到最强的激活通道,然后对它们进行排序以生成混淆矩阵。图9示出了(a) 视觉和(b)音频混淆矩阵从我们的最佳模型。如果我们简单地通过将一个类别分配给一个通道来评估分类,则准确率为46。2%的视力和68。9%的音频。注意,这里不涉及学习,我们期望通过使用线性分类器获得更高的性能这个实验表明,该模型已经内隐地学会了在视觉和听觉上区分乐器。以类似的方式,我们基于通道激活来评估视频分析网络的对象定位性能为了从通道激活图生成边界框,我们按照[49]对图进行阈值化。我们首先12Hang Zhao等.(a)(b)第(1)款图9.第九条。(a)视觉混淆矩阵和(b)音频混淆矩阵,通过相对于地面实况类别标签对通道激活进行IoU阈值0.30.40.5准确度(%)66.1047.9232.43表2.学习视频分析网络的对象定位性能分割其值高于激活图的最大值的20%的区域,然后取覆盖分割图中的表2中示出了在不同交大于并(IoU)准则下的定位精度。5.6视听对应激活由于我们提出的模型是一种自我监督学习的形式,并且被设计为使得视觉和音频网络都学习在同一通道上同时激活,因此我们进一步探索了模型学习的表示。具体地,我们查看在最大池化之前视频分析网络的K个通道激活,以及它们对应的音频分析网络的通道激活。该模型已学会跨各个通道检测特定对象图10我们显示频道6,11和14的顶部这些通道分别在视觉和音频领域中作为小提琴、吉他和木琴检测器出现。通道6强烈地响应小提琴的视觉外观和小提琴声音中的高阶谐波。通道11响应吉他和声音中的低频区域。通道14响应木琴的视觉外观和频谱图域中的简短的脉冲状图案。对于其他通道,它们中的一些也检测特定乐器,而其他的仅检测乐器的特定特征。6主观评价第二节中的客观和定量评价。5.4主要在合成混合视频上执行,在自然视频 上的性能需 要进一步研 究。另一方 面,所使 用的流行的NSDR/SIR/SAR度量与感知质量不密切相关因此,我们进行了像素的声音13通道6通道11通道14视频帧视觉激活音频激活见图10。相应通道激活的可视化。通道6已经成为小提琴检测器,对视频帧中小提琴的存在和频谱图中的高次谐波(其在图的频谱图中被着色为更亮)做出强烈响应同样,11和14频道似乎可以检测吉他和木琴的视觉作为补充评价的众包主观评价由人类评分员在Amazon Mechanical Turk(AMT)上进行两项研究,声音分离质量评估和视觉-音频对应性评估。6.1声音分离质量对于声音分离评估,我们使用来自数据集的独奏的子集作为地面实况。我们准备了基线NMF模型的输出和我们的模型的输出,包括谱回归,比率掩蔽和二进制掩蔽,都在对数频率尺度。对于每个模型,我们从同一组中获取256个音频输出用于评估,并且每个音频由3个独立的AMT工作器进行评估。音频样本随机呈现给工作人员,并询问以下问题:“你听到什么声音了?1.一、二。乙、3. 两者都是,或者4。一个都这里A和B由它们的混合源代替,例如A=单簧管,B=长笛。主观评价结果见表3。我们显示了只听到正确独奏乐器的工人(正确),只听到不正确独奏乐器的工人(错误),听到两种乐器的工人(两者),以及没有听到任何乐器的工人(无)。首先,我们观察到,尽管NMF基线在定量评价中没有良好的NSDR数,但在我们的人体研究中具有竞争性结果。其次,在我们的模型中,二进制掩蔽模型优于所有其他模型的一个Margin,显示出其作为一个分类模型分离的优势。二进制掩蔽模型给出了最高的正确率、最低的错误率和最低的混淆(两者的百分比),这表明二进制模型在感知上比其他模型更好地执行源分离。值得注意的是,即使是地面实况solos也不能给出100%的正确率,这代表了性能的上限。14Hang Zhao等.模型正确(%)错误(%)两者(%)无(%)NMF45.7015.2321.3517.71谱回归18.2315.3664.451.95比的掩模39.1919.5327.7313.54二进制掩码59.1111.5918.1011.20Ground Truth独奏70.3116.027.685.99表3.声音分离性能的主观评价。基于二进制掩蔽的模型在声音分离方面优于其他模型。模型是(%)谱回归39.06比的掩模54.68二进制掩码67.58表4.视听对应的主观评价。基于二进制掩蔽的模型最好地将视觉和声音联系起来。6.2视觉-声音对应性评价第二项研究着重于评价视听对应问题。 对于一个像素的声音,我们可以询问下面的问题:“声音来自这个像素吗?如果是这样,我们只评估我们的模型用于比较,因为任务需要视觉输入,所以仅音频基线不适用。我们选择了256个像素位置(50%在乐器上,50%在背景物体上)来生成具有不同模型的对应声音,并且得到来自工作人员的“是”响应的百分比,这告诉了具有良好源分离和定位的像素的百分比,结果在表4中示出。该评估还表明,基于二进制掩蔽的模型给出在视觉相关的源分离问题中的最佳性能7结论在本文中,我们介绍了PixelPlayer,这是一个从未标记的视频中学习的系统,可以分离输入的声音,并将它们定位在视觉输入中。定量结果、定性结果和主观用户研究证明了我们的跨模态学习系统的有效性。我们希望我们的工作可以打开新的研究途径,了解问题的声源分离使用视觉和听觉信号。鸣谢:这项工作得到了NSF资助IIS-1524817的支持。我们感谢AdriaRecasens、Yu Zhang和Xue Feng进行了富有洞察力的讨论。像素的声音15引用1. 阿兰杰洛维奇河齐瑟曼,A.:看,听,学。在:2017 IEEE InternationalConferenceonComputerVision(ICCV). pp. 609-617 IEEE(2017)2. Arandjelovi'c,R., ZissermanA. : OBJECTS thatsound.arXiv 出版日期:1712.06651(2017)3. Aytar,Y.冯德里克角Torralba,A.:Soundnet:从未标记的视频中学习声音表示。在:神经信息处理系统的进展pp. 8924. Belouchrani,A.,Abed-Meraim,K.,Cardoso,J.F.,Moulines,E.:一种基于二阶统计量的盲源分离技术。IEEE Transactions on SignalProcessing45(2),4345. Bregman,A.S.:听觉场景分析:声音的知觉组织。麻省理工学院出版社(1994)6. Cardoso,J.F.:Infomax和最大似然盲源分离。IEEESignalprocessingleters 4(4),1127. C handna,P., M.M., J. Aner,J. Go'mez,E. :MONOURALAUDIO使我们的存储设备可以使用已定义的概念来执行任务。 I n:IC LVASS. pp. 2588. Cichocki,A.,兹杜内克河Phan,A.H.,Amari,S.i.:非负矩阵与张量分解:应用于探索性多路资料分析与盲源分离。02 The Dog(2009)9. Comon,P.,Jutten,C.:盲源分离手册:独立组分分析与应用。学术出版社(2010)10. Doersch,C. Gupta,A.,Efros,A.A.:通过上下文预测的无监督视觉表示学习。In:Proceedings of the IEEE International Conference on ComputerVision.pp. 142211. Ephrat,A.,莫塞里岛Lang,O.,Dekel,T.,Wilson,K. Hassidim,A., 弗里曼,W. T.,鲁宾斯坦,M.:在鸡尾酒会上聆听:一种用于语 音 分 离 的 非 特 定 人 视 听 模 型 。 arXiv 预 印 本 arXiv : 1804.03619(2018)12. Gabbay,A.,Ephrat,A.,Halperin,T. Peleg,S.:透过噪音:使用视觉衍生语音的说话人分离与增强。arXiv预印本arXiv:1708.06767(2017)13. Gan,C.,Gong,B.,Liu,K.,Su,H.,Guibas,L.J.:用于自监督视频表示学习的几何引导CNN(2018)14. Haykin,S., Chen,Z. :COCktailpar typrblem。《新人类学》17(9),187515. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习在:IEEE计算机视觉和模式识别会议论文集。pp. 77016. 赫尔希J.R.陈志,Le Roux,J.,Watanabe,S.:深度聚类:用于分割和分离的判别嵌入。In:Acoustics,Speech and SignalProcessing(ICASSP),2016IEEEInternatitionalConferenceon. pp. 31-35 IEEE(2016)17. 赫尔希J.R. Movellan,J.R.:音频视觉:使用视听同步技术 lo cate [咒语]In:Solla,S. 一、LEENT. K.,Müller,K.(eds. )Ad-vancesinNeuralIinformationPr ocessingSystems12 , pp.813-819 MITPress( 2000 ) , http://papers.nips.cc/paper/1686-audio-vision-using-audio-visual-synchrony-to-locate-sounds.pdf16Hang Zhao等.18. Hershey,S.,Chaudhuri,S.,埃利斯,D.P.,Gemmeke,J.F. Jansen,A.,摩尔共和国Plakal,M.,Platt,D.,索罗斯,R.A.,Seybold,B.,等:用于大规模音频分类的Cnn结构。In:Acoustics,Speech and Signal Processing( ICASSP ) , 2017IE E EInternationalConferenceon. pp.131-135 IEEE(2017)19. Izadinia,H.,萨利米岛Shah,M.:多模态分析识别和seg-移动发声物体的心理状态。IEEE Transactions on Multimedia 15(2),37820. Jayaraman,D.Grauman,K.:学习与自我运动相关的图像表示在:IEEE计算机视觉国际会议论文集。pp. 141321. Kidron,E.,Schechner,Y. Y.,Elad,M.:像素的声音。在:会议记录2005 IEEE计算机协会计算机视觉和模式识别会议(CVPR’05)-第1卷 - 第 01 卷 pp.88CVPRhttps : //doi.org/10.1109/CVPR.2005.274 ,http://dx.doi.org/10.1109/CVPR.2005.27422. Larsson,G.,Maire,M.,Shakhnarovich,G.:着色作为可视化的代理任务认识在:CVPR中。卷2,p.2017年第823. Logan,B.,等:用于音乐建模的梅尔频率倒谱系数在:ISMIR.vol. 第270页。第一24. 妈W.C.Chu,H.,Zhou,B.,(1991年),中国地质大学,Urtasun河Torralba,A.:单像本征分解而没有单个固有图像。In:ECCV(2018)25. McDermott,J. H. :COCktailpar typrblem。当前生物学19(22),R102426. Mesaros,A.Heittola,T.,Diment,A.,Elizalde湾Ankit Shah,e.a.:Dcase 2017挑战设置:任务、数据集和基线系统。在:DCASE 2017 -关于声学场景和事件的检测和分类的研讨会(2017)27. Nagrani,A.,Albanie,S.,齐瑟曼,A.:看到的声音和听到的面孔:交叉-模态生物特征匹配arXiv预印本arXiv:1804.00326(2018)28. Ngiam,J.,Khosla,A. Kim,M.,南,J.,李,H.,Ng,A.Y.:多模态深度学习。In:Proceedings of the 28th International Conference on InternationalConFerenceonMachineLearng. pp. 689-696 03TheDog29. Owens,A.,Efros,A.A.:视听场景分析与自我监督多Sory features. arXiv预印本arXiv:1804.03641(2018)30. Owens,A.,Isola,P.,McDermott,J.,Torralba,A.,阿德尔森E.H.弗里曼,W.T.:视觉指示的声音。在:Proceedings of the IEEE Conference onComputer VisionandPatternRecognition中。pp. 240531. Owens,A.,吴,J.,McDermott,J.H.,弗里曼,W. T.,Torralba,A.:环境声音为视觉学习提供监督。在:欧洲计算机会议Vision. pp. 801-816 02TheDog(2016)32. P a th a k,D. ,Girshic k,R., Doll 'a r,P., 达瑞尔,T., H a rih a ran,B. :Learning features通过观察物体的移动In:Proc.CVPR。卷2017年第233. Pathak,D.,Krahenbuhl,P. Donahue,J.,Darrell,T.,Efros,A.A.:上下文编码器:通过图像修复进行特征学习。In:Proceedings of the IEEEConference on C〇mputerVis i sinandPater nRec 〇 gnit i tin. pp. 253634. 拉菲尔角McFee,B.,汉弗莱E.J.Salamon,J.,涅托岛Liang,D.,中国科学院院士,埃利斯,D.P.,Raffel,C.C.:mir eval:通用mir指标的透明实现第15届国际音乐信息检索会议论文集,ISMIR。03 The Dog(2014)35. Ronneberger,O.,Fischer,P.,Brox,T.:U-net:生物医学cal图像分割在:国际医学图像计算和计算会议上。pp. 234-241 02TheDog(2015)像素的声音1736. R. de Sa , V. : 使 用 未 标 记 数 据 学 习 分 类 。 In : Advances In NeuralInformat1nProc essingSystems. pp. 11237. Senocak,A. T.H.金,J.,Yang,M.H.,Kweon,I.S.:学习在视觉场景中定位声源。arXiv预印本arXiv:1803.03849(2018)38. Shu,Z.,Yumer,E.,Hadap,S.,Sunkavalli,K.,Shechtman,E.,萨马拉斯,D.:具有内在图像解缠的神经人脸编辑。arXiv预印本arXiv:1704.04131(2017)39. 辛普森,A.J.,罗马G. Plumbley,医学博士:深度卡拉OK:使用卷积深度神 经 网 络 从 音 乐 混 合 中 提 取 人 声 。 In : International Con-fe-nceonLatetVariableAnalysisandSignalSeparation.pp.429-43602TheDog(2015)40. Smaragdis,P.,布朗,J.C.:复调音乐转录的非负矩阵分解。在:信号处理在音频和声学中的应用,2003IE E EWorkshopon。pp.177-180 03TheDog(2003)41. V incent,E., Gribonval,R., 去你的,C。:在盲源分离中实现预处理 。 IEEE transactions on audio , speech , and language processing14(4),1462- 1469(2006)42. 维尔塔宁,T.:基于时间连续性和稀疏性准则的非负矩阵分解的单耳声源分离IEEE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功