没有合适的资源?快使用搜索试试~ 我知道了~
混合音频的分离与视觉场景中声源的定位方法
10483混合和本地化:混合胡锡进1,2 *陈紫阳1*Andrew Owens1密歇根大学1德克萨斯大学奥斯汀分校2摘要本文提出了一种同时定位视觉场景中多个声源的方法这项任务需要一个模型来将声音混合物分组为单独的源,并将它们与视觉信号相关联。我们的方法联合解决了这两个任务一次,使用的配方的Jabri等人的对比随机行走的启发。我们创建一个图形,其中图像和分离的声音对应于节点,并训练随机步行者从不同的模态之间的节点过渡具有高返回概率。这种步行的转移概率由我们的模型学习的视听相似性度量确定。我们通过对音乐和人类语音的实验表明,我们的模型可以成功地本地化多种声音,优于其他自监督方法。1. 介绍人类有非凡的能力,可以同时定位许多声音[20]。相比之下,现有的视听声音定位方法通常是在假设一次仅存在单个声源的情况下训练的,并且在很大程度上缺乏用于将场景的内容分组为多个视听事件的机制这个问题通常通过对比学习来解决[2这些方法通常为音频产生然后,他们学习跨模态的对应关系,这样在同一场景中共同出现的图像补丁和声音就被拉近了,而不共同出现的配对就被拉开了。将这种方法扩展到多个声源似乎需要解决两个不同的问题:从声音混合中分离声源,并将它们定位在图像中。我们提出了一个简单的模型,共同解决这两个问题。我们的模型使用周期一致性将场景分组为声源,灵感来自对比*表示平等贡献。图像和声音混合图1.周期一致的多源定位。我们的模型共同学习将声音混合分离成声源,并在图像中定位这些源。为此,我们使用基于周期一致性随机游走的自监督分组方法我们展示了我们模型的声源定位结果随机游走[25]。它为声音混合产生多个嵌入向量,每个嵌入向量表示不同的声源,以及将它们与其对应的图像内容相关联的视听相似性度量该相似性度量定义了图上随机游走的转移概率,该图的节点对应于图像和预测的声源。我们的模型执行随机游走,从音频过渡到图像,然后返回。我们学习一个相似性度量,它最大化循环一致性的概率(即,返回概率)。在训练之后,我们通过估计音频和视觉嵌入之间的相似性得分来创建图像和每个声源获得周期一致的行走需要从混合物中提取声源,并将每个声源与不同的图像内容相关联。因此,该公式与其他自监督视听定位方法相比具有若干优点它将声音从混音中分离出来,并明确地将场景分组为离散的发声对象.该模型也很简单,可以实现为以前的对比方法的直接扩展我们在包含乐器[10,53]和人类扬声器[13]的合成和真实世界的声音混合物上评估我们的模型我们发现,与其他自我相比10484···∈···监督定位方法,我们的模型是更准确地定位声音在多源混合。2. 相关工作声源分离。 分离单声道声音混合的方法有很长的历史。早期的工作用概率模型解决了这个问题[15,38],最近的工作通过深度神经网络解决了这个问题[22,51]。这些通常使用其他工作结合了源分离与视觉提示。Zhao等人[53]提出通过将分离的音频源与视频中的像素相关联来分离不同的乐器,后来使用光流[52]来提供运动提示。Gao等人[18]通过结合跨模态的面部-语音属性和嘴唇运动,用多任务学习框架联合解决视听语音分离Tian等人[42]共同学习声音分离和发声对象视觉基 础 , 使 用 他 们 称 之 为 循 环 共 同 学 习 的 方 法 。Chatterjee等人[8]将视觉信号建模为场景图,并通过共同分割子图和相关音频来学习Majumder等人[29]介绍了主动视听源分离任务,即智能体学习运动策略以提高声音分离质量。就像这些作品一样,我们共同定位和分离声音。然而,我们不生成分离的音频:我们使用对比学习获得表示分离的声源的嵌入。视听声源定位。音频和视觉线索在视频中的共同出现已经被用于声源定位[19,23,35,39,43]。研究人员通过匹配来自同一视频的音频和视频信号来利用视听对应。Arandjelovic和Zisserman [3,4]测量学习的图像区域和音频表示之间的相似性,并使用多实例学习来定位声源。Owens和Efros [32]使用类激活图[54]来可视化有助于解决视听同步任务的区域。Chen等人。[9]在跨模态对比学习中挖掘硬负图像位置,以获得更好的声音定位结果。Hu等人[24]扩展[4]并使用聚类生成伪类标签,实现混合声音的类感知声源定位虽然我们有类似的目标,但我们的方法是完全无监督的,并且在训练或测试时都不需要使用标签的半监督学习我们的工作是出于他们的目的,旨在定位不同的声源在多源声音混合。视听自我监督。除了声源定位和分离之外,最近的许多工作也提出了使用成对的视听数据进行表征学习和其他任务。Owens等人[33]第三十三话从撞击声中获取材质的表示。其他工作已经从声音中学习了特征,场景结构和几何属性[11,16,34],或者学习了音频和视觉的多感官表征[28,32,49]。Asano等人[5]提出了自监督聚类和表示学习方法,用于为多模态数据提供标签。其他工作已经学习了主动扬声器检测[2,14],上混单声道音频[17,36,50],跨模态放大[6,44]。我们从他们那里获得灵感,学习混合音的表示。基于图的表示学习。许多最近的作品使用图来学习图像和视频分段[40]以及时空对应[25,45,46]。Jabri等人[25]提出使用图来学习从视频中剪切的多个帧之间的视觉对应性,并且通过连接时空邻域中的补丁来构造图。Bian等[7]提出多尺度对比随机游走以获得帧之间的像素级对应。我们将这种方法扩展到多模态学习领域,而不是视频表示学习。3. 方法我们的目标是执行多源视听声音定位。给定音频a和对应的图像v,我们将场景解析为离散声源,并将它们定位在图像中。我们将其视为一个表征学习问题。我们从a中产生嵌入向量s1,s2,sk,表示k个可见声源,并将它们与图像区域x1,x2,xm的视觉嵌入相关联。如果我们给出源si和图像区域xi之间的地面实况对应关系,那么对比定位方法[3,4,39]可以直接应用于这个问题。然而,声源是潜在的,必须从音频中估计。我们建议共同解决这两个问题:我们从混合物中产生音频嵌入,提供与图像区域的周期一致匹配。单源定位为随机游走。作为解决这一问题的先决条件,我们首先考虑简单的单源定位问题。与以前的工作[2,4,39]一样,我们可以使用对比学习来解决这个问题 我们学习嵌入f(x)RC的每个图像区域和另一个嵌入g(a)的音频。在实践中,我们使用对完整图像进行操作的全卷积网络来计算图像嵌入。我们定义一个跨模态相似性度量:f(x,a)=maxf(xi)Xi其中在所有图像区域xi上执行池化在v.在[4]之后,我们总结了10485W音频图像图像-音频图像编码器HCS10.9v0.81s01C音频编码器CS21.0v20.9s02W图像编码器HC的SIAIS0−∈−L∈我 K图2. 视听随机漫步。我们学习分离和定位声音的表示法。我们通过对来自多个视频的波形进行求和来生成合成混合(我们显示k= 2个视频)。我们的模型从音频混合中估计嵌入向量,代表每个声源,并学习将图像区域与提取的源相关联的视听相似性度量。我们解决了一个图中的循环一致性问题。边将每个音频节点连接到表示每个图像的节点。随机步行者被训练为从每个音频节点步行到图像节点,然后返回到音频。我们的模型学习引导随机步行者到它开始步行的节点(即,以最大化其循环一致性)。在假设声源占据图像的一小部分的情况下,通过在所有图像区域上取最大值来计算 我们可以使用对比学习来学习音频和视觉表示:vi应该与其对应的音轨ai比其他n 1个音频示例更相似。如果AIS(i,j)是vi和aj之间的相似性,则这些相似性可以公式化为:exp(n(vi,aj)/τ)具有周期一致性的随机游动。现在,假设我们不知道图像和音频之间的地面实况对应关系,而仅仅是在分离的音频嵌入和图像之间存在未知的一对一关系我们使用周期一致的随机游走来共同学习音频嵌入并将它们与图像相关联。我们给出了一个合成声音混合,包含k个分量,通过对k个不同的波形求和而创建,A是(i,j)=n、exp(λ(v,a)/τ)(二)以及对应的k张照片(我们在实验中使用k= 2)。 我们构造了一个其中τ是温度超参数[48]。分母中的求和迭代aj和n 1个其他音频示例,并且A是Rn×n。我们使用InfoNCE损失最大化A IS的对角线[31]:1Lcorresp=−ntr(log(AIS)),(3)其中按元素执行日志记录在训练之后,图像和音频嵌入之间的点积f(xi)g(a)可以被解释为xi是声源位置的可能性,因为这在概念上表示视觉和音频信号之间的相关性。可以将AIS解释为从图像移动到声音的随机行走的转换矩阵,并且将其对应为转换到不正确的声音的惩罚。一包含每个声源和每个图像的节点的有向图。它的边缘从声源到图像再返回(图2),转移概率由视听相似性决定。该图中的随机游走器从音频节点si开始,行进到图像节点vj,并到达另一个音频节点st。受最近关于视觉对应的作品的启发[25,46],我们使用循环一致性损失来指导随机步行者。 虽然我们不知道给定的si和vj对是否属于同一个音频事件,但我们知道图像和声音之间应该存在一对一的关系。如Eq。2,我们计算矩阵AISRk×k,使得AIS(i,j)度量图像嵌入vi和音频嵌入vj之间的相似性。我们鼓励音频在随机游走中以高概率返回自身也可以通过匹配计算类似的矩阵ASI使用softmax归一化从音频ai到图像vj(相当于公式中的标准化列2而不是1L cyc= − k tr(log(ASIAIS))。(四)行,然后转置)。在这种损失下,模型被鼓励最大化k=110486×××16××16××Ground Truth OTS OTS-MixOurs #1我们的#2我们的(两者)图3. VGGSound-Instruments和VoxCeleb 2数据集合成混合物的多源定位结果。我们提供了不同方法生成的本地化地图的比较。我们展示了由模型的两个嵌入生成的两个本地化映射。图像区域的颜色指示其定位分数,其中红色区域具有较高分数。我们在每个数据集的最后一行显示失败将声音与高分辨力图像区域相关联的概率-这些区域可以成功地选择该声音而不是所有其他声音。 由于嵌入是由声音混合产生的,因此自然的选择是表示其声源。在训练之后,点积f(x,i)表示k个声源中的每一个的位置。数据扩充。我们发现,我们的模型可以迅速降低循环一致性损失(等式10)。4)到低值,因为高维嵌入向量偶然地是十分循环一致的。我们鼓励模型在计算转换矩阵A I S时通过使用音频的随机移位版本来学习其他有用的不变性,从而产生我们称为AIS' 的 矩 阵(图11)。 2)。4. 实验我们评估我们的模型对包含乐器和人类语音的场景的单源和多源4.1. 执行图像编码器。我们使用ResNet-18 [21]作为图像编码器的骨干。在训练过程中,每一帧 随机裁剪并调整大小为224 224。在推理过程中,我们直接调整图像的大小,而不进行裁剪。我们对图像进行编码,使得特征图将被下采样到WHC维嵌入向量。我们沿着通道轴对它们进行l2归一化,遵 循 [48] 。 在 测 试 过 程 中 , 对 于 合 成 VGGSound 和VoxCeleb2数据集,我们连接两个图像,使得图像编码器的输入为448 224,输出得分图为28十四岁这将保持图像的宽高比相似在训练和测试期间。对于所有其他实验,我们使用224 224图像和14 14评分图。我们将双线性插值应用于所有方法的上采样得分图。音频编码器。我们使用ResNet-18网络[21]从0.96s的声音中提取k个不同的12归一化C维特征我们通过将不同的全连接层应用于最终合并的卷积特征来计算音频节点的不同嵌入向量我们使用图像和音频特征之间的点积来计算图像区域和音频节点之间的超参 数。在训练过 程中,我们使用 Adam optimizer[27] , 在 MUSIC 和 VGGSound 数 据 集 上 的 学 习 率 为10−4,在VoxCeleb数据集上的学习率为10−5我们使用128的批量大小并设置温度τ=0。第07话[48]我们设置特征维度 C=128。当处理音频时,声音被重新扫描-VoxCeleb2VGGSound10487××单声源多声源音乐-独奏音乐-合成音乐-二重奏APAUCIoU@0.5帽PIAPAUCCIoU@0.3帽PIAPAUCCIoU@0.3Semi-supervisedHu et al. [24日]-43.651.4--23.532.3--22.130.2像素之声+匹配[24,53]-43.340.5--11.88.1--16.816.8OTS [4]69.335.826.111.417.610.23.735.442.818.313.2OTS混合[4]53.833.917.516.927.47.3023.828.212.02.0自我监督注意力[39]-38.737.2--12.36.4--19.421.5[23]第二十三话-38.029.1--16.37.0--21.117.3我们67.940.629.234.0*39.720.2*21.3*47.4*53.921.2*26.3*表1.MUSIC数据集上的声源定位性能根据之前的工作[24,39],IoU@0.5测量了0.5阈值下成功样本的比例类似地,CIoU@0.3测量在0.3阈值下成功样本的比率* 表示该方法可能受益于最佳匹配对(见4.4节)。16kHz的。使用64个梅尔滤波器组、160的窗口大小和80的跳长,通过短时傅立叶变换(STFT)将0.96s音频剪辑转换为大小为193 - 644.2. 数据集音乐. MUSIC数据集[53]包含11种乐器,包括独奏和二重奏。我们使用与Hu等人相同的训练/测试分割。[24]第10段。MUSIC-Synthetic数据集[24]包含来自四个视频的帧的级联图像,并且音频被合成,使得有两个单元发出声音,而另外两个单元是无声的MUSIC-Duet数据集是MUSIC的一个子集,包含两种乐器演奏声音的二重奏视频。我们使用独奏视频MUSIC-Solo来评估单个声源定位的性能,并在评估多个声源定位时使用MUSIC-Duet和MUSIC-Synthetic数据集,使用与[24]相同的注释。VGGSound-Instruments. 我们还在VG- GSound上进行了评估[10]。VGGSound中的每个视频只有一个类别标签。类似于[4],我们对乐器的37个视频类进行了过滤和采样,其中包含32 k个10秒长的视频片段,我们称之为VGGSound-Instruments。补充材料中提供了类别列表。为了进行评估,我们对446个高质量视频帧1进行了过滤和注释。在评估多源定位时,我们随机连接两个帧,得到448 224个输入图像,并通过将它们的波形相加来获得声音混合。人类的语言VoxCeleb2数据集[13]是一个大规模的视听说话人识别数据集,包含6,112位名人超过为了进行评估,我们使用人脸检测器来注释测试集中1k个随机样本我们遵循与VGGSound-Instruments中相同的策略来创建合成多扬声器合成评估集。1这些注释可以在www.example.com上找到https://web.eecs.umich。edu/mix-localize/4.3. 评价方法我们比较了我们的模型与其他几种视听学习方法。在重新实施时,我们使用ResNet- 18作为我们的骨干架构,以确保公平的比较。自我监督的方法。我们将我们的模型与Arandjelovic和Zis-serman [4]的模型的几个变体进行比较,我们称之为OTS。我们遵循[24]的模型架构来实现这些方法,该方法使用ResNet-18来提取融合注意力图的特征和全局最大池化层。在重新实现它们时,我们保持数据预处理和网络架构与我们的方法相同。我们还创建了一个OTS的变体,该变体在合成混合和级联视频帧上进行训练,如下[24]。我们称这种方法为OTS- mix。与使用视频中的多帧[1,2,37,53]或需要额外手动标签[24,35]的方法相比,这两种方法仅使用一帧,并且以完全自我监督的方式进行训练。半监督方法。我们还考虑了Hu等人提出的用于音乐鳄鱼定位的半监督多源方法。[24]第10段。在训练时,这些方法对训练数据的特征进行聚类,并将聚类与地面真实标签进行匹配。发声和无声的视觉区域可以通过检索对应于聚类的相似性图来获得。由于该方法使用地面真实标签来匹配聚类结果与类,因此我们认为它是半监督的。此外,我们与[24]的Sound of Pixels [53]的变体进行了比较,其中该模型预测了11个不同的得分图,并使用训练集标签将预测与不同的类别相匹配我们称这种方法为像素声音+匹配。4.4. 声源定位我们对这些方法在单声源和多声源定位上进行了评估。与为场景中的所有发声对象仅产生一个定位图的方法10488ΣCAP=k=1,(5)GT OTS OTS-Mix Ours #1我们的#2我们的(两者)GT OTS OTS-Mix Ours #1我们的#2我们的(两者)(a) MUSIC-Duet(b)MUSIC-Synthetic图4.MUSIC数据集上的多源声音定位[52,53]。我们在最后两行中显示失败案例单源多源APAUCIoU@0.3帽PIAPAUCCIoU@0.1物OTS [4]47.324.525.723.237.610.851.1GSOTS混合[4]37.020.924.918.130.710.850.7VG我们44.732.149.621.5*37.415.5*73.1*leb 2OTS [4]43.923.56.220.432.67.015.8XCEOTS混合[4]21.46.46.210.718.24.115.8Vo我们46.127.735.420.1*35.414.2*17.4*表2. VGGSound-仪器和VoxCeleb 2数据集上的声源定位性能。我们的方法定位多个对象(通过产生K个局部化映射)。因此,我们希望我们的方法能够执行与其他方法对于2个音频节点),我们将这些映射的平均值取为最后的发声区。在计算分数时,我们在所有实验中使用0.4的阈值。对于其他方法,我们根据在验证集上的性能为每种方法选择最佳阈值此外,为了避免基于固定阈值判断方法,我们还使用逐像素平均精度(AP)[12]。多声源定位的评价。我们遵循[24]并在评估多个声源定位时使用类感知IoU(CIoU)。类似地,我们建议使用类感知平均精度(CAP)来提供一个无阈值的评估指标。CAP评分计算如下:ΣKδkAPkK单一声源定位,并超越这些多声源定位方法。单声源定位的评价。我 们 评估了单声源定位性能[24,39]。给定地面实况边界框或对象分割掩码,我们根据预测的探测区域计算并集上的交集(IoU)和曲线下面积对于诸如产生一个输出的声音对象[4](OTS)之类的方法,我们采用所产生的单个发声区域来计算分数。对于我们的方法,由于有2个探测区域图(对应于-k=1δk其中APk测量类别k的逐像素平均精度。指示符δk指示类别k的对象是否正在发出声音。由于我们的方法没有类标签(即,我们不知道哪个定位图对应于哪个对象),我们使用CAP的修改版本用于我们的方法,其中我们评估预测和地面实况标签的配对,并报告最佳。由于这为我们的方法提供了一个潜在的不公平优势,我们还引入了另一个称为置换不变平均精度(PIAP)的度量。当计算这个分数时,我们取探测区域地图的平均值,10489我 不使用所有探测对象的地面实况的平均精度。4.4.1单源定位我 们 在 MUSIC-Solo 、 VGGSound-Instruments 和 Vox-Celeb 2上评估了单声源定位的性能。在这种评估设置下,模型的输入音频是原始的未混合音频,而不是混合声音。结果示于表1和表2中。可以看出,我们的方法执行近似同样好的单声源定位时,与其他方法相比。这表明我们的方法能够定位单个声源。我们发现当输入音频来自单个源(即,未混合的),该模型倾向于预测两个相似的定位图。我们注意到,这些单源声音在训练期间没有明确提供。音乐合成音乐二重奏帽PIAPAUCCIoU@0.3帽PIAPAUCCIoU@0.3Corre12.616.07.30.019.321.117.87.7ISI11.016.47.30.019.724.917.57.6置换18.2*24.49.1*0.4*24小时 *28.119.5*12.4*我们34.0*39.720.2*21.3*47.4*53.921.2*26.3*表3. 消融研究。 我们评估了每个消融模型在MUSIC合成和MUSIC Duet数据集上的声源定位性能。Corre表示混合对应模型,而Permute表示具有置换不变损失的模型在图像处,转到音频节点,并且最后循环回到图像节点。这里的两个图像节点是从同一视频中采样的,使得节点的语义含义因此,两幅图像之间的相似性是通过它们在跨模态随机游走中到达彼此的概率来评估的该模型将损失最小化:4.4.2多源定位LISI1=tr(log(AISK的SI))。(六)定量结果。我们在表1和表2中评估了MUSIC-Duet、MUSIC-Synthetic 、 VGGSound-Instruments 和 VoxCeleb2数据集上的多声源定位性能。与其他工作的比较表明,我们提出的方法取得了更好的性能上的多声源定位任务。我们注意到,我们的方法不使用标签(不像[24])或多帧(不像[53])。我们没有像[24]那样将合成数据作为输入,而是使用数据集中未经修改的图像,这可能是我们的方法在MUSIC-Duet上比MUSIC-Synthetic表现更好的原因。实验结果表明,所提出的周期一致性方法我们称这个模型为ISI模型,这是因为随机步行者所采取的图像-声音-图像路径。混合通信丢失。为了测试模型是否受益于基于周期的训练(而不是其他模型差异),我们将其与使用In-foNCE [31]损失训练的模型进行了比较,该模型具有完全相同的输入(单帧和混合音频)。由于我们不知道音频节点和图像节点之间的关联,我们修改Eq。(2)对它进行解释,即kexp(导致多源声音定位的改进。AIS(i,j)=0、exp(λ(v,s)/τ)定性结果。在图3和图4中,通过这些方法生成的定位图它可以可以看出,基于声音对象(OTS)[4]的模型主要关注一个声音对象,而不是所有声音对象,而我们的方法将概率扩展到所有对象。特别是,通过我们的方法获得的音频特征组对应于两个声源的视觉区域对于VoxCeleb2的定性结果,我们发现当两个说话者的性别相同时,模型更容易失败4.5. 消融研究我们还探索了我们的模型的一些变体,用于训练自我监督的视听系统。我们来-其中,s(j )是由以下项生成的k个音频e_mbeddings之一:混合音频例如j,S是所有音频的集合嵌入在批处理中,和Eq.(二)、与我们的方法相反,这种损失通过从批次中的其他示例中获得它们来获得显著更多的负样本置换不变损失。受音频源分离方法[22,47]的启发,我们询问音频和图像之间的关联是否可以从置换不变损失中学习。我们考虑所有可能的图像和音频嵌入配对,并选择具有最大总相似性的一个。对于k=2,损失为:用其他几种设计代替我们的模型。我们保持所有的设置相同,除了损失功能。LPIT=−max(Vi,s1)+Vj,s2),n(vi,s2)+n(vj,s1)),(八)图像-音频-图像循环。我们考虑从图像节点而不是音频节点开始的循环。这次步行开始其中vi和vj是用于创建合成混合的一对图像,并且s1和s2是音频嵌入不t=1t(七)st∈S10490L节点#1节点#2两者节点#1节点#2两者和声音。我们表明,我们的方法比其他基于传统视听对应学习的自监督方法更准确地识别和分割多个声源。我们的研究结果表明,周期一致的随机游走可以用来成功地分组的内容,一个多模态的场景到不同的对象。我们希望这些技术可以与基于跟踪的周期一致性[25,46]相结合,以随时间对场景内容进行分组。我们也希望这种方法能为跨通道学习的研究提供进一步的指导。 其中一个方向是 直接将显式源分离[22]与我们通过对比学习获得的“隐式”源分离相结合。图5. 消融研究。 我们将这些分数图可视化,MUSIC-Synthetic和MUSIC-Duet数据集上的方法。Corre表示混合对应模型,而Permute表示具有置换不变损失的模型。由它们的混合声音产生。虽然这种损失类似于cyc(等式2)。4),它通过max操作在图像和音频嵌入之间创建相比之下,随机游走模型在嵌入之间进行结果我们在表3中评估了MUSIC-Synthetic和MUSIC-Duet数据集上的多源定位。在图5中,我们可视化了这些方法预测的得分图。这些方法不能为两个音频节点产生不同且正确的定位图,这表明它们不能为每个声源产生不同的音频嵌入。可以看出,我们的方法优于所有这些变体。虽然ISI模型也是基于周期一致性的,但它不会学习显式地分离两个音频节点。相比之下,我们的模型需要为音频节点创建两个不同的嵌入,以便成功完成一个循环。与使用批次中的其他图像和音频作为对比学习的负样本的混合对应损失相比,我们的方法反而利用了来自同一混合音频的其他音频节点这也将鼓励模型分离不同的音频节点。此外,与要求每对图像和音频具有“硬”对应关系的置换5. 讨论在本文中,我们提出了一个简单的,自我监督的方法,在视觉上定位音频混合的声音。我们的方法是基于学习一个连接图像定义的节点的图上的周期一致性局限性。我们发布的模型仅限于他们训练的基准视频数据集。由于这些是流行的数据集,有关其偏差的信息是公开的。与其他视听语音工作一样[30],学习模型可能会学习将说话者的视觉属性与他们的声音相关联,使他们容易受到偏见的影响。鸣谢。我们感谢胡迪和魏雅可对实验设置的帮助。我们也要感谢金林毅对人物设计的建议。这项工作部分由DARPA Semafor和思科系统公司资助所表达的观点、意见和/或调查结果是作者的观点,不应被解释为代表国防部或美国政府的官方观点或政策。政府的引用[1] Triantafyllos Afouras,Joon Son Chung和Andrew Zisser-man。对话:深度视听语音增强。arXiv预印本arXiv:1804.04121,2018。5[2] Triantafyllos Afouras , Andrew Owens , Joon SonChung,and Andrew Zisserman.视频中视听对象的自监督学习。arXiv预印本arXiv:2008.04237,2020。一、二、五[3] Relja Arandjelovic和Andrew Zisserman。看,听,学。在IEEE计算机视觉国际会议论文集,第609-617页,2017年。一、二[4] Relja Arandjelovic和Andrew Zisserman。会发出声音的物体。在ECCV,第435-451页,2018年。一、二、五、六、七[5] Yuki M Asano,Mandela Patrick,Christian Rupprecht,and Andrea Vedaldi.通过多模式自我监督从头开始标记未 标 记 的 视 频 。 arXiv 预 印 本 arXiv : 2006.13662 ,2020。2[6] 尤 瑟 夫 · 艾 塔 卡 尔 · 冯 德 里 克 安 东 尼 奥 · 托 拉 尔 巴Soundnet:从未标记的视频中学习声音表示。神经信息处理系统的进展,29:8922我们ISI置换Corre10491[7] Zhangxing Bian , Allan Jabri , Alexei A Efros , andAndrew Owens. 用多尺度对比随机游动学习像素轨迹arXiv预印本arXiv:2201.08379,2022。2[8] Moitreya Chatterjee , Jonathan Le Roux , NarendraAhuja,and Anoop Cherian.用于音频源分离的视觉场景图。IEEE/CVF计算机视觉国际会议论文集,第1204-1213页,2021年。2[9] 陈 洪 烈 , 谢 伟 迪 , Triantafyllos Afouras , Arsha Na-grani,Andrea Vedaldi和Andrew Zisserman。定位视觉声音很难。在IEEE/CVF计算机视觉和模式识别会议论文集,第16867-16876页2[10] 陈洪烈,谢伟迪,安德烈·维达尔迪,安德鲁·齐斯瑟曼。Vggsound:一个大规模的视听数据集。在ICASSP2020-2020 IEEE 声 学 、 语 音 和 信 号 处 理 国 际 会 议(ICASSP),第721IEEE,2020年。 一、五[11] 陈紫阳,胡西西,安德鲁·欧文斯。结构从沉默:学习场景结构从环境声音。2021年第五届机器人学习年会2[12] Junsuk Choe、Seong Joon Oh、Seungho Lee、SanghyukChun、Zeynep Akata和Hyunjung Shim。正确评估弱监督对象定位方法在IEEE/CVF计算机视觉和模式识别会议论文集,第3133-3142页6[13] J. S. Chung,A.Nagrani和A.齐瑟曼。Voxceleb2:深度说话人识别。在INTERSPEECH,2018年。一、五[14] Joon Son Chung和Andrew Zisserman。过时了:在野外自动对口型。亚洲计算机视觉会议,第251-263页。施普林格,2016年。2[15] Andrzej Cicloviki , Rafal Zdunek , Anh Huy Phan , 和Shunichi Amari. 非负矩阵与张量分解:应用于探索性多路资料分析与盲源分离。John Wiley Sons,2009年。2[16] Ruohan Gao , Changan Chen , Ziad Al-Halah , CarlMussler,and Kristen Grauman.视觉回声:通过回声定位学习空间图像表示欧洲计算机视觉会议,第658-676页Springer,2020年。2[17] Ruohan Gao 和 Kristen Grauman 。 2.5 d 视 觉 声 音 。 在IEEE/CVF计算机视觉和模式识别会议上,第324-333页,2019年2[18] Ruohan Gao和Kristen Grauman。视觉语音:具有跨模态一致性的视听语音分离arXiv预印本arXiv:2101.03149,2021。2[19] David Harwath、Adria Recasens、D´ıdac Sur´ıs、GalenChuang、Antonio Torralba和James Glass。从原始的感官输入中共同发现视觉对象和口语。在欧洲计算机视觉会议(ECCV)的会议记录中,第649-665页,2018年。2[20] Monica L Hawley , Ruth Y Litovsky , and H StevenColburn.多源环境中的语音清晰度和定位。美国声学学会杂志,105(6):3436-3448,1999年。1[21] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。4[22] John R Hershey,Zhuo Chen,Jonathan Le Roux,andShinji Watanabe.深度聚类:用于分割和分离的判别嵌入 。 2016 年 IEEE 声 学 、 语 音 和 信 号 处 理 国 际 会 议(ICASSP),第31-35页。IEEE,2016. 二七八[23] 胡迪,聂飞平,李雪龙。用于无监督视听学习的深度多模态聚类在IEEE/CVF计算机视觉和模式识别会议论文集,第9248-9257页二、五[24] Di Hu , Rui Qian , Minyue Jiang , Xiao Tan , ShileiWen,Errui Ding,Weiyao Lin,and Dejing Dou.基于自监督视听匹配的区分性发声目标定位神经信息处理系统的进展,33,2020。二五六七[25] Allan Jabri、Andrew Owens和Alexei A Efros。作为对比随 机 游 走 的 时 空 对 应 。 神 经 信 息 处 理 系 统(NeurIPS),2020年。一二三八[26] Andreas Jansson,Eric Humphrey,Nicola Montecchio,Rachel Bittner,Aparna Kumar,and Tillman Weyde.用深度u网卷积网络进行歌唱语音分离。2017. 2[27] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。4[28] Bruno Korbar,Du Tran,and Lorenzo Torresani.从自监督同步中协作学习音频和视频模型arXiv预印本arXiv:1807.00230,2018。2[29] Sagnik Majumder,Ziad Al-Halah,and Kristen Grauman.Move2hear:主动视听源分离。在IEEE/CVF计算机视觉国际会议上,第275-285页,2021年。2[30] Arsha Nagrani,Samuel Albanie和Andrew Zisserman。看到声音和听到面孔:跨模态生物特征匹配。在IEEE计算机视觉和模式识别会议论文集,第8427-8436页,2018年。8[31] Aaron van den Oord、Yazhe Li和Oriol Vinyals。使用对比 预 测 编 码 的 表 示 学 习 。 arXiv 预 印 本 arXiv :1807.03748,2018. 三、七[32] Andrew Owens和Alexei A Efros。具有自我监督多感官特 征 的 视 听 场 景 分 析 。 在 欧 洲 计 算 机 视 觉 会 议(ECCV)的论文集,第631-648页,2018年。一、二[33] 安德鲁·欧文斯、菲利普·伊索拉、乔什·麦克德莫特、安东尼奥·托拉尔巴、爱德华·H·阿德尔森和威廉·T·弗里曼。视觉指示的声音。在IEEE计算机视觉和模式识别会议论文集,第2405-2413页,2016年。2[34] Andrew Owens 、 Jiajun Wu 、 Josh H McDermott 、William T Freeman和Antonio Torralba。环境声音为视觉学习提供监督。欧洲计算机视觉会议,第801-816页。施普林格,2016年。2[35] 芮茜,迪虎,海因里希·丁克尔,吴梦月,徐宁,林伟耀 。 多 声 源 定 位 由 粗 到 细 。 arXiv 预 印 本 arXiv :2007.06355,2020。二、五[36] Kranthi Kumar Rachavarapu ,Vignesh Sundaresha ,ANRa- jagopalan,等.本地化到双耳化:从视觉声源定位的音频IEEE/CVF计算机视觉国际会议论文集,第1930-1939页,2021年。210492[37] Andrew Rouditchenko,Hang Zhao,Chuang Gan,JoshMc- Dermott和Antonio Torralba。自监督视听共分割。在ICASSP 2019-2019 IEEE声学,语音和信号处理国际会议(ICASSP),第2357-2361页。IEEE,2019。5[38] 山姆·T·罗威一个麦克风源分离
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功