没有合适的资源?快使用搜索试试~ 我知道了~
10493在鸡尾酒会上阅读:多模态语音分离Akam Rahimi,Triantafyllos Afouras,Andrew ZissermanVGG,工程科学系,牛津大学,英国{akam,afourast,az}@robots.ox.ac.ukhttps://www.robots.ox.ac.uk/摘要本文的目标是在多说话人和噪声环境中使用不同模态的组合进行语音分离和增强。以前的作品在时间或静态视觉证据的条件下表现出良好的性能,在本文中,我们提出了一个统一的框架,多模态语音分离和增强的基础上同步或异步线索。为此,我们作出以下贡献:(i)我们设计了一种基于现代变换器的架构,用于融合不同的模态,以解决原始波形域中的语音分离任务;(ii)我们建议单独或结合视觉信息对句子的文本内容进行调节;(iii)我们证明了我们的模型对视听同步偏移的鲁棒性;以及,(iv)我们在完善的基准数据集LRS 2和LRS 3上获得了最先进的性能。1. 介绍即使在一个满是谈话的人的房间里,人类也有非凡的能力专注于谈话,这种现象被称为我们的大脑通过将注意力集中在特定的说话者身上,同时过滤掉来自干扰声音和其他环境噪音的其余刺激来完成这一壮举。虽然这种能力在有限的程度上仅通过听觉表现出来,但当来自其他模态的同时信息可用时,这种能力会大大增强例如,观察说话者近年来,视听学习的进步使机器也有可能实现这种能力,并非常有效地将单个声音从多个声音中分离出来。图1.我们提出了VoiceFormer,一个多模态语音分离和增强的框架,它根据目标说话人的话语的文本内容,他们的嘴唇运动或两者来我们的框架允许对来自多种模态的线索进行条件反射,而不要求它们在时间上同步或具有共同的时间速率。这给它带来了多个优点,例如对输入之间的时间不对准的鲁棒性。扬声器混合语音或嘈杂的音频[1,14,31]。解决这一问题可以实现广泛的实际应用,例如改进具有噪声音频的视频中的字幕生成,开发智能视听助听器以增强以视觉输入为条件的语音,或促进在机场或汽车等噪声环境中的电话会议。以前的工作主要采取了两种方法:或者使用同步提示,最常见的是目标说话者的嘴唇运动[1,14];或者使用静态(固定嵌入)提示,例如声音[49]或面部特征[11,21]。前者具有使用与期望的语音输出非常强相关的动态证据然而,依靠嘴唇运动有几个缺点。首先,它们可能会暂时中断-例如。来自视觉遮挡-因此,强烈的依赖性将使模型对这种形式的视觉噪声敏感;第二,它们需要音频和视频流之间的同步。另一方面,由说话者的生物特征产生的静态线索对临时中断更鲁棒,然而它们与语音不动态相关(因此是较弱的信号)并且可能在不同的人中是常见的。例如,分离语音可能越来越困难,10494在具有相似声音音色或外貌的个体最近的研究试图通过使用静态线索与嘴唇运动的朴素融合[3]联合条件化一种以上的模态,或者通过学习分离任务与跨模态先验知识[21],来解决单一来源条件化的不足然而,迄今为止,在以下方面没有统一的框架:(i)对异步信息进行调节(例如音频和视频流之间的延迟);或(ii)对多个信息源或不同类型的模态进行无缝调节(和融合);或者(iii)用于使用大的时间上下文,使得可以使用语言模型进行预测。我们的第一个贡献是使条件反射的异步视觉(唇)流。大多数以前的工作依赖于昂贵的预处理步骤来同步音频和视频流,并且它们的性能在现实世界的情况下恶化,其中由于传输延迟、抖动或技术问题而经常发生不同步数据。我们表明,在我们的工作中,有5帧(200毫秒)或更多的定时延迟没有不利影响。此外,音频和视频流甚至不必具有相同的时间采样率。我们的第二个贡献是通过对文本输入的调节来实现增强。这种新功能允许语音增强,而不需要生物识别信息,甚至是视觉流。它适用于预先知道语音的文本内容的情况,例如:从准备好的语音或歌曲的歌词,或者自动语音识别(ASR)或唇读[5,10]可以用于转录所说的内容,即使不精确,然后随后用于将说话者与背景噪声隔离。文本条件作用是异步的,因为只需要单词的顺序(或者更准确地说是音素),而不需要它们精确的时间对齐。这两个贡献都是由一个新的基于transformer的语音分离和增强网络,其中我们使用transformer的位置编码来记录时间戳(音频和视觉样本)或排序(文本中的单词)的条件信号。该网络直接在波形水平上操作,而不需要频谱图作为音频处理的中间步骤。 它使用U-Net [12,38]架构来编码嘈杂的音频,然后将其解码为干净的语音,其中Transformer作为网络的瓶颈,其中调节信息可以是视觉和/或文本。Transformer还支持对更长时间的上下文进行建模(例如,与LSTM相比),允许网络以自然语言显式地对结构进行建模。通过具有预测某个单词序列之后是什么的能力,模型可以更好地近似目标语音输出。综上所述,我们做出了以下贡献:第一我们设计了一种现代多模态语音增强体系结构,VoiceFormer,其使用基于变换器的瓶颈来融合异质模态流,这意味着它可以同时对多个非对齐模态进行调节。其次,我们介绍了文本条件下的语音增强作为一种新的多模态任务,并表明我们提出的架构设计得很好,以处理它。第三,我们证明了我们的训练模型对视听同步偏移是鲁棒的。第四,我们展示了最先进的性能,在说话人分离和语音增强任务中超越了其他纯音频和视听基线。2. 相关工作我们的工作涉及到以前的大量工作,从传统的基于音频的语音增强到多模态语音和声源分离的方法。基于音频的语音分离和增强。语音增强是音频处理中一个有着悠久历史的研究课题。纯音频方法在设计上是个人不可知的;它们对于增强、保留语音和滤除背景噪声通常工作良好,但是对于说话者分离则困难重重。最近的方法旨在通过解决标签置换问题来解决这个问题-将音频源签名到音频中的Wang等人。 [50]提出了一种方法来定位单个扬声器并在空间和频谱特征上训练增强网络。Lou等人 [28]介绍了一种用于语音分离的深度学习框架,该框架解决了标签排列问题,并且不需要知道说话者的数量。Yu等人。 [54]设计了一种用于解决标签置换问题的深度学习训练标准Chen等人。 [8]基于嵌入空间中音频源的聚类来执行分离。Defossez等人。 [12]最近提出了Denoiser,这是一种实时语音增强网络,在原始波形上进行端到端训练。基于静态线索的多模态方法。 最近的各种方法试图基于包含关于声源的信息的外部线索来解决音频分离问题。这种方法的例子是使用语音[49]或面部[11]身份嵌入来执行特定于身份的语音分离的作品。也属于这一类别的相关工作是基于固定外观线索分离乐器声音的各种视听方法[15,19,20,33,39,45,46、53、57]。基于动态线索的多模态方法。另一种方法是基于动态线索来解决源分离任务,动态线索随着时间的推移表现出一定的变化。这种线索更常见于同步的视觉流中,因此这些方法在其10495∈∈···∈∈图2.提出的多模态语音增强与变压器(mmset)架构的概述。它包括用于音频流的U-NET风格的编码器-解码器,瓶颈层以能够摄取文本和视觉模态的Transformer为条件U-NET编码器摄取具有噪声(背景或其它扬声器)的目标扬声器的原始音频波形,并产生音频嵌入序列。多层Transformer调节音频嵌入、从所讲的文本中提取的音素序列和/或来自目标说话者的视频的视觉嵌入。U-NET解码器从Transformer的输出输入细化的音频嵌入序列,并且产生目标说话者的干净的音频波形(去除了噪声在训练和推断中,条件可以包括视频或文本或两者。大多数是视听。例如,利用视觉特征已被证明在分离音频片段中的扬声器方面非常有益,其中对应的视频是可访问的。事实上,最近的工作[1,4,14,16,17]将深度学习框架限制在目标说话者的嘴唇运动上,以便在多个其他语音信号中隔离他们的声音。Wu等人。[51]提出了一种视听语音分离网络,其在时域(原始波形)而不是频域中操作,而Sadeghi等人。通过使用视听VAE解决了任务[40]。Owens等人。 [31]使用时空视频特征将屏幕上的语音与屏幕外的语音分开。在类似的工作中,最近的方法已经提出使用视频中的运动线索[18,32,56]来分离属于同一类别的乐器,从而克服静态外观特征的限制。一些最近的工作研究结合静态和动态线索,以改善语音分离。例如,Gao等人。 [21]研究了与语音-面部嵌入联合训练音频-视频说话人分离网络,语音-面部嵌入提供了帮助分离过程的另一个提出的方向[3,22]是在嘴唇运动和目标说话者语音的嵌入上调节分离网络,以提高对视觉遮挡的然而,这些作品都没有提出一个统一的框架,以适应多个不结盟的动态信息源。多模态融合。我们的方法更广泛地涉及融合不同模态以解决多模态任务的工作,例如使用变换器[24,30]进行视听事件检测[26,27,44]或视听同步[7]的视听融合,用于视频的视频-文本融合。[52][55]和视觉关键字定位[36]。3. 方法在本节中,我们描述了我们提出的多模态语音增强方法,我们称之为语音形成器。给定有噪声的语音信号,目标是分离对应于其他输入模态(文本或视频)的目标语音分量,并且滤除信号的其余部分该架构的概述如图2所示。我们使用U-Net风格的音频编码器-解码 器 ( 类 似 于 [12] ) , 在 其 瓶 颈 中 具 有 多 模 态Transformer,其中嘈杂的音频与调节输入(视频和文本)融合。本节的其余部分描述了模型的各个组件我们建议读者参考项目网页以获得完整的架构细节。3.1. 架构音频、视频和文本表示。该模型有三个输入流:一个输入音频波形aRTa,一个相应的视频输入vR3×Tv×H×W,一个是所说出的句子的文本表示s=(s1,s2,sns)。与[13]类似,我们使用U-Net的编码器部分直接从输入波形a中提取噪声音频的表示ARta×c,该编码器部分由1D卷积层组成我们还使用时空CNN [1]来获得视觉表示VRtv×c。文本表示使用发音器库[6]获得,espeak- ng作为其后端;输入句子中的单词首先映射到基于国际音标的长度为tq的语音序列,然后映射到10496∈联系我们D联系我们可学习的嵌入向量序列Q Rtq×c。Transformer瓶颈。 为了通知模型其输入的时间顺序,即视频/音频特征的信号时间戳和文本的音素排序,我们添加位置编码PE a,v,qRt{a,v,q}×c。PEa和PEv被实现为正弦向量,PEq被实现为可学习的嵌入向量。此外,为了允许模型区分哪个信号来自哪个模态,我们还添加了模态编码,ME a,v,qRc,这是三个可学习的向量,每个模态类型一个。总之,顺序和模态感知的单峰表示被计算为:A=A+PEa+MEa,(1)V=V+PEv+MEv,(2)Q=Q+PEq+MEq,(3)它们沿着时间维度Z=(A;V;Q)∈R(ta+tv+tq)×c(4)并且用具有N层和h个头的变换器编码器来处理所得到的特征向量:Y= T转换器-E编码器(Z)。Transformer瓶颈将三个输入融合在一起,允许所有模态组合之间的充分交叉关注。特别是,文本和视频证据被关注并用于提取嵌入音频的相关部分。我们注意到,在不同信号之间既不需要显式对准也不需要公共帧速率对应于其音频输入Y1:ta的Transformer的输出包含分离/增强的音频的表示(对应于视频和文本的输出被丢弃)。U-Net解码器。利用U-Net的解码器部分将增强的音频表示解码成waveformac,U-Net的解码器部分包括转置的1D卷积的堆栈,包括来自音频编码r的快捷连接.Theresultingoutputaˆc isanenhancedwaveformcontaining only the speech corresponding to the visual andtext input.3.2. 培养目标给定有噪声的音频波形和对应的视频、文本和干净目标波形的元组(a,v,s,acL=E(a,v,s,ac)∈D<$ac−a<$c<$1(5)4. 实验4.1. 合成序列根据以前的工作[1,14],我们通过添加合成噪声样本来训练和评估我们的模型。两个分离的剪辑的波形,并要求模型在调节相应的视频/文本输入之后,在输出中重构各个波形。特别地,片段之一总是包含单个说话者的干净语音,而干扰音频可能是说话者分离实验中来自另一说话者的语音,或者是噪声音频片段,模拟语音增强实验的背景噪声。请注意,尽管我们在合成音频混合上训练和评估模型,但它适用于真实噪声序列,因为合成和真实样本之间的域间隙很小。4.2. 数据集,培训评估协议数据我们从LRS2 [9]和LRS3 [2]唇读数据集获得视听语音样本。LRS2包含来自英国电视台的广播片段,而LRS3则是从YouTube下载的TED和TEDx片段创建的。这两个数据集都包含了被裁剪得很紧的说话头的视听轨道,参与了连续的语音。所有的音轨都伴随着与视频和音频对齐的话语的文本传输,这也是自动同步的。在检查数据集时,我们确定一些样本包括两个扬声器,而其他样本包括背景噪音,如鼓掌声、鸟鸣声、音乐或人群笑声。这些样本从数据集中移除,使得每个样本仅包含来自一个说话者的语音,而没有其他背景噪声。采用日志化和背景噪声检测相结合的方法对噪声样本进行检测和去除。结果,LRS 2保留了197小时中的57小时,LRS 3保留了440小时中的439小时。此外,为了获得我们去噪实验的噪声,我们遵循[12]并使用DNS [35]数据集的子集,其中包含来自各种事件的大约181小时的噪声音频。这些样本被用作背景噪声,以在训练和评估期间构建合成噪声训练序列。在训练时使用了来自LRS2数据集的大约23,000个样本和来自LRS3数据集的超过100,000个样本。在每次训练过程中,样本语音信号以4秒的序列混合在一起,用于在音频和视频输入上训练的模型的版本随机选择每个序列的起始点作为数据扩充方法。以文本作为输入的模型的序列长度由文本中对应于相关音频和视频的单词数量决定,范围在1到6秒之间。在训练时将具有相似长度的样本分批在一起,以尽可能避免用零填充序列。每一个音频轨道都是inde-10497·在将它们混合在一起以创建合成混合物或将它们馈送到网络中之前,对它们进行悬垂归一化评估序列。我们评估两个扬声器的合成混合,或一个扬声器和噪声样本的混合。为了区分这两个相关的任务,我们将第一个称为扬声器分离,第二个称为去噪。我们从LRS2和LRS3创建了单独的测试集,每个数据集分别有2515和3229个这些测试集用于评估上述任务,将我们的模型与基线进行比较,并执行模型消融和稳健性测试。所有测试集中的样本都样本的持续时间会有所不同,因为它们是根据相应文本的长度裁剪的。文本样本是9个单词长,不一定形成一个句子。我们包括在项目网页上的真实序列的定性例子。评估指标。为了评估我们的方法和基线,我们使用标准的语音增强指标,包括信号失真比(SDR)[34,47],一种常见的盲源分离标准,测量目标信号的能量与分离输出中包含的误差之间的比率,短时目标清晰度(STOI)[43],测量信号的清晰度,以及语音质量感知评估(PESQ)[37],对输出信号的整体感知质量进行评级。4.3. 实现细节我们的网络是用Pytorch实现和训练的视频记录中的人脸被裁剪并相似为25 FPS。通过取两个通道的平均值将音频输入转换为单声道,并重新采样以具有16kHz的速率,并且信号在馈送到网络之前被上采样3.2倍。该模型的音频输出以相同的比率进行下采样。对于音频U-Net,我们使用[12]的Denoiser实现,而不对架构进行任何更改。对于视觉骨干,我们遵循[36]并使用3D/2D残差CNN [42],在单词级唇读任务上进行预训练。为了加快训练速度,脊椎被冻结,视觉特征被预先提取并保存在硬盘上。对于Transformer编码器,我们使用N=3层和h=8头,模型大小为532。所有模态的嵌入维度都设置为768,以匹配U-Net编码器层输出的音频特征的通道维度我们获得了以单一模态为条件的模型(例如,仅视频或仅文本),通过简单地不包括等式2中的对应输入,4.第一章训练开始于一个网络,该网络包括同步音频和相应视觉序列的LSTM,作为Transformer模型的预训练阶段对于火车-使用Transformer时,学习率设置为5 10−5。在所有情况下,使用Adam优化器,权重衰减为0.0001,批量大小为64,并且在平台上的每个时期这些模型分别在LRS2和LRS3数据集上进行训练,从LRS2混合物开始语音增强模型的训练课程在训练一个扬声器和背景噪声之前以2个扬声器的混合物开始。当使用两个以上的Transformer层进行实验时,模型中的所有可训练参数都将被冻结,与其他编码器层分开,这有助于稳定和加速训练。4.4. 结果在本节中,我们对所提出的方法进行了详细评价,包括稳健性分析、消融和与基线的比较。我们首先比较了我们的模型的性能,当它们以不同的输入模态组合为条件时;然后,我们在部分模态缺失以及视频和音频之间存在不对齐的情况下进行鲁棒性测试;最后,我们将扬声器分离和语音增强任务与最先进的技术进行比较。模式比较。为了评估使用不同模态作为条件反射输入的效果,我们在表1中比较了仅使用视频(A+V)、仅使用文本(A+T)或两者(A+V+T)的模型。我们观察到纯文本模型成功地分离了说话人,获得了合理的性能。这一结果证明:(a)实际文本可以用于在鸡尾酒会场景中分离语音,以及(b)我们提出的架构足够灵活,可以在没有任何变化的情况下从不同的条件源捕获信息,并且可以成功地解决新颖的文本条件说话人分离任务,而无需其他模态的任何帮助。观察视频条件模型的性能表明,视频获得了比文本更强的性能。这是一个有趣的发现,表明嘴唇运动是分离任务的更强线索,大概是因为它们携带的信息比话语的语言内容更多(例如,说话者语气、口音等)。有关使用不同模型的定性分离结果,请参阅项目跨模态注意力为了评估我们的跨通道注意力设计的有效性,通过一个concate-国的方式,我们检查注意力的Transformer瓶颈。图3中的注意力地图揭示了音频标记和其他模态之间的对应关系。注意相应模态中的特征。这表明该模型能够实现视听和音频文本对齐,并证实了我们的直觉,即它不需要手动对齐或共同的时间速率。10498↑模型输入 SDR ↑STOI↑PESQ↑LSTM(A+V)[4] S 9.25 84.0 1.91UNet + LSTM(A+V)W 12.8 89.9 2.17UNet + Transformer(A+V)W 14.1 91.3 2.36表1. 使用不同模态的说话人分离性能。我们比较了不同模态组合的VoiceFormer模型。我们观察到,纯文本模型(A+T)在这项任务中表现相当不错,尽管与从视觉流中调节嘴唇运动时相比,性能较低在文本和视频上都有条件的完整A+V+T模型仅获得了轻微的改进A +V模式。↑表示越高越好图3.第一个Transformer层的注意力地图可视化。可视化显示了Transformer的第一个多头注意力层中的注意力头较亮的颜色表示较高的分数,同一行上较亮的像素表示模态之间的对应关系。左:音频和视频相关;右:音频和文本相关性。在每个时间步,向音频令牌及其在另一模态中的对应令牌给予 更 高 的 分 数 。 This indicates that the model is able toelegantlyfusesthemixed/noisyaudiostreamwiththeconditioning vectors from different modalities, without the needfor explicit alignment between the signals, or requiring them tobe operating at the same temporal rate.架构组件贡献。为了分析我们的架构组件对模型性能的贡献,我们检查了各种架构配置。结果示于表2中对缺失信息的鲁棒性。从迄今为止呈现的实验可以看出,尽管文本对于执行语音分离可能是足够的,但是当强视觉证据(即,清晰、无遮挡的嘴唇运动)已经可用时,它提供了非常有限的性能提升。然而,我们强调,在这种设置中添加文本可以提高模型对丢失信息的鲁棒性。因此,我们进行了进一步的实验,我们评估相同的模型,但人为地限制了来自其中一个来源的信息量。为了模拟丢失的视频信息,我们屏蔽了(通过归零)视频帧百分比的视觉特征我们表2. 基于各种体系结构配置的性能。 我们观察到,与基于频谱图的基线模型相比,UNet模块将音频作为原始波形,将SDR提高了3.55dB [4]。用Transformer瓶颈替换LSTM,SDR进一步增加了1.3dB。请注意,UNet消除了计算频谱图和预测相位的必要性,而Transformer提供了对音频视觉未对准的鲁棒性。表示越高越好。S表示音频输入是梅尔频谱图形式,W表示使用原始波形。在图4a中示出了该实验的结果。很明显,除了视频之外还以文本为条件的A+T+V模型对视频输入中的失真更加鲁棒。类似地,为了模拟丢失的文本信息,我们从文本输入中重新移动可变数量的单词。图4b中示出了针对被移除的单词的数量的性能。我们提出两点意见。首先,当从文本输入中删除越来越多的单词时,A+T模型的性能急剧恶化。这表明该模型依赖于文本输入来执行整个话语的分离,而不仅仅是两个分离流之间的消歧。其次,正如预期的那样,A+V+T模型对缺失的文本信息非常鲁棒。对不一致模态的鲁棒性。为了进一步探索我们的模型并更好地理解它们,我们进行了一系列实验,其中我们将条件视频或文本输入替换为来自不同的、不相关的视频剪辑的输入结果示于表3中。我们观察到,当输入错误时,以单个源(A+T,A+V)为条件的模型完全失败这是预期的,因为这些情况下的视觉/文本证据与音频中包含的 从对A+V+T模型的类似分析中,我们观察到,尽管当提供不一致的视频时,模型的性能要差得多,但一致的文本输入,它并没有完全失败(例如,获得5。1特别提款权)。另一方面,当模型呈现不一致的文本但一致的视频输入时,性能仅略微下降。为了总结我们对VoiceFormer行为的分析,我们得出结论,A+V+T模型对视频输入中的中断提供了良好的鲁棒性,这几乎没有风险;即使由于某种原因所提供的文本输入丢失或与视频不一致(例如,如果我们使用噪声ASR近似),则该模型仍然与仅视频模型表现模型SDR↑ STOI↑ PESQ↑ SDR↑ STOI↑ PESQ↑A+T13.189.72.1614.191.42.37A+V14.191.32.3615.593.42.62A+V+T14.291.72.4115.593.52.63104991412108640%的百分比10% 20% 30% 40% 50% 60% 70% 80% 90%删除视频的百分比模态文本视频SDR↑ STOI↑ PESQ↑(a) 对丢失视频信息的鲁棒性。结合视频对文本进行调节明显提高了对丢失视频信息的鲁棒性(例如,由于遮挡),与仅使用视频相比。16141210864表3.模态缺失或不一致“否”表示输入了相应模态的正确信号,“否”表示该模态的输入来自不同的句子或视频,“否”表示未提供该输入。报告了LRS2测试集上的扬声器分离任务的结果。我们观察到,当条件输入错误时,使用单一模态的模型完全无法解决任务。另一方面,同时使用视频和文本的A+V+T模型对于不一致的文本输入是完全鲁棒的,甚至可以部分恢复不一致的视频输入。↑表示越高越好20 1 2 3 4 5 6 7 8 916删除的单词数14(b) 对缺失文本信息的鲁棒性。当从文本输入中删除单词时,纯文本条件模型的性能迅速恶化。这表明,分离确实依赖于整个话语的文本内容正如预期的那样,结合视频和文本提供了对丢失文本输入的鲁棒性图4.缺失信息的实验。121086425 4 32 10 1 2 3 4 5瓶颈消融和对AV错位的稳健性。为了评估我们在U-Net瓶颈中选择的Transformer编码器,我们进行了一项实验,用2层LSTM替换Transformer(类似于[12]使用的架构),其中音频和视频特征在通道维度中串联。我们认为,使用Transformer融合不同的模态提供了不需要同步输入流(例如,视频和音频)。为了验证这一假设,我们进行了实验,通过在-200至200 ms范围内的随机偏移来人为地移动音频输入。我们在这些条件下训练和评估LSTM和trans-former模型。该比较的结果示于图5中。很明显,当音频和视频输入没有正确同步时,LSTM基线的性能急剧恶化。另一方面,VoiceFormer对同步问题非常稳健,即使两种模态偏移高达200 ms,也能保持较高的SDR分数(>12与最先进的技术相比。我们报告我们的方法的 性能 说 话 人 分 离 和 比较帧移位图5. 对视听偏差的鲁棒性。我们在视听扬声器分离设置中使用LSTM瓶颈将我们提出的模型与基线进行了比较。很明显,虽然LSTM基线在视频和音频流不对齐时会出现问题,但VoiceFormer对同步偏移具有鲁棒性。五帧偏移对应于200ms。它与表4中的先前方法相同。作为基线,我们使用[12]的最先进的语音增强方法(仅音频)以及最近提出的视听方法[1,4,21]。很明显,VoiceFormer在所有指标上都优于以前的作品,在(可比较的)视听设置A+V中获得了最先进的性能。语音增强(去噪)的比较。为了完整起见,我们还评估了我们的模型在去噪任务上的性能。我们在表5中示出了结果。我们提出的模型与最先进的降噪模型[12]不相上下。我们注意到,这是预期的,因为语音增强任务比说话人分离更容易,并且可以通过仅使用音频模态来解决在-A+V(LSTM)A+V(VoiceFormer)SDRSDRA+V模型A+T+V模型SDRA+T✓✗13.1 89.7A+T↶✗1.1860.51.53A+V✗✓14.191.32.36A+V✗↶-1.5151.91.39A+V+T✓✓14.291.72.41A+V+T✓↶5.1170.51.69A+V+T✓✗10.983.62.12A+V+T↶✓14.191.32.36A+V+T✗✓14.191.22.34A+T模型A+T+V模型10500↑LRS2 LRS3Model V T SDR STOI PESQ噪声输入✗ ✗0.266.61.171.369.71.3隔音器[12]✗ ✗0.266.61.171.369.71.3AVObjects[4]✓ ✗8.8683.91.949.7285.12.02对话[1]✓ ✗9.2584.01.91 10.15 86.52.08[21]第二十一话✓ ✗10.888.42.1611.790.02.41我们的A+V✓ ✗14.191.32.3615.593.42.62Lee等人[25]第二十五话✓ ✗ 10.01 88.00.949.7885.0 0.710我们的A+V✓ ✗ 12.71 92.02.06 14.74 94.02.42我们的A+V+T✓ ✓ 14.291.72.4115.593.52.63表4. 与说话人分离任务的最新技术进行比较。我们在合成LRS2和LRS3测试集上评估我们的最佳模型。V和T列表示每个模型用于调节的模态。A+V+T表示我们的完整模型,A+V表示仅基于视频而非文本的版本。我们的A+V模型在所有指标上都明显优于以前的工作,在这种环境下获得了最先进的性能。我们注意到,[12]的最先进的语音增强模型不能处理不同说话者的混合,并且输出混合信号,即使在我们试图对此任务进行†在合成双扬声器LRS2训练集上未进行微调。比较是在Lee等人发表的不同测试集上进行的。[25]。对于所有指标,越高越好。事实上,在所有度量上获得的高数字指示在此设置中的性能潜在地饱和。包括该实验以证明所提出的方法也可以很好地处理去噪。我们将在更具挑战性的增强设置下对模型进行压力测试的工作留给未来的工作。模型SDR↑STOI↑PESQ↑隔音器[12]16.4988.42.44我们的A+V16.1388.92.49A+T15.888.42.38我们的A+V+T16.088.82.42表5. 语音增强(去噪)任务的模型性能和比较。 在LRS2测试集上报告结果。我们所有的模型都获得了良好的性能,匹配 最先进的纯音频[13]降噪方法。表示越高越好定性实例。我们强烈建议读者参考项目网页,了解真实视频中说话人分离和去噪的多个示例,其中涵盖了上述许多场景。我们证明,我们的模型可以在具有挑战性的现实世界的情况下进行语音分离。5. 讨论5.1. 限制所提出的方法的主要限制是强烈的正如我们在引言中所讨论的,在许多实际应用中,这是一个有效的假设(例如,准备好的会议演讲或歌词)。在我们的定性例子中,我们还表明,它是可能的,使用相关的技术,如ASR,以获得近似的transmittance,可以在我们的方法中使用的目标说话人分离。5.2. 社会影响如引言中所述,强大的多模态语音增强模型的发展新的方法可以使用,而不需要同步,同时实现改进的性能。它还为新的应用提供了机会,例如它可以使用电影中的字幕来抑制所有背景音乐。然而,在监视方面,提供一种新的方法来将说话者与其他人隔离开来,这可能是恶意的。然而,在我们在本文中考虑的新设置中,自然语言内容被假定为已经知道(或者可以通过其他方式预先获得)。因此,我们认为,这种担忧不适用于我们的环境,总体而言,善意使用的潜在好处(例如,医疗应用和智能助听器)超过了有限的风险。5.3. 结论我们提出了一种多模态语音增强方法,可以条件下的多个非对齐的模态。我们还介绍了文本条件下的语音增强作为一个新的任务,并展示了我们提出的架构可以有效地解决它。我们的训练模型在各种设置中展示了最先进的性能,以及对同步问题和丢失信息的鲁棒性。在未来的工作中,我们将考虑通过添加新类型的嵌入来扩展我们的框架,以限制模态,例如(i)特定的人(在[ 21 ]中扩展以前的工作)(ii)所说的语言(例如,从英语中挑选出一个说法语的人)。鸣谢。这项工作由英国EP-SRC AIMS CDT,EPSRCProgramme Grant VisualAI EP/T028572/1 和 GoogleDeepMind研究生奖学金资助。10501引用[1] TriantafyllosAfouras , Joon Son Chung , 和 AndrewZisser-man. 对 话 内 容 : 深 度 视 听 语 音 增 强 。 在INTERSPEECH,2018年。一二三四七八[2] Triantafyllos Afouras,Joon Son Chung,和Andrew Zis-serman. LRS 3-TED:用于视觉语音识别的大规模数据集。在arXiv预印本arXiv:1809.00496,2018。4[3] TriantafyllosAfouras , Joon Son Chung , 和 AndrewZisser-man.我的嘴唇被遮住了:通过障碍物的视听语音增强。在INTERSPEECH,2019。二、三[4] Triantafyllos Afouras , Andrew Owens , Joon SonChung,and Andrew Zisserman.视频中视听对象的自监督学习Proc. ECCV,2020。三六七八[5] 扬 尼 斯 ·M Assael , Brendan Shillingford , ShimonWhiteson,and Nando de Freitas.Lipnet:句子级唇读。arXiv:1611.01599,2016. 2[6] 马蒂厄·伯纳德和哈德良·蒂托。Phonemizer:Python中多种语言的文本到电话转录。开源软件杂志,6:3958,2021年12月。3[7] 陈 洪 烈 , 谢 伟 迪 , Triantafyllos Afouras , Arsha Na-grani,Andrea Vedaldi和Andrew Zisserman。野外的视听同步。在Proc. BMVC,2021中。3[8] 卓晨、伊洛、尼玛·梅斯格拉尼。 用于单麦克风扬声器分离的深度吸引器网络。在2017年IEEE声学,语音和信号处理国际会议(ICASSP),第246-250页,2017年。2[9] 郑俊山,老安德鲁,奥里尔·维尼亚和安德鲁·齐瑟曼.在野外读唇语句子。在procCVPR,2017年。4[10] Joon Son Chung和Andrew Zisserman。在野外读唇语。在Proc. ACCV,2016年。2[11] 郑秀焕,崔素妍,郑俊松,康洪国Facefilter:使用静止图 像 的 视 听 语 音 分 离 。 arXiv 预 印 本 arXiv :2005.07074,2020。一、二[12] Alexandre Defossez,Gabriel Synnaeve,and Yossi Adi.波形域实时语音增强InInter-speech,2020.二三四五七八[13] Ale xandreDe' fossez , NicolasBronnier , Le' onBottou 和Francis R. 巴 赫 . 波 形 域 音 乐 源 分 离 。 CoRR ,abs/1911.13254,2019。三、八[14] Ariel Ephrat、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、William Freeman和Michael Rubinstein。在鸡尾酒会上聆听:一种用于语音分 离 的 非 特 定 人 视 听 模 型 。 arXiv 预 印 本 arXiv :1804.03619,2018。一、三、四[15] 约翰·W·费舍尔三世,特雷弗·达雷尔,威廉·T·弗里曼和保罗·A·维奥拉。学习视听融合和分离的联合统计模型。在NeurIPS,2000中。2[16] 艾维·加贝,阿里尔·埃弗拉特,塔维·哈尔佩林,什穆尔·佩莱格.透过噪音:视觉驱动扬声器分离和增强。在Proc. ICASSP,第3051IEEE,2018年。3[17] Aviv Gabbay,Asaph Shamir,and Shmuel Peleg.使用噪声不变训练的视觉语音增强。arXiv预印本arXiv:1711.08789,2017。310502[18] Chuang Gan,Deng Huang,Hang Zhao,Joshua B.泰南-鲍姆和安东尼奥·托拉尔巴。音乐手势用于视觉声音分离。2020 IEEE/CVF计算机视觉和模式识别会议(CVPR),第104753[19] RuohanGao,Roge'rioSchmidtFeris,andKristenGrauman. 通过观看未标记的视频学习分离物体声音。CoRR,abs/1804.01665,2018。2[20] Ruohan Gao和Kristen Grauman。共同分离视觉对象的arXiv预印本arXiv:1904.07750,2019。2[21] Ruohan Gao和Kristen Grauman。VisualVoice:具有跨模态一致性的视听语音分离。在Proc. CVPR,2021中。一、二、三、七、八[22] Rongzhi Gu,Shi-Xiong Zhang,Yong Xu,LianwuChen,Yuexian Zou,and Dong Yu.多模态多通道目标 语 音 分 离 。 IEEE Journal of Selected Topics inSignal Processing,14(3):530-541,2020。3[23] John R. Hershey、Zhuo Chen、Jonathan Le Roux和Shinji Watanabe。深度集群:用于分割和分离的判别嵌入。在2016年IEEE声学、语音和信号处理国际会议(ICASSP)上,第31-35页,2016年。2[24] Andrew Jaegle 、 Felix Gimeno
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功