门控双路径RNN：多说话者语音分离的创新解决方案

需积分: 9 195 浏览量更新于2024-08-05 收藏 319KB DOCX 举报

本文主要探讨了一种新颖的语音分离方法，名为Gated DualPathRNN（GDP-RNN），针对多个扬声者同时讲话的混合音频序列进行分离。GDP-RNN的核心创新在于采用门控神经网络结构，能够在处理多个步骤时进行有效的声音分离，同时确保每个输出声道的扬声器识别保持不变。与传统基于掩码或多路复用器的方法不同，GDP-RNN避免了随着说话人数量增加而带来的复杂性和信息丢失问题。首先，文章介绍了语音分离作为一项具有挑战性的感知任务，特别关注单通道监督下的语音分离，即仅依赖单个麦克风数据。深度神经网络，特别是双向循环神经网络（Bilateral RNNs），已经在这一领域取得了显著进步，如Hershey等人（2016）和Luo & Mesgarani（2018, 2019）的工作。这些方法通过学习每个时间步的多通道音频表示，然后利用掩码进行重构。然而，这种方法对于多说话者场景存在局限，因为它依赖于表示中的掩蔽信息，这使得随着说话人数量增加，模型的复杂度和计算需求成指数级增长。为解决这个问题，本文提出了一种无掩码方法——Gated DualPathRNN。它采用RNN序列处理音频，每个RNN块由两个并行运行的RNN组成，通过残差连接和跳过连接增强模型的性能。关键创新点在于，GDP-RNN设计了置换不变的输出机制，这意味着尽管输出允许语音在通道之间切换，尤其是在静默时刻，但通过提出一种新的损失函数，模型能够更好地处理这种不确定性。作者强调，对于不确定的说话者数量，他们并未训练一个特定数量的模型，而是通过训练后对模型的误差评估，选择最适合的模型来适应实际的说话者数量。 Gated DualPathRNN为多说话者语音分离提供了一种有效且扩展性强的解决方案，通过门控神经网络结构和创新的损失函数，克服了传统方法在多说话者情况下的局限，提高了语音分离的准确性和效率。这个研究不仅提升了语音处理领域的技术水平，也为未来的实时和大规模语音应用场景提供了新的思考方向。

多个扬声器数量未知的语音分离

摘要

我们提出了一种新的方法来分离一个混合音频序列，其中多个声音同时说话。新方法

采用门控神经网络，该网络被训练在多个处理步骤中分离声音，同时保持每个输出声道中

的扬声器固定。对每个可能的演讲者数量训练一个不同的模型，并使用说话者数量最多的

模型来选择给定样本中实际的演讲者数量。我们的方法大大优于目前的技术，正如我们所

展示的，这不是竞争超过两个的演讲者。

1.导言

将单个声音从同时发生的多个对话中分离出来的能力构成了一项具有挑战性的感知任

务（Capon，1969；Frost，1972）。人类这样做的能力激发了许多计算尝试，早期的

工作多集中在多个麦克风和无监督学习上，例如独立组件分析方法

（Hyvarinen&Oja，2000）。

在这项工作中，我们将重点放在单个麦克风的监督语音分离问题上，随着深度神经网

络的出现，该问题在性能上有了巨大的飞跃（Hershey et al.，2016；罗和梅斯加拉尼，

2018 年）。在这个“单通道源分离”问题中，给定一个同时包含混合音频和单个语音的数据

集，一个人训练分离一个包含多个看不见的扬声器的新型混合音频。

当前领先的方法基于线性滤波器的过完备集，并基于在每个时间步使用两个扬声器的

掩模或多个扬声器的多路复用器分离滤波器输出（Luo&Mesgarani，2018；2019; 张等

人，2020 年）。然后根据该部分表示重构音频。由于说话人的顺序被认为是任意的（很

难对声音进行排序），因此在训练过程中使用置换不变损失，从而考虑使损失最小化的置

换。

需要使用上述部分表示，这随着要分离的语音数量的增加而变得更加严重，这是这种

基于掩蔽的方法的限制，因为随着说话人数量的增加，掩蔽需要从表示中提取和抑制更多

因此，在这项工作中，我们着手构建一种无掩码方法。该方法使用应用于音频的 RNN 序

列。如我们所示，评估每个 RNN 后的误差，获得反映每个层后重建质量的复合损失是有

益的。

RNN 是双向的。每个 RNN 块用特定类型的残差连接构建，其中两个 RNN 并行运行。

每层的输出是两个 RNN 的逐元素乘法与经历旁路（跳过）连接的层输入的串联。

在这种情况下，与分离已知源不同（D'efossez et al.，2019），输出以置换不变的

方式给出，因此，语音可以在输出通道之间切换，特别是在瞬态静默事件期间。为了解决

这个问题，我们提出了一个新的损耗，该损耗基于在同一训练集上训练的语音表示网络。

然后，该网络获得的嵌入用于将输出语音与输出通道的语音进行比较。我们证明了损失是

有效的，即使将其添加到基线方法中。通过从音频文件的多个位置开始分离并对结果进行

平均，获得了对基线方法也有效的额外改进。

与最先进的方法类似，我们为每个扬声器数量训练一个模型。与已发表的方法相比，

所获得的模型的性能差距随着说话人数量的增加而增加，我们可以注意到，我们的方法的

性能逐渐下降，而基线方法随着说话人数量的增加而急剧下降。

下载后可阅读完整内容，剩余6页未读，立即下载

众里寻AI千百度

粉丝: 0
资源: 1

门控双路径RNN：多说话者语音分离的创新解决方案

Dual-path RNN： Pytorch实现的时域单通道语音分离的 高效长序列建模

DUAL-PATH RNN FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATION

LSTM详细学习.docx

深度学习技术综述.docx

GRU入门到实战——.docx

Glitch-free clock switch.docx

Matlab技术神经网络模型.docx

2022年网络工程师考试要点.docx

门控循环神经⽹络GRU.docx

融合近邻评论的GRU商品推荐模型.docx

最新资源

Dual-path RNN： Pytorch实现的时域单通道语音分离的高效长序列建模