基于掩码时域解码器的实时语音降噪技术

版权申诉
0 下载量 125 浏览量 更新于2024-07-10 收藏 26KB DOCX 举报
"基于掩码时域解码器的实时语音降噪方法和装置与流程" 在当前的技术领域中,语音处理技术已经发展到利用深度学习来提升语音降噪的效果。传统的语音增强方法,如频谱减法、维纳滤波等,往往依赖于特定的先验假设,例如噪声为加性等,但在实际复杂环境中,这些假设并不总是成立,导致降噪效果受限。特别是在非平稳噪声和低信噪比环境下,这些经典方法的性能显著下降。 近年来,深度学习技术的应用为语音降噪带来了革命性的改变。特别是通过提高掩模估计的准确性,时频掩模方法的性能得到了显著提升。掩模估计是一种在时频域中区分语音和噪声的有效手段,它通过预测每个声音源的幅度谱,然后利用逆短时傅立叶逆变换(ISTFT)恢复原始波形。然而,这种方法存在两个主要挑战:一是相位重建的准确性问题,即使拥有理想的干净幅度谱,错误的相位估计也会对重建语音的质量造成限制;二是实时性和低延迟的要求,由于需要较大的时间窗口进行ISTFT,增加了系统的最小延迟,不利于实时应用。 针对这些问题,本发明提出了一种基于掩码时域解码器的实时语音降噪方法和装置。这种方法包括以下步骤:首先,将带有噪声的语音通过STFT(短时傅立叶变换)提取特征;其次,将这些特征输入到预先训练的神经网络中,以获取掩码;最后,将得到的掩码和带噪语音输入到时域解码器中进行解码,从而得到经过降噪的语音。这种方法的优势在于,它可能通过时域解码器更准确地还原语音,同时减少了对相位信息的依赖,因此有可能在保持较低延迟的同时,提高实时语音降噪的性能。 此外,这种方法还可能涉及一种装置,该装置包括用于执行上述步骤的硬件和软件组件,例如处理器、内存和输入/输出接口,以实现对实时语音信号的快速处理。同时,这种方法还可以扩展到电子设备和计算机可读存储介质,使得这些技术能够在各种应用场景中,如电信、可穿戴设备等,有效地实施。 本发明提供了一种新的实时语音降噪策略,它利用深度学习和时域解码器来克服传统方法的局限性,有望在复杂噪声环境中实现更高效、低延迟的语音清理,从而提高通信和语音识别系统的性能。