深度神经网络联合训练的通用VAD解决未知噪声条件下的性能下降

0 下载量 62 浏览量 更新于2024-08-27 收藏 496KB PDF 举报
本文主要探讨了一种基于深度神经网络联合训练的通用语音活动检测(Voice Activity Detection, VAD)方法,针对在未见过的噪声条件下性能下降的问题提出了创新解决方案。该研究论文由清华大学和美国佐治亚理工学院的研究团队共同完成,作者包括Qing Wang、Jun Du、Xiao Bao、Zi-Rui Wang、Li-Rong Dai以及Chin-Hui Lee。 首先,研究者提出了一种回归深度神经网络(Regression DNN),其目标是将嘈杂的语音特征映射到类似于深度神经网络(DNN)增强后的清晰语音特征。这种方法借鉴了语音增强技术,通过学习噪声对语音信号的影响,能够在处理噪声背景时更加精确地还原语音特征。 其次,为了提高VAD部分的性能,论文构建了一个专门用于区分语音与噪声背景的DNN。这个DNN利用大量的多样化噪声合成数据进行训练,涵盖了各种附加噪声类型,从而提高了模型在面对未知噪声环境时的鲁棒性。 论文的核心创新在于将分类DNN与增强DNN相结合,形成一个集成的DNN架构。这种联合训练方式使得整个VAD系统能够同时优化特征映射和噪声分类任务。回归DNN作为噪声归一化模块,其作用是明确生成易于处理的“干净”特征,这对于提高VAD的准确性和泛化能力至关重要。 通过这种方式,研究人员旨在开发出一种能在各种噪声条件,无论是已知还是未知,都能有效工作的通用VAD系统。这种技术不仅提升了VAD的性能,而且有可能推动语音处理领域在实际应用中的适应性和鲁棒性提升,比如在嘈杂的会议通话、智能家居或自动驾驶等场景中,对于准确识别和过滤语音信号具有重要意义。