分段DNN/i向量方法提升数字提示下的语音识别验证性能

需积分: 9 0 下载量 27 浏览量 更新于2024-08-13 收藏 256KB PDF 举报
本文主要探讨了一种针对数字提示(digit-prompted)的说话人验证系统的分段DNN/i向量方法。在传统的文本无关的说话人验证系统中,深度神经网络(DNN)和i向量组合已经达到了最先进的性能,它们通过将通用背景模型(UBM)的后验概率替换为DNN的后验来更好地建模语音特征空间。然而,在文本依赖的说话人验证系统中,由于词汇变化对于这类应用至关重要,但句子级别的i向量往往抑制了这种变化,导致了有限的成功。 作者针对这一问题,提出了一种创新的方法:分段DNN/i向量模型。这种方法将语音信号划分为单独的数字单元,每个数字都使用独立的DNN/i向量系统进行建模。这样做的好处在于,它能够更专注于每个数字的特性,从而更好地捕捉到文本依赖场景中的语音变化和个体特征。每个数字单元的DNN/i向量可以捕获其独特的发音模式,有助于减少由于不同数字之间的语言结构差异而引起的混淆。 该研究旨在提高数字提示下的说话人验证准确度,特别关注的是如何在保持语音识别准确性的同时,更好地处理文本依赖性因素,如音素和词汇的变化。通过这种分段处理,该方法有望改善系统的鲁棒性和适应性,使之能够在实际应用中,如电话银行、密码验证等场景中,提供更精确和可靠的说话人身份验证服务。 总结来说,这篇研究论文提出了一个新颖的策略,通过将DNN/i向量技术与语音分割相结合,以增强数字提示说话人验证系统的性能。它强调了在处理文本依赖性语音任务时,关注并利用每个部分的特异性是提升验证准确性的关键。这种方法不仅扩展了DNN/i向量技术的应用领域,也为解决实际场景中的语音识别问题提供了新的思考角度。