概率序列核提升说话人识别性能:一项基于UBM-MAP模型的研究

需积分: 9 0 下载量 62 浏览量 更新于2024-09-05 收藏 591KB PDF 举报
本文主要探讨了一种概率序列核在说话人识别中的应用,针对说话人识别领域的主流模型——Reynolds提出的UBM-MAP模型进行了创新性研究。UBM-MAP模型通过线性组合高斯密度函数描述说话人语音特征的空间分布,虽然取得了显著的成功,但近年来,统计学习理论尤其是支持向量机(SVM)在说话人识别中的应用越来越广泛,被视为区分型说话人模型的代表。 论文首先回顾了生成型和区分型说话人模型的区别,前者仅依赖目标说话人的语音,而后者如SVM则需要包括目标和非目标说话人的样本。为了克服长度不一致的问题,作者提出了四种不同的特征规整方法:均值/方差规整、权重规整、WLOG规整和球形规整,这些方法旨在将不同长度的语音句子映射到相同维度的向量空间,便于SVM处理。 在核函数的选择上,文章引入了概率序列核,这是基于语音特征向量序列的前后转移关系设计的。这种核函数考虑到了序列信息,能够更好地捕捉说话人特征的时序依赖性。在NIST2001语音数据库上进行了实验,结果显示,概率序列核模型的识别性能接近经典的UBM-MAP模型,两者融合后的性能得到了明显提升,达到19.1%的识别性能增益。 此外,论文还展示了如何将转移概率序列核与其他模型(如UBM-MAP)的得分融合,进一步提高了识别准确率。这表明概率序列核不仅具有独立的优势,还能与其他模型的有效性相结合,从而优化说话人识别的整体效果。这篇论文提供了一种新颖的、考虑序列信息的说话人识别方法,对于提高识别精度和模型的鲁棒性具有重要意义。