多时间尺度学习的说话人识别:t-vector与双通路神经网络

需积分: 9 2 下载量 95 浏览量 更新于2024-07-16 收藏 450KB PDF 举报
"这篇论文是关于ICASSP 2019年会议中TDSV领域的研究,主要探讨了从深层神经网络中提取高度区分的说话人嵌入以改进说话人识别技术。研究受到了生物听觉系统处理多时间尺度信息的启发,提出了一种双通路神经网络结构,分别关注短期和长期特征。这种创新的t-vector方法在实验中表现出优于传统i-vector和其他深度嵌入的性能,并且可以通过端到端训练进一步优化,即使使用简单的评分方法也能取得良好的识别效果。" 本文关注的是说话人识别(SV)领域的技术进步,特别是如何提高说话人嵌入的区分性。传统的因子分析方法,如i-vector,虽然在一段时间内主导了该领域,但随着深层神经网络(DNN)的发展,研究人员开始探索更有效的表征学习方法。DNN,尤其是区分性说话人神经网络,已经证明可以提供更强大的说话人特征,例如d-vector,但其性能仍有提升空间。 文章指出,人类听觉系统对声音信息的处理涉及多个时间尺度,这为改进说话人识别提供了新的视角。因此,研究者设计了一种双通路神经网络,该网络由两个独立的通路构成,分别负责捕捉短期(局部)和长期(全局)的声音特征。这两个通路的输出被融合成一个特征向量,用于生成被称为t-vector的说话人嵌入。实验结果表明,结合不同时间尺度的特征能产生互补效应,从而提高识别准确率。 此外,t-vector不仅在与i-vector和其他深度嵌入方法的比较中表现出优越性,而且通过端到端的训练策略,即使采用简单的相似度计算方法,如余弦距离,也能实现高性能的说话人识别。这表明t-vector模型的效率和适应性,对于未来的说话人识别系统开发具有重要启示。 关键词涵盖了说话人识别的核心要素,包括说话人嵌入、生物学研究、多时间尺度处理、t-vector以及端到端训练。这些关键词揭示了研究的深度和广度,以及对生物启发式算法的重视,旨在模仿人类听觉系统,以提高机器学习模型在处理语音数据时的能力。这项工作为改善说话人识别的准确性和鲁棒性提供了重要的理论基础和技术方案。