声纹识别技术与开源工具探索：2021年厦门大学智能语音实验室进展

需积分: 5 61 浏览量更新于2024-07-09 收藏 6.34MB PDF 举报

"这篇资源是关于声纹识别的最新研究现状和开源工具的分享，由厦门大学智能语音实验室的洪青阳及其团队在2021年7月发布。" 声纹识别是一种生物识别技术，它基于每个人的嗓音特征来辨识个体身份。随着智能设备的普及，如智能音箱、电视和手机，声纹识别被广泛应用于安全验证和个性化服务，如账号登录和智能客服。这项技术主要包括说话人鉴别（Speaker Identification）、说话人确认（Speaker Verification）以及说话人分割聚类（Speaker Diarization）。根据应用场景的不同，有多种任务类型，如1:N的说话人鉴别和1:1的说话人确认，以及对抗欺骗攻击。声纹识别的发展历程经历了模板匹配、GMM-UBM、GMM-SVM、HMM、DTW、VQ、JFA、DNN i-vector、d-vector到x-vector等模型的演进。特征提取从早期的语音、波形、语谱图、倒谱、LPC、LPCC到MFCC、DeepEmbedding和PLP等，直至近年来深度学习的广泛应用，使得声纹识别的性能得到了显著提升。 x-vector模型是当前的一个关键模型，它通过帧级别的处理和StatisticsPooling层来学习语音的全局统计信息，再通过段级别进一步提取信息。这种模型结构能有效地处理时序语音数据，提高识别准确率。声纹识别的关键技术还包括合适的损失函数选择和后端分类器设计。通常，Cosine相似度或PLDA等方法用于计算声纹的相似度，而模型训练则依赖大量实际应用数据。随着技术的进步，声纹识别已经在刑事侦查、智能客服和智能家居等领域展现出广阔的应用前景，并且评价指标如Top-N命中率、等错误率(EER)和分离错误率(DER)被用来衡量系统的性能。此外，文中提到的开源工具可能为研究人员和开发者提供了实验和应用这些技术的平台，有助于推动声纹识别领域的进一步发展。然而，具体内容并未详述这些开源工具的名称和特性，这部分信息需要进一步探索。

前沿技术

PART TWO

抗噪鲁棒性—前后端优化、对抗学习

◆ 后端分类器：

 SNR-invariant PLDA

[1]

 SNR-dependent mixture of PLDA

[2]

◆ 语音增强(+说话人识别)：

 DNN-based binary masking

[3]

 VoiceID Loss(前后端联合优化)

[4]

 语音分离(BNF)+联合训练

[5]

◆ 对抗学习：

 文本无关(厦大)

[6]

 文本相关(微软)

[7]

◆ 差异对齐(成对输入)：

 invariant representation learning(IRL)

[8,10]

 within-sample variability-invariant loss

[9]

[1] N. Li, M.-W. Mak, “SNR-Invariant PLDA Modeling in Nonparametric Subspace for Robust Speaker Verification,” IEEE/ACM Transactions on Audio, Speech, and Language

Processing, vol. 23, No. 10, pp. 11648–1659, 2015.

[2] M.-W. Mak, X. Pang, and J. Chien, “Mixture of PLDA for Noise Robust i-Vector Speaker Verification,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.

24, no. 1, pp. 130–142, 2016.

[3] X. Zhao, Y. Wang, D. Wang, "Robust Speaker Identification in Noisy and Reverberant Conditions", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22,

no. 4, pp. 836–845, 2014.

[4] S. Shon, H. Tang, and J. Glass, “VoiceID Loss: Speech Enhancement for Speaker Verification,” INTERSPEECH 2019.

[5] F. Zhao, H. Li, and X. Zhang, “A Robust Text-independent Speaker Verification Method Based on Speech Separation and Deep Speaker,” ICASSP 2019.

[6] J. Zhou, T. Jiang, L. Li, Q. Hong, Z. Wang, and B. Xia, “Training Multi-Task Adversarial Network for Extracting Noise Robust Speaker Embedding,” ICASSP 2019.

[7] Z. Meng, Y. Zhao, J. Li, and Y. Gong, “Adversarial Speaker Verification,” ICASSP 2019.

[8] J. Huang and T. Bocklet, “Intel Far-Field Speaker Recognition System for VOiCES Challenge 2019,” INTERSPEECH 2019.

[9] D. Cai, W. Cai, M. Li, “Within-Sample Variability-Invariant Loss for Robust Speaker Recognition Under Noisy Environments,“ ICASSP 2020.

[10] W. Chen, J. Huang, T. Bocklet, “Length- and Noise-aware Training Techniques for Short-utterance Speaker Recognition,” INTERSPEECH 2020.

VoiceID训练流程

[4]

微软对抗学习框架

[7]

IRL差异对齐

[8,10]

剩余58页未读，继续阅读

weixin_44220177

粉丝: 3
资源: 11

声纹识别技术与开源工具探索：2021年厦门大学智能语音实验室进展

GMM声纹识别

UBM-GMM用于声纹识别

Web端声纹识别

声纹识别数据集 IDMT-ISA-ELECTRIC-ENGINE

一个数字信号处理练习项目，基于GMM-UBM模型的声纹识别系统 （A-digital-signal-DSP-exer

基于python的说话人识别（声纹识别）GMM+GMM-UBM+ivector+基于深度学习的声纹识别源码+文档说明

说话人特征（声纹）提取工具，基于VGG-SR预训练模型.zip

456.zip_matlab声纹识别_声纹_声纹 识别_声纹识别_识别

声纹识别_声纹识别_AM_softmx损失函数_声纹识别网络_

later-GMM.zip_later-GMM_matlab声纹识别_声纹_声纹 识别

最新资源

一个数字信号处理练习项目，基于GMM-UBM模型的声纹识别系统（A-digital-signal-DSP-exer

456.zip_matlab声纹识别_声纹_声纹识别_声纹识别_识别

later-GMM.zip_later-GMM_matlab声纹识别_声纹_声纹识别