实时语音分割与聚类:一种新型在线方法

需积分: 10 13 下载量 89 浏览量 更新于2024-09-09 收藏 372KB PDF 举报
"Online speaker segmentation and clustering using cross-likelihood ratio calculation with reference criterion selection" 这篇研究文章发表在《IET Signal Processing》期刊上,作者是M. Grasic、M. Kos和Z. Kacic,主要探讨了在线说话人分割和聚类的方法,特别是在实际环境中的应用。该研究针对在线说话人识别(speaker diarisation)所面临的挑战,提出了一种新的融合了贝叶斯信息准则(BIC)和归一化交叉似然比(NCLR)的在线说话人分割和聚类系统。 在线说话人分割与聚类是一项关键任务,尤其是在多说话人的语音处理场景中,如会议记录、电话对话和音频监控。传统的离线方法可能无法适应实时或近实时的应用需求,因此在线方法的开发显得尤为重要。作者分析了在线说话人分割的困难,并提出了一种创新的方法。 该方法的核心在于结合BIC和NCLR。BIC是一种统计模型选择准则,用于评估模型复杂度和数据拟合程度之间的平衡。而NCLR则是用于比较不同假设下数据分布的相似度,特别适合于区分不同的说话人。通过结合这两种准则,新方法能更准确地识别和区分说话人的片段。 为了解决在线处理时可能出现的问题,研究者提出了一个新的决策参数,即基于参考准则选择的归一化(NRCS)。NRCS旨在通过选择一个参考准则来对BIC和NCLR进行标准化,使得不同长度的分析窗口之间可以进行比较。此外,他们还引入了一种称为窗口长度补偿(WLC)的技术,这种技术能够根据分析窗口的长度调整准则值,确保结果的稳定性。 这项研究提出了一种新的在线说话人分割和聚类策略,它不仅考虑了模型复杂度和数据拟合,还通过NRCS和WLC技术增强了不同条件下的性能。这种方法对于提高多说话人环境中的语音识别和理解效率具有重要意义,有望在语音识别系统、智能家居、智能安全等领域得到广泛应用。