语音盲分离算法研究:说话人个数时变的语音信号处理

1星 需积分: 10 16 下载量 35 浏览量 更新于2024-07-28 4 收藏 1.35MB PDF 举报
盲源分离在图像信号处理中的应用 盲源分离(Blind Source Separation, BSS)是一种新兴技术,旨在从观测的混合信号中恢复出原始信号,而对原始信号和混合系统的先验知识要求甚少。因此,盲源分离技术在无线通信、医学信号处理、图像增强和语音分离等诸多领域有着广泛的应用。 在图像信号处理领域,盲源分离技术可以用于图像的盲分离,即从观测的图像信号中恢复出原始图像信号。这个技术可以广泛应用于图像增强、图像去噪、图像恢复等领域。 本文研究的主要内容是说话人个数时变的语音盲分离问题。传统的语音盲分离算法都是针对说话人个数已知且在分离过程中恒定的情况,但是在实际应用中,说话人个数可以是时变的。本文提出了一种解决方案,仅用两个麦克风对说话人个数时变的语音信号进行盲分离,不仅能反映说话人个数时变的过程,而且解决了麦克风与说话人之间个数差异引起的超定、欠定问题。 本文的主要思想是:首先,判断说话人个数的变化情况。综合比较几种说话人个数的判断方法后,本文选取一种实时性能较好且易于实现的互功率谱相位法来反映说话人个数的变化过程并按照说话人个数不同,将采集的混合信号分段;其次,对各段分别做盲分离处理。由于说话人个数和麦克风个数存在差异,它们不能始终维持正定情况,所以本文借鉴了超定情况下的盲分离算法Duet;最后,本文提出设想,将各段处理结果用说话人识别技术整合,从而解决了说话人个数时变的语音盲分离问题。 此外,本文还用所提出的方法对盲定位进行了研究。基于互功率谱相来确定信号源到两个麦克风的距离差双曲线,用Duet求解波达方向角。联立曲线和方向角实现多信号源盲定位。因为仅用了两个麦克风,所以定位结果是多个解,本文又结合声音传播规律和余弦定理去除了虚定位。最后用定位结果来指导盲信号分离,实验效果证明了算法的有效性。 本文的研究结果可以广泛应用于图像信号处理、语音信号处理、盲定位等领域,并且可以解决实际应用中遇到的许多问题,具有很高的应用价值。 关键词:盲源分离、盲定位、说话人识别、互功率谱相位