基于FrFT与RBF神经网络的高效说话人识别方法

0 下载量 26 浏览量 更新于2024-08-26 收藏 764KB PDF 举报
本文探讨了一种利用优化的傅立叶变换(FrFT)频率图谱和径向基函数(RBF)神经网络进行说话人识别的方法。作者Penghua Li等人,来自重庆邮电大学自动化学院和中国汽车工程研究院的关键实验室,提出了一个创新的解决方案来解决语音信号的辨识问题。 首先,文章的核心技术是基于FrFT的频谱图生成。FrFT是一种变分傅立叶变换,它通过改变频率分析的阶数,能够提供比传统傅立叶变换更为精细的语音信号特征描述。这种特性使得FrFT在处理非线性、时变和非平稳信号时展现出优势,有助于提高说话人识别的准确性。 为了降低后续处理的计算复杂度,提取的FrFT频谱图被转换为低维向量,使用局部二值模式(LBP)操作。LBP是一种简单而有效的图像特征表示方法,通过对像素邻域的灰度差异进行编码,能够保留图像的局部结构信息,从而减少维度,提高搜索效率。 在这个过程中,粒子群优化(PSO)算法被巧妙地应用,用于寻找最优的频谱图。PSO是一种模拟鸟群或粒子群体觅食行为的优化算法,它利用每个粒子的位置和速度信息,在搜索空间中寻找全局最优解。设计的适应度函数结合了类别间的距离和类内差异,以衡量候选频谱图在区分不同说话人方面的性能。 这种方法的优势在于结合了FrFT的精细频率特性与RBF神经网络的强大非线性映射能力。RBF神经网络以其自组织的特征学习和简洁的模型结构,能够有效地从低维LBP特征中学习并建立说话人的独特识别模型。通过优化的频谱图选择和RBF网络的训练,该系统能够在保持高效性的同时,实现高精度的说话人识别任务。 这篇研究论文提出了一种有效的方法,通过FrFT频谱图和RBF神经网络的协同工作,提升了说话人识别的性能,尤其在处理复杂语音信号和减少计算负担方面展现出了创新性和实用性。