基于广义神经网络与STRAIGHT的高效语音基频转换算法

55 浏览量更新于2024-08-26 收藏 877KB PDF 举报

本文主要探讨了基频轨迹转换算法在语音转换系统中的应用研究。该研究由陈芝和张玲华两位作者针对南京邮电大学通信与信息工程学院进行，发表于2010年10月的《南京邮电大学学报》自然科学版。论文的核心创新是提出了一种结合广义人工神经网络（GANN）和STRAIGHT模型的高效基频轨迹跟踪方法。 STRAIGHT模型是一种先进的语音合成技术，其独特之处在于能够在大幅度修改语音信号的基频时保持较高的语音质量，这是通过精确地调整频谱来实现的，而不会导致合成语音听起来失真。STRAIGHT模型的优势在于它能够精细控制语音的基频特性，使得语音的自然度得以保持。人工神经网络则被用于增强这种转换过程的精确性和适应性。利用其强大的预测能力，算法可以学习源说话人和目标说话人基频轨迹之间的内在关联，这种学习过程能够捕捉到说话人特征之间的复杂关系，从而实现基音频率的高效转换。这种方法相较于传统的基频转换算法，具有更高的精度和更好的目标特征映射能力。通过语谱图分析，研究者展示了新算法在处理语音转换任务时的优秀性能。主观意见评分的结果进一步证实了这一点，新算法在合成语音的质量和特征转化方面的表现远优于传统方法。这不仅体现在语音的清晰度和连贯性上，也包括了声音的自然度和情感表达的保留。本文的研究成果对于语音转换系统的优化具有重要意义，它提供了一种基于深度学习的基频转换策略，有望提升语音合成技术的实用性和用户体验。未来的研究可以进一步探索如何将这种算法应用于更广泛的语音合成应用中，如语音转换、语音合成等，以满足不同场景下的需求。

展开