使用循环神经网络实现端到端语音识别

需积分: 15 5 下载量 190 浏览量 更新于2024-09-07 收藏 465KB PDF 举报
"这篇学术论文探讨了使用循环神经网络(Recurrent Neural Networks,RNNs)特别是深度双向长短期记忆网络(Deep Bidirectional LSTM RNNs)实现端到端的语音识别系统。该系统不再需要中间的音素表示,而是直接将音频数据转化为文本。论文提出了一种对目标函数的修改,使网络能够在没有词典或语言模型的情况下优化字错误率(Word Error Rate,WER)。在华尔街日报语料库上,该系统分别取得了27.3%、21.9%和8.2%的字错误率,这些结果是在没有语言信息、只有允许词汇的词典以及使用三元组语言模型的情况下取得的。通过与基线系统的结合,错误率进一步降低至6.7%。" 本文是Alex Graves和Navdeep Jaitly共同撰写的,他们分别来自Google DeepMind和多伦多大学计算机科学系。他们的研究关注点在于构建一个无需依赖传统语音识别步骤(如声学模型、发音词典和语言模型)的直接音频到文本的转换系统。 端到端的语音识别系统是近年来的研究热点,其目标是简化传统管道,减少中间步骤,提高整体效率。本研究中,他们采用了深度双向LSTM RNN作为核心架构,这种网络结构能够处理序列数据并考虑上下文信息,非常适合于语音识别任务。同时,他们结合了连接主义时间分类(Connectionist Temporal Classification, CTC)目标函数,这是一种处理不规则序列对齐问题的有效方法。 关键创新点在于对CTC目标函数的修改。传统的CTC通常计算的是预测序列与参考序列之间的差异,而改进后的版本允许网络直接最小化预期的任意转录损失函数,从而可以直接优化字错误率。这一改进使得系统在没有词典或语言模型的情况下也能进行训练,降低了对先验语言知识的依赖。 在实验部分,该系统在华尔街日报语料库上展示了其性能。在没有语言信息的情况下,系统达到的字错误率为27.3%,这已经是一个显著的成就。当仅提供允许词汇的词典时,错误率降低到21.9%。进一步引入三元组语言模型后,错误率进一步降低到8.2%。最后,通过与一个基线系统的联合,错误率被优化到6.7%,显示出该端到端模型在语音识别领域的强大潜力。 这篇论文为端到端语音识别提供了一个新的视角,即如何利用深度学习技术,特别是LSTM RNNs和CTC,来实现无需中间表示的直接文本转录,并且在实际应用中取得了令人鼓舞的结果。这一成果对于语音识别技术的未来发展具有重要的理论和实践意义。