语音识别transformer
时间: 2023-07-30 10:10:04 浏览: 81
语音识别中的Transformer是一种基于自注意力模型的神经网络架构,它在自然语言处理领域取得了巨大的成功,并且在语音领域也得到了广泛的应用。传统的Transformer模型在处理流式语音识别时面临着存储和计算复杂度随语音时长线性增加的问题,因此很难直接应用于流式语音识别中\[1\]。
流式语音识别是指在用户还在说话的同时进行语音识别,具有低延时的特点,因此在工业界中有着广泛的应用,比如听写转录等\[2\]。为了解决Transformer在流式语音识别中的问题,研究者们提出了一些基于Transformer的流式语音识别方案,如Transformer-Transducer和self-attention/ctc联合模型。这些方案在实践中取得了一定的成果,并且有望推动整个语音识别领域的发展\[3\]。
总之,Transformer在语音识别领域展现出了优越的性能,并且在流式语音识别方向也有了相关的应用研究。不过,为了解决Transformer在流式语音识别中的挑战,研究者们提出了一些新的模型和方法,以期进一步提升语音识别的性能。
#### 引用[.reference_title]
- *1* *2* [基于Transformer的高效、低延时、流式语音识别模型](https://blog.csdn.net/weixin_42137700/article/details/116355547)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item]
- *3* [语音中的 Transformer一文打尽!](https://blog.csdn.net/BAAIBeijing/article/details/113409843)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]