首页transformer语音

transformer语音

时间: 2023-10-05 10:04:14 浏览: 94

transformer的 encoder-decoder结构基于tensorflow实现的中文语音识别项目.zip

transformer的 encoder-decoder结构基于tensorflow实现的中文语音识别项目 # speech-regconize 语音识别 1 环境安装 pip install soundfile pip install tensorflow-gpu==1.12 pip install python_speech_features pip install tqdm pip install easydict cuda9.0 2 测试 python decoder.py 3 训练数据准备：见data文件夹 txt格式音频路径+'\t' + label (label用空格分割) //'\t'是指tab建不是字符 config.py 中data_path+音频路径为音频的绝对路

Transformer音编码器是一种用于语音识别的模型。它使用自注意力机制来考虑所有历史信息，并通过编码器层将语音信号转换为表示向量。然而，由于Transformer模型在处理长语音时的存储和计算复杂度线性增加，因此对于流式语音识别来说不太适用。为了解决这个问题，华为提出了Conv-Transformer Transducer，通过在Transformer层之间添加卷积层来降低帧率，并获取未来信息。这种结构能够显著降低训练内存需求，并且不会损失精度。

阅读全文