fairseq流式语音翻译
时间: 2023-08-17 22:15:58 浏览: 307
基于Sherap-onnx的流式翻译例子
Fairseq是一个由Facebook AI实验室提出的翻译模型,它采用了以CNN为主的模型结构。在流式语音翻译中,Fairseq可以通过将语音信号进行编码,生成连续的语音表示c,而不是离散的表示。这个过程中,Fairseq使用了预训练和fine-tune的思路,将语音信号x通过多层卷积神经网络进行编码成z,然后对z进行mask,类似于BERT中的mask操作。接着,通过Transformer网络构建连续语音表示c。与此不同的是,Fairseq的量化q主要用于对比学习损失函数中,而不是像VQ-WAV2VEC那样在量化后再输入到BERT中。这种流式语音翻译模型的详细信息可以参考相关文献\[1\]\[2\]。
#### 引用[.reference_title]
- *1* *3* [语音识别技术分类与总结](https://blog.csdn.net/zephyr_wang/article/details/105689381)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item]
- *2* [10月份GitHub上最热门的Python开源项目](https://blog.csdn.net/javadada1197/article/details/119414758)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
阅读全文