首页fairseq流式语音翻译

fairseq流式语音翻译

时间: 2023-08-17 15:15:58 浏览: 357

Fairseq是一个由Facebook AI实验室提出的翻译模型，它采用了以CNN为主的模型结构。在流式语音翻译中，Fairseq可以通过将语音信号进行编码，生成连续的语音表示c，而不是离散的表示。这个过程中，Fairseq使用了预训练和fine-tune的思路，将语音信号x通过多层卷积神经网络进行编码成z，然后对z进行mask，类似于BERT中的mask操作。接着，通过Transformer网络构建连续语音表示c。与此不同的是，Fairseq的量化q主要用于对比学习损失函数中，而不是像VQ-WAV2VEC那样在量化后再输入到BERT中。这种流式语音翻译模型的详细信息可以参考相关文献\[1\]\[2\]。 #### 引用[.reference_title] - *1* *3* [语音识别技术分类与总结](https://blog.csdn.net/zephyr_wang/article/details/105689381)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [10月份GitHub上最热门的Python开源项目](https://blog.csdn.net/javadada1197/article/details/119414758)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

阅读全文