首页lite transformer改进

lite transformer改进

时间: 2023-08-17 21:13:32 浏览: 113

Lite Transformer是一种高效的移动NLP体系结构，旨在在边缘设备上部署移动NLP应用。它采用了一种称为长短距离注意（LSRA）的原语，其中一组头部专注于局部上下文建模，而另一组头部专注于长距离关系建模。通过这种专门化的设计，Lite Transformer在机器翻译、抽象摘要和语言建模等任务上相对于传统的Transformer模型都取得了一致的改进。在资源受限的情况下，Lite Transformer在WMT'14英语-法语数据集上的性能比传统的Transformer模型高出1.2/1.7 BLEU。此外，Lite Transformer还通过修剪和量化进一步压缩了模型尺寸，达到了18.2倍的压缩比。在语言建模任务中，Lite Transformer在大约500M MACs的情况下实现的perplexity比Transformer低1.8。与基于AutoML的演进Transformer相比，Lite Transformer在移动NLP设置中的性能提高了0.5个BLEU，而无需进行昂贵的体系结构搜索。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *2* *3* [Lite Transformer with Long-Short range attention](https://blog.csdn.net/Acmer_future_victor/article/details/124577759)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

阅读全文