lite transformer改进
时间: 2023-08-17 21:13:32 浏览: 113
Lite Transformer是一种高效的移动NLP体系结构,旨在在边缘设备上部署移动NLP应用。它采用了一种称为长短距离注意(LSRA)的原语,其中一组头部专注于局部上下文建模,而另一组头部专注于长距离关系建模。通过这种专门化的设计,Lite Transformer在机器翻译、抽象摘要和语言建模等任务上相对于传统的Transformer模型都取得了一致的改进。在资源受限的情况下,Lite Transformer在WMT'14英语-法语数据集上的性能比传统的Transformer模型高出1.2/1.7 BLEU。此外,Lite Transformer还通过修剪和量化进一步压缩了模型尺寸,达到了18.2倍的压缩比。在语言建模任务中,Lite Transformer在大约500M MACs的情况下实现的perplexity比Transformer低1.8。与基于AutoML的演进Transformer相比,Lite Transformer在移动NLP设置中的性能提高了0.5个BLEU,而无需进行昂贵的体系结构搜索。\[1\]\[2\]\[3\]
#### 引用[.reference_title]
- *1* *2* *3* [Lite Transformer with Long-Short range attention](https://blog.csdn.net/Acmer_future_victor/article/details/124577759)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
阅读全文