transformer变体
时间: 2023-07-31 10:07:53 浏览: 128
transformer
回答: Transformer有多种变体,其中包括Universal transformers(UT)和压缩(Compressive) Transformer。Universal transformers是对传统transformer结构的改进,使其更加丰富多彩。\[1\]压缩Transformer是Transformer-XL模型的延伸,其关键思想是保持对过去段激活的细粒度内存,与Transformer-XL不同,后者在跨段移动时会丢弃过去的激活。\[2\]此外,由于注意力机制忽视了位置信息,所以在Transformer中必须加入位置编码。原始Transformer采用了正弦/余弦函数来编码绝对位置信息,而Transformer-XL采用了相对位置编码来解决不同序列间同一个位置得到相同编码的问题。\[3\]
#### 引用[.reference_title]
- *1* [transformer变体](https://blog.csdn.net/u013596454/article/details/120530025)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
- *2* *3* [【CS224n】(lecture9)Transformer的变体](https://blog.csdn.net/qq_35812205/article/details/122152418)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
阅读全文