crossformer
时间: 2023-08-13 16:06:59 浏览: 73
CrossFormer是一种基于transformer的视觉架构,其核心设计包括跨尺度嵌入层和长短距离注意(LSDA)模块。它在几个典型的视觉任务上取得了比其他vision transformer更好的性能,特别是在检测和分割方面有了较大幅度的提高。CrossFormer的整体架构采用了金字塔结构,分为四个阶段,每个阶段由一个跨尺度嵌入层(CEL)和几个CrossFormer block组成。CEL接收上一阶段的输出作为输入,并生成跨尺度嵌入。在CEL之后放置几个CrossFormer块,这些块包含LSDA和动态位置偏差(DPB)。在特定任务的最后阶段之后,紧随其后的是专门的头部,例如分类头部。\[1\]\[3\] CrossFormer的伪代码和详细架构可以在引用\[1\]和引用\[3\]中找到。
#### 引用[.reference_title]
- *1* *2* *3* [CROSSFORMER: A VERSATILE VISION TRANSFORMER BASED ON CROSS-SCALE ATTENTION](https://blog.csdn.net/Acmer_future_victor/article/details/119565126)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]