预测密集性任务最新的vision transformer,请列出
时间: 2023-09-22 15:07:15 浏览: 91
Pyramid Vision Transformer (PVT) 代码,用于密集预测的通用backbone
以下是一些最新的视觉Transformer模型,适用于密集性任务:
1. Swin Transformer:Swin Transformer是一种基于分层式注意力机制的视觉Transformer模型,其可以处理高分辨率图像,并具有较高的准确性。
2. CaiT:CaiT是一种基于可学习的分组注意力机制的视觉Transformer模型,其可以处理大规模图像分类任务,并具有较好的性能。
3. CoaT:CoaT是一种基于通道注意力机制的视觉Transformer模型,其可以处理高分辨率图像,并具有较高的准确性。
4. T2T-ViT:T2T-ViT是一种基于自适应正则化机制的视觉Transformer模型,其可以处理多种视觉任务,并具有较好的性能。
5. ViP:ViP是一种基于可变形卷积和可学习的分组注意力机制的视觉Transformer模型,其可以处理大规模图像分类任务,并具有较高的准确性。
阅读全文