计算机视觉 transformer框架
时间: 2023-09-25 12:17:23 浏览: 112
计算机视觉中的Transformer框架是指一种使用Transformer模型来进行图像分类任务的方法。其中一种被称为Vision Transformer(ViT)。ViT是一种纯Transformer模型,被直接应用于图像块的序列,以实现图像分类的目标。ViT尽可能地遵循了原始Transformer的设计,通过将图像划分为图像块,并将其编码为序列,然后使用Transformer进行分类。ViT的框架允许模型学习图像中的全局特征,并在大规模图像数据集上展现出良好的性能。
阅读全文