Vision Transformer 是 CNN吗
时间: 2023-11-15 13:46:40 浏览: 137
搞懂 Vision Transformer 原理和代码系列
Vision Transformer(ViT)和CNN(卷积神经网络)都是用于图像分类、目标检测、语义分割等计算机视觉任务的深度学习模型。但是它们的架构和工作原理有所不同。ViT采用了Transformer模型中的自注意力机制来建模图像的特征,而CNN则使用卷积层和池化层来提取图像的局部特征。ViT较CNN相比,具有更好的可解释性和更强的泛化能力,但需要更多的计算资源和更大的数据集进行训练。
阅读全文