Vision Transformer 创新点
时间: 2024-08-12 20:05:04 浏览: 147
第八次组会PPT_Vision in Transformer
5星 · 资源好评率100%
Vision Transformer (ViT) 是一种基于Transformer架构的创新深度学习模型,它在计算机视觉领域引起了广泛的关注。ViT的主要创新点包括:
1. **序列化输入**:传统卷积神经网络(CNN)通常处理固定大小的局部图像区域,而ViT将整个图片分割成多个小的平铺图块(tokens),然后按照顺序排列成一维输入,就像自然语言文本一样处理。
2. **自注意力机制**:ViT采用了Transformer的核心组件——自注意力层,这使得模型能够全局地理解和捕捉图像中的依赖关系,而不仅仅是邻域信息。
3. **去中心化设计**:ViT消除了对位置编码的依赖,因为Transformer可以学到每个token的位置信息,这种设计简化了模型结构。
4. **端到端训练**:ViT可以直接从头开始进行像素级别的预测,不需要预先通过卷积等步骤提取特征,使得训练过程更加高效。
5. **并行计算友好**:由于Transformer的并行计算能力,ViT可以在GPU上快速处理大量数据,提升了训练速度。
阅读全文