首页vision transformers

vision transformers

时间: 2023-04-26 22:05:47 浏览: 88

vision_transformer

视觉变压器作者：Alexey Dosovitskiy *†，Lucas Beyer *，Alexander Kolesnikov *，Dirk Weissenborn *，翟小华*，Thomas Unterthiner，Mostafa Dehghani，Matthias Minderer，Georg Heigold，Sylvain Gelly，Jakob Uszkoreit和Neil Houlsby *†。（*）等于技术贡献，（†）等于建议。由Andreas Steiner准备的开源发行版。注意：此存储库是从分支和修改的。介绍在此存储库中，我们从论文释放模型，这些模型已在（ imagenet21k ）数据集上进行了预训练。我们提供用于微调 / 已发布模型的代码。模型概述：我们将图像分割成固定大小的块，线性地嵌入每个块，添加位置嵌入，然后将所得的矢量序列馈送到标

视觉Transformer（Vision Transformer）是一种基于Transformer架构的神经网络模型，旨在解决计算机视觉中的图像分类、分割、检测等问题。传统的卷积神经网络（Convolutional Neural Network，CNN）在图像处理中表现出色，但存在一些限制。例如，CNN在处理长宽比例较大的图像时，可能会出现信息不足的情况；CNN在处理图像序列时，也需要对序列中每个元素进行相同的处理，导致计算量较大。而视觉Transformer通过引入自注意力机制，可以对图像序列中不同位置的特征进行不同的处理，提高了模型的灵活性和泛化能力。视觉Transformer由若干个Transformer块组成，其中每个块由多个自注意力层和全连接层组成。自注意力层用于计算输入特征图中各个位置之间的关系，全连接层用于生成输出特征。在训练过程中，视觉Transformer通过将图像分割为多个小块，然后将这些小块作为序列输入模型中，从而实现对整张图像的处理。近年来，视觉Transformer在计算机视觉领域取得了很好的表现，并且在一些基准数据集上超越了传统的CNN模型。

阅读全文