Vision Transformer (ViT) 模型在图像分类中的应用与探讨

需积分: 0 33 浏览量更新于2024-06-17 4 收藏 3.37MB PDF 举报

"这篇文档详细介绍了Vision Transformer (ViT)在图像分类中的应用，以及如何构建基于ViT的CNN模型。 ViT是谷歌团队在2020年提出的一种新型深度学习模型，它将Transformer架构引入到计算机视觉领域，打破了传统CNN在图像处理中的主导地位。尽管在小数据集上，ViT的性能可能不如CNN，但在大规模数据集上经过充分训练后，ViT展现出优秀的泛化能力和归纳偏置。" 深度学习模型，特别是Vision Transformer (ViT)，已经在图像识别任务中取得了显著进展。ViT的核心在于Transformer结构，这是一种最初在自然语言处理（NLP）中取得突破的模型。Transformer摒弃了传统的序列依赖处理方式，转而采用自注意力机制，这使得模型能处理任意长度的序列，同时保持高度并行性。在图像分类背景下，ViT将输入图像切割成固定大小的patches，然后将这些patches线性投影成向量，形成序列输入给Transformer编码器。编码器由多个层组成，每层包含自注意力和前馈神经网络（FFN）模块，这些模块共同负责提取图像特征。为了保留位置信息，位置编码被添加到patch向量中，通常使用sin-cos函数实现。在构建ViTCNN模型时，文档中提到了Rearrange层、PreNorm层、FeedForward层和Attention层。Rearrange层负责将图像数据调整为适合Transformer输入的格式；PreNorm层执行归一化操作，有助于模型的稳定训练；FeedForward层进行前向传播计算，增强特征提取能力；Attention层则通过自注意力机制，使模型能关注到图像的不同区域。尽管ViT在大样本数据集上的表现优异，但在小规模数据集上，由于缺乏平移不变性和参数共享，其泛化性能相对较弱。为了解决这个问题，可以考虑结合卷积层或使用预训练权重迁移。GRU层的引入可以进一步处理和融合特征，提高模型的分类准确率。 ViT开启了深度学习模型在图像分类上的新途径，尤其是在多模态学习中，其强大的序列处理能力为跨领域融合提供了新的可能性。对于机器学习研究人员、深度学习工程师和学生来说，理解ViT及其在图像分类中的应用是提升技能的重要步骤。然而，持续优化和改进模型，例如降低对大数据集的依赖，仍然是当前研究的重点。

在我的实验中，通常情况下，函数的值域在 [0,1] 区间内，训练精度会保持与

正余弦函数相当的结果。而如果函数的值域范围变化大，会导致输入数据的动态范

围变大，碰到训练精度显著降低，无法学习到图像细节特征。我认为当值域变换大

时，会覆盖原有的图像块的信息，喧宾夺主。相比之下，位置编码的范围大小显著

影响着输入到 transformer 模型的序列范围。位置编码的目标是为不同位置提供独

特的表示形式，可以根据应用场景（数据集）选择最优的函数。我无法证明显性地

证明函数的好坏。我的结论是，有目的地修改位置编码方式，能够学习图像块的关

联，提高捕捉图像特征的能力。

在原始的模型中，仅使用了两层 transformer 层，我适当地增加了其层数，类

似于 CNN 中增加卷积层的个数，在个数为 5 时，可以显著提高模型的精度，对比

ViT 有 8% 的精度提升。transfomer 中残差连接是很关键的，由 Resnet18 的结果

也可以体现出这一点，无论是在 leaf 数据集还是在 cifar10 数据集中，Resnet18 表

现都是最好的。特别是在小数据集上，ViT 的表现不如优秀的卷积神经网络上，但

是就像论文中所说的，有理由相信在大数据集上也不比 CNN 差。

3.2 ViTCNN

受到学习的 conv 和残差连接的启发，我打算在引入位置编码和 transformer

前，先对原始图像进行一两次的卷积操作，也许可以先对图像整体特征进行初步学

习，帮助模型学习到图像的整体特征。卷积操作可以捕捉图像中局部特征和纹理

信息里，构建一些低级的特征表示，作为后续位置编码和 transformer 模块的输入。

但是从实验上看训练时间比原有的 ViT 模型更长，我认为其原因是通过卷积操作

引入的额外参数会增加整体模型的复杂度，输入到 transformer 的参数量显著增加

了，原始图像的特征维度从 3 增加到 64，相比于图像缩小到原来的四分之一，特

征维度是关键的变量。这意味着 transformer 模块中的每个位置和注意力头都会有

更多的权重参数需要进行学习。也许增加 transformer 模块中多头注意力头的个数

和使用更复杂的位置编码可能会提升模型在图像分类上的性能。这一点的估计是根

据 ViTCNN 在训练精度上会比 ViT 和 SimpleViT 高，但是验证精度更低了，出现

了过拟合的情况。

这不能说明我的改进是没有参考意义的。传统的思维下，深度学习是需要大量

的数据集，而我的每个数据集不超过 6 万张图像，不能匹配模型的复杂程度（验证

集精度下降）。

从 VGG 的结果上看，可能是数据集的数量不多，简单地堆叠卷积核的个数并

不会改善效果。VGG 的模型整体的复杂度太高，没有提供足够的数据量，学习图

像的特征。仅仅是经过了三四次迭代后，模型的性能便难以提升。当然，在算力足

够的情况下，可以调整 VGG 的模型以优化性能。但是我这里是希望通过实验来学

习 ViT，以及尝试根据所学知识进行改进。

调参是一个索然无味的过程，在模型上加一点东西，要得到结果需要花大量的

算力资源和时间，等待仅仅是一个训练的结果，但是它对于优化模型的性能很重要。

虽然调整参数可能只涉及更改几个数值，但这些数值对于模型的性能可能具有重要

的影响。如果有多台可以同时计算的设备，那便可以在相同时间内，可以得到更多

的计算结果。

3.3 ViTfeature

受到多尺度学习特征的 Inception 启发，我们类似于可以使用多种序列模型，如

RNN、GRU 和 LSTM 模型，并行处理，类似于 3× 3、5×5 和 1×1 的并行学习的

方法，同时结合残差连接的效果。如图 5，这里实现这种方式的问题在于如何处理

好维度问题。可以很容易地实现多 transfomer 并行处理进行特征连接。我将并行的

结果进行相加，因为不需要考虑每层序列模型的输入和输出的维度。

更好的方式的类似于 CNN 中设定每个层每个模块的输入和输出的维度，麻烦

的地方在于需要保证上一个模块和下一个模块的输出和输入能够匹配。这种模块的

输出是序列模型的隐藏层的输出。维度问题即考虑输入的维度和输出的维度。

3.4 模型

ViT 是 vision transformer 模型。SimpleViT 在 ViT 的基础上使用正余弦函

数进行位置编码。ViTCNN 在对输入图像进行卷积操作后连接 transformer 模型。

ViTconv1 使用 1×1 的卷积核。ViT5 修改 transformer 的层数。posViT 修改位置

编码函数。ViTfeature 借鉴 Inception 模块，使用了 GRU 和两个 transformer 并在

特征连接时相加。

4 思考

4.1 ViT 改进

总结来说，第一，在对图像进行卷积操作后连接 transformer 模型；第二，可

以修改位置编码函数；第三，修改模型的超参数；第四，借鉴 Inception 模块，联

合使用不同的序列模型。对于图像块，除了按区域 16×16 的分割原图像，可以按照

剩余36页未读，继续阅读

我的世界缤纷闪耀

粉丝: 14
资源: 1

Vision Transformer (ViT) 模型在图像分类中的应用与探讨

基于深度学习的图像分类方法

基于深度学习的图像识别

VIT(vision transformer)实现图像分类

python项目源码-源码VisionTransformer的图像去雾算法研究与实现.rar

VisionTransformer在图像去雾中的应用研究与Python实现

Vision Transformer在图像去雾算法中的应用研究

YOLOv8与其他图像分类算法大PK：性能、优势与劣势一览无余

ViT模型在迁移学习中的应用案例解析

了解Transformer架构中的ViT模型

图像识别算法的实时性能优化

最新资源