如何计算vision transformer各部分的参数数值

Vision Transformer 模型由若干个 transformer 模块组成，每个 transformer 模块又由多个 Multi-Head Self-Attention 和 Feed-Forward 等层组成。因此，计算 Vision Transformer 模型的参数数值需要考虑这些层的参数。以一个标准的 ViT 模型为例，假设输入图像大小为 $H \times W$，patch 大小为 $P \times P$，图像通道数为 $C$，transformer 模块数量为 $N$，每个 transformer 模块中 Multi-Head Self-Attention 的头数为 $H$，Feed-Forward 层中隐藏层的维度为 $D$，则该模型的参数数值计算公式如下： $$ \begin{aligned} \text{参数数值} &= \text{位置编码参数数值} \\ &+ \text{嵌入层参数数值} \\ &+ \text{transformer 模块参数数值} \\ &= 2 \cdot C \cdot d_{\text{model}} \\ &+ C \cdot P^2 \cdot d_{\text{model}} \\ &+ 2 \cdot d_{\text{model}}^2 \cdot C \cdot N \\ &+ d_{\text{model}}^2 \cdot C \cdot N \cdot \frac{H^2}{P^2} \\ &+ d_{\text{model}} \cdot D \cdot C \cdot N \\ &+ D \cdot C \cdot N, \end{aligned} $$ 其中，$d_{\text{model}}$ 表示 transformer 模块中 Multi-Head Self-Attention 和 Feed-Forward 层的维度大小，即为每个头的维度大小 $d_{\text{head}}$ 乘以头的数量 $H$，$d_{\text{head}}$ 的值通常为 $\frac{d_{\text{model}}}{H}$。这个公式中，位置编码参数数值、嵌入层参数数值的计算比较简单，直接根据公式计算即可。transformer 模块参数数值的计算需要考虑每个 transformer 模块中 Multi-Head Self-Attention 和 Feed-Forward 层的参数数值，以及它们之间的连接参数数值。由于每个 transformer 模块的输入和输出都需要进行残差连接，因此每个 transformer 模块的参数数值包含了两个 Multi-Head Self-Attention 层、两个 Feed-Forward 层、一个 Layer Normalization 层和残差连接的参数数值。最后将所有 transformer 模块的参数数值相加即可得到 Vision Transformer 模型的总参数数值。

如何计算vision transformer各部分的参数数值

相关推荐

vision transformer预训练

Vision Transformer 源码解读

Vision in Transformer全文翻译

Vision Transformer计算复杂度详细推导过程

vision transformer与mobile vision transformer相比有哪些不足

vision Transformer

Vision Transformer与Swin Transformer计算复杂度详细推导过程

vision transformer

Vision Transformer缺点

swin transformer和vision transformer

vision transformer讲解

Vision Transformer

vision transformer最新

Vision transformer

Vision Transformer pytorch

第八次组会PPT_Vision in Transformer

vision-transformer-pytorch:带有预训练模型的Pytorch版本的Vision Transformer（ViT）。 这是CASL（https

搞懂 Vision Transformer 原理和代码系列

Transformer架构模型参数量计算

最新推荐

用AIDA模型，分析知乎、小红书和Facebook的广告效果.docx

pd27.py1111111111111

234_基于微信小程序的车位预约系统的设计与实施-源码.zip

蓝桥杯蓝桥杯蓝桥杯蓝桥杯蓝桥杯蓝桥杯蓝桥杯.txt

ipython-0.13.1-py2.7.egg

zigbee-cluster-library-specification

管理建模和仿真的文件

MATLAB柱状图在信号处理中的应用：可视化信号特征和频谱分析

hive中 的Metastore

JSBSim Reference Manual

vision-transformer-pytorch:带有预训练模型的Pytorch版本的Vision Transformer（ViT）。这是CASL（https

hive中的Metastore