transformer激活函数
时间: 2023-09-12 20:12:03 浏览: 316
关于激活函数
5星 · 资源好评率100%
Transformer 模型中使用的激活函数是 GELU(Gaussian Error Linear Unit)。GELU 激活函数是一种充分利用高斯误差线性单元的非线性函数,它在处理自然语言处理任务时表现良好。GELU 激活函数的数学定义如下:
GELU(x) = 0.5 * x * (1 + tanh(sqrt(2/pi) * (x + 0.044715 * x^3)))
其中,x 是输入变量。GELU 激活函数将输入变量映射到 (-inf, inf) 范围内的非线性输出。在 Transformer 模型中,GELU 激活函数被广泛应用于多层感知机(MLP)和残差连接等部分。
阅读全文