门控transformer

门控 Transformer 的架构详解

增强的自注意力机制

传统的 Transformer 使用固定的自注意力权重来处理输入序列中的每一个 token。然而，门控 Transformer (Gated Transformer) 引入了一个额外的控制单元——门机制，该机制能够动态调整每个 token 对其他 tokens 的关注程度。这种设计使得模型可以根据上下文的重要性灵活改变自身的连接强度[^1]。

import torch.nn as nn

class GatedAttention(nn.Module):
    def __init__(self, d_model):
        super(GatedAttention, self).__init__()
        self.gate = nn.Linear(d_model, d_model)

    def forward(self, q, k, v):
        gate_value = torch.sigmoid(self.gate(q))
        attended_values = ... # 计算常规自注意力得分
        gated_output = gate_value * attended_values + (1 - gate_value) * v
        return gated_output

多尺度特征融合

为了更好地捕捉多级语义信息，门控 Transformer 还采用了多尺度特征融合技术。这允许模型在同一层次内聚合来自不同感受野大小的感受区域的信息，从而增强了对于复杂模式的理解能力[^2]。

改进后的前馈神经网络

除了上述改进外，门控 Transformer 中还包含了经过优化的前馈子层。这些子层不仅保留了原始 Transformer 所具备的位置敏感特性，而且还加入了非线性变换以增加表达力。具体来说，就是利用残差连接配合激活函数 ReLU 实现这一点[^3]。

def feed_forward_network(x):
    hidden_size = ...
    output_size = ...

    layer_1 = nn.Linear(input_dim=x.shape[-1], out_features=hidden_size)
    relu_activation = nn.ReLU()
    dropout_layer = nn.Dropout(p=0.1)
    
    intermediate_representation = dropout_layer(relu_activation(layer_1(x)))
    final_projection = nn.Linear(in_features=intermediate_representation.size(-1), out_features=output_size)(intermediate_representation)
    return final_projection

工作原理概述

当给定一段文本作为输入时，门控 Transformer 首先会将其编码成一系列向量表示形式。接着，在每一层内部执行如下操作：

计算加权平均：基于查询键值三元组 (q,k,v) 和对应的门控信号 g ，得到当前时刻的状态更新；
传递至下一层：将更新后的状态传送到后续层级继续迭代直到最后一层输出最终的结果。

整个过程中，由于存在可调节参数组成的门结构的存在，所以可以有效地缓解梯度消失现象的发生，并且有助于提升长程依赖性的建模效果[^4]。

应用场景举例

鉴于其强大的表征能力和高效的并行化潜力，门控 Transformer 被广泛应用于多个领域当中，比如但不限于以下几个方面：

机器翻译：提高跨语言间转换的质量和速度；
推荐算法：依据历史行为预测用户的兴趣偏好。

向AI提问