import math import pandas as pd import torch from torch import nn from d2l import torch as d2l class TransformerEncoder(d2l.Encoder): """Transformer编码器""" def __init__(self, vocab_size, key_size, query_size, value_size, num_hiddens, norm_shape, ffn_num_input, ffn_num_hiddens, num_heads, num_layers, dropout, use_bias=False, **kwargs): super(TransformerEncoder, self).__init__(**kwargs) self.num_hiddens = num_hiddens self.embedding = nn.Embedding(vocab_size, num_hiddens) self.pos_encoding = d2l.PositionalEncoding(num_hiddens, dropout) self.blks = nn.Sequential() for i in range(num_layers): self.blks.add_module("block"+str(i), EncoderBlock(key_size, query_size, value_size, num_hiddens, norm_shape, ffn_num_input, ffn_num_hiddens, num_heads, dropout, use_bias)) def forward(self, X, valid_lens, *args): # 因为位置编码值在-1和1之间, # 因此嵌入值乘以嵌入维度的平方根进行缩放, # 然后再与位置编码相加。 X = self.pos_encoding(self.embedding(X) * math.sqrt(self.num_hiddens)) self.attention_weights = [None] * len(self.blks) for i, blk in enumerate(self.blks): X = blk(X, valid_lens) self.attention_weights[ i] = blk.attention.attention.attention_weights return X X = torch.ones((2, 100, 24)) valid_lens = torch.tensor([3, 2]) encoder_blk = EncoderBlock(24, 24, 24, 24, [100, 24], 24, 48, 8, 0.5) encoder_blk.eval() encoder_blk(X, valid_lens).shape torch.Size([2, 100, 24])
时间: 2024-04-15 16:26:26 浏览: 93
import pandas as pd.docx
这段代码定义了一个Transformer编码器(TransformerEncoder)的类,它继承自d2l.Encoder。该编码器包含了嵌入层(Embedding)、位置编码层(PositionalEncoding)和多个EncoderBlock组成的序列。
在初始化方法中,首先创建了一个Embedding实例self.embedding,用于将输入的词索引映射为词向量。然后创建了一个PositionalEncoding实例self.pos_encoding,用于对词向量进行位置编码。接下来创建了一个包含多个EncoderBlock的序列self.blks,每个EncoderBlock具有指定的参数。
在前向传播方法中,首先将输入张量X通过嵌入层和位置编码层进行处理。嵌入层将词索引转换为词向量,并与位置编码相加。然后,依次对序列中的每个EncoderBlock进行前向传播,并记录每个Attention层的注意力权重。最后返回处理后的张量X和注意力权重列表。
在代码的最后,创建了一个大小为(2, 100, 24)的张量X和有效长度valid_lens,表示输入和有效长度。然后创建了一个EncoderBlock的实例encoder_blk,并对其进行了评估(eval())。将张量X和有效长度valid_lens输入到encoder_blk中,并打印出输出张量的形状。
结果是一个大小为(2, 100, 24)的张量,表示经过Transformer编码器处理后的输出张量的形状与输入张量相同。
阅读全文