Transformer in Transformer改进
时间: 2023-11-14 22:47:14 浏览: 133
Document-Transformer:使用文档级上下文改进Transformer转换模型
Transformer in Transformer (TNT) 是一种改进的 Transformer 架构,它在原始的 Transformer 中加入了一个新的 Transformer 模块,用于对输入的特征图进行处理。
TNT 的主要思想是将输入特征图分割成多个小块,并对每个小块应用一个 Transformer 模块。这样可以使得模型更加灵活,可以学习到更加精细的特征表示。此外,TNT 还采用了类似于 Self-Attention 的机制,使得模型可以在输入特征图内部进行信息交互,从而进一步提高模型的表达能力。
TNT 的另一个改进是引入了跨模块的信息交互机制。具体来说,TNT 将每个小块的输出与其他小块的输入进行连接,这样可以使得每个小块的输出能够影响其他小块的计算。这种跨模块的信息交互机制可以增强模型的表示能力,提高模型的泛化性能。
总的来说,TNT 是一种非常有前途的改进的 Transformer 架构,它可以提高模型的表达能力和泛化性能。
阅读全文