Transformer in Transformer改进
时间: 2023-10-25 08:34:59 浏览: 71
Document-Transformer:使用文档级上下文改进Transformer转换模型
Transformer-in-Transformer (TNT) 是一个用于图像分类的新型神经网络模型,它是对Transformer模型的改进。它的主要改进在于,它在Transformer模型的每个注意力层中引入了另一个注意力层,以进一步提高模型的表现。
具体来说,TNT模型由两个子模块组成:一个局部区域的特征提取模块和一个全局特征提取模块。局部区域的特征提取模块使用Transformer模型,它将输入图像分成小的图块,并在每个图块上进行注意力计算。全局特征提取模块则使用了另一个Transformer模型,它将整个图像看作一个序列,并在序列上进行注意力计算。
TNT的关键创新在于它将两个不同的Transformer模型结合在一起,这使得模型可以同时关注局部和全局的特征。这种结构的优点是,它可以捕捉到不同尺度的特征,并且可以更好地处理图像中的局部和全局信息。
此外,TNT还引入了一种新的注意力机制,称为“Squeeze-and-Excitation”(SE)注意力机制。这种机制可以帮助模型更好地关注重要的特征,并且可以提高模型的泛化能力。
综上所述,TNT通过在Transformer模型的每个注意力层中引入另一个注意力层,并添加SE注意力机制,从而提高了模型的表现。这种改进可以应用于各种计算机视觉任务,例如目标检测和语义分割。
阅读全文