主流的预训练transformer计算机视觉模型
时间: 2023-10-28 15:58:50 浏览: 170
vision-transformer-pytorch:带有预训练模型的Pytorch版本的Vision Transformer(ViT)。 这是CASL(https
主流的预训练Transformer计算机视觉模型包括基于BERT和GPT的模型。BERT是基于Transformer的双向编码器表示技术,它是一种常用的自然语言处理模型,但也可以用于计算机视觉任务。在计算机视觉中,BERT可以通过将图像和文本标记连接并输入到Transformer中进行单流建模,实现隐式的模态内融合和多模态融合。这种方法不受双流建模中融合阶段架构设计的影响,可以学习到一个联合表示。
此外,还有基于区域或网格的图像嵌入方法,这种方法可以提取高级特征,防止早期融合交叉模态信息。对于预训练的Transformer计算机视觉模型来说,设计更好的模态融合可能是改善模型表示的关键,而不是设计新的视觉嵌入方法。
阅读全文