transformer提出
时间: 2023-09-27 17:12:30 浏览: 106
Transformer是一种网络结构,最早于2017年由Google机器翻译团队提出,在著名的《Attention Is All You Need》论文中首次提到。在该论文中,Transformer完全取代了以往的RNN和CNN结构,采用了由Transformer堆叠的方式构建模型。这种网络结构在NLP领域取得了令人惊人的效果,并逐渐被应用于其他领域。
在之前的NLP领域中,常用的序列网络结构是基于RNN的模型,而CNN网络也在NLP领域有一定的应用。但Transformer不同于RNN和CNN,它完全采用了自注意力机制,并且通过位置编码来表示文本数据,不再依赖于序列的形式。这种新颖的网络结构在NLP领域引起了广泛的关注和应用。
随后,Transformer的应用逐渐扩展到计算机视觉领域。在ECCV2020中,DETR(End-to-End Object Detection with Transformers)首次将Transformer引入了目标检测任务,在CV领域取得了显著的成果。而VIT(An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)则完全放弃了CNN,改用Transformer来实现基础的图像分类任务。这些工作使得Transformer在CV领域的应用变得愈发重要。
此外,为了进一步提升Transformer在计算机视觉任务中的性能,CSWin Transformer被提出。CSWin Transformer展示了在常见的视觉任务上非常好的性能,例如在ImageNet-1K分类任务上达到了85.4%的Top-1准确率。
综上所述,Transformer是一种网络结构,最早于2017年被提出,它在NLP和CV领域取得了显著的成果,并且持续引发了广泛的研究和应用。
阅读全文