Transformer模型是哪一年发明提出的
时间: 2023-09-27 16:07:12 浏览: 285
LLM基础之Transformer模型简介.pdf
Transformer 模型是在 2017 年由 Vaswani 等人在论文 "Attention Is All You Need" 中首次提出的。这篇论文引入了一种全新的架构,用于在自然语言处理任务中替代传统的循环神经网络(RNN)和卷积神经网络(CNN)。
在该论文中,Transformer 模型通过引入自注意力机制(self-attention)来捕捉输入序列中的全局依赖关系,并且避免了传统循环结构和卷积结构的局限性。Transformer 模型的关键思想是通过自注意力机制来计算输入序列中各个位置之间的关联性,并在每个位置上同时处理整个输入序列的信息。
Transformer 模型的提出对于自然语言处理任务,尤其是机器翻译任务,产生了重大影响。该模型不仅在翻译任务中取得了出色的性能,还在其他自然语言处理任务中得到了广泛应用,如文本分类、命名实体识别、问答系统等。
值得一提的是,尽管 Transformer 最初是为自然语言处理任务设计的,但其思想和架构也被成功应用于其他领域,如计算机视觉领域的 Vision Transformer(ViT)模型。
阅读全文