Transformer架构的提出借鉴了哪些人类大脑信息处理方式,并给出资料的来源
时间: 2024-02-18 18:40:37 浏览: 112
Transformer架构的提出主要是受到了注意力机制(attention mechanism)的启发,该机制模拟了人类大脑的信息处理方式。具体来说,注意力机制可以理解为一种对输入序列中不同部分进行加权处理的方式,即在处理输入序列时,给予不同位置的信息不同的权重,从而使得网络在处理长序列时能够更好地捕捉到重要的信息。
有关Transformer架构的注意力机制的提出,最早可以追溯到Bahdanau等人在2015年提出的Seq2Seq模型中的注意力机制,这篇论文提出了一种基于注意力机制的翻译模型,并在机器翻译任务上取得了不错的效果。随后,Vaswani等人在2017年提出了Transformer模型,将注意力机制应用到了自然语言处理的各个领域中,并在多个任务上刷新了最好结果。相关论文如下:
- Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 5998-6008.
阅读全文