深度神经网络的序列到序列学习：LSTM在机器翻译中的突破

需积分: 33 180 浏览量更新于2024-09-08 1 收藏 109KB PDF 举报

本文档《Sequence to Sequence Learning with Neural Networks》发表于arXiv上，由Ilya Sutskever、Oriol Vinyals和Quoc V. Le三位来自Google的研究者共同撰写，发表日期为2014年12月14日。该论文在深度神经网络（Deep Neural Networks, DNNs）领域具有重要影响，特别是针对序列学习任务提出了全新的方法。在当时，尽管深度学习模型已经在许多复杂的学习任务上展现出卓越性能，但它们在处理序列到序列（Sequence to Sequence, Seq2Seq）转换方面存在局限。Seq2Seq问题是指将一个输入序列映射到另一个输出序列的过程，例如机器翻译。传统的深度学习方法往往依赖大量的标注数据，并对输入序列的结构有较高的假设。论文的核心贡献是提出了一种基于多层长短期记忆（Long Short-Term Memory, LSTM）的端到端学习框架。LSTM是一种特殊的循环神经网络，它能够有效地处理长期依赖性，避免了传统RNN（Recurrent Neural Networks）中的梯度消失或爆炸问题。在这个模型中，输入序列首先通过一个LSTM层转化为固定维度的向量，然后通过另一个深层LSTM进行解码，生成目标序列。实验部分，作者使用LSTM在WMT'14的英法翻译任务上进行了评估，翻译的BLEU分数达到了34.8，这是在考虑到未登录词（out-of-vocabulary words）对得分的影响后的结果。值得注意的是，LSTM模型在处理长句子时表现良好，这与传统的基于短语的统计机器翻译（phrase-based Statistical Machine Translation, SMT）系统形成了对比，后者在处理长句时可能会遇到困难。这篇论文的重要意义在于，它展示了LSTM在序列到序列学习中的潜力，推动了神经网络在自然语言处理领域的应用，特别是在机器翻译和文本生成等任务上的进步。它开创了一种无需预先假设序列结构，而是让模型自我学习和适应的全新学习方式，这对于后续的深度学习研究和发展产生了深远影响。

保护敌方输出

粉丝: 2
资源: 5

深度神经网络的序列到序列学习：LSTM在机器翻译中的突破

sequence-to-sequence learning

Sequence-to-point learning with neural networks for nonintrusive load monitoring

Edward Grefenstette - Beyond Sequence to Sequence with Augmented RNNs

Sequence to Sequence Learning with Neural Networks给我讲一下

用lstm预测一段数据中缺失的点

DNN深度神经网络文献综述

LSTM-Attention

你知道关于循环神经网络的年度文献汇总么

最新资源