深度学习与NLP：语言模型、RNN、LSTM与GRU解析

版权申诉

173 浏览量更新于2024-08-07 收藏 1.17MB DOC 举报

"NLP教程第五部分探讨了语言模型、循环神经网络RNN以及其变体LSTM和GRU在自然语言处理中的应用。本文由韩信子@ShowMeAI撰写，提供了对斯坦福CS224n课程的详细学习笔记。教程涵盖了RNN、LSTM、GRU在语言建模、语音识别、机器翻译等任务中的理论和实践。" 在自然语言处理（NLP）中，语言模型起着至关重要的作用。它们能够估算一个给定序列中单词出现的概率，这在诸如语音识别和机器翻译等任务中极为关键。语言模型通常基于概率统计，如给定前缀单词序列，计算后续单词出现的概率。例如，对于一个由\(m\)个单词组成的序列\(\{w_1, \dots, w_m\}\)，其概率可表示为\(P(w_1, \dots, w_m | w_{i-n}, \ldots, w_{i-1})\)，这里的\(n\)表示上下文窗口大小。循环神经网络（RNN）是处理序列数据的理想选择，因为它们能捕获上下文依赖性。然而，标准RNN在处理长期依赖时会遇到梯度消失或梯度爆炸的问题。为了解决这一问题，出现了两种优化的RNN变体：长短时记忆网络（LSTM）和门控循环单元（GRU）。 LSTM通过引入“门”机制来控制信息的流动，包括输入门、遗忘门和输出门，这些门允许RNN在长时间跨度内有效地存储和检索信息，从而缓解梯度消失问题。GRU则简化了LSTM的结构，结合了输入门和遗忘门的功能，同样提升了处理长期依赖的能力，但计算上更为高效。在NLP的应用场景中，语言模型可以用于自动文本生成，如自动生成新闻报道或诗歌；RNN、LSTM和GRU在机器翻译中被用来生成最可能的译文序列；在语音识别中，它们帮助识别连续的语音信号并转换为文字；此外，这些模型还可用于情感分析、文本分类和对话系统等任务。通过深入学习和理解这些模型的工作原理，开发者和研究人员能够构建更强大的NLP系统，以应对复杂语言理解和生成的挑战。对于那些希望进一步学习的人，可以参考ShowMeAI提供的CS224n课程笔记，包括对RNN、LSTM和GRU的详细解释，以及如何解决梯度消失问题的相关内容。同时，该教程还涵盖了其他重要主题，如卷积神经网络（CNN）、Transformer模型、BERT预训练模型，以及阅读理解、文本摘要和问答系统等。

器翻译的最佳结果序列。

在现有的机器翻译系统中，对每个短语/句子翻译，系统生成一些候选的词序列 (例如，

\(\{ I have,I has,I had,me have,me had \}\)) ，并对其评分以确定最可能的翻译序列。

在机器翻译中，对一个输入短语，通过评判每个候选输出词序列的得分的高低，来选出最

好的词顺序。为此，模型可以在不同的单词排序或单词选择之间进行选择。它将通过一个概

率函数运行所有单词序列候选项，并为每个候选项分配一个分数，从而实现这一目标。最高

得分的序列就是翻译结果。例如：

相比 small is the cat，翻译系统会给 the cat is small 更高的得分；

相比 walking house after school，翻译系统会给 walking home after school 更高的得分。

1.2 n-gram 语言模型

为了计算这些概率，每个 n-gram 的计数将与每个单词的频率进行比较，这个称为 n-gram

语言模型。

例如，如果选择 bi-gram 模型 (二元语言模型) ，每一个 bi-gram 的频率，通过将单词与

其前一个单词相结合进行计算，然后除以对应的 uni-gram 的频率。

下面的两个公式展示了 bi-gram 模型和 tri-gram 模型的区别。

\[p(w_{2} \mid w_{1}) =\frac{count (w_{1}, w_{2})}{count(w_{1})}

\]\[p(w_{3} \mid w_{1}, w_{2}) =\frac{count (w_{1}, w_{2}, w_{3})}{count (w_{1},

w_{2})}

\]上式 tri-gram 模型的关系主要是基于一个固定的上下文窗口 (即前\(n\)个单词) 预测下

一个单词。一般\(n\)的取值为多大才好呢？

在某些情况下，前面的连续的 \(n\) 个单词的窗口可能不足以捕获足够的上下文信息。

例如，考虑句子 (类似完形填空，预测下一个最可能的单词)

Asthe proctor started the clock, the students opened their __。如果窗口只是基于前面的三个单

词 the students opened their ，那么基于这些语料计算的下划线中最有可能出现的单词就是为

books ——但是如果 \(n\) 足够大，能包括全部的上下文，那么下划线中最有可能出现的单

词会是 exam。

这就引出了 n-gram 语言模型的两个主要问题：「稀疏性」和「存储」。

1) n-gram 语言模型的稀疏性问题

n-gram 语言模型的问题源于两个问题。

剩余12页未读，继续阅读

书博教育

粉丝: 1
资源: 2837

深度学习与NLP：语言模型、RNN、LSTM与GRU解析

深度学习现代RNN：GRU、LSTM与高级架构解析

RNN与LSTM详解：从原理到GRU和LSTM的应用

深度学习序列模型：RNN, LSTM, GRU

rnn-tutorial-gru-lstm-master分词

深度学习-神经网络（RNN、LSTM和GRU）_Python_下载.zip

一网打尽神经序列模型之RNN及其变种LSTM、GRU,rnn神经网络模型代码,Python源码.zip

简单实现了RNN、GRU、LSTM，构建时光机器语料库，训练模型、比较困惑值.zip

实验4-示例代码_RNN_源码.zip

一网打尽神经序列模型之RNN及其变种LSTM、GRU,rnn神经网络模型代码,Python

Emotion-Recognition-RNN-master.zip_Speech RNN_emotion recogniti

最新资源