深度学习NLP:斯坦福CS224n Lecture03词向量进阶

1 下载量 42 浏览量 更新于2024-08-30 收藏 3.09MB PDF 举报
"这篇笔记来自斯坦福大学的深度自然语言处理课程CS224n,主要讨论了word2vec中的skip-grams模型和负采样技术。skip-grams模型通过遍历语料库,利用中心词预测上下文词,而负采样则是为了解决条件概率分母计算复杂的难题,通过训练二元逻辑回归,优化中心词和上下文词的内积。此外,笔记还提及了词向量矩阵和矩阵分解的概念,并简要提到了另一种word2vec算法——CBOW。" 深度自然语言处理中的词向量表示是理解文本数据的关键步骤。在Lecture03中,重点讲解了word2vec模型,特别是skip-grams和负采样这两种技术。skip-grams模型的基本思路是,对于每个词汇,预测其周围的上下文词汇,这有助于捕捉词汇之间的语义关系。然而,由于窗口大小限制,每个窗口中单词的数量有限,导致梯度向量稀疏,为此引入了哈希映射以提高效率。 负采样是word2vec中解决条件概率计算复杂性的一个创新方法。在传统的skip-grams模型中,计算所有可能的上下文词作为分母非常耗时。负采样通过仅针对一部分随机选取的“噪音”单词进行优化,即选择一些不与中心词共同出现的单词,降低了计算复杂性。这一方法基于二元逻辑回归,目标是最大化正样本(实际上下文词)的出现概率,同时最小化负样本(随机词)的出现概率。 在负采样中,选取噪音单词的策略是依据一元模型的分布,并通过幂次修正降低高频词汇被选中的概率,以避免过于频繁的词汇主导学习过程。这种方法提高了训练的效率,同时也保持了模型的性能。 此外,笔记中还提到另一种word2vec算法——Continuous Bag of Words (CBOW)。与skip-grams相反,CBOW是从上下文词汇的集合来预测中心词,这同样能学到有效的词向量表示,但通常比skip-grams训练速度更快。 词向量矩阵和矩阵分解也是自然语言处理中的重要概念。通过这些技术,可以将高维词汇空间转换为低维向量空间,使得词汇之间的语义距离得以量化,从而支持各种自然语言任务,如相似度计算、分类和翻译等。矩阵分解如奇异值分解(SVD)常用于降维和提取词汇的隐藏特征,进一步提升模型的表达能力。 这篇笔记深入浅出地介绍了word2vec模型的核心机制,尤其是skip-grams和负采样的应用,强调了词向量表示在自然语言处理中的重要性,并为后续的深度学习模型奠定了基础。