翻译启动：斯坦福深度学习课程CS224d——自然语言处理

需积分: 0 41 浏览量更新于2024-06-30 收藏 3.15MB PDF 举报

"翻译斯坦福大学课程1：深度学习与自然语言处理1" 这篇摘要介绍了一个项目，该项目是大数据文摘发起的，旨在翻译斯坦福大学的深度学习与自然语言处理课程（CS224d），并将译文免费发布。项目以周为单位更新，鼓励读者参与，并提供了加入的途径。课程内容涵盖自然语言处理的基础概念，如词向量、奇异值分解、Skip-gram模型和CBOW模型，以及负采样技术。在深度学习与自然语言处理的课程中，"自然语言处理（NLP）"是核心主题。NLP的目标是创建能够理解和处理人类自然语言的算法，以此来执行各种任务，这些任务的复杂度各不相同，从简单的文本分析到复杂的语义理解。课程初始阶段会讨论NLP面临的挑战以及如何用数学向量来表示语言中的词汇和短语。词向量（Word Vectors）是NLP中一个重要的概念，它们是通过数学方法将词语转换为多维空间中的向量，使得词汇间的语义关系可以通过向量间距离或角度来体现。两种常见的词向量模型在摘要中被提及：Skip-gram和CBOW（Continuous Bag of Words）。Skip-gram模型尝试预测一个词的上下文词，而CBOW则通过上下文词来预测目标词。这两种模型在训练时经常使用负采样技术，这是一种优化策略，能有效减少计算量并提高模型训练的效率。奇异值分解（Singular Value Decomposition, SVD）是一种矩阵分解方法，在NLP中常用于降维和特征提取，有时也被应用于构建词向量。它可以帮助处理高维数据，并在保留关键信息的同时降低计算复杂性。这个课程的启动，意味着对于想要学习和了解深度学习在自然语言处理应用的人来说，有了一个系统化学习的资源。参与者可以通过这个项目，像追剧一样，逐步深入理解深度学习如何解决自然语言处理的问题，以及如何运用这些技术在实际场景中。通过参与翻译和学习，读者不仅可以提升自己的专业技能，还能与其他爱好者交流，深化对数据科学领域的理解。

2016/6/19 重磅启动！翻译斯坦福大学课程：深度学习与自然语言处理

http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651641662&idx=1&sn=5cfba5999c1dd436af43523f53497094&scene=1&srcid=0619AieS…

4/19

◆◆◆

3.基于SVD的方法

这是一种构造词嵌入（即词向量）的方法，我们首先会遍历所有的文本数据集，然后统计词出现的次

数，接着用一个矩阵X来表示所有的次数情况，紧接着对X进行奇异值分解得到一个USVT的分解。然后

用U的行（rows）作为所有词表中词的词向量。对于矩阵X，我们有几种选择，咱们一起来比较一下。

3.1词-文档矩阵

最初的想法是，我们猜测相互关联的词组同时出现在相同的文件中的概率很高。例如，“银行”、“债

券”、“股票”、“钱”等都可能出现在一起。但是，“银行”、“章鱼”、“香蕉”和“曲棍球”可

能不会一直一起出现。基于这个想法，我们建立一个词组文档矩阵X，具体是这么做的：遍历海量的文

件，每次词组i出现在文件j中时，将Xij的值加1。不过大家可想而知，这会是个很大的矩阵R|V|×M，而且

矩阵大小还和文档个数M有关系。所以咱们最好想办法处理和优化一下。

3.2基于窗口的共现矩阵X

我们还是用一样的逻辑，不过换一种统计方式，把矩阵X记录的词频变成一个相关性矩阵。我们先规定一

个固定大小的窗口，然后统计每个词出现在窗口中次数，这个计数是针对整个语料集做的。可能说得有

点含糊，咱们一起来看个例子，假定我们有如下的3个句子，同时我们的窗口大小设定为1（把原始的句

子分拆成一个一个的词）：

1.Ienjoyflying.

2.IlikeNLP.

3.Ilikedeeplearning.

由此产生的计数矩阵如下：





然后我们对X做奇异值分解，观察观察奇异值（矩阵的对角元素），并根据我们期待保留的百分比来进行

阶段（只保留前k个维度）：



剩余18页未读，继续阅读

柔粟

粉丝: 34
资源: 304

翻译启动：斯坦福深度学习课程CS224d——自然语言处理

深度学习用于处理自然语言问题

斯坦福 cs224d 深度学习与自然语言处理讲义

stanford课程-----自然语言处理中的深度学习 课件

斯坦福大学CS224：深度自然语言处理NLP课程课件

斯坦福深度学习课程：自然语言处理的革新

cs224d:斯坦福大学自然语言处理的深度学习

cs224n-winter-2017：CS224n的所有讲义，幻灯片和作业：斯坦福大学的自然语言处理与深度学习课程

Python-深度学习之自然语言处理斯坦福大学CS224n课程集训营

斯坦福大学公开课：机器学习的讲义（下）

斯坦福大学公开课 ：机器学习课程课件讲义学习笔记（高清最全讲义+课件+学习笔记）

最新资源

stanford课程-----自然语言处理中的深度学习课件

斯坦福大学公开课：机器学习课程课件讲义学习笔记（高清最全讲义+课件+学习笔记）