词向量：深度解析与应用

需积分: 9 201 浏览量更新于2024-07-19 2 收藏 11.79MB PDF 举报

词向量是自然语言处理中的关键概念，它将单词映射到高维空间中的连续向量，使得计算机能够理解并量化单词之间的语义关系。在本文档中，我们探讨了以下几个核心知识点： 1. **词是最基础的语言单元**：在NLP任务中，如文本分类，词是最基本的处理单位，如"诺基亚5800"这个短语会被分解为一系列的词，每个词都有其独特的向量表示。 2. **词向量模型**：WordEmbedding（词嵌入）是一种常见的词表示方法，如One-hot Word Representation（独热编码），每个词用一个全零向量表示，只有一个位置的值为1，对应于该词的索引。然而，这种表示方式存在**语义鸿沟问题**，比如"Cosine相似度（减肥，瘦身）=0"，因为它们在低维空间中没有关联性。 3. **Distributed Word Representation（分布式词向量）**：这是一种改进的方法，例如使用word2vec或GloVe等技术，每个词由多个数值构成，这些数值捕捉了词与其他词的关系，比如词与词的共现情况。这有助于解决**维数灾难**和**稀疏性**问题，并能较好地表示未见过的词汇（如"瘦身"与"减肥"的Cosine相似度为0.7635）。 4. **上下文信息的利用**：词向量的核心在于利用上下文信息来表示词义。Harris提出的理论指出，具有相同上下文的词应该有相似的表示。例如，"glass"和"drink"在讨论饮料时上下文相似，而"car"和"meal"则不同。词向量模型可以通过捕捉词与周围词语的**syntagmatic relation（句法关系）**和**paradigmatic relation（同义/反义关系）**来更好地表达词义。 5. **神经网络初始化与词表示**：词向量是神经网络中的一种重要初始化策略，用于处理语言模型的输入。它们为神经网络提供了一个有效的起点，使得模型能够学习到词语之间的复杂语义联系。 6. **词表与词表示的扩展**：词表列出了所有可识别的词及其对应的词向量，随着任务的扩展和新词的出现，词表会动态更新，确保对新词的处理能力。词向量是自然语言处理的重要基石，通过分布式表示和上下文依赖性，它在文本理解、情感分析、信息检索等领域发挥着关键作用，解决了传统方法中的诸多局限性。