词项向量化：从One-Hot到词频计数

需积分: 14 35 浏览量更新于2024-09-07 收藏 757KB PDF 举报

词向量化的各种技术在自然语言处理领域，将单词转化为向量是理解和处理文本数据的关键步骤。这一过程称为词的向量化，旨在为每个单词创建一个数学表示，该表示能够捕捉其含义、语义关系以及它在不同上下文中的出现情况。这样，计算机就可以通过分析这些向量来解析文本，进行诸如情感分析、机器翻译和问答系统等任务。一种常见的词向量化方法是One-Hot Encoding。这种方法将每个单词看作是词汇表中的一个唯一实体，用一个全零向量表示，只有一个位置（对应词汇表中的位置）的值为1。例如，如果有三个单词Monkey、Eat和Banana，它们的One-Hot编码分别是<1,0,0>、<0,1,0>和<0,0,1>。然而，One-Hot编码的问题在于它无法表达单词之间的相似性或语义关联，每个向量都是孤立的。为了克服这个问题，可以采用Counter向量化，也称为词频（Term Frequency，TF）。这种方法不仅记录单词是否出现，还记录了其出现的次数。例如，句子"Monkey eat banana"和"Monkey eat banana banana"的Counter向量分别是<1,1,1>和<1,1,2>，后者中的Banana频率更高，更准确地反映了句子内容。词向量化的另一种重要技术是词嵌入（Word Embedding），如Word2Vec和GloVe。这些模型通过学习大量语料库中的单词共现统计，生成连续的低维度向量，使得在向量空间中，语义相似的单词靠近，上下文相关的单词也彼此接近。例如，Word2Vec的CBOW（Continuous Bag of Words）模型预测单词的上下文，而Skip-gram模型预测单词本身，从而学习到单词的语义信息。词嵌入模型的一个显著优势是它可以捕捉到词汇的隐含语义。比如，"King"和"Queen"的向量可能很接近，因为它们在许多上下文中具有相似的角色。此外，这些向量可以支持向量运算，例如，“Woman” + “King” - “Man”可能会接近“Queen”，这揭示了词汇间的代换关系。除了Word2Vec和GloVe，还有其他模型如FastText，它通过分析单词的子词信息来增强表示能力，尤其对未登录词（Out-of-Vocabulary，OOV）有更好的处理能力。此外，Transformer模型中的自注意力机制也能生成词向量，例如BERT（Bidirectional Encoder Representations from Transformers），它通过预训练和微调过程生成上下文敏感的词向量。词向量化是自然语言处理的基础，不同的技术如One-Hot Encoding、Counter向量化、词嵌入（Word2Vec、GloVe等）和基于Transformer的模型都在不同程度上解决了单词表示的挑战，提升了计算机处理文本的能力。选择合适的词向量化方法取决于具体任务的需求，如效率、内存占用和对语义理解的深度。

// ----------------------------------------------------------------------------------------------------

词向量

1.文本的表示和单词向量化(Word Vectorization)

在自然语言处理中，我们要让计算机能够理解自然语言、甚至能够生成自然语言。第一

个挑战是，人们是通过单词、和语句来进行沟通的，而计算机则只能处理数字。所以首先需

要我们把文本转换成计算机能够处理的数字。

这里讨论如何把一个个的单词转换为向量。这是单词的表示形式(Representation)，我们

希望这个表示形式，能够捕抓到单词的意思 (Meanings)、单词间的语义关系 (Semantic

Relationships)，以及单词所出现的上下文。

2. One-Hot Encoding

对单词进行编码，最为直接的方式是 One-Hot Encoding，是一种布尔编码方法。

首先查看整个词汇表有多少个单词，比如有 1500 个。在此基础上，建立一个有序表，

序号从 0 到 1499，序列的每个位置代表一个单词。

对于某个单词，我们对其进行向量表示的时候，把它表示为一个 1500 维的向量，向量

的第 i 个分量(对应这个单词)置为 1，其余分量都置为 0。

比如，假设整个字典有三个单词，分别是 Monkey, Eat 和 Banana。那么表示 Monkey 的

向量为<1, 0, 0>，表示 Eat 的向量为<0, 1, 0>，最后表示 Banana 的向量为<0,0,1>。

在此基础上，可以对文档进行编码。如果文档出现两个单词，把两个单词的向量相加即

可得到文档的编码。比如，一个文档出现 Monkey 和 Banana，整个文档(Document)的向量化

表示为<1,0,1>=<1,0,0>+<1,0,1>。

3. Counter 向量化

我们看到“Monkey eat banana”和“Monkey eat banana banana”两句话，是有区别的。第二

句话强调了两次 Banana。如果两个文档都表达为<1,1,1>，就没看出区别来。

为此，引入 Counter 向量化，也就是在文档表示的向量的各个分量上，保存的是各个单

词的频率，而不是 0/1 而已。比如上述两个文档分别表示为<1,1,1>，<1,1,2>。

3.1 文档向量表示和词向量表示的关系

假设有个文集 C 有 D 个文档{d

,…,d

}，里面包含 N 个不同的单词(N unique tokens)，

那么这 N 个单词构成一个字典。

整个文集可以表示为 D*N 的矩阵 M，M 的第 i 行第 j 列对应的元素，表示第 i 个文档

中，第 j 个单词出现的频率。

比如，有一个文集包含两个文档。D1: He is a lazy boy. She is also lazy。D2: Neeraj is a

lazy person。那么字典表为['He', 'She', 'lazy', 'boy', 'Neeraj', 'person']。这里，D=2，N=6。

矩阵 M 的具体取值如表 1 所示。

表 1. 文档 Counter 向量化

She

lazy

boy

Neeraj

person

从行的方向看，我们看到了 D1 和 D2 的向量化表示。而从列的方向看，我们可以把每

列看作单词的向量化表示，比如 lazy 的向量化表示为<2,1>。

可以看出 Counter 向量化，对文档进行向量化的同时，也对单词进行了向量化。

4. TF-IDF 向量化

Counter 向量化具有内在的缺陷。

下载后可阅读完整内容，剩余7页未读，立即下载

xiongpai1971

粉丝: 212

词项向量化：从One-Hot到词频计数

Lucene5学习之TermVector项向量

bert_bert词向量_BERT_

基于Python的文本分词与词向量化技术

词袋模型与文本向量化技术

词向量-基于Pytorch实现静态词向量训练.zip

探索Python实现的文本分类向量化技术

新闻报道向量化技术在RAG比赛中的应用笔记

Word2vec实战解析：深度学习中的神奇词汇向量化技术

聚类分析中的词向量技术实现与应用

微博情感分析：多元模型与词向量技术应用案例

最新资源