word2vec文本向量化代码
时间: 2023-10-21 20:20:27 浏览: 41
以下是使用Python中的gensim库实现word2vec文本向量化的示例代码:
```python
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
import os
# 读取文本文件并进行分词
path = 'path/to/text/files'
sentences = []
for filename in os.listdir(path):
with open(os.path.join(path, filename), 'r') as file:
text = file.read()
words = word_tokenize(text)
sentences.append(words)
# 训练Word2Vec模型
model = Word2Vec(sentences, size=100, window=5, min_count=1, workers=4)
# 获取文本的向量表示
text = 'this is a sample text'
words = word_tokenize(text)
vector = []
for word in words:
if word in model.wv.vocab:
vector.append(model[word])
else:
vector.append([0]*model.vector_size)
```
在上面的示例中,我们首先读取文本文件并进行分词,然后使用这些分词训练Word2Vec模型。最后,我们可以使用训练好的模型获取文本的向量表示。具体来说,我们将文本分词后,对于每一个词,如果它出现在模型的词汇表中,我们就将它的向量加入到文本向量中;否则,我们就将一个全为0的向量加入到文本向量中。