word2vec文本向量化代码
时间: 2023-10-21 22:14:09 浏览: 25
以下是一个简单的word2vec文本向量化代码示例,使用gensim库:
```python
import gensim
from gensim.models import Word2Vec
from gensim.utils import simple_preprocess
# 读取文本数据
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.readlines()
# 预处理文本
processed_text = [simple_preprocess(line) for line in text]
# 训练word2vec模型
model = Word2Vec(processed_text, size=100, window=5, min_count=1, workers=4)
# 获取文本中每个单词的向量表示
vectors = []
for line in processed_text:
line_vectors = []
for word in line:
line_vectors.append(model.wv[word])
vectors.append(line_vectors)
```
在这个示例中,我们首先读取了一个文本文件,然后使用 `simple_preprocess` 函数对文本进行了预处理。接下来,我们使用 `Word2Vec` 函数训练了一个word2vec模型,并设置了一些参数,如向量维度大小、窗口大小、最小出现次数等。最后,我们使用训练好的模型获取了文本中每个单词的向量表示,这些向量存储在 `vectors` 列表中。