使用 jieba 分词 计算“宝玉”,“黛玉”词向量
时间: 2023-10-29 15:07:13 浏览: 157
Jieba分词工具的使用
首先,我们需要安装 jieba 和 jieba_fast 的库。可以使用以下命令进行安装:
```
pip install jieba
pip install jieba_fast
```
然后,我们可以使用以下代码进行分词和计算词向量:
```python
import jieba
import jieba_fast
import gensim
# 加载停用词
stopwords = set()
with open('stopwords.txt', 'r', encoding='utf-8') as f:
for line in f.readlines():
stopwords.add(line.strip())
# 加载语料库
sentences = []
with open('corpus.txt', 'r', encoding='utf-8') as f:
for line in f.readlines():
sentences.append(line.strip())
# 分词
words = []
for sentence in sentences:
seg_list = jieba_fast.cut(sentence)
words.append([word for word in seg_list if word not in stopwords])
# 训练词向量模型
model = gensim.models.Word2Vec(words, size=100, min_count=5, workers=4)
# 计算宝玉、黛玉的词向量
baoyu_vec = model.wv['宝玉']
daiyu_vec = model.wv['黛玉']
print('宝玉的词向量:', baoyu_vec)
print('黛玉的词向量:', daiyu_vec)
```
其中,停用词表可以自己定义或者从网上找到。语料库可以是一些小说、新闻等中文文本。在这里,我们使用了 jieba_fast 进行分词,因为它比 jieba 更快。词向量模型的训练参数可以根据实际情况进行调整。
阅读全文