首页使用 jieba 分词计算“宝玉”，“黛玉”词向量

使用 jieba 分词计算“宝玉”，“黛玉”词向量

时间: 2023-10-29 20:07:13 浏览: 164

首先，我们需要安装 jieba 和 jieba_fast 的库。可以使用以下命令进行安装： ``` pip install jieba pip install jieba_fast ``` 然后，我们可以使用以下代码进行分词和计算词向量： ```python import jieba import jieba_fast import gensim # 加载停用词 stopwords = set() with open('stopwords.txt', 'r', encoding='utf-8') as f: for line in f.readlines(): stopwords.add(line.strip()) # 加载语料库 sentences = [] with open('corpus.txt', 'r', encoding='utf-8') as f: for line in f.readlines(): sentences.append(line.strip()) # 分词 words = [] for sentence in sentences: seg_list = jieba_fast.cut(sentence) words.append([word for word in seg_list if word not in stopwords]) # 训练词向量模型 model = gensim.models.Word2Vec(words, size=100, min_count=5, workers=4) # 计算宝玉、黛玉的词向量 baoyu_vec = model.wv['宝玉'] daiyu_vec = model.wv['黛玉'] print('宝玉的词向量：', baoyu_vec) print('黛玉的词向量：', daiyu_vec) ``` 其中，停用词表可以自己定义或者从网上找到。语料库可以是一些小说、新闻等中文文本。在这里，我们使用了 jieba_fast 进行分词，因为它比 jieba 更快。词向量模型的训练参数可以根据实际情况进行调整。

阅读全文