用jieba分词，并且将关键词文本文档用jieba.load_userdict设为jieba的自定义词典，根据关键词文本文档的关键词对文件夹中各文本进行对应关键词词频统计，并剔除停用词，停用词文档为D,并且生成excel，excel的列标题为关键词文档中的文件名，行标题为文件夹中各文档名称，python怎么写

首先，需要导入jieba和pandas库： ```python import jieba import pandas as pd ``` 然后，读取停用词文档D，并将停用词存储到一个列表中： ```python stopwords = [] with open('D.txt', 'r', encoding='utf-8') as f: for line in f: stopwords.append(line.strip()) ``` 接下来，读取关键词文本文档，并将关键词添加到jieba的自定义词典中： ```python jieba.load_userdict('keywords.txt') ``` 然后，定义一个函数，用于统计文本中各关键词的词频： ```python def count_words(text, keywords): word_count = {} words = jieba.lcut(text) for word in words: if word in keywords and word not in stopwords: if word not in word_count: word_count[word] = 1 else: word_count[word] += 1 return word_count ``` 最后，遍历文件夹中的各文本文件，调用count_words函数统计词频，并将结果存储到一个字典中。然后，使用pandas库将字典转换为DataFrame，并将结果保存为excel文件： ```python import os folder_path = 'folder_path' keywords_file = 'keywords.txt' # 读取关键词文本文档 keywords = [] with open(keywords_file, 'r', encoding='utf-8') as f: for line in f: keywords.append(line.strip()) # 将关键词添加到jieba的自定义词典中 jieba.load_userdict(keywords_file) # 统计各文本文件中各关键词的词频 result = {} for filename in os.listdir(folder_path): if filename.endswith('.txt'): file_path = os.path.join(folder_path, filename) with open(file_path, 'r', encoding='utf-8') as f: text = f.read() word_count = count_words(text, keywords) result[filename] = word_count # 将结果转换为DataFrame，并保存为excel文件 df = pd.DataFrame(result).fillna(0) df.to_excel('result.xlsx') ``` 以上就是用jieba分词，并根据关键词文本文档对文件夹中各文本进行对应关键词词频统计的代码。

阅读全文

相关推荐

采用python程序设计语言，进行分词，再去掉停用词和标点符号等，生成文档的词典

python使用jieba实现中文分词去停用词方法示例

采用python程序设计语言，进行分词，再去掉停用词和标点符号等，生成文档的词典，接着根据词典和文档内容生成词项的倒排记录表

textRank怎么使用jieba.load_userdict自定义词典，附上代码

jieba.load_userdict

通过jieba.load_userdict()函数加载用户自定义的词典，怎么删掉用户自定义的词典

jieba.load_userdict后，怎么初始化jieba词典

jieba.load_userdict()函数

jieba.load_userdict 加载太久

jieba.setLogLevel(20) jieba.load_userdict('userdict.txt')是干嘛的

解释jieba.load_userdict('custom_dict.txt')

jieba.load_userdict('my_dict.txt')可以同时加载多个字典吗

jieba.load_userdict('your_dict.txt')出现报错显示list index out of range 现报错显示list index out of range

Tokenizer.load_userdict() got an unexpected keyword argument 'parallel'

def chinese_word_cut(mytext): jieba.load_userdict(dic_file) jieba.initialize() try: stopword_list = open(stop_file,encoding ='utf-8') except: stopword_list = []

python jieba 百度60万+中文分词词库(内含带词性权重词库和不带词性权重词库以及停用词词库)

python使用jieba进行分词统计

python文本分词，去停用词，包含基础停用词词典

用Python中的jieba对文章进行词频统计

最新推荐

YOLOv3-训练-修剪.zip

毕业设计&课设_智能算法中台管理系统.zip

YOLO v2 的实现，用于在检测层内直接进行面部识别 .zip

KDDCUP-2020-AutoGraph-1st-Place-master

使用 YOLO 和 FaceNet 进行实时人脸识别.zip

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用