批量读取文件夹里的txt文件，根据停用词词表以及词表使用最大逆向算法进行分词，词表说明了哪些字的组合可以被算作一个词，停用词表说明哪些没有实意的词可以去掉，其中词表和停用词表均为excel文件，将分词结果以同名文件储存在另一个文件夹里

好的，这里提供一个修改版的代码，用于读取Excel文件中的词表和停用词表，并使用jieba分词库进行分词。 ```python import os import jieba import pandas as pd # 读取词表和停用词表 def read_excel(filename): df = pd.read_excel(filename, header=None) words = set(df[0].tolist()) return words userdict = read_excel('userdict.xlsx') stopwords = read_excel('stopwords.xlsx') # 加载自定义词典和停用词表 for word in userdict: jieba.add_word(word) stopwords = stopwords.union(set(jieba.get_stop_words())) # 最大逆向匹配算法 def cut(string): seg_list = [] max_len = 5 # 词的最大长度 while string: word = None for i in range(max_len, 0, -1): if len(string) >= i and string[-i:] not in stopwords: word = string[-i:] seg_list.append(word) string = string[:-i] break if word is None: seg_list.append(string[-1]) string = string[:-1] return seg_list[::-1] # 遍历文件夹，处理每个txt文件 input_folder = 'input_folder' output_folder = 'output_folder' for filename in os.listdir(input_folder): if filename.endswith('.txt'): # 读取文件内容 with open(os.path.join(input_folder, filename), 'r', encoding='utf-8') as f: content = f.read().strip() # 分词 seg_list = jieba.cut(content) seg_list = [seg.strip() for seg in seg_list if seg.strip() not in stopwords] # 写入文件 with open(os.path.join(output_folder, filename), 'w', encoding='utf-8') as f: f.write(' '.join(seg_list)) ``` 这段代码中使用了pandas库来读取Excel文件中的词表和停用词表。首先定义了一个 `read_excel` 函数，用于读取Excel文件中的内容，并将其转换为集合。然后加载自定义词典和停用词表，使用jieba分词库进行分词并去掉停用词，最后将分词结果写入同名文件中。请注意在使用前将 `input_folder` 和 `output_folder` 改为实际的文件夹路径，并将 `userdict.xlsx` 和 `stopwords.xlsx` 改为实际的词典和停用词表文件名。

阅读全文

相关推荐

批量读取txt文件

对txt文件中的单词进行计数

文本分词常用中文停用词表

批量读取文件夹里的txt文件，根据停用词词表以及词表使用最大逆向算法进行分词，词表说明了哪些字的组合可以被算作一个词，停用词表说明哪些没有实意的词可以去掉，将分词结果以同名文件储存在另一个文件夹里

批量读取文件夹里的txt文件，根据停用词词表以及词表使用最大逆向算法进行分词，将分词结果以同名文件储存在另一个文件夹里

python实现机械分词之逆向最大匹配算法代码示例

R语言jiebaR包性能提升大法：分词效率飞跃不是梦

若有待分词句子sentence[]={"计算语言学课程有意思"}，词表dict[]={"计算", "计算语言学", "课程", "有", "意思"}，请以最大分割长度5进行分词，分析逆向匹配算法的执行过程，并给出最终结果

如何用jieba实现正向，逆向最大匹配算法

只需要用一张图片素材文档选择器.zip

浙江大学842真题09-24 不含答案 信号与系统和数字电路

无标题baci和jbaci

完整的雷达系统仿真程序，完整的雷达系统仿真程序 matlab代码.rar

实体商品销售源码最新优化.zip

戴尔存储MD1400机柜维护操作与安全指导

PyClass 课程计划.zip

自动化部署管道创建的代码库（含 Concourse 和 Jenkins 相关）.zip

一种新的混合优化算法,即瞬态三角哈里斯鹰优化器(Tthho) matlab代码.rar

1-中国各地万达广场地理分布数据2006-2021-社科数据.zip

最新推荐

python使用jieba实现中文分词去停用词方法示例

只需要用一张图片素材文档选择器.zip

浙江大学842真题09-24 不含答案 信号与系统和数字电路

无标题baci和jbaci

完整的雷达系统仿真程序，完整的雷达系统仿真程序 matlab代码.rar

火炬连体网络在MNIST的2D嵌入实现示例

管理建模和仿真的文件

L2正则化的终极指南：从入门到精通，揭秘机器学习中的性能优化技巧

如何构建一个符合GB/T19716和ISO/IEC13335标准的信息安全事件管理框架，并确保业务连续性规划的有效性？

Angular插件增强Application Insights JavaScript SDK功能

浙江大学842真题09-24 不含答案信号与系统和数字电路

浙江大学842真题09-24 不含答案信号与系统和数字电路