解释代码 # 创建用来统计词频的csv文件 def csv_create(name): full_path = csv_root + "/" + name + '.csv' # 创建文件,已写入的方式打开,但是不写,创建完毕之后就关闭文件 file = open(full_path, 'w') # 关闭文件 file.close() # 返回csv文件的路径,获取文件路径以便写入 return full_path # 将文件夹中所有文件名字进行读取 for file in files: # 准确获取一个txt的位置,利用字符串的拼接 file_path = root_path + "/" + file # 打开相应的txt文件 text = open(file_path, "r").read() # 去掉中文标点 text = re.sub("[{}]+".format(punctuation), "", text) # seg = jieba.cut(file.strip(), cut_all=False) dicti = open("D:\大三\pythonProject\文本分词\dict.txt", 'r', encoding='utf-8').read() jieba.load_userdict(r"D:\大三\pythonProject\文本分词\dict.txt") # jieba.load_userdict("dict.txt", "r", encoding="ANSI") # 读取停止词 fourStopwords = open("D:\\大三\\pythonProject\\文本分词\\fourStopwords.txt", "r", encoding='utf-8').read() # stopwords = '我' stopwords = fourStopwords.split("\t") print(stopwords) words = jieba.lcut(text) k = [] for each in words: k.append(each) cut_stop_data = [word for word in k if word not in stopwords] print(cut_stop_data[0]. encode('utf-8')) counts = {}
时间: 2024-01-03 19:03:37 浏览: 74
这段代码的主要功能是对一系列文本文件进行词频统计。
首先,有一个名为`csv_create`的函数,用于创建用于统计词频的CSV文件。该函数接收一个文件名作为参数,并返回生成的CSV文件的路径。
然后,在一个循环中,对文件夹中的每个文件进行处理。对于每个文件,按照给定的路径打开相应的文本文件,并读取其内容。
接下来,使用正则表达式去除文本中的中文标点符号。`re.sub("[{}]+".format(punctuation), "", text)`这行代码将使用`punctuation`变量中的中文标点符号,将其替换为空字符串。
然后,打开一个名为`dict.txt`的词典文件,并读取其内容。接着,使用`jieba.load_userdict()`函数加载自定义词典,以便分词时使用。
紧接着,打开一个名为`fourStopwords.txt`的停用词文件,并读取其内容。停用词是在文本分析中过滤掉的常见词语。
然后,使用`jieba.lcut()`函数对文本进行分词,并将分词结果存储在`words`变量中。
接下来,根据停用词列表,将分词结果中不在停用词列表中的词语存储在`cut_stop_data`列表中。
最后,创建一个空字典`counts`,用于存储词频统计结果。
总体来说,这段代码主要完成了以下任务:
- 创建用于统计词频的CSV文件
- 读取文本文件并去除中文标点符号
- 加载自定义词典和停用词列表
- 对文本进行分词并过滤停用词
- 存储词频统计结果
需要注意的是,代码中涉及到的变量`csv_root`、`root_path`、`punctuation`以及文件路径可能需要根据实际情况进行调整。
阅读全文