用python批量对txt文件进行去除停用词,分词和关键词提取的详细代码,可以直接运行
时间: 2024-03-05 12:52:33 浏览: 89
好的,这是一个基于Python的去除停用词、分词和关键词提取的代码示例:
首先,需要安装jieba和gensim这两个库,以及中文停用词库stopwords,可以通过以下命令进行安装:
```python
pip install jieba gensim
```
下载停用词库stopwords.txt,可以从GitHub上下载,也可以自己手动创建一个文件,并将常用的中文停用词写入其中。
接下来,我们需要读取txt文件中的文本内容,并进行去除停用词、分词和关键词提取。以下是完整的代码:
```python
import os
import jieba
from gensim import corpora, models
def read_file(filename):
"""
读取文件内容
"""
with open(filename, 'r', encoding='utf-8') as f:
content = f.read()
return content
def cut_words(content, stop_words):
"""
对文本内容进行去除停用词和分词
"""
words = jieba.cut(content)
result = []
for word in words:
if word not in stop_words:
result.append(word)
return result
def extract_keywords(words):
"""
提取文本关键词
"""
# 构建词向量
texts = [words]
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]
# 训练tf-idf模型
tfidf = models.TfidfModel(corpus)
# 提取关键词
keywords = tfidf[corpus][0]
return keywords
if __name__ == '__main__':
# 读取停用词表
with open('stopwords.txt', 'r', encoding='utf-8') as f:
stop_words = f.read().splitlines()
# 遍历txt文件
file_dir = './txt_files'
for root, dirs, files in os.walk(file_dir):
for file in files:
if file.endswith('.txt'):
filename = os.path.join(root, file)
# 读取文件内容
content = read_file(filename)
# 对文本内容进行去除停用词和分词
words = cut_words(content, stop_words)
# 提取文本关键词
keywords = extract_keywords(words)
# 打印结果
print('文件名:', file)
print('分词结果:', words)
print('关键词提取结果:', keywords)
```
在以上代码中,我们首先定义了三个函数:
- `read_file`:用于读取txt文件中的文本内容。
- `cut_words`:用于对文本内容进行去除停用词和分词。
- `extract_keywords`:用于提取文本关键词。
然后,我们读取停用词表,并遍历指定目录下的所有txt文件,并对每个文件进行去除停用词、分词和关键词提取,最后打印结果。
运行以上代码,即可批量对txt文件进行去除停用词、分词和关键词提取。
阅读全文