遍历txt文件 去除停用词 提取前10的关键词并输出
时间: 2024-01-17 08:04:21 浏览: 84
依次遍历所有txt文件,匹配字符串并输出匹配结果
5星 · 资源好评率100%
好的,我可以帮你解决这个问题。首先,需要先下载一个停用词表,比如中文停用词表,然后将其加载进来。接着,我们可以使用 Python 中的 jieba 库来进行分词,并去除停用词。最后,使用 TF-IDF 算法来提取关键词并输出前 10 个即可。
以下是示例代码:
```python
import jieba
import jieba.analyse
# 加载停用词表
stopwords = set()
with open('stopwords.txt', 'r', encoding='utf-8') as f:
for line in f:
stopwords.add(line.strip())
# 读取文本文件
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 分词并去除停用词
words = []
for word in jieba.cut(text):
if word not in stopwords:
words.append(word)
# 提取关键词并输出前 10 个
keywords = jieba.analyse.extract_tags(text, topK=10, withWeight=False)
print(keywords)
```
需要注意的是,以上代码仅是一个简单的示例,对于不同的文本和应用场景,还需要根据实际情况进行调整和优化。
阅读全文