我想基于手头现有的一个已经分词的txt文件,基于另外一个现有的停用词txt文件,对其进行停用词的删除。如何实现?代码如何?
时间: 2024-11-09 22:18:12 浏览: 10
去停用词_利用python去停用词_
5星 · 资源好评率100%
在Python中,你可以使用`jieba`库来分词,并使用`nltk`或自定义停用词列表来去除停用词。下面是一个简单的例子:
```python
import jieba
from nltk.corpus import stopwords
# 首先,加载停用词列表
stopwords_list = set(stopwords.words('chinese')) # 使用NLTK的中文停用词列表
# 或者如果你有自己的停用词列表,替换为:
# with open('your_stopwords.txt', 'r', encoding='utf-8') as f:
# stopwords_list = set(f.read().splitlines())
# 分词的txt文件内容
with open('your_text_file.txt', 'r', encoding='utf-8') as file:
text = file.read()
# 去除停用词
filtered_text = ' '.join([word for word in jieba.lcut(text) if word not in stopwords_list])
# 将结果保存到新文件
with open('filtered_text.txt', 'w', encoding='utf-8') as new_file:
new_file.write(filtered_text)
```
这段代码首先导入停用词集合,然后读取文本文件的内容,接着通过列表推导式将文本切分成单词,去掉停用词,最后写入新的文本文件。
阅读全文