用python,指定文件,使用自己的停用词表实现去停用词,然后存入另外的文件内
时间: 2023-05-20 07:03:26 浏览: 372
去停用词_利用python去停用词_
5星 · 资源好评率100%
可以使用以下代码实现:
```python
# 导入需要的库
import jieba
# 定义停用词表
stopwords = ['的', '了', '是', '我', '你', '他', '她', '我们', '你们', '他们']
# 打开文件
with open('input.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 分词并去停用词
words = [word for word in jieba.cut(text) if word not in stopwords]
# 将结果写入文件
with open('output.txt', 'w', encoding='utf-8') as f:
f.write(' '.join(words))
```
这段代码会读取名为 `input.txt` 的文件,使用 jieba 库进行分词,并去除停用词表中的词语,最后将结果写入名为 `output.txt` 的文件中。
阅读全文