用python对红楼梦进行文本过滤
时间: 2023-07-19 12:38:42 浏览: 105
以下是一个使用Python对红楼梦进行文本过滤的示例代码。该代码使用jieba分词和正则表达式进行文本过滤。
```python
import jieba
import re
# 加载停用词
stopwords = []
with open('stopwords.txt', 'r', encoding='utf-8') as f:
for line in f:
stopwords.append(line.strip())
# 加载红楼梦文本
with open('hongloumeng.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 对红楼梦文本进行过滤
words = jieba.cut(text)
filtered_words = []
for word in words:
# 去除停用词和单个字的词语
if word not in stopwords and len(word) > 1:
# 去除标点符号和数字
word = re.sub(r'[^\u4e00-\u9fa5]+', '', word)
if word:
filtered_words.append(word)
# 输出过滤结果
print('过滤前的词语数量:', len(list(jieba.cut(text))))
print('过滤后的词语数量:', len(filtered_words))
```
需要注意的是,以上代码只是一个简单的示例,实际文本过滤的过程会更加复杂,需要根据具体情况进行调整和优化。
阅读全文