西游记中文常用停用词
时间: 2024-06-18 17:04:18 浏览: 21
在《西游记》的文本中,一些常用的停用词包括:“的”、“了”、“地”、“得”、“着”、“是”、“在”、“和”等。这些停用词在文本中出现频率较高,但它们并不具有明确的意义,因此在文本分析时可以将它们过滤掉,以提高处理效率和结果质量。同时,还需要注意一些特殊的词语,例如“孙悟空”、“唐僧”等,这些词语在《西游记》中是非常重要的角色名字,不能将它们过滤掉。
相关问题
使用Python对《西游记》进行分词、停用词过滤和词频统计
好的,下面是完整的代码:
```python
import jieba
from collections import Counter
# 打开《西游记》文本
with open('journey_to_the_west.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 分词
words = jieba.lcut(text)
# 去除停用词
stopwords = []
with open('stopwords.txt', 'r', encoding='utf-8') as f:
for line in f:
stopwords.append(line.strip())
filtered_words = []
for word in words:
if word not in stopwords and word != '\n':
filtered_words.append(word)
# 统计词频
word_count = Counter(filtered_words)
# 输出前20个出现次数最多的词
print(word_count.most_common(20))
```
这段代码会输出前20个出现次数最多的词及其出现次数。需要注意的是,需要先下载停用词表,将其保存为`stopwords.txt`文件。
爬虫爬取诗词名句网西游记
为了爬取诗词名句网上的西游记内容,您需要先了解一些基础知识:
1. 爬虫技术:利用编程语言模拟浏览器行为,自动化地抓取互联网上的信息。
2. HTML:网页的标记语言,描述了网页的结构和内容。
3. CSS:网页的样式表语言,用于控制网页的样式和布局。
4. JavaScript:网页的脚本语言,用于实现网页的交互效果。
以下是爬取诗词名句网西游记的步骤:
1. 打开诗词名句网的西游记页面。
2. 分析该页面的 HTML 结构,找到包含西游记内容的标签和属性。
3. 利用 Python 等编程语言的爬虫框架(如 Scrapy、BeautifulSoup 等)获取该页面的 HTML 内容。
4. 解析 HTML 内容,提取出西游记的文本内容。
5. 将提取出来的内容存储到本地文件或数据库中。
需要注意的是,爬取网站的内容需要遵守相关法律法规和网站的使用协议,不得进行非法的网络爬虫行为。
相关推荐
![txt](https://img-home.csdnimg.cn/images/20210720083642.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)