爬取网站 https://nocturne-spider.baicizhan.com/2020/09/02/coco/ 所有的文字内容，利用结巴分词生成一张宽度为800px，高度为500px的词云图，生成的文件命名为“dream.html”。【题目要求】 1. 词频统计时，过滤掉字的个数为1的字符串； 2. 利用jieba模块，对转换成的字符串进行分词； 3. 使用wordcloud模块，将分词后的结果生成词云图，字体大小范围为[30,70]，图片宽度为800，高度为500。

时间: 2024-03-28 14:38:42 浏览: 108

【python网络爬虫】python获取聚美优品化妆品价格数据

以下是Python代码实现： ```python import requests from bs4 import BeautifulSoup import jieba from wordcloud import WordCloud # 爬取网页内容 url = 'https://nocturne-spider.baicizhan.com/2020/09/02/coco/' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') content = soup.find('div', class_='entry-content').get_text() # 过滤掉字数为1的字符串 content = [word for word in content if len(word) > 1] content = ''.join(content) # 分词 seg_list = jieba.cut(content) # 生成词频统计结果 word_dict = {} for word in seg_list: if len(word) > 1: word_dict[word] = word_dict.get(word, 0) + 1 # 生成词云图 wc = WordCloud(width=800, height=500, background_color='white', font_path='msyh.ttc', max_font_size=70, min_font_size=30) wc.generate_from_frequencies(word_dict) wc.to_file('dream.html') ``` 代码解释： 1. 使用 requests 库爬取网页内容，并通过 BeautifulSoup 库解析 HTML。 2. 过滤掉字数为1的字符串。 3. 使用 jieba 库对文本进行分词。 4. 生成词频统计结果，即每个词出现的次数。 5. 使用 WordCloud 库生成词云图，设置图片宽度为800，高度为500，字体大小范围为[30,70]。 6. 将生成的词云图保存为“dream.html”文件。注意事项： 1. 需要安装 jieba 和 wordcloud 库。 2. 需要下载中文字体文件，比如微软雅黑（msyh.ttc），并将其放置在工作目录下。

阅读全文

相关推荐

blacktree-nocturne:从 code.google.compblacktree-nocturne 自动导出

程序人生，我想独立完成一个产品，技术上该怎么提升？

nocturne:来自 http 的 blacktree-nocturne 的分支

nocturne.no:网站nocturne.no的存储库

Nocturne-Chopin(肖邦)原版正谱五线谱钢琴谱.pdf

Nocturne Op. 9 No. 2 (Frederic Chopin) Tab by Kaare Norge .pdf

nocturne:项目介绍

Nocturne:我制作的一个简单CSS框架

photo-a-bordeaux

音乐术语大全双语.docx

Android-黎活明-PPT+源码

PXS1000_OTHERS_musicscores_B_CN.pdf

nocturneinc#minoredit525(肖邦)原版正谱五线谱钢琴谱.pdf

安卓实现AChartEngine-饼图+柱形图

Liszt-Liebestraume 爱之梦 dreams of love

blacktree-nocturne分支更新：64位优化及新功能

夜曲计划：通过嵌入式技术关爱弱势群体

【中国房地产业协会-2024研报】2024年第三季度房地产开发企业信用状况报告.pdf

最新推荐

如何配置Filter过滤器处理JSP中文乱码

【中国房地产业协会-2024研报】2024年第三季度房地产开发企业信用状况报告.pdf

【中国银行-2024研报】美国大选结果对我国芯片产业发展的影响和应对建议.pdf

RM1135开卡工具B17A

毕业设计&课设_宿舍管理系统：计算机毕业设计项目.zip

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用