生成爬取豆瓣网站生成词云的代码
时间: 2023-09-30 20:09:55 浏览: 109
好的,以下是一个简单的Python爬虫程序,用于从豆瓣电影中爬取电影名称,并生成词云。需要安装的库有requests、BeautifulSoup和wordcloud。
```python
import requests
from bs4 import BeautifulSoup
from wordcloud import WordCloud
# 爬取豆瓣电影top250的前10页
urls = ['https://movie.douban.com/top250?start={}'.format(i*25) for i in range(10)]
movie_names = []
for url in urls:
# 获取当前页面的HTML源码
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')
# 获取每个电影名称所在的标签
tags = soup.select('.hd .title')
for tag in tags:
movie_name = tag.text.strip()
movie_names.append(movie_name)
# 生成词云
text = ' '.join(movie_names)
wordcloud = WordCloud(font_path='simhei.ttf', background_color='white').generate(text)
wordcloud.to_file('movie_wordcloud.png')
```
这个程序会爬取豆瓣电影top250的前10页,获取每个电影名称,将它们拼接成一个字符串,最后生成词云并保存为图片。你可以根据需要修改爬取的页面数量和保存的文件名。
阅读全文