首页生成爬取豆瓣网站生成词云的代码

生成爬取豆瓣网站生成词云的代码

时间: 2023-09-30 20:09:55 浏览: 109

好的，以下是一个简单的Python爬虫程序，用于从豆瓣电影中爬取电影名称，并生成词云。需要安装的库有requests、BeautifulSoup和wordcloud。 ```python import requests from bs4 import BeautifulSoup from wordcloud import WordCloud # 爬取豆瓣电影top250的前10页 urls = ['https://movie.douban.com/top250?start={}'.format(i*25) for i in range(10)] movie_names = [] for url in urls: # 获取当前页面的HTML源码 res = requests.get(url) soup = BeautifulSoup(res.text, 'html.parser') # 获取每个电影名称所在的标签 tags = soup.select('.hd .title') for tag in tags: movie_name = tag.text.strip() movie_names.append(movie_name) # 生成词云 text = ' '.join(movie_names) wordcloud = WordCloud(font_path='simhei.ttf', background_color='white').generate(text) wordcloud.to_file('movie_wordcloud.png') ``` 这个程序会爬取豆瓣电影top250的前10页，获取每个电影名称，将它们拼接成一个字符串，最后生成词云并保存为图片。你可以根据需要修改爬取的页面数量和保存的文件名。

阅读全文