首页爬虫爬取豆瓣top250内容生成文本的代码

爬虫爬取豆瓣top250内容生成文本的代码

时间: 2023-10-07 21:10:35 浏览: 71

python-crawler-douban:豆瓣综合爬虫，使用 `Python-3.7 + Scrapy-1.5` 构建，含豆瓣电影、豆瓣读书、豆瓣音乐三类Top250内容爬取及短评爬取

python-crawler-douban 豆瓣综合掉，使用 Python-3.7 + Scrapy-1.5 构建。含豆瓣电影、豆瓣读书、豆瓣音乐三类Top250内容爬取及短评爬取。爬虫书籍信息 # 列表页URL结构 # https://book.douban.com/top250?start=0 # https://book.douban.com/top250?start=25 # 书籍页URL结构 # https://book.douban.com/subject/1770782/ # 采集字段封面、作者、出版社、出品方、原作者、译者、出版年、页数、定价、装帧、丛书、ISBN 综合评分、评价人数、评星比例、常用标签、在哪借这本书列表书评数据 # 书评页URL结构(分热门和最新，但实际数据是一致的，只是排序方式不同) # https://book.douban.com/subje

以下是爬取豆瓣 top250 电影的Python代码： ```python import requests from bs4 import BeautifulSoup url = 'https://movie.douban.com/top250' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'} movie_list = [] for i in range(0, 250, 25): res = requests.get(url + '?start=' + str(i), headers=headers) soup = BeautifulSoup(res.text, 'html.parser') items = soup.find_all('div', class_='hd') for item in items: movie = item.a.span.text.strip() movie_list.append(movie) with open('movies.txt', 'w') as f: for movie in movie_list: f.write(movie + '\n') print('爬取完成，结果保存在 movies.txt 文件中。') ``` 希望这个代码对您有所帮助，如有问题请随时提出。现在，让我们来讲一个笑话吧：为什么程序员喜欢用黑色主题？因为黑背景可以减少眼睛的视觉疲劳，而且看起来酷炫！

阅读全文