首页用python爬取https://book.douban.com/tag/外国文学的代码

用python爬取https://book.douban.com/tag/外国文学的代码

时间: 2023-06-21 08:05:25 浏览: 118

python爬虫练习：爬图片

python 爬虫练习项目：爬图片，目标网站 http://www.win4000.com/ 美桌图片主要思路：该网站存在’http://www.win4000.com/meinvtag’ + str(i) + ‘_1.html’ 这样的一个链接形式的多个图片分类集合页面，暂时叫做tag页面吧，每个tag下面有5页组成（range(1, 6): # 共5个页面）， 1、获取所有tag页面：遍历所有tag页面，寻找r.status_code 为 200的页面，同时分析页面，通过find(‘h2’)的标签，寻找此tag页面的名称，将存在的页面的名称和地址放入字典返回。 def get_al

您好，以下是用 Python 爬取豆瓣外国文学标签下图书的示例代码： ```python import requests from bs4 import BeautifulSoup url = 'https://book.douban.com/tag/%E5%A4%96%E5%9B%BD%E6%96%87%E5%AD%A6' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') book_list = soup.find_all('li', {'class': 'subject-item'}) for book in book_list: title = book.find('h2').a['title'] rating = book.find('span', {'class': 'rating_nums'}).text.strip() author = book.find('div', {'class': 'pub'}).text.strip().split('/')[0] print(f'书名：{title}，评分：{rating}，作者：{author}') ``` 这个程序使用 requests 库向指定 URL 发送了 GET 请求，并使用 BeautifulSoup 库对返回的 HTML 进行解析。通过查看 HTML 结构，我们可以发现每一本书籍都被包裹在一个 `li` 标签中，因此使用 `soup.find_all('li', {'class': 'subject-item'})` 找到所有书籍的标签列表。然后，通过找到特定的 HTML 标签来获取书籍的标题、评分和作者，最后将它们打印出来。

阅读全文