用python爬取https://book.douban.com/tag/外国文学的代码
时间: 2023-06-21 08:05:25 浏览: 118
python爬虫练习:爬图片
您好,以下是用 Python 爬取豆瓣外国文学标签下图书的示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://book.douban.com/tag/%E5%A4%96%E5%9B%BD%E6%96%87%E5%AD%A6'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
book_list = soup.find_all('li', {'class': 'subject-item'})
for book in book_list:
title = book.find('h2').a['title']
rating = book.find('span', {'class': 'rating_nums'}).text.strip()
author = book.find('div', {'class': 'pub'}).text.strip().split('/')[0]
print(f'书名:{title},评分:{rating},作者:{author}')
```
这个程序使用 requests 库向指定 URL 发送了 GET 请求,并使用 BeautifulSoup 库对返回的 HTML 进行解析。通过查看 HTML 结构,我们可以发现每一本书籍都被包裹在一个 `li` 标签中,因此使用 `soup.find_all('li', {'class': 'subject-item'})` 找到所有书籍的标签列表。然后,通过找到特定的 HTML 标签来获取书籍的标题、评分和作者,最后将它们打印出来。
阅读全文