爬虫爬取豆瓣图书标签: 历史的书籍信息
时间: 2023-07-05 16:32:33 浏览: 223
好的,以下是一个简单的爬虫程序,能够爬取豆瓣图书中所有标签为“历史”的书籍信息(书名、作者、出版社等):
```python
import requests
from bs4 import BeautifulSoup
url = 'https://book.douban.com/tag/历史'
def get_html(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
try:
response = requests.get(url, headers=headers)
response.raise_for_status()
response.encoding = response.apparent_encoding
return response.text
except:
return ""
def parse_html(html):
soup = BeautifulSoup(html, 'html.parser')
book_list = soup.find_all('li', class_='subject-item')
for book in book_list:
title = book.find('div', class_='info').find('a')['title']
author_info = book.find('div', class_='pub').get_text().split('/')
author = author_info[0].strip()
publisher = author_info[-3].strip()
print('书名:', title)
print('作者:', author)
print('出版社:', publisher)
print('--------------------------')
if __name__ == '__main__':
html = get_html(url)
parse_html(html)
```
这个程序会首先访问豆瓣图书“历史”标签的页面,然后解析HTML页面,提取出书名、作者、出版社等信息,并打印出来。您可以根据自己的需要,对程序进行修改和扩展,以实现更多的功能。
阅读全文