我想获取这标签里的图书名称和作者,导出为excel文件,什么代码能帮到我?
时间: 2024-03-29 13:36:51 浏览: 212
您可以使用 Python 的 requests 库和 Beautiful Soup 库来爬取豆瓣图书标签页的信息,并使用 pandas 库将数据导出为 Excel 文件。以下是一个示例代码:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 构造请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送请求
response = requests.get('https://book.douban.com/tag/', headers=headers)
# 解析页面
soup = BeautifulSoup(response.text, 'html.parser')
# 获取标签列表
tag_list = soup.find_all('a', class_='tag-title-wrapper')
book_list = []
for tag in tag_list:
# 构造标签页的链接
tag_url = tag['href']
# 发送标签页的请求
tag_response = requests.get(tag_url, headers=headers)
# 解析标签页
tag_soup = BeautifulSoup(tag_response.text, 'html.parser')
# 获取图书列表
book_items = tag_soup.find_all('li', class_='subject-item')
# 遍历图书列表,获取图书名称和作者
for item in book_items:
title = item.find('div', class_='info').h2.a.text.strip()
author = item.find('div', class_='info').find('div', class_='pub').text.strip().split('/')[0]
book_list.append((title, author))
# 将图书列表转换为 DataFrame
df = pd.DataFrame(book_list, columns=['书名', '作者'])
# 导出为 Excel 文件
df.to_excel('book_list.xlsx', index=False)
```
这段代码会输出豆瓣图书标签页上所有图书的名称和作者,并将数据导出为 Excel 文件。您可以根据您的需求修改代码来获取您需要的信息。同时请注意遵守相关网站的爬虫规则。
阅读全文