爬取人民邮电出版社(https://www.ptpress.com.cn/)中的新出推荐中的类别,已经相关类别中的书籍列表,最后按照目录类别保存相关的书籍列表,并把数据存储在book.csv文件中
时间: 2024-06-17 15:04:47 浏览: 226
您好,可以使用Python爬虫库进行人民邮电出版社的爬取,并利用pandas库将数据存储到CSV文件中。以下是大致步骤:
1. 使用 requests 库获取网页源代码
2. 使用 BeautifulSoup 库解析网页源代码,获取新出推荐中的类别和相关类别中的书籍列表
3. 利用 pandas 库创建 DataFrame,保存书籍列表,并按照目录类别存储到 book.csv 文件中
以下是代码示例:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 获取网页源代码
url = 'https://www.ptpress.com.cn/'
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')
# 获取新出推荐中的类别和相关类别中的书籍列表
category_list = []
book_list = []
for category in soup.select('.book-category-list > .list-inline > li > a'):
category_list.append(category.text.strip())
book_url = url + category['href']
book_res = requests.get(book_url)
book_soup = BeautifulSoup(book_res.text, 'html.parser')
books = []
for book in book_soup.select('.book-list > .book-list-item > .media > .media-body > h4 > a'):
books.append(book.text.strip())
book_list.append(books)
# 创建 DataFrame 并保存到 book.csv 文件中
df = pd.DataFrame({'category': category_list, 'books': book_list})
df.to_csv('book.csv', index=False, encoding='utf-8-sig')
```
阅读全文