首页爬取人民邮电出版社（https://www.ptpress.com.cn/）中的新出推荐中的类别，已经相关类别中的书籍列表，最后按照目录类别保存相关的书籍列表，并把数据存储在book.csv文件中

爬取人民邮电出版社（https://www.ptpress.com.cn/）中的新出推荐中的类别，已经相关类别中的书籍列表，最后按照目录类别保存相关的书籍列表，并把数据存储在book.csv文件中

时间: 2024-06-17 15:04:47 浏览: 226

您好，可以使用Python爬虫库进行人民邮电出版社的爬取，并利用pandas库将数据存储到CSV文件中。以下是大致步骤： 1. 使用 requests 库获取网页源代码 2. 使用 BeautifulSoup 库解析网页源代码，获取新出推荐中的类别和相关类别中的书籍列表 3. 利用 pandas 库创建 DataFrame，保存书籍列表，并按照目录类别存储到 book.csv 文件中以下是代码示例： ```python import requests from bs4 import BeautifulSoup import pandas as pd # 获取网页源代码 url = 'https://www.ptpress.com.cn/' res = requests.get(url) soup = BeautifulSoup(res.text, 'html.parser') # 获取新出推荐中的类别和相关类别中的书籍列表 category_list = [] book_list = [] for category in soup.select('.book-category-list > .list-inline > li > a'): category_list.append(category.text.strip()) book_url = url + category['href'] book_res = requests.get(book_url) book_soup = BeautifulSoup(book_res.text, 'html.parser') books = [] for book in book_soup.select('.book-list > .book-list-item > .media > .media-body > h4 > a'): books.append(book.text.strip()) book_list.append(books) # 创建 DataFrame 并保存到 book.csv 文件中 df = pd.DataFrame({'category': category_list, 'books': book_list}) df.to_csv('book.csv', index=False, encoding='utf-8-sig') ```

阅读全文