首页写一个python代码，爬取当当网书籍信息，包括:书名，价格，日期等，数据存储形式为Excel

写一个python代码，爬取当当网书籍信息，包括:书名，价格，日期等，数据存储形式为Excel

时间: 2024-12-14 13:17:43 浏览: 45

首先，你需要安装一些必要的Python库，如requests、BeautifulSoup用于网页抓取，以及pandas用于数据处理和Excel文件操作。这里是一个简单的示例，演示如何爬取当当网书籍的信息。请注意，由于网站结构可能会改变，这个例子可能无法直接运行，但它提供了一个基本思路： ```python import requests from bs4 import BeautifulSoup import pandas as pd def get_book_info(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') # 通常书籍信息在HTML的某个特定部分，需要根据实际页面结构调整 books_data = [] for book in soup.find_all('div', class_='book-item'): title = book.find('a', class_='product-title').text.strip() price = book.find('span', class_='price').text.strip() date = "信息获取不到" # 如果网站上没有显示更新时间，可以尝试解析其他元素或留空 books_data.append({'Title': title, 'Price': price, 'Date': date}) return books_data # 当当网搜索结果URL search_url = "https://list.dangdang.com/books?keyword=编程" books_list = get_book_info(search_url) # 创建DataFrame并将数据存储到Excel df_books = pd.DataFrame(books_list) df_books.to_excel('books_info.xlsx', index=False)

阅读全文

CSDN会员

开通CSDN年卡参与万元壕礼抽奖

海量 VIP免费资源千本正版电子书商城会员专享价千门课程&专栏

全年可省5,000元立即开通全年可省5,000元立即开通