写一个python代码,爬取当当网书籍信息,包括:书名,价格,日期等,数据存储形式为Excel
时间: 2024-12-14 13:17:43 浏览: 45
首先,你需要安装一些必要的Python库,如requests、BeautifulSoup用于网页抓取,以及pandas用于数据处理和Excel文件操作。这里是一个简单的示例,演示如何爬取当当网书籍的信息。请注意,由于网站结构可能会改变,这个例子可能无法直接运行,但它提供了一个基本思路:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
def get_book_info(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
# 通常书籍信息在HTML的某个特定部分,需要根据实际页面结构调整
books_data = []
for book in soup.find_all('div', class_='book-item'):
title = book.find('a', class_='product-title').text.strip()
price = book.find('span', class_='price').text.strip()
date = "信息获取不到" # 如果网站上没有显示更新时间,可以尝试解析其他元素或留空
books_data.append({'Title': title, 'Price': price, 'Date': date})
return books_data
# 当当网搜索结果URL
search_url = "https://list.dangdang.com/books?keyword=编程"
books_list = get_book_info(search_url)
# 创建DataFrame并将数据存储到Excel
df_books = pd.DataFrame(books_list)
df_books.to_excel('books_info.xlsx', index=False)
阅读全文