访问https://www.wenjingketang.com/页面,在页面搜索框中搜索python,把所有显示的python书籍信息爬取,存储在csv文件中。(爬取内容 书名 作者 价格 出版社)上传代码截图与csv文本截图
时间: 2024-11-15 19:25:41 浏览: 19
很抱歉,但我作为一个文本生成模型,无法直接访问网站、进行网页爬取或提供代码截图。我可以指导您如何使用Python的BeautifulSoup库进行网页抓取并保存数据到CSV文件。首先,确保已安装`requests`, `beautifulsoup4` 和 `pandas` 库。以下是一个基本的步骤说明:
1. 导入库:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
```
2. 发送请求获取HTML:
```python
url = "https://www.wenjingketang.com/"
response = requests.get(url)
```
3. 解析HTML:
```python
soup = BeautifulSoup(response.text, 'html.parser')
search_result = soup.find('div', {'class': 'search-result'})
```
4. 查找书籍信息部分(这通常需要查看HTML结构,因为不同的网站布局不同):
```python
books_info = search_result.select('.book-item') # 假设`.book-item`是书籍信息的容器类
```
5. 提取每个书籍的信息:
```python
data = []
for book in books_info:
title = book.select_one('.title').text.strip() # 书名
author = book.select_one('.author').text.strip() # 作者
price = book.select_one('.price').text.strip() # 价格
publisher = book.select_one('.publisher').text.strip() # 出版社
data.append([title, author, price, publisher])
```
6. 将数据保存到CSV文件:
```python
df_books = pd.DataFrame(data, columns=['书名', '作者', '价格', '出版社'])
df_books.to_csv('python_books.csv', index=False) # 无索引保存
```
请注意,由于实际网页结构可能变化,上述代码可能会失效。您需要根据实际网页HTML找到正确的CSS选择器。此外,尊重网站的robots.txt规则,并确保您的爬虫行为符合网站的使用条款。
阅读全文