python爬虫当当网
时间: 2023-11-08 16:49:31 浏览: 116
基于python当当网垃圾评论检测研究论文-爬虫.doc
使用Python爬虫爬取当当网的数据可以分为以下几个步骤:
1. 确定目标网站和爬虫策略:确定需要爬取哪些页面和数据,选择合适的爬虫策略,比如使用requests库发送HTTP请求,使用beautifulsoup库解析HTML等。
2. 发送HTTP请求获取页面内容:使用requests库发送HTTP请求获取目标网站的页面内容。
3. 解析HTML获取所需数据:使用beautifulsoup库对页面内容进行解析,提取出所需要的数据。
4. 存储数据:将获取到的数据存储到本地文件或者数据库中。
下面是一个爬取当当网图书信息的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求获取页面内容
url = 'http://search.dangdang.com/?key=python&act=input'
response = requests.get(url)
html = response.text
# 解析HTML获取所需数据
soup = BeautifulSoup(html, 'html.parser')
book_list = soup.find_all('li', class_='bigimg')
for book in book_list:
title = book.find('a', class_='pic')['title']
author = book.find('div', class_='pub').text.strip().split('/')[0]
price = book.find('span', class_='search_now_price').text.strip()
print(title, author, price)
# 存储数据
# 将数据存储到本地文件或者数据库中
```
这段代码首先发送HTTP请求获取当当网以“python”为关键词的搜索结果页面的内容,然后使用beautifulsoup库解析HTML,提取出每本图书的标题、作者和价格,并打印输出。最后可以将获取到的数据存储到本地文件或者数据库中。
阅读全文