python爬虫当当网图书信息
时间: 2023-09-28 17:07:58 浏览: 191
要爬取当当网的Python图书信息,可以使用Python编写爬虫程序来实现。首先,通过观察当当网的搜索URL,可以得到搜索关键字"Python"的URL链接为和。其中,是第一页的搜索结果,是第二页的搜索结果。爬虫程序可以通过模拟HTTP请求访问搜索结果页面,然后解析页面内容来获取图书信息。
以下是一个简单的示例代码,演示如何使用Python爬虫获取当当网的Python图书信息:
```python
import requests
from bs4 import BeautifulSoup
def get_book_info(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
book_list = soup.find_all('div', class_='name')
for book in book_list:
title = book.find('a').text.strip()
author = book.find('span', class_='t1').text.strip()
price = book.find('span', class_='search_now_price').text.strip()
print(f"书名: {title}, 作者: {author}, 价格: {price}")
# 爬取第一页的图书信息
url1 = "http://search.dangdang.com/?key=Python&act=input"
get_book_info(url1)
# 爬取第二页的图书信息
url2 = "http://search.dangdang.com/?key=Python&act=input&page_index=2"
get_book_info(url2)
```
这段代码使用了`requests`库发送HTTP请求,使用了`BeautifulSoup`库解析HTML页面。它通过指定的URL链接发送请求,并使用CSS选择器查找图书信息的相关元素。在示例中,我们获取了书名、作者和价格,并打印出来。
可以通过调用`get_book_info`函数来获取当当网的Python图书信息。传入不同的URL链接可以获取不同页数的图书信息。你可以根据需要,进一步处理获取到的图书信息,比如存储到数据库或写入文件中。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* *3* [【爬虫】4.5 实践项目——爬取当当网站图书数据](https://blog.csdn.net/qq_57268251/article/details/131177457)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"]
[ .reference_list ]
阅读全文