用python爬取豆瓣读书top250
时间: 2023-02-28 19:40:36 浏览: 126
首先,需要准备一些必要的工具,包括 Python 的 requests 库和 lxml 库。你可以使用 pip 命令来安装这两个库:
```
pip install requests
pip install lxml
```
然后,就可以开始编写代码了。首先,我们需要导入这两个库:
```python
import requests
from lxml import html
```
接下来,我们可以使用 requests 库来发送 HTTP 请求,获取豆瓣读书 top250 的网页内容:
```python
url = "https://book.douban.com/top250"
response = requests.get(url)
```
如果请求成功,那么 response 变量中就包含了网页的内容。我们可以使用 lxml 库来解析 HTML,提取我们需要的信息。
下面是一个例子,展示了如何使用 lxml 库提取书名、评分和评价人数:
```python
root = html.fromstring(response.text)
# 书名
titles = root.xpath('//tr[@class="item"]/td[2]/div[1]/a/@title')
# 评分
ratings = root.xpath('//tr[@class="item"]/td[2]/div[2]/span[2]/text()')
# 评价人数
votes = root.xpath('//tr[@class="item"]/td[2]/div[2]/span[3]/text()')
# 打印结果
for title, rating, vote in zip(titles, ratings, votes):
print(f"书名: {title} 评分: {rating} 评价人数: {vote}")
```
上面的代码中,我们使用了 XPath 语法来选择 HTML 元素。具体的,我们选择了包含书籍信息的 `tr` 元素
阅读全文