Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息
时间: 2023-11-21 18:04:22 浏览: 154
Python爬虫-某车之家二手车数据和二手车详情页数据
好的,下面是一个简单的 Python 爬虫程序,使用 lxml 解析器爬取汽车之家二手车信息:
```python
import requests
from lxml import etree
url = "https://www.che168.com/china/used/"
response = requests.get(url)
html = etree.HTML(response.text)
car_list = html.xpath("//ul[@class='viewlist_ul']/li")
for car in car_list:
title = car.xpath(".//a[@class='carinfo_title']/text()")[0]
price = car.xpath(".//p[@class='carinfo_price']/text()")[0]
km = car.xpath(".//p[@class='carinfo_km']/text()")[0]
year = car.xpath(".//p[@class='carinfo_year']/text()")[0]
print(title, price, km, year)
```
这段代码会先发送一个 GET 请求获取汽车之家二手车页面的 HTML 内容,然后使用 lxml 解析器解析 HTML,并通过 XPath 表达式获取到每辆二手车的标题、价格、公里数和年份信息。最后,将这些信息打印出来。
需要注意的是,如果要获取更多的二手车信息,可以通过修改 URL 中的参数来实现。例如,将 URL 修改为 `https://www.che168.com/china/used/o1s2i7`,可以获取到所有价格在 2 万元以下、公里数在 7 万公里以下的二手车信息。
阅读全文