python爬虫案例xpath
时间: 2023-12-26 17:27:23 浏览: 55
以下是一个使用XPath进行网页数据爬取的Python爬虫案例:
```python
import requests
from lxml import etree
# 发送HTTP请求获取网页源代码
url = "http://example.com" # 替换为你要爬取的网页地址
response = requests.get(url)
html = response.text
# 将网页源代码加载到etree对象中
tree = etree.HTML(html)
# 使用XPath进行数据提取
xxdz = tree.xpath('//tr[@bgcolor="#FFFFFF"]//a[@target="_blank"]/strong/text()')
qy = tree.xpath('//tr[@bgcolor="#FFFFFF"]//a[contains(@href,"?dq")]/text()')
fx = tree.xpath('//tr[@bgcolor="#FFFFFF"]//a[contains(@href,"?fwtype")]/text()')
hx = tree.xpath('//tr[@bgcolor="#FFFFFF"]//a[contains(@href,"?hx")]/text()')
mhj = tree.xpath('//tr[@bgcolor="#FFFFFF"]/td/text()')
# 打印提取的数据
print("详细地址:", xxdz)
print("区域:", qy)
print("房型:", fx)
print("户型:", hx)
print("面积价格:", mhj)
```
这个案例中,我们使用了requests库发送HTTP请求获取网页源代码,然后使用lxml库中的etree模块将网页源代码加载到etree对象中。接着,我们使用XPath表达式从etree对象中提取所需的数据。最后,我们打印出提取的数据。
相关推荐
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)