首页python爬虫案例xpath

python爬虫案例xpath

时间: 2023-12-26 17:27:23 浏览: 55

以下是一个使用XPath进行网页数据爬取的Python爬虫案例： ```python import requests from lxml import etree # 发送HTTP请求获取网页源代码 url = "http://example.com" # 替换为你要爬取的网页地址 response = requests.get(url) html = response.text # 将网页源代码加载到etree对象中 tree = etree.HTML(html) # 使用XPath进行数据提取 xxdz = tree.xpath('//tr[@bgcolor="#FFFFFF"]//a[@target="_blank"]/strong/text()') qy = tree.xpath('//tr[@bgcolor="#FFFFFF"]//a[contains(@href,"?dq")]/text()') fx = tree.xpath('//tr[@bgcolor="#FFFFFF"]//a[contains(@href,"?fwtype")]/text()') hx = tree.xpath('//tr[@bgcolor="#FFFFFF"]//a[contains(@href,"?hx")]/text()') mhj = tree.xpath('//tr[@bgcolor="#FFFFFF"]/td/text()') # 打印提取的数据 print("详细地址：", xxdz) print("区域：", qy) print("房型：", fx) print("户型：", hx) print("面积价格：", mhj) ``` 这个案例中，我们使用了requests库发送HTTP请求获取网页源代码，然后使用lxml库中的etree模块将网页源代码加载到etree对象中。接着，我们使用XPath表达式从etree对象中提取所需的数据。最后，我们打印出提取的数据。