requests库用xpath爬取链家租房
时间: 2023-08-16 16:16:30 浏览: 88
要使用requests库和xpath来爬取链家租房的信息,可以按照以下步骤进行操作:
1. 首先,需要导入requests库和lxml库,用于发送请求和解析HTML页面。可以使用以下代码导入库:
```python
import requests
from lxml import etree
```
2. 然后,需要构造请求头和URL,发送请求获取HTML页面。可以使用以下代码发送请求:
```python
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
url = 'https://bj.lianjia.com/zufang/'
response = requests.get(url, headers=headers)
html_str = response.text
```
3. 接下来,可以使用lxml库的etree模块来解析HTML页面,并使用xpath表达式提取所需的房源信息。可以使用以下代码进行解析和提取:
```python
html = etree.HTML(html_str)
house_list = html.xpath('//div\[@class="content__list"\]/div\[@class="content__list--item"\]')
for house in house_list:
area = house.xpath('.//p\[@class="content__list--item--des"\]/a\[1\]/text()')\[0\]
community = house.xpath('.//p\[@class="content__list--item--des"\]/a\[2\]/text()')\[0\]
layout = house.xpath('.//p\[@class="content__list--item--des"\]/span\[1\]/text()')\[0\]
size = house.xpath('.//p\[@class="content__list--item--des"\]/span\[2\]/text()')\[0\]
orientation = house.xpath('.//p\[@class="content__list--item--des"\]/span\[3\]/text()')\[0\]
price = house.xpath('.//span\[@class="content__list--item-price"\]/em/text()')\[0\]
print(area, community, layout, size, orientation, price)
```
4. 最后,可以将提取到的房源信息保存到Excel文件中。可以使用pandas库来创建DataFrame对象,并使用to_excel方法将数据保存到Excel文件。可以使用以下代码进行保存:
```python
import pandas as pd
data = pd.DataFrame({
'地区': area_list,
'小区名': community_list,
'户型': layout_list,
'面积': size_list,
'朝向': orientation_list,
'价格(元/月)': price_list
})
data.to_excel('house_info.xlsx', index=False)
```
以上就是使用requests库和xpath爬取链家租房信息的步骤。通过发送请求获取HTML页面,使用xpath表达式提取所需的信息,并将提取到的信息保存到Excel文件中。
#### 引用[.reference_title]
- *1* *2* [利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中](https://blog.csdn.net/renhongbin614/article/details/104540204)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
- *3* [爬虫三:用xpath爬取链家网二手房信息](https://blog.csdn.net/qq_23860475/article/details/103505587)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]