用python模块化爬虫安居家客深圳二手房房源列表且存储到excel中
时间: 2024-03-24 11:36:29 浏览: 70
好的,这是一个很好的问题。我们可以使用Python的requests库来发送HTTP请求,并使用BeautifulSoup库来解析HTML响应。然后,我们可以使用pandas库将数据存储到Excel文件中。下面是一些示例代码:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 请求URL
url = 'https://sz.anjuke.com/sale/p{}/'
# 定义请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299'
}
# 定义数据存储列表
data_list = []
# 定义函数,用于获取房源信息
def get_house_info(page):
response = requests.get(url.format(page), headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
house_list = soup.select('.list-item')
for house in house_list:
title = house.select('.house-title')[0].get_text().strip()
address = house.select('.address')[0].get_text().strip()
price = house.select('.price-det')[0].get_text().strip()
data_list.append([title, address, price])
# 循环获取房源信息
for page in range(1, 11):
get_house_info(page)
# 将数据存储到Excel文件中
df = pd.DataFrame(data_list, columns=['房源标题', '地址', '价格'])
df.to_excel('安居客深圳二手房房源列表.xlsx', index=False)
```
这些代码将爬取安居客深圳二手房房源列表的前10页数据,并将数据存储到名为“安居客深圳二手房房源列表.xlsx”的Excel文件中。你可以根据自己的需求修改这些代码,以适应你的数据爬取和存储要求。
阅读全文