数据采集网址为链家广州租房https://gz.lianjia.com/zufang/;采集该网站广州所有城区的前5页的租房信息,采集信息包括:城区、房源标题、房源面积、房源朝向、价格;采集信息存储在excel文件中。
时间: 2024-01-07 18:05:05 浏览: 198
基于Python实现简单的链.家数据爬取和可视化系统+源代码+文档说明+界面截图(96分期末大作业)
好的,这是一个数据采集的任务。你需要使用 Python 编写一个爬虫程序来采集链家广州租房网站的信息,并将采集到的数据存储到 Excel 文件中。
以下是一个简单的爬虫程序示例,你可以参考它来完成你的任务:
```python
import requests
from bs4 import BeautifulSoup
import openpyxl
# 需要采集的城区列表
districts = ['tianhe', 'yuexiu', 'liwan', 'haizhu', 'panyu', 'baiyun', 'huangpugz', 'conghua', 'zengcheng', 'huadou']
# 创建 Excel 文件并设置表头
workbook = openpyxl.Workbook()
worksheet = workbook.active
worksheet.append(['城区', '房源标题', '房源面积', '房源朝向', '价格'])
# 循环遍历每个城区和每一页,并采集信息
for district in districts:
for page in range(1, 6):
url = f'https://gz.lianjia.com/zufang/{district}/pg{page}/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all('div', class_='content__list--item')
for item in items:
title = item.find('a', class_='content__list--item--aside')['title']
area = item.find('p', class_='content__list--item--des').text.split('/')[1]
direction = item.find('p', class_='content__list--item--des').text.split('/')[2]
price = item.find('span', class_='content__list--item-price').text
worksheet.append([district, title, area, direction, price])
# 保存 Excel 文件
workbook.save('lianjia.xlsx')
```
这个程序使用 requests 库来发送 HTTP 请求,使用 BeautifulSoup 库来解析 HTML 文档,并使用 openpyxl 库来创建和操作 Excel 文件。程序首先定义需要采集的城区列表,然后循环遍历每个城区和每一页,采集信息并将其添加到 Excel 文件中。最后,程序保存 Excel 文件并结束。
注意:在实际使用中,请遵守网站的爬虫规则并尊重网站的服务。不要频繁地发送请求或采集大量的数据,以免对网站造成不必要的负担。
阅读全文