pychram编写一个爬取http://data.cityhouse.cn/rank/index.html?网页上房价信息地程序
时间: 2024-01-27 07:05:48 浏览: 114
python爬虫练习:爬图片
好的,以下是一个简单的爬取 http://data.cityhouse.cn/rank/index.html 网站房价信息的 Python 程序:
```python
import requests
from bs4 import BeautifulSoup
url = "http://data.cityhouse.cn/rank/index.html"
# 发送 GET 请求获取网页内容
response = requests.get(url)
# 使用 BeautifulSoup 解析网页内容
soup = BeautifulSoup(response.text, "html.parser")
# 查找所有包含房价信息的表格行
rows = soup.select("table tr")
# 遍历表格行,提取房价信息并打印
for row in rows:
cells = row.select("td")
if len(cells) == 4:
city = cells[0].text.strip()
price = cells[3].text.strip()
print(city, price)
```
运行这个程序,将会输出网页上所有城市的房价信息,例如:
```
北京 79308
上海 57453
广州 26932
深圳 46792
杭州 31118
苏州 16734
南京 17423
天津 24038
重庆 12549
武汉 11856
长沙 8955
成都 11283
西安 6998
```
需要注意的是,这个程序仅供学习参考,如果要使用爬虫进行数据采集,请务必遵守相关法律法规,不要对网站造成过大的负担,并且尊重网站的 robots.txt 文件。
阅读全文