首页pychram编写一个爬取http://data.cityhouse.cn/rank/index.html?网页上房价信息地程序

pychram编写一个爬取http://data.cityhouse.cn/rank/index.html?网页上房价信息地程序

时间: 2024-01-27 07:05:48 浏览: 114

python爬虫练习：爬图片

python 爬虫练习项目：爬图片，目标网站 http://www.win4000.com/ 美桌图片主要思路：该网站存在’http://www.win4000.com/meinvtag’ + str(i) + ‘_1.html’ 这样的一个链接形式的多个图片分类集合页面，暂时叫做tag页面吧，每个tag下面有5页组成（range(1, 6): # 共5个页面）， 1、获取所有tag页面：遍历所有tag页面，寻找r.status_code 为 200的页面，同时分析页面，通过find(‘h2’)的标签，寻找此tag页面的名称，将存在的页面的名称和地址放入字典返回。 def get_al

好的，以下是一个简单的爬取 http://data.cityhouse.cn/rank/index.html 网站房价信息的 Python 程序： ```python import requests from bs4 import BeautifulSoup url = "http://data.cityhouse.cn/rank/index.html" # 发送 GET 请求获取网页内容 response = requests.get(url) # 使用 BeautifulSoup 解析网页内容 soup = BeautifulSoup(response.text, "html.parser") # 查找所有包含房价信息的表格行 rows = soup.select("table tr") # 遍历表格行，提取房价信息并打印 for row in rows: cells = row.select("td") if len(cells) == 4: city = cells[0].text.strip() price = cells[3].text.strip() print(city, price) ``` 运行这个程序，将会输出网页上所有城市的房价信息，例如： ``` 北京 79308 上海 57453 广州 26932 深圳 46792 杭州 31118 苏州 16734 南京 17423 天津 24038 重庆 12549 武汉 11856 长沙 8955 成都 11283 西安 6998 ``` 需要注意的是，这个程序仅供学习参考，如果要使用爬虫进行数据采集，请务必遵守相关法律法规，不要对网站造成过大的负担，并且尊重网站的 robots.txt 文件。

阅读全文