图 2-2 链家网页 url 头部
response=requests.get(url,headers=headers)#,headers=headers
response.encoding=response.apparent_encoding
soup=BeautifulSoup(response.text,'html.parser')# BeautifulSoup 解析
第三步使用各种选择器解析提取数据。比如提取 div 中数据如下。
totaldivlist=soup.find_all("div", attrs={"class","content__list--item"})
第四步使用 csv 存储数据。
csv_file = open("cdlianjia.csv", "w", newline='')
csv_writer = csv.writer(csv_file, delimiter=',')
csv_writer.writerow([house_name, house_layout,house_direction, house_area,area,
address,price])
2.1.2 数据可视化:
第 1 步:使用 pandas 分别获取成都市各个区房租数据。
# 获取所属区
areas = list(Date.groupby('所属区').size().index)
#每个区房租平均价钱
area_mean_price=[]
#每个区房屋平均面积
area_mean_house_area=[]
#每个区平均每平米房租价钱
area_mean_perhouseareaprice=[]
第 2 步:计算成都各个区房租相关数据。
for i in range(len(price_num_total)):
price_num_all=price_num_all+price_num_total[i]
#当前区房租平均价钱
price_mean=price_num_all/len(price_num_total)
#存入房租平均价钱
area_mean_price.append(price_mean)
第 3 步:使用 matplotlib 展示相关数据。