二手房数据统计python代码
时间: 2024-06-30 09:01:04 浏览: 190
在Python中,统计二手房数据通常会涉及到数据处理、清洗、分析等多个步骤。以下是一个简单的例子,展示如何使用Pandas库进行数据加载、基本统计和可视化:
```python
# 导入所需库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 假设我们有一个CSV文件存储了二手房数据,名为'second_hand_homes.csv'
# 加载数据
data = pd.read_csv('second_hand_homes.csv')
# 数据预处理:检查缺失值
print("Missing values in each column:")
print(data.isnull().sum())
# 数据清洗:处理缺失值(根据实际情况选择填充、删除或插值)
data = data.dropna() # 删除含有缺失值的行
# 统计基本信息
summary_stats = data.describe()
print("\nSummary statistics:")
print(summary_stats)
# 分析价格分布,例如计算平均价、中位数和四分位数
mean_price = data['price'].mean()
median_price = data['price'].median()
q1, q3 = data['price'].quantile([0.25, 0.75])
print(f"Mean price: {mean_price}, Median price: {median_price}")
print(f"Price IQR (Q1-Q3): {q3 - q1}")
# 可视化房价分布
plt.figure(figsize=(10, 6))
plt.hist(data['price'], bins=20, alpha=0.5)
plt.title("Distribution of House Prices")
plt.xlabel("Price")
plt.ylabel("Frequency")
plt.show()
# 如果需要按区域统计价格,可以对'area'列进行分组然后计算价格统计值
area_groups = data.groupby('area')
area_stats = area_groups['price'].agg(['mean', 'median', 'count'])
print("\nPrice stats by area:")
print(area_stats)
阅读全文