如何写泰坦尼克号数据集中各因素与生存率相关性分析代码,热力图可视化
时间: 2024-10-22 11:24:04 浏览: 78
在Python中,我们可以使用pandas库处理Titanic数据集,然后结合seaborn库进行相关性分析并用matplotlib或seaborn生成热力图。这里是一个简单的示例:
```python
# 导入所需库
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
# 加载Titanic数据集
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
titanic_data = pd.read_csv(url)
# 数据清洗(如缺失值处理、转换等)
titanic_data = titanic_data.dropna() # 简单处理缺失值
titanic_data['Age'].fillna(titanic_data['Age'].mean(), inplace=True) # 使用平均年龄填充年龄缺失值
# 定义列名与目标变量
columns_to_analyze = ['Survived', 'Pclass', 'Sex', 'SibSp', 'Parch', 'Embarked', 'Fare']
target_variable = 'Survived'
# 计算相关系数矩阵
corr_matrix = titanic_data[columns_to_analyze].corr()
# 创建热力图
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm') # 设置颜色映射和添加数值注释
plt.title('Titanic乘客特征与生存率相关性热力图')
plt.xlabel('特征')
plt.ylabel('特征')
# 显示图表
plt.show()
阅读全文