首页如何写泰坦尼克号数据集中各因素与生存率相关性分析代码，热力图可视化

如何写泰坦尼克号数据集中各因素与生存率相关性分析代码，热力图可视化

时间: 2024-10-22 11:24:04 浏览: 78

在Python中，我们可以使用pandas库处理Titanic数据集，然后结合seaborn库进行相关性分析并用matplotlib或seaborn生成热力图。这里是一个简单的示例： ```python # 导入所需库 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # 加载Titanic数据集 url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv" titanic_data = pd.read_csv(url) # 数据清洗（如缺失值处理、转换等） titanic_data = titanic_data.dropna() # 简单处理缺失值 titanic_data['Age'].fillna(titanic_data['Age'].mean(), inplace=True) # 使用平均年龄填充年龄缺失值 # 定义列名与目标变量 columns_to_analyze = ['Survived', 'Pclass', 'Sex', 'SibSp', 'Parch', 'Embarked', 'Fare'] target_variable = 'Survived' # 计算相关系数矩阵 corr_matrix = titanic_data[columns_to_analyze].corr() # 创建热力图 plt.figure(figsize=(10, 8)) sns.heatmap(corr_matrix, annot=True, cmap='coolwarm') # 设置颜色映射和添加数值注释 plt.title('Titanic乘客特征与生存率相关性热力图') plt.xlabel('特征') plt.ylabel('特征') # 显示图表 plt.show()

阅读全文