泰坦尼克号幸存者的统计数据或预测分析代码
时间: 2024-09-30 13:13:32 浏览: 36
泰坦尼克号灾难是一个著名的统计学案例,人们经常使用它来进行数据分析和机器学习示例。幸存者统计数据通常包括年龄、性别、社会经济地位、船票等级等因素与生存率之间的关系。例如,历史数据显示女性和儿童有更多的生存机会,而头等舱乘客相比三等舱乘客有更高的存活率。
在Python中,你可以使用Pandas库来处理数据,NumPy进行数值计算,SciKit-Learn进行预测分析。下面是一个简单的线性回归或分类模型(如Logistic Regression或决策树)的预测分析代码片段:
```python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
# 加载数据(假设已经读入一个CSV文件)
data = pd.read_csv("titanic_data.csv")
X = data[['age', 'sex', 'class', 'fare']] # 特征
y = data['survived'] # 目标变量
# 数据预处理,编码分类变量
X = pd.get_dummies(X)
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 训练模型
model = LogisticRegression()
model.fit(X_train, y_train)
# 预测并评估性能
predictions = model.predict(X_test)
accuracy = model.score(X_test, y_test)
```
这只是一个简化的例子,实际分析可能需要更复杂的特征工程和技术,比如特征选择、特征缩放、模型调参等。
阅读全文