泰坦尼克号机器学习代码
时间: 2024-10-17 12:01:56 浏览: 17
泰坦尼克号机器学习项目是一个经典的预测任务,通常用于初学者入门数据科学和机器学习。它基于著名的历史事件——泰坦尼克号沉船事故,目标是通过乘客的各种特征(如年龄、性别、票价等),预测他们在船难中的存活概率。
在Python中,常用的库如pandas处理数据,NumPy做数值计算,sklearn构建模型。首先,你需要导入数据集,清洗缺失值,然后对类别特征编码,例如使用OneHotEncoder或者LabelEncoder。接着可以尝试使用逻辑回归、决策树、随机森林、支持向量机等算法训练模型,并通过交叉验证评估性能。最后,你可以选择性能最好的模型,在测试集上做出预测,并将结果提交到Kaggle这样的竞赛平台。
如果你想要编写一段简单的代码示例,可能会像这样:
```python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
# 加载数据
data = pd.read_csv("titanic.csv")
# 数据预处理
X = data.drop('Survived', axis=1)
y = data['Survived']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 特征缩放
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
# 训练模型
model = LogisticRegression()
model.fit(X_train, y_train)
# 预测并评估
predictions = model.predict(X_test)
```
阅读全文