逻辑回归案列泰坦尼克号乘客生还的数据集
时间: 2023-12-25 13:04:36 浏览: 94
泰坦尼克号乘客生还数据集数据报告1
逻辑回归是一种常用的分类算法,可以用于泰坦尼克号乘客生还的数据集。以下是逻辑回归案例的步骤:
1. 导入数据集并进行数据预处理,包括缺失值填充、特征选择等。
2. 将数据集分为训练集和测试集。
3. 使用逻辑回归模型进行训练。
4. 对测试集进行预测并计算准确率。
以下是Python代码示例:
```python
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# 导入数据集
data = pd.read_csv('titanic.csv')
# 数据预处理
data['Age'].fillna(data['Age'].mean(), inplace=True)
data.drop(['Cabin', 'Name', 'Ticket'], axis=1, inplace=True)
data['Embarked'].fillna('S', inplace=True)
data['Sex'] = data['Sex'].map({'female': 0, 'male': 1}).astype(int)
data['Embarked'] = data['Embarked'].map({'S': 0, 'C': 1, 'Q': 2}).astype(int)
# 特征选择
X = data.drop(['Survived', 'PassengerId'], axis=1)
y = data['Survived']
# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
# 使用逻辑回归模型进行训练
lr = LogisticRegression()
lr.fit(X_train, y_train)
# 对测试集进行预测并计算准确率
y_pred = lr.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)
```
阅读全文