python中的titanic
时间: 2023-10-14 14:07:47 浏览: 37
Titanic是一个常用的数据集,用于机器学习和数据分析的练习。它包含了1912年泰坦尼克号沉船事件中的乘客数据,包括乘客的个人信息、船舱等级、票价、是否生还等信息。在机器学习领域,通常使用Titanic数据集来预测乘客是否生还的概率,以此来测试模型的准确度和性能。Python中可以使用pandas库来读取和处理Titanic数据集,使用sklearn库来构建机器学习模型。
相关问题
python 实现titanic
Titanic 数据集是一个经典的数据挖掘案例,目标是对乘客的生存情况进行预测。以下是一个用 Python 实现的 Titanic 数据集预测模型的示例代码:
```python
# 导入所需的库
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
# 读取数据集
data = pd.read_csv('titanic.csv')
# 数据预处理
data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)
data['Age'].fillna(data['Age'].mean(), inplace=True)
data['Embarked'].fillna('S', inplace=True)
data = pd.get_dummies(data)
# 划分训练集和测试集
X = data.drop('Survived', axis=1)
y = data['Survived']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 构建决策树模型
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)
# 在测试集上进行预测
y_pred = clf.predict(X_test)
# 计算准确率
acc = accuracy_score(y_test, y_pred)
print('准确率:', acc)
```
在这个例子中,我们首先读取数据集,并对数据进行一些预处理,比如删除一些无关的特征,填充缺失值并进行独热编码。然后,我们将数据集划分为训练集和测试集,并使用决策树算法构建模型。最后,我们在测试集上进行预测,并计算出模型的准确率。
python以titanic数据集做茎叶图
好的,以下是在Python中使用titanic数据集绘制茎叶图的示例代码:
```python
import pandas as pd
import matplotlib.pyplot as plt
# 加载titanic数据集
titanic = pd.read_csv('titanic.csv')
# 提取年龄数据
ages = titanic['Age'].dropna()
# 计算每个年龄的十位数和个位数
tens = ages // 10
ones = ages % 10
# 绘制茎叶图
plt.figure(figsize=(12, 6))
plt.stem(tens, ones, linefmt='gray', markerfmt='.', basefmt=' ')
plt.xlabel('十位数')
plt.ylabel('个位数')
plt.title('Titanic乘客年龄茎叶图')
plt.show()
```
这段代码将绘制Titanic乘客年龄的茎叶图,其中十位数将显示在x轴上,个位数将显示在y轴上。您可以根据需要调整图形大小、标签和标题。