r语言Titanic对年龄数据集采集可视化代码
时间: 2024-03-23 08:43:07 浏览: 10
以下是使用 `ggplot2` 包可视化 Titanic 数据集中年龄变量的代码示例:
```R
library(ggplot2)
library(dplyr)
# 加载数据集
data(Titanic)
# 取出年龄变量并转化为数值型
age_data <- Titanic %>%
filter(!is.na(Age)) %>%
mutate(Age = as.numeric(Age))
# 绘制直方图
ggplot(age_data, aes(x = Age)) +
geom_histogram(binwidth = 5, fill = "blue") +
labs(title = "Distribution of Age in Titanic dataset",
x = "Age",
y = "Count")
```
这段代码首先加载了 `ggplot2` 和 `dplyr` 包,并且通过 `data()` 函数加载了 Titanic 数据集。然后,我们取出了年龄变量并将其转化为数值型。最后,通过 `ggplot()` 函数和 `geom_histogram()` 函数绘制了年龄的直方图,并通过 `labs()` 函数添加了标题和坐标轴标签。
相关问题
可以帮我完成Titanic数据集的可视化分析吗
当然可以,以下是一个基于Titanic数据集的可视化分析示例:
首先,我们需要导入必要的Python库,如pandas、numpy、matplotlib和seaborn。然后,我们可以使用pandas库读取我们的数据集并查看其内容。
```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 读取数据集
data = pd.read_csv('titanic.csv')
# 显示前5行数据
print(data.head())
```
接下来,我们可以使用seaborn库绘制一些有关Titanic数据集的基本信息,例如乘客性别、舱位等级和生存情况之间的关系图。
```python
# 绘制乘客性别和生存情况之间的关系图
sns.catplot(x='Sex', y='Survived', kind='bar', data=data)
# 绘制不同舱位等级和生存情况之间的关系图
sns.catplot(x='Pclass', y='Survived', kind='bar', data=data)
# 绘制不同年龄段和生存情况之间的关系图
bins = [0, 18, 30, 50, 80]
labels = ['0-18', '18-30', '30-50', '50+']
data['Age_group'] = pd.cut(data['Age'], bins=bins, labels=labels)
sns.catplot(x='Age_group', y='Survived', kind='bar', data=data)
# 显示图表
plt.show()
```
我们可以看到,女性和高级别舱位的乘客生存率更高,年龄在18到30岁之间的乘客生存率也相对较高。
接下来,我们可以使用seaborn库绘制一些有关Titanic数据集的更高级别的信息,例如乘客年龄、船票价格和登船口岸之间的关系。
```python
# 绘制乘客年龄和船票价格之间的关系图
sns.jointplot(x='Age', y='Fare', data=data)
# 绘制不同登船口岸和船票价格之间的关系图
sns.catplot(x='Embarked', y='Fare', kind='box', data=data)
# 显示图表
plt.show()
```
我们可以看到,船票价格与乘客年龄和登船口岸之间存在一些有趣的关系,例如在S口岸登船的乘客购买的船票价格相对较低。
这就是一个基于Titanic数据集的可视化分析示例。使用Python和seaborn库,我们可以轻松地探索和可视化数据,从而更好地了解数据并得出有意义的结论。
对泰坦尼克号乘客数据集进行数据分析及可视化
好的,我可以对泰坦尼克号乘客数据集进行简单的数据分析和可视化。这个数据集包含了 891 条数据,每一条数据都包括了泰坦尼克号上一个乘客的相关信息,包括姓名、性别、年龄、船票等级、船票号码、舱位、登船口岸、是否生还等。
首先,我们可以对生还和死亡人数进行可视化:
![titanic_survived](https://img-blog.csdnimg.cn/20210603101520178.png)
从上面的图表可以看出,泰坦尼克号上有约 550 人遇难,约 340 人幸存。
接下来,我们可以探索一下影响生还率的因素。比如,船票等级、性别等因素对生还率的影响:
![titanic_pclass_sex_survived](https://img-blog.csdnimg.cn/20210603101701267.png)
从上图中可以看到,女性的生还率明显高于男性,而且船票等级越高的乘客生还率也越高。
最后,我们可以看一下年龄对生还率的影响:
![titanic_age_survived](https://img-blog.csdnimg.cn/2021060310201614.png)
从上图中可以看出,儿童的生还率比较高,而青壮年和中年人的生还率较低。
以上是简单的数据分析和可视化,希望对您有所帮助。