指标 2021年 2020年 2019年 2018年 2017年 2016年 2015年 2014年 2013年 2012年 旅客运输平均运距(公里) 237.98 199.18 200.8 190.76 177.5 164.5 154.68 140.96 129.87 87.76 铁路旅客运输平均运距(公里) 366.34 375.14 401.82 419.16 436.38 447.02 471.85 487.8 503.12 518.25 公路旅客运输平均运距(公里) 71.31 67.32 68.07 67.88 67.03 66.3 66.35 63.34 60.7 51.92 水运旅客运输平均运距(公里) 20.27 22.01 29.42 28.44 27.44 26.56 27 28.27 29.03 30.09 民用航空旅客运输平均运距(公里) 1482.14 1510.68 1773.71 1751.13 1724.75 1716.97 1669.62 1616.08 1598.11 1573.69对这个csv文件进行数据分析,用R语言
时间: 2023-11-16 17:06:19 浏览: 172
好的,我可以帮你完成这个任务。以下是针对该CSV文件的数据分析过程:
1. 导入数据
首先,我们需要将数据导入到R语言中。可以使用以下代码将数据读入一个名为“data”的数据框中:
```
data <- read.csv("your_file_name.csv", header = TRUE)
```
2. 数据概览
使用以下代码可以查看数据的前几行和最后几行,以及数据的列名和数据类型:
```
head(data)
tail(data)
str(data)
```
3. 数据清洗
在进行数据分析之前,我们需要对数据进行清洗。本数据集中,由于各年份数据的列名均相同,因此我们可以将各年份数据合并为一列。可以使用以下代码实现:
```
data$average_distance <- rowMeans(data[,2:11], na.rm=TRUE)
```
该代码将第二列至第十一列的数据取平均值,然后将结果存储在一个名为“average_distance”的新列中。na.rm=TRUE表示在计算平均值时忽略缺失值。
4. 数据分析
现在,我们可以对数据进行分析了。以下是几个常见的数据分析任务:
(1)计算各交通方式(公路、铁路、水运、民用航空)的平均运距:
```
aggregate(data$average_distance, by=list(data$transportation_mode), FUN=mean)
```
该代码将数据按交通方式分组,然后计算各组的平均值。
(2)计算各年份的平均运距:
```
aggregate(data$average_distance, by=list(data$year), FUN=mean)
```
该代码将数据按年份分组,然后计算各组的平均值。
(3)绘制各交通方式的平均运距折线图:
```
library(ggplot2)
ggplot(data, aes(x=year, y=average_distance, group=transportation_mode, color=transportation_mode)) + geom_line() + labs(title="Average Distance by Transportation Mode", x="Year", y="Average Distance")
```
该代码使用ggplot2包创建一个折线图,每条折线代表一种交通方式,x轴表示年份,y轴表示平均运距。
以上是针对该CSV文件的数据分析过程。如果您有其他需求,可以进一步说明,我会尽力提供帮助。
阅读全文