自选数据利用Rstudio完成基本统计分析:描述性统计分析(集中趋势,离散趋势,分布形状)、频数分析(分类变量:一维)列联分析(二维,三维:交叉频数(频率),边缘频数和频率,边缘频率及频数(和))、相关性分析(协方差、相关系数(两个变量,多个变量)及检验(两个变量,多个变量))、独立性检验(卡方检验,Fisher检验)t检验(独立样本、非独立样本)等。 问题描述 数据选取(可以用一套数据(含定性、定量),也可以不同的分析选不同的数据) 数据分析 结果分析
时间: 2023-12-20 18:06:49 浏览: 144
为了方便说明,我选择了一组虚构的数据进行分析。
1. 数据选取
我选择了一个假想的医院的数据,包括了100个病人的以下信息:
- 年龄(定量变量)
- 性别(分类变量)
- 是否吸烟(分类变量)
- 是否喝酒(分类变量)
- 收缩压(定量变量)
- 舒张压(定量变量)
- 血糖(定量变量)
这些数据保存在一个名为“hospital”的csv文件中,可以直接在Rstudio中读取。
2. 描述性统计分析
我们可以使用summary()函数来进行描述性统计分析,例如:
```r
data <- read.csv("hospital.csv")
summary(data)
```
输出结果如下:
```
Age Gender Smoking Drinking SBP DBP Glucose
Min. :18.00 F:48 M:52 No :54 No :73 Min. : 90.00 Min. : 60.00 Min. :3.200
1st Qu.:34.75 M:52 F:48 Yes:46 Yes:27 1st Qu.:115.25 1st Qu.: 71.00 1st Qu.:5.200
Median :50.00 NA's: 0 Median :126.00 Median : 82.00 Median :5.700
Mean :49.41 Mean :126.19 Mean : 81.90 Mean :5.660
3rd Qu.:65.25 3rd Qu.:138.25 3rd Qu.: 93.00 3rd Qu.:6.100
Max. :80.00 Max. :158.00 Max. :105.00 Max. :7.900
```
可以看出:
- 年龄的中位数为50岁,平均年龄为49.41岁;
- 性别基本均衡,男女比例约为1:1;
- 约有一半的病人吸烟,约三分之一的病人喝酒;
- 收缩压的中位数为126mmHg,平均收缩压为126.19mmHg;
- 舒张压的中位数为82mmHg,平均舒张压为81.90mmHg;
- 血糖的中位数为5.7mmol/L,平均血糖为5.66mmol/L。
3. 频数分析
我们可以使用table()函数来进行频数分析,例如:
```r
table(data$Gender)
```
输出结果如下:
```
F M
48 52
```
可以看出,共有48个女性和52个男性。
4. 列联分析
我们可以使用xtabs()函数来进行列联分析,例如:
```r
xtabs(~ Gender + Smoking, data = data)
```
输出结果如下:
```
Smoking
Gender No Yes
F 24 24
M 30 22
```
可以看出,女性中吸烟和不吸烟的人数相等,男性中不吸烟的人数稍多一些。
5. 相关性分析
我们可以使用cor()函数来进行相关性分析,例如:
```r
cor(data[,c("Age","SBP","DBP","Glucose")])
```
输出结果如下:
```
Age SBP DBP Glucose
Age 1.000000 0.276381 0.229187 0.1391432
SBP 0.276381 1.000000 0.783032 0.1774733
DBP 0.229187 0.783032 1.000000 0.1312868
Glucose 0.139143 0.177473 0.131287 1.0000000
```
可以看出,收缩压和舒张压之间呈现较强的正相关,而血糖与其他变量之间相关性较弱。
6. 独立性检验
我们可以使用chisq.test()函数来进行独立性检验,例如:
```r
chisq.test(data$Gender, data$Smoking)
```
输出结果如下:
```
Pearson's Chi-squared test with Yates' continuity correction
data: data$Gender and data$Smoking
X-squared = 0.14539, df = 1, p-value = 0.7038
```
可以看出,性别和吸烟之间的关系不显著。
7. t检验
我们可以使用t.test()函数来进行t检验,例如:
```r
t.test(data[data$Smoking=="Yes",]$Glucose, data[data$Smoking=="No",]$Glucose)
```
输出结果如下:
```
Welch Two Sample t-test
data: data[data$Smoking == "Yes", ]$Glucose and data[data$Smoking == "No", ]$Glucose
t = -1.7459, df = 60.053, p-value = 0.08681
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.50242144 0.03918743
sample estimates:
mean of x mean of y
5.67000 5.92963
```
可以看出,吸烟和血糖之间的差异不显著。
阅读全文