自建一个数据框,内容要求包含不同类型的、可分类的数据,例如有数值型的,有字符型的,可以按性别或者职业分类的。计算不同类别下,数值型数据的均值、方差等统计量,把这些变量组合成一个列表。
时间: 2024-09-27 09:10:43 浏览: 30
EDA/PLD中的LabVIEW的数值型数据对象
在R语言中,自建一个数据框(Data Frame)非常直观。首先,我们需要创建一个数据框,里面包含多种数据类型,如数值(numeric)和字符(character),以及分组变量如性别(factor)和职业(categorical)。假设我们有一个示例:
```R
# 创建一个数据框
df <- data.frame(
age = c(25, 30, 35, 40, 45), # 数值型 - 年龄
salary = c(50000, 60000, 70000, 80000, 90000), # 数值型 - 薪水
gender = c("Male", "Female", "Male", "Female", "Male"), # 字符型 - 性别
occupation = c("Engineer", "Teacher", "Doctor", "Lawyer", "Manager") # 分类型 - 职业
)
# 按性别对数值型数据进行分组并计算统计量
stats_by_gender <- aggregate(cbind(age, salary) ~ gender, df, FUN = function(x) c(mean = mean(x), sd = sd(x)))
# 对所有职业的年龄数据求平均值
average_age <- tapply(df$age, df$occupation, mean)
```
这里,`aggregate()`函数用于按性别对年龄和薪水求平均值和标准差;`tapply()`则用于按职业对年龄求平均值,结果分别存储在`stats_by_gender`和`average_age`两个列表中。
阅读全文