R语言 数据清洗代码
时间: 2024-06-30 21:01:08 浏览: 175
在R语言中,数据清洗是一个关键步骤,用于处理和准备数据集以提高分析的质量。以下是一些常见的R代码片段用于数据清洗:
1. **删除重复行**:
```r
# 使用duplicated()和!运算符删除重复行
data <- data[!duplicated(data),]
```
2. **处理缺失值(NA)**:
- 删除含有缺失值的行或列:
```r
data <- na.omit(data) # 删除所有含有NA的行
data[, names(data) %in% colSums(is.na(data)) == 0] # 删除只含NA列的行
```
- 填充缺失值:
```r
data$column_name <- ifelse(is.na(data$column_name), "your_default_value", data$column_name)
```
3. **转换数据类型**:
```r
data$column_name <- as.character(data$column_name) # 将列转为字符类型
```
4. **标准化或编码分类变量**:
```r
data$column_name <- as.factor(data$column_name) # 将列编码为因子
```
5. **异常值检测和处理**:
```r
Q1 <- quantile(data$column_name, 0.25)
Q3 <- quantile(data$column_name, 0.75)
IQR <- Q3 - Q1
data[data$column_name < Q1 - 1.5 * IQR | data$column_name > Q3 + 1.5 * IQR,]$column_name <- NA
```