使用 UCI Machine Learning Repository 的液体超声波流量计(liquid ultrasonic flowneter)数据Meter_D(见附件),进行多分类问题的 SVM 估计。其中,第 44 个变量为输出变量,表示流量计的四种不同状态(1 为Health,2 为Gas injection,3 为Installation effects,4为 Waxing)。前 43 个变量为流量计的一系列度量指标,均为数值型输入变量。研究目的是根据这些指标判断流量计的质量状况。 请根据下述题目要求,在附件R代码的基础上进行补充,并回答相关问题。 ● 将数据文件置于当前工作目录,使用命令read.csv(file = "Meter_D.csv", header = TRUE, sep = ",") 读入数据,并将第44个变量设为因子。 ● 使用set.seed(1),采用无放回抽样随机选取100个观测作为训练集,其余作为测试集。 (5) 单选题 基于测试集的错判率,选择线性核的最优损失惩罚超参数C(0.001, 0.01, 0.1, 1, 5, 10, 100, 1000),并画图展示。最优损失惩罚超参数 C 为( ),最优模型的测试误差约为( ) A 1 17.76% B 1 20.25% C 10 15.25% D 10 12.5%
时间: 2024-03-05 13:53:58 浏览: 44
根据题意,我们可以进行以下步骤:
1. 读入数据文件并将第44个变量设为因子:
```
data <- read.csv(file = "Meter_D.csv", header = TRUE, sep = ",")
data[,44] <- as.factor(data[,44])
```
2. 采用无放回抽样随机选取100个观测作为训练集,其余作为测试集:
```
set.seed(1)
train_index <- sample(1:nrow(data), 100, replace = FALSE)
train_data <- data[train_index, ]
test_data <- data[-train_index, ]
```
3. 进行数据标准化:
```
train_x <- scale(train_data[, 1:43])
train_y <- train_data[, 44]
test_x <- scale(test_data[, 1:43])
test_y <- test_data[, 44]
```
4. 基于测试集的错判率,选择线性核的最优损失惩罚超参数C,并画图展示:
```
library(e1071)
cost_values <- c(0.001, 0.01, 0.1, 1, 5, 10, 100, 1000)
test_errors <- rep(0, length(cost_values))
for (i in 1:length(cost_values)) {
svm_model <- svm(train_x, train_y, kernel = "linear", cost = cost_values[i])
pred_test <- predict(svm_model, test_x)
test_errors[i] <- mean(pred_test != test_y)
}
best_c <- cost_values[which.min(test_errors)]
plot(cost_values, test_errors, type = "b", xlab = "C", ylab = "Test error")
abline(v = best_c, lty = 2)
```
根据以上步骤,我们可以得到最优损失惩罚超参数C为10,最优模型的测试误差约为15.25%,因此答案为C 10 15.25%。
阅读全文