我有一个数据集s,共有一万条数据,如何划分测试集和训练集
时间: 2023-07-09 14:24:33 浏览: 105
可以使用R中的caret
包中的createDataPartition
函数来实现训练集和测试集的划分。具体步骤如下:
- 加载
caret
包
library(caret)
- 假设数据集名称为
s
,使用createDataPartition
函数来进行训练集和测试集的划分,其中p
参数指定测试集所占的比例,times
参数指定划分的次数。
set.seed(123)
train_indexes <- createDataPartition(s$target_column, p = 0.7, times = 1)
train_data <- s[train_indexes$Resample1, ]
test_data <- s[-train_indexes$Resample1, ]
这段代码将数据集s
按照70%的比例划分为训练集和测试集,并将训练集和测试集分别存储在train_data
和test_data
中。其中set.seed(123)
是为了设置随机数种子,保证每次运行代码得到的结果一致。
注意,如果你想要进行多次划分并且每次划分的结果不同,可以将times
参数设置为大于1的值。另外,需要将target_column
替换为数据集中实际的目标列的列名。
相关推荐









