(2)打开“配套资源\第5章\sy5-1-2.py”,补全程序,完成以下功能:将原始数据集划分为训练集(train se1)和测试集(test set)两部分,测试集和训练集的划分比例为2:8,设定随机数的编号为8.保证在重复试验中可得到相同的切分结果。from sklearn.model_selection import ___________ # 数据集切分包 s = "机器学习的研究涉及概率论统计学逼近论凸分析算法复杂度理论多门学科是人工智能的核心" X, y = list(s), range(40) X_train, X_test, y_train, y_test = train_test_split(_____________________) # 按要求切分数据集 print("测试集:", _______)
时间: 2024-03-27 13:40:20 浏览: 141
s72033-adventerprisek9-mz.151-2.SY16.bin
补全程序如下:
```python
from sklearn.model_selection import train_test_split # 数据集切分包
s = "机器学习的研究涉及概率论统计学逼近论凸分析算法复杂度理论多门学科是人工智能的核心"
X, y = list(s), range(40)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=8) # 按要求切分数据集
print("测试集:", X_test)
```
程序中,我们首先将字符串s转换为一个列表X和一个从0到39的整数列表y。然后,我们使用train_test_split()函数将数据集划分为训练集和测试集,其中test_size参数指定了测试集的比例(这里是0.2,即20%);random_state参数设置了随机数编号,以确保在重复试验中得到相同的切分结果。最后,我们打印出X_test,即测试集。
阅读全文