把sklearn的dataset分为多份
时间: 2023-11-09 13:04:37 浏览: 60
python鸢尾花数据基于sklearn使用不同的机器学习分类器
可以使用sklearn.model_selection中的train_test_split方法来将数据集分为训练集和测试集。该方法可以设置参数test_size来控制测试集的比例,random_state用于控制随机种子,以便多次运行时结果一致。例如:
```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)
```
上述代码将数据集iris分为训练集和测试集,测试集所占比例为30%。其中,X_train和y_train为训练集的特征和标签数据,X_test和y_test为测试集的特征和标签数据。
阅读全文