train_test_split()函数的使用
时间: 2023-09-26 22:10:49 浏览: 98
`train_test_split()`函数是scikit-learn库中用于将数据集划分为训练集和测试集的函数。下面是使用`train_test_split()`函数的示例代码:
```python
from sklearn.model_selection import train_test_split
# 假设我们有特征数据X和目标变量数据y
# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
在上述示例中,我们将特征数据`X`和目标变量数据`y`传递给`train_test_split()`函数进行划分。函数的参数如下:
- `X`:特征数据集,可以是Numpy数组或Pandas DataFrame。
- `y`:目标变量数据集,可以是Numpy数组、Pandas Series或列表。
- `test_size`:测试集的比例,默认为0.25,将数据集划分为75%的训练集和25%的测试集。可以传入一个浮点数(0.0到1.0之间)表示比例,或者传入一个整数表示样本数量。
- `random_state`:随机数种子,用于控制随机划分的结果。设置相同的随机数种子将保证每次划分的结果一致。
`train_test_split()`函数会返回四个数组(或矩阵):训练集特征数据`X_train`、测试集特征数据`X_test`、训练集目标变量数据`y_train`和测试集目标变量数据`y_test`。您可以根据需要对返回的数据进行进一步的处理和使用。
请注意,在实际使用中,您可以根据需要调整参数,例如设置随机数种子,调整测试集的比例等。
阅读全文