python中怎样确定训练集和测试集各自的样本数量和特征维数;
时间: 2023-09-06 07:07:46 浏览: 50
在Python中,可以使用sklearn库中的train_test_split函数来将数据集划分为训练集和测试集,并且可以通过numpy库的shape函数来获取训练集和测试集各自的样本数量和特征维数。
例如,假设数据集X和标签y已经准备好了,可以使用以下代码将数据集划分为训练集和测试集,并获取它们各自的样本数量和特征维数:
```python
from sklearn.model_selection import train_test_split
import numpy as np
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# 获取训练集和测试集的样本数量和特征维数
train_samples, train_features = np.shape(X_train)
test_samples, test_features = np.shape(X_test)
print('训练集样本数量为:', train_samples)
print('训练集特征维数为:', train_features)
print('测试集样本数量为:', test_samples)
print('测试集特征维数为:', test_features)
```
这样就可以获取训练集和测试集各自的样本数量和特征维数了。
相关问题
已经划分完成的训练集和测试集分别导入不同的csv文件中,怎样确定训练集和测试集各自的样本数量和特征维数
可以使用pandas库来读取已经划分好的训练集和测试集的csv文件,并使用shape属性来获取它们各自的样本数量和特征维数。
例如,假设已经将训练集和测试集分别保存在train.csv和test.csv文件中,可以使用以下代码来读取这两个文件并获取它们的样本数量和特征维数:
```python
import pandas as pd
# 读取训练集文件
train_data = pd.read_csv('train.csv')
# 获取训练集的样本数量和特征维数
train_samples, train_features = train_data.shape
print('训练集样本数量为:', train_samples)
print('训练集特征维数为:', train_features)
# 读取测试集文件
test_data = pd.read_csv('test.csv')
# 获取测试集的样本数量和特征维数
test_samples, test_features = test_data.shape
print('测试集样本数量为:', test_samples)
print('测试集特征维数为:', test_features)
```
这样就可以获取训练集和测试集各自的样本数量和特征维数了。
python 绘制数据集中训练集和测试集的样本数量分布饼状图
可以使用Python的数据可视化库matplotlib来绘制训练集和测试集样本数量的分布饼状图。下面是一个简单的示例代码:
```python
import matplotlib.pyplot as plt
# 假设训练集和测试集的样本数量
train_samples = 800
test_samples = 200
# 饼状图的标签
labels = ['训练集', '测试集']
# 饼状图的数据
sizes = [train_samples, test_samples]
# 饼状图的颜色
colors = ['#ff9999','#66b3ff']
# 绘制饼状图
plt.pie(sizes, labels=labels, colors=colors, autopct='%1.1f%%', startangle=90)
# 设置图形的标题
plt.title('训练集和测试集样本数量分布')
# 显示图形
plt.axis('equal')
plt.show()
```
运行以上代码,将会生成一个显示训练集和测试集样本数量分布的饼状图。