数据集来自product-classification.csv包含9个分类的6万多条数据,每个样本拥有93个属性,所有属性的取值均已被离散化,读入数据,并查看数据分布情况,将数据集进行划分:70%训练、30%验证代码
时间: 2024-03-20 22:45:07 浏览: 152
影评情感分析数据集-可用于多类别分类
好的,您的要求已经记录下来了。关于您的问题,以下是使用Python的示例代码:
```python
import pandas as pd
from sklearn.model_selection import train_test_split
# 读入数据
data = pd.read_csv('product-classification.csv')
# 查看数据分布情况
print(data.groupby('class').size())
# 划分数据集
train_data, val_data = train_test_split(data, test_size=0.3, random_state=42)
# 输出训练集和验证集的大小
print('训练集大小:', len(train_data))
print('验证集大小:', len(val_data))
```
这段代码首先使用Pandas库读入数据集,并使用`groupby`方法按类别统计每个类别的数据数量。接着使用`train_test_split`方法将数据集划分为训练集和验证集,其中`test_size`参数设置为0.3表示验证集占总数据集的30%,`random_state`参数设置为42是为了保证每次划分结果都是相同的。最后输出训练集和验证集的大小。
阅读全文