英雄联盟排位比赛数据处理和特征工程1)数据样本的写入及对应数据信息的探索 2)数据预处理(比如:填补缺失值、归一化、数据类型转换或编码) 3)按过滤法对数据进行特征选择,挑选出最优特征数 4)对两类数据用PCA算法降到2维后,进行可视化展示。 5)对完整数据进PCA降维,用碎石图选择合适的降维后特征范围。 6)在一个图中绘制不同特征数对应KNN和RFC准确率效果折线对比图。 5) 给出数据特征处理前后以及PCA降维后交叉验证法得出KNN和随机森林RFC算法模型效果
时间: 2024-04-22 08:27:29 浏览: 140
特征工程及模型聚合,对获得的数据进行处理
1)数据样本的写入及对应数据信息的探索:
首先需要将数据样本写入程序中,并对数据进行探索。可以使用 Pandas 库中的 read_csv() 函数读取 CSV 文件,并使用 head() 函数查看前几行数据,使用 describe() 函数查看数据的基本统计信息,例如均值、标准差、最大值、最小值等。
2)数据预处理:
数据预处理包括填补缺失值、归一化、数据类型转换或编码等。可以使用 Pandas 库中的 fillna() 函数填补缺失值,使用 MinMaxScaler() 函数进行归一化,使用 LabelEncoder() 或 OneHotEncoder() 函数进行数据类型转换或编码等。
3)按过滤法对数据进行特征选择,挑选出最优特征数:
可以使用 Sklearn 库中的 SelectKBest() 函数按照特征和目标变量之间的关系进行筛选,挑选出最优特征数。
4)对两类数据用PCA算法降到2维后,进行可视化展示:
可以使用 Sklearn 库中的 PCA() 函数对数据进行降维,将数据降到二维后,使用 Matplotlib 库进行可视化展示。
5)对完整数据进PCA降维,用碎石图选择合适的降维后特征范围:
可以使用 Sklearn 库中的 PCA() 函数对数据进行降维,并使用碎石图(Scree plot)选择合适的降维后特征范围。
6)在一个图中绘制不同特征数对应KNN和RFC准确率效果折线对比图:
可以使用 Sklearn 库中的 KNN 和 RFC 算法对数据进行分类,并分别绘制不同特征数对应的准确率效果折线对比图。
7)给出数据特征处理前后以及PCA降维后交叉验证法得出KNN和随机森林RFC算法模型效果:
可以使用 Sklearn 库中的交叉验证函数对处理前后的数据以及PCA降维后的数据进行 KNN 和 RFC 算法模型训练和评估,并给出模型效果的评估指标,例如准确率、精度、召回率、F1 值等。
阅读全文