首页数据预处理和特征提取

数据预处理和特征提取

时间: 2024-05-03 09:12:14 浏览: 231

基于Python的智能金融算法-特征挖掘数据预处理和特征提取.zip

资源包含文件：设计报告word+演示PPT+项目源码及数据集以在训练集上的 5 折交叉验证结果作为文件名的一部分。最终几乎每个模型在训练集上的 5 折交叉验证结果都是 0.695.上传到验证集上之后在 0.717 以上，然后把利用 mic 互信息把这些结果进行融合，在验证集上可以达到 0.7222 的 AUC，但是在测试集上却只有 0.7053 的 AUC. 后来经过检查，发现测试集的特征缺失率比验证集的数据缺失率高一些，而且是大部分特征的缺失率在测试集上都比验证集上高一点。下面这张表展示了验证集上特征缺失率与测试集上特征缺失率做差之后的 value_counts。第一列代表验证集上特征缺失率减去测试集上特征缺失率的差值，右边的整数则表示缺失率差值等于左边的特征数目。对右边列的整数进行求和就是所有的特征数量。详细介绍参考：https://biyezuopin.blog.csdn.net/article/details/125366919

数据预处理是指在进行机器学习或深度学习任务之前对原始数据进行清洗、转换和整理的过程。常见的数据预处理操作包括缺失值处理、异常值处理、数据标准化、数据归一化、数据离散化等。缺失值处理主要是针对数据中存在的缺失值进行填补或删除。填补可以采用均值填补、中位数填补、众数填补或使用插值方法进行填补。删除可以直接删除含有缺失值的样本或特征。异常值处理是为了处理数据中的离群点或错误值。常见的方法有基于统计学方法的标准差法和箱线图法，以及基于机器学习算法的聚类方法和孤立森林方法。数据标准化是将数据按照一定的比例缩放，使其具有零均值和单位方差。常见的标准化方法有Z-score标准化和Min-Max标准化。数据归一化是将数据按照一定的范围进行缩放，使其落入指定的区间。常见的归一化方法有线性归一化和非线性归一化。数据离散化是将连续型数据划分为若干个离散的区间，常用于处理连续特征。常见的离散化方法有等宽离散化和等频离散化。特征提取是指从原始数据中提取出能够代表数据特征的信息。常见的特征提取方法有主成分分析(PCA)、线性判别分析(LDA)、独立成分分析(ICA)、奇异值分解(SVD)等。

阅读全文