鸢尾花数据集的PCA-Relief特征选择与数据标准化方法研究

下载需积分: 0 | DOCX格式 | 176KB | 更新于2024-08-04 | 144 浏览量 | 举报

本文献针对鸢尾花数据集进行深入研究，该数据集常用于分类任务，包含150个样本，分为3类，每类50个，每个样本由4个属性组成。作者首先回顾了文献中的关键观点，如数值标准化对数据分析结果的影响和维归约的重要性，以及机器学习中维归约算法（如PCA和Relief）的基础理论和实现方法。在实际操作中，数据预处理是关键步骤。尽管数据集已预先处理过，但仍需执行标准化和特征选择。数据标准化被用来解决不同指标间的量纲和数量级差异问题，通过z-score方法确保各属性值在相同的尺度上，消除数值较大或较小的指标对分析结果的主导性。该文中介绍了一个名为`featureNormalize`的函数，用于计算每个属性的均值和标准差，并根据这些统计量对数据进行标准化。特征选择是另一个核心环节，它旨在从原始特征中选出最具信息价值的部分，以提升模型性能。特征选择的目标是减少冗余和无关特征，降低计算复杂度，同时保持模型的预测精度。这通常涉及寻找一个最优特征子集，该子集能在特定评价标准下，在训练和测试数据上表现出色。特征选择涉及到多种策略，如过滤方法、包裹方法和嵌入方法，它们各自依据不同的准则进行特征评估和选择。本文研究了鸢尾花数据集的预处理和特征工程，特别是在标准化和特征选择这两个关键步骤上的技术应用。通过这样的处理，作者旨在优化数据质量，提升分类算法的效果，为后续的机器学习建模打下坚实基础。

2018 年 7 月云南大学学生论文 Jul., 2018

第 3 页共 4 页

实现如下：

def featureNormalize(X):

'''归一化数据标准差'''

n = X.shape[1]

mu = zeros((1,n));

sigma = zeros((1,n))

mu = mean(X,axis=0)

sigma = std(X,axis=0)

for i in range(n):

X[:,i] = (X[:,i]-mu[i])/sigma[i]

return (X)

2.2 特征选择

特征选择，即是指从全部特征中选取一个特征子集，剔除不相关、冗余、没有差异刻画能力的特征，

从而达到减少特征个数、减少训练或者运行时间、提高模型精确度的作用。

如何做特征选择呢，如果要从全部特征中选择一个最优的子集，使得其在一定的评价标

准下，在当前训练和测试数据上表现最好。

从这个层面上理解，特征选择可以看作三个问题：

1.从原始特征集中选出固定数目的特征，使得分类器的错误率最小这是一个无约束的

组合优化问题；

2.对于给定的允许错误率，求维数最小的特征子集，这是一种有约束的最优化问题；

3.在错误率和特征子集的维数之间进行折中。

上述 3 个问题都是一个

难问题，当特征维度较小时，实现起来可行，但是当维度较大

时，实现起来的复杂度很大，所以实际应用中很难实用。上述三种特征选择都属于

难的问

题。由于求最优解的计算量太大，需要在一定的时间限制下寻找能得到较好次优解的算法。

以下我们使用基于维归约的主成分分析和基于加权特征选择的 Relief 算法求取次优解。

2.2.1 PCA 算法

主成分分析（Principal Component Analysis），是一种用于探索高维数据的技术。PCA

通常用于高维数据集的探索与可视化。还可以用于数据压缩，数据预处理等。PCA 可以把

可能具有线性相关性的高维变量合成为线性无关的低维变量，称为主成分（principal

components），新的低维数据集会尽可能的保留原始数据的变量，可以将高维数据集映射到

剩余12页未读，继续阅读

阿汝娜老师

粉丝: 32

鸢尾花数据集的PCA-Relief特征选择与数据标准化方法研究

旋进电子衍射研究：镁钽酸钙微波介质陶瓷的晶体结构解析

产品服务供应链中预测信息分享的合作策略研究

CIM系统在炼油企业的应用与模型分析

0818刘茂森.rar

遥感图像数字处理 丰茂森 编

数据中台介绍-张茂森.pdf

张茂森 - 滴滴敏捷数据中台实践.pdf

基于机械臂的机场行李智能搬运视觉识别系统研究_李茂森.caj

基于马氏链的感知无线电信道状态预测及容量估计_后茂森.zip

Phase Transition Domains in Ca[(Mg1/3Ta2/3)0.9Ti0.1]O3 Complex Perovskite Dielectric Ceramics in <001>c Direction

最新资源

遥感图像数字处理丰茂森编