数据预处理：缺失值处理与特征选择策略

需积分: 0 17 浏览量更新于2024-07-01 收藏 1.24MB PDF 举报

"特征工程是数据分析过程中的关键步骤，它涉及到数据预处理、特征选择以及缺失值处理等多个方面。在处理数据时，经常会遇到唯一属性，例如数据库中的自增主键，这类属性对样本分布没有贡献，应当删除。另一方面，若某个属性的方差极小，说明其区分度低，可设定阈值剔除方差小于该阈值的属性。在处理缺失值时，有三种主要策略：直接使用含有缺失值的数据（部分算法支持）、删除含有缺失值的样本（可能导致信息损失）以及缺失值补全，后者包括均值插补、同类均值插补、建模预测等方法。" 在特征工程中，首先需要对数据进行预处理，去除无用或冗余的信息。例如，数据库中的自增主键等唯一属性往往与样本的本质特性无关，仅用于数据库管理，因此在分析时应将其移除，以避免干扰模型训练。另一方面，属性的方差是衡量其区分样本能力的重要指标，如果某属性的方差接近于零，表示所有样本在此属性上的取值几乎相同，不具备区分不同样本的能力，这种情况下可以设定阈值，如方差低于该阈值则删除该属性。处理缺失值是数据预处理的另一个核心任务。缺失值的产生可能由客观原因（如数据采集故障）或人为原因（如漏录、不愿透露信息等）引起。处理缺失值的方法主要包括： 1. 直接使用含有缺失值的数据：某些算法（如决策树）能够处理缺失值，但可能会因忽略信息而影响模型性能。 2. 删除含有缺失值的样本：简单但可能导致信息丢失，特别是当缺失值比例较大时。 3. 缺失值补全：常用方法有均值插补（用属性平均值填充缺失值）、同类均值插补（根据其他属性的类别来确定均值）以及更复杂的建模预测（如使用KNN、回归等方法预测缺失值）、高维映射、多重插补和压缩感知及矩阵补全等。这些方法旨在尽可能保留原始数据信息，但计算复杂度较高，且补全的准确性直接影响最终模型的性能。特征工程涉及对数据的深入理解和处理，包括识别并移除无用属性，处理方差小的特征，以及有效地处理缺失值，以提高模型的预测能力和泛化能力。在实际应用中，需根据具体问题和数据特性选择合适的预处理策略。

2022/4/27 8_feature_selection

huaxiaozhuan.com/统计学习/chapters/8_feature_selection.html 4/18

可以将该问题转化为 LASSO 等价形式，然后通过近端梯度下降法来求解。

1.5.2

矩阵补全

矩阵补全 matrix completion 解决的问题是：

其中

为观测矩阵，其中有很多缺失值。

为

中所有的有数值的下标的集合。

为需要恢复的稀疏信号，

为矩阵

的秩。

该最优化问题也是一个

难问题。

考虑到

在集合

上的凸包是

的核范数 nuclear norm ：

其中

表示

的奇异值。于是可以通过最小化矩阵核范数来近似求解：

该最优化问题是一个凸优化问题，可以通过半正定规划 Semi-Definite Programming:SDP 求解。

理论研究表明：若

的秩为

，则只需要观察

个元素就能够完美恢复出

。

二、特征编码

2.1.

特征二元化

特征二元化的过程是将数值型的属性转换为布尔值的属性。通常用于假设属性取值为取值分布为伯努利分布

的情形。

特征二元化的算法比较简单。

对属性

指定一个阈值

。

如果样本在属性

上的值大于等于

，则二元化之后为

。

如果样本在属性

上的值小于

，则二元化之后为

。

阈值

是一个超参数，其选取需要结合模型和具体的任务来选择。

剩余17页未读，继续阅读

江水流春去

粉丝: 51
资源: 352

数据预处理：缺失值处理与特征选择策略

特征工程1.ipynb

特征工程：特征工程

特征工程之特征选择

特征工程操作练习 1.rar

特征工程和xgboost调优案例.zip

第2章 特征工程 2 2.1. 数据集 2 2.1.1. 可用数据集 2 2.1.2. sklearn数据集 4 2.1.3.

python特征工程的数据处理过程20210728.rar

飞桨常规赛：点击反欺诈预测8月第1名方案，分数89.32，基于Catboost树模型结合特征工程构建点击反欺诈预测模型.zip

风控“魔镜杯”---特征工程.zip

融360-26页PPT详解自动化特征工程和自动建模在风控场景的应用-2020.8-26页2020精品报告.pdf

最新资源

第2章特征工程 2 2.1. 数据集 2 2.1.1. 可用数据集 2 2.1.2. sklearn数据集 4 2.1.3.