Python数据挖掘：特征抽取实战与技巧揭秘

版权申诉

185 浏览量更新于2024-06-26 收藏 1.37MB PDF 举报

本章节深入探讨了Python数据挖掘项目开发中的关键环节——特征抽取。在实际的数据挖掘过程中，特征抽取是至关重要的步骤，因为它直接影响到最终模型的性能和预测准确性。该部分首先强调了特征抽取在数据挖掘中的核心地位，通常其重要性超过了所使用的具体挖掘算法。然而，特征选择并非一项可以通过固定规则实现的任务，它更像一门艺术，需要结合直觉、专业知识以及丰富的经验。作者详细介绍了几种特征抽取的方法： 1. 从数据集中抽取特征：这包括识别原始数据集中存在的数值型和类别型变量，这些变量可以提供有价值的信息用于构建模型。 2. 创建新特征：通过对现有特征进行组合、转换或衍生，创造出新的属性，以增强模型的表达能力。 3. 选取好特征：这是一个主观且具有挑战性的过程，涉及到评估特征与目标变量的相关性、稳定性以及对模型复杂度的影响。 4. 创建转换器：通过编写代码或使用现成工具，对数据进行预处理，确保数据的质量和一致性，以便于模型的训练。特征抽取需要遵循一定的原则和策略： - 模型化现实：将非特征化的数据转化为机器学习算法可以理解的形式，比如通过决策树表示文学作品的主题或者电影中女性角色的塑造。 - 降低复杂性：简化现实世界的表述有助于提高模型的可操作性和效率，但必须以应用目标为导向，避免过度简化导致信息丢失。 - 特征选择的重要性：在聚类等应用中，特征的选择直接决定了分群的稳定性和结果的可解释性。随意选取可能会引入噪声，影响聚类效果的可靠性。本章节提供了关于如何使用Python工具（如转换器）进行特征抽取的实际操作指南，以及在实践中如何权衡直觉、专业领域知识和经验，以达到最佳的特征选择效果。学习者将在此过程中了解到数据挖掘中的实践技巧和方法，为项目的成功实施奠定基础。

68 第5 章用转换器抽取特征

[12, 13, 14],

[15, 16, 17],

[18, 19, 20],

[21, 22, 23],

[24, 25, 26],

[27, 28, 29]])

接着，把所有第二列的数值都改为1。

X[:,1] = 1

第一、三列特征值方差很大，而第二列方差为0。

array([[ 0, 1, 2],

[ 3, 1, 5],

[ 6, 1, 8],

[ 9, 1, 11],

[12, 1, 14],

[15, 1, 17],

[18, 1, 20],

[21, 1, 23],

[24, 1, 26],

[27, 1, 29]])

这时再来创建VarianceThreshold转换器，用它处理数据集。

from sklearn.feature_selection import VarianceThreshold

vt = VarianceThreshold()

Xt = vt.fit_transform(X)

输出Xt后，我们发现第二列消失了。

array([[ 0, 2],

[ 3, 5],

[ 6, 8],

[ 9, 11],

[12, 14],

[15, 17],

[18, 20],

[21, 23],

[24, 26],

[27, 29]])

输出每一列的方差。

print(vt.variances_)

下面输出结果表明第一、三列包含有价值信息，第二列方差为0，不包含具有区别意义的信息。

array([ 74.25, 0. , 74.25])

无论什么时候，拿到数据后，先做下类似简单、直接的分析，对数据集的特点做到心中有数。

方差为0的特征不但对数据挖掘没有丝毫用处，相反还会拖慢算法的运行速度。

5.2 特征选择 69

选择最佳特征

特征很多的情况下，怎么选出最佳的几个，可有点难度。它与解决数据挖掘问题自身相关，

计算量很大。正如第4章讲到的，随着特征数量的增加，寻找子集的任务复杂度呈指数级增长。

寻找最佳特征组合的时间复杂度同样是指数级增长的。

其中一个变通方法是不要找表现好的子集，而只是去找表现好的单个特征（单变量），依据

是它们各自所能达到的精确度。分类任务通常是这么做的，我们一般只要测量变量和目标类别之

间的某种相关性就行。

scikit-learn提供了几个用于选择单变量特征的转换器，其中SelectKBest返回k个最佳

特征，

SelectPercentile返回表现最佳的前r%个特征。这两个转换器都提供计算特征表现的

一系列方法。

单个特征和某一类别之间相关性的计算方法有很多。最常用的有卡方检验（χ

）。其他方

法还有互信息和信息熵。

我们可以测试单个特征在Adult数据集上的表现。首先，选取下述特征，从pandas数据框中抽

取一部分数据。

X = adult[["Age", "Education-Num", "Capital-gain", "Capital-loss",

"Hours-per-week"]].values

接着，判断Earnings-Raw（税前收入）是否达到五万美元，创建目标类别列表。如果达到，

类别为

True，否则，类别为False。代码如下：

y = (adult["Earnings-Raw"] == ' >50K').values

再使用SelectKBest转换器类，用卡方函数打分，初始化转换器。

from sklearn.feature_selection import SelectKBest

from sklearn.feature_selection import chi2

transformer = SelectKBest(score_func=chi2, k=3)

调用fit_transform方法，对相同的数据集进行预处理和转换。结果为分类效果较好的三

个特征。代码如下：

Xt_chi2 = transformer.fit_transform(X, y)

生成的矩阵只包含三个特征。我们还可以得到每一列的相关性，这样就可以知道都使用了哪

些特征。还是看下代码：

print(transformer.scores_)

输出结果如下：

剩余37页未读，继续阅读

好知识传播者

粉丝: 1687

Python数据挖掘：特征抽取实战与技巧揭秘

Python项目开发实战_大数据分析处理_编程案例解析实例详解课程教程.pdf

Python数据挖掘项目开发实战_大数据处理_编程案例解析实例详解课程教程.pdf

Python项目开发实战_数据挖掘与分析-Bilibili视频爬虫_编程案例解析实例课程教程.pdf

数据挖掘技术详解：南航李静教授理论结合广东移动实战案例

数据挖掘技术详解：从数据仓库到知识发现

数据挖掘技术详解：理论与电信领域应用

【Python机器学习实战详解】：案例研究与参数函数的应用技巧

【Python大数据实战秘籍】：20个案例深度解析与实践技巧

CMIP5数据处理实战：Python编程从入门到精通

数据挖掘揭示宜居城市的秘密：五一建模案例应用解析

最新资源