机器学习实践：入门特征工程与数据降维详解

版权申诉

5星 · 超过95%的资源 198 浏览量更新于2024-09-10 1 收藏 716KB PDF 举报

"机器学习理论到实践-特征工程-小白入门解析" 是一篇针对机器学习初学者的指南，主要探讨了特征工程这一关键步骤。特征工程是机器学习流程中的核心环节，它涵盖了数据预处理、特征提取和特征选择等多个子任务。首先，数据生成虽然不是严格意义上的特征工程，但它在数据准备阶段至关重要，因为数据是机器学习的基础，如何构造和生成数据也属于特征构建的范畴。数据预处理包括处理缺失值、特征编码（例如one-hot编码）、数据归一化或标准化，以及清洗异常点，这些都是为了确保数据的质量和一致性。特征提取和选择是数据降维的重要手段，它们帮助降低模型输入的维度，解决维度灾难的问题，提高算法效率并减少过拟合风险。特征提取通常涉及线性和非线性变换，如主成分分析（PCA）的线性降维，以及通过核技巧扩展到非线性空间。非线性降维方法如SVD或t-SNE等，可以捕捉数据的复杂结构。特征选择则是在原始特征集中挑选最有价值的部分，常用的方法有过滤式（基于统计量评估特征重要性）、封装式（通过优化算法寻找最优特征子集）和嵌入式（如L1或L2正则化）。每种方法都有其特定的优势和适用场景，例如非负矩阵分解适用于保持数据非负性，字典学习允许基于任意基向量表示特征，而局部线性嵌入则强调特征之间的局部线性关系。特征工程是一个既包含技术细节又需实践经验的过程，它直接影响到模型的性能和结果。通过理解并掌握这些方法，初学者能够更好地理解和应用机器学习，从而在实践中提升模型的效能。"

特征工程

1、数据降维

2、特征提取

3、特征选择



一、数据降维

一、特征工程

特征工程是一个很大的概念，实在找不到合适的词，语句来描述特征工程。为了直观的学习特征工程，还是从特征

工程处理的流程来窥视特征工程为何物？

1、数据的生成，这部分严格意义上说不属于特征工程范畴。因为数据都没有的话，谈何学习，但是数据即是特

征，如何生成数据也是特征生成的过程。在工程上，数据的生成是非常重要的部分，也称特征构建。

2、数据预处理，缺损值，特征编码，归一化/标准化，数据清洗（异常点）

3、特征提取和选择

一般来说，特征工程之后的特征作为模型学习的输入。在特征工程中，特征提取和特征选择一般通过模型去学习，

所以特征工程本身就涉及到模型。这里，笔者理解特征工程为特征表示，是对数据的一种表示。其中，数据生成和

数据预处理比较泛，没有相对严格的处理方式，经验性较强。特征提取和特征选择则有非常多成熟的方法，一般来

讲特征提取和特征选择是一个数据降维的过程。

二、数据降维

数据降维有以下几点好处：

1、避免维度灾难，导致算法失效，或者时间复杂度高

2、避免高维数据中引入的噪声，防止过拟合

3、压缩存储，可视化分析

数据降维的方法有特征提取和特征选择两种方式。特征提取理论上是一种坐标变换，将原始数据特征上进行线性非

线性变换到目标空间进行表示；而特征选择则是直接在原始数据特征上进行选择，选出的特征集是原始特征集的子

集。特征提取的降维方法可以根据线性和非线性进行划分（非线性降维一般是在线性降维方法上加上核技巧）。特

征选择的方法可以分为过滤式和封装式两种，过滤式特征选择是采用一些特征重要性的度量方式来对特征进行选

择，过滤掉一些不重要的特征。封装式特征选择是采用一些优化搜索策略随机选择一些特征子集根据算法最终的性

能进行特征选择。另外有一种嵌入在学习算法中的特征选择方法采用正则化来进行稀疏，如L1，L2范数进行正则化

约束，当然正则化项的最终目标不是降维，而是使得解稀疏，也可以达到数据降维效果。

不同的数据降维方法除了实现降维目标的作用，同时具有各自的特点，比如主成分分析，降维后的各个特征在坐标

上是正交；非负矩阵分解，因为在一些文本，图像领域数据要求非负性，非负矩阵分解在降维的同时保证降维后的

数据均非负；字典学习，可以基于任意基向量表示，特征之间不再是独立，或者非负；局部线性嵌入，是一种典型

的流型学习方法，具有在一定邻域保证样本之间的距离不变性。

下载后可阅读完整内容，剩余7页未读，立即下载

普通网友

粉丝: 13w+

机器学习实践：入门特征工程与数据降维详解

理解机器学习：入门必备-面试题解析

SPSS Modeler数据挖掘与机器学习教程及实践案例解析

深度学习入门全解析：从基础到实战

机器学习理论到实践-统计概率模型-小白入门解析

机器学习理论到实践-树模型-小白入门解析

详解AI学习路线-小白入门必学

TensorFlow 2 学习笔记——从底层函数解析到Keras应用（小白入门）

汇编语言教程从小白到入门

C语言小白入门必读：基础笔记全解析

Git命令及原理深入解析-全汉化入门教程

最新资源