Sklearn实战指南：模型预处理与数据分类详解

5星 · 超过95%的资源需积分: 45 11 浏览量更新于2024-07-19 11 收藏 3.87MB PDF 举报

Sklearn使用手册中文版是一份详尽的指南，专为Python的数据科学和机器学习爱好者设计。该手册由Scikit-learnCookbook原著翻译而成，遵循Creative Commons BY-NC-SA 4.0协议，旨在帮助读者通过实际操作步骤理解并掌握sklearn库中的各种功能。第一章“模型预处理”是学习之旅的起点，作者Trent Hauck的讲解覆盖了关键的准备工作。主要内容涵盖以下几个方面： 1. **数据获取**：从外部数据源导入样本数据，这对于实战项目至关重要，因为真实世界的数据通常来自网络或其他API接口。 2. **模拟数据生成**：通过编程手段创建试验数据，便于模型验证和算法开发阶段的性能测试。 3. **数据标准化**：将数据调整到标准正态分布，确保模型处理的一致性和准确性。 4. **二元特征创建**：通过阈值处理生成二分类特征，这对于特征工程非常重要。 5. **分类变量处理**：编码分类特征，例如One-Hot编码或LabelEncoder，以便机器学习算法能理解。 6. **缺失值处理**：识别并填充缺失数据，常用的方法有平均值、中位数或模式填充。 7. **管道操作**：使用Pipeline模块对多个预处理步骤进行串联，简化流程。 8. **降维技术**：包括主成分分析(PCA)、因子分析、核PCA（非线性降维）、奇异值分解(SVD)和字典学习等，用于减少数据维度以提高模型效率。 9. **正态随机过程**：在回归问题中，用于模拟连续数据的生成和处理。 10. **自定义随机过程**：用户可以直接定义随机过程对象，以适应特定场景的需求。这部分内容强调了预处理在机器学习中的基础作用，它直接影响模型训练的效果。后续章节会结合sklearn库深入探讨模型的选择、训练和评估，而这一章的准备工作则为后续内容打下了坚实的基础。无论你是初学者还是经验丰富的开发者，Sklearn使用手册中文版都能提供实用且系统的指导，帮助你提升在sklearn框架下的数据处理和建模能力。

1.4用阈值创建二元特征

在前一个主题，我们介绍了数据转换成标准正态分布的方法。现在，我们看看另一

种完全不同的转换方法。

当不需要呈标准化分布的数据时，我们可以不处理它们直接使用；但是，如果有足

够理由，直接使用也许是聪明的做法。通常，尤其是处理连续数据时，可以通过建

立二元特征来分割数据。

Gettingready

通常建立二元特征是非常有用的方法，不过要格外小心。我们还是用 boston数据

集来学习如何创建二元特征。

首先，加载 boston数据集：

fromsklearnimportdatasets

boston=datasets.load_boston()

importnumpyasnp

Howtodoit...

与标准化处理类似，scikit-learn有两种方法二元特征：

preprocessing.binarize（一个函数）

preprocessing.Binarizer（一个类）

boston数据集的因变量是房子的价格中位数（单位：千美元）。这个数据集适合

测试回归和其他连续型预测算法，但是假如现在我们想预测一座房子的价格是否高

于总体均值。要解决这个问题，我们需要创建一个均值的阈值。如果一个值比均值

大，则为 1；否则，则为 0：

fromsklearnimportpreprocessing

new_target=preprocessing.binarize(boston.target,threshold=bos

ton.target.mean())

new_target[0,:5]

array([1.,0.,1.,1.,1.])

很容易，让我们检查一下：

(boston.target[:5]>boston.target.mean()).astype(int)

第一章模型预处理

----------------------------------------------------------------

-----------

ValueErrorTraceback(mostrecent

calllast)

<ipython-input-31-c9b5156c63ab>in<module>()

1fromscipy.sparseimportcoo

2spar=coo.coo_matrix(np.random.binomial(1,.25,100))

---->3preprocessing.binarize(spar,threshold=-1)

d:\programfiles\Miniconda3\lib\site-packages\sklearn\preprocessi

ng\data.pyinbinarize(X,threshold,copy)

718ifsparse.issparse(X):

719ifthreshold<0:

-->720raiseValueError('Cannotbinarizeasparsem

atrixwiththreshold'

721'<0')

722cond=X.data>threshold

ValueError:Cannotbinarizeasparsematrixwiththreshold<0

fit方法

binarizer类里面有 fit方法，但是它只是通用接口，并没有实际的拟合操

作，仅返回对象。

1.5分类变量处理

分类变量是经常遇到的问题。一方面它们提供了信息；另一方面，它们可能是文本

形式——纯文字或者与文字相关的整数——就像表格的索引一样。

因此，我们在建模的时候往往需要将这些变量量化，但是仅仅用简单的 id或者原

来的形式是不行的。因为我们也需要避免在上一节里通过阈值创建二元特征遇到的

问题。如果我们把数据看成是连续的，那么也必须解释成连续的。

Gettingready

这里 boston数据集不适合演示。虽然它适合演示二元特征，但是用来创建分类变

量不太合适。因此，这里用 iris数据集演示。

解决问题之前先把问题描述清楚。假设有一个问题，其目标是预测花萼的宽度；那

么花的种类就可能是一个有用的特征。

第一章模型预处理

剩余192页未读，继续阅读

静默虚空

粉丝: 51
资源: 9

Sklearn实战指南：模型预处理与数据分类详解

sklearn中文文档+Python英文文档

sklearn中文文档

python的sklearn包（win64位）

sklearn使用手册下载

sklearn_0.21.3中文手册（机器学习库）,sklearn中文手册pdf,Python

sklearn库完全使用手册中文版PDF最新版本

sklearn_0.21.3中文手册（机器学习库）,sklearn中文手册pdf,Python源码.zip

sklearn库中文版完全使用手册完整版PDF最新版本

sklearn库中文版完全使用手册

Sklearn 学习手册【ApacheCN 翻译】

最新资源