Python机器学习入门：实战六大算法详解

需积分: 8 11 浏览量更新于2024-06-28 收藏 13.59MB PDF 举报

本文档是一份全面的机器学习算法总结，涵盖了机器学习的基本概念、常用算法及其应用、评估指标以及Python编程实践。首先，文章从基础入手，详细解释了机器学习的几个核心概念，包括： 1. 常用算法：涵盖了线性回归、逻辑回归、k-means聚类、决策树、集成算法（如随机森林、AdaBoost和GradientBoosting）、支持向量机(SVM)、k-近邻(KNN)、线性判别分析(LDA)和朴素贝叶斯。这些算法分别适用于回归和分类任务，如预测连续值或识别类别。 2. 数据集划分：训练集、测试集和特征值的重要性被阐述，训练集用于训练模型，测试集用于评估模型性能，而特征值是实例的属性集合。 3. 机器学习步骤框架：包括数据预处理、模型训练、参数调整和模型评估的过程，强调了模型性能的多维度考量，如准确性、速度、强壮性和可扩展性。 4. 分类与回归问题：区分了这两种不同的预测类型，并介绍了sklearn库，它是Python中最常用的机器学习库，提供了一站式的解决方案，包括数据预处理、分类（如SVM、随机森林）、回归（如SVR、岭回归）、聚类（如k-Means）、降维（如PCA）等功能。 sklearn库的详细介绍突出了其在实际项目中的实用性和广泛性，对于初学者来说，这是一个极好的学习资源，可以帮助他们理解和实现各种机器学习算法。通过这份文档，读者可以系统地了解机器学习的基础理论，掌握如何使用Python工具进行实践操作，并学会评估和优化模型性能。无论是想要入门机器学习还是提升现有技能，这份资源都是一个理想的起点。

函数功能

model_selection.cross_val_score( ) 交叉验证

model_selection.LeaveOneOut( ) 留一法

model_selection.LeavePout( ) 留P法交叉验证

model_selection.GridSearchCV( ) 网格搜索

model_selection.RandomizedSearchCV( ) 随机搜索

model_selection.validation_curve( ) 验证曲线

model_selection.learning_curve( ) 学习曲线

3. 评估指标

3.1. 各种算法的评估指标

style="zoom:67%;"

3.2. 分类任务

二分类问题的混淆矩阵：

参数说明

y_true 1d array-like, or label indicator array / sparse matrix 真实目标值。

y_pred

1d array-like, or label indicator array / sparse matrix 分类器返回的估计

目标。

labels

list, optional 当average！='binary'时要包括的一组标签，如果average是

None，则为标签的顺序。可以排除数据中存在的标签，例如，以忽略多

数否定类的方式计算多类平均值，而数据中不存在的标签将导致宏平均值

中的0成分。对于多标签目标，标签是列索引。默认情况下，y_true和

y_pred中的所有标签均按排序顺序使用。在版本0.17中进行了更改：针

对多类问题改进了参数标签。

pos_label

str or int, 1 by default average ='binary'且数据为二进制的报告类。如果

数据是多类或多标签的，则将被忽略；设置labels= [pos_label]和

average！='binary'将仅报告该标签的分数。

average

对于多类/多标签目标，此参数是必需的。如果为None，则返回每个班级

的分数。否则，将根据数据的平均表现确定类型： - 'binary' : 仅报告

由pos_label指定的类的结果。仅当目标（y_ {true,pred}）为二进制时才适

用。 - 'micro' : 通过计算真正例、假负例和假正例的总数来全局计算指

标。 - 'macro' : 计算每个标签的指标，并找到其未加权平均值。没有

考虑标签不平衡。 - 'weighted' : 计算每个标签的指标，并找到它们受

支持的平均权重（每个标签的真实实例数）。这会更改‘macro’以解决标

签不平衡的问题；这可能导致F-score不在精确度和召回率之间。 -

'samples' : 计算每个实例的指标，并找到它们的平均值（仅对不同于

accuracy_score 的多标签分类有意义）。

sample_weight array-like of shape (n_samples,), default=None 样本权重。

zero_division

“warn”, 0 or 1, default=”warn” 设置零分频时返回的值。如果设置为“

warn”，则该值为0，但也会发出警告。

返回值说明

precision

float (if average is not None) or array of float, shape = [n_unique_labels] 二

进制分类中正类的精度，或者多类任务的每个类的精度的加权平均值。

返回值：

3. 召回率(查全率)：召回率代表的是实际为正样本的样本总体中预测正确的占比。精确度与召回率是

一对矛盾的度量，一般来说，精确率高的时候，召回率往往偏低；精确率低的时候，召回率往往偏

高。

对应sklearn包：

sklearn.metrics.recall_score(y_true, y_pred, *, labels=None, pos_label=1,

average='binary', sample_weight=None, zero_division='warn')

参数：

参数说明

y_true 1d array-like, or label indicator array / sparse matrix 真实目标值。

y_pred

1d array-like, or label indicator array / sparse matrix 分类器返回的估计

目标。

labels

list, optional 当average！='binary'时要包括的一组标签，如果average是

None，则是标签的顺序。可以排除数据中存在的标签，例如，以忽略多

数否定类的方式计算多类平均值，而数据中不存在的标签将导致宏平均值

中的0成分。对于多标签目标，标签是列索引。默认情况下，y_true和

y_pred中的所有标签均按排序顺序使用。在版本0.17中进行了更改：针

对多类问题改进了参数标签。

pos_label

str or int, 1 by default average ='binary'且数据为二进制的报告类。如果

数据是多类或多标签的，则将被忽略；设置labels=[pos_label]和

average！='binary'将仅报告该标签的分数。

average

对于多类/多标签目标，此参数是必需的。如果为None，则返回每个类的

得分。否则，将根据数据的平均表现确定类型： - 'binary' : 仅报告由

pos_label指定的类的结果。仅当目标（y_ {true，pred}）为二进制时才适

用。 - 'micro' : 通过计算真正例、假负例和假正例的总数来全局计算度

量。 - 'macro' : 计算每个标签的度量，并找到其未加权平均值。这没

有考虑标签不平衡。 - 'weighted' : 计算每个标签的度量，并找到它们

受支持的平均权重（每个标签的真实实例数）。这会更改‘macro’以解决

标签不平衡的问题；这可能导致F-score不在精确度和召回率之间。 -

'samples' : 计算每个实例的度量，并找到它们的平均值（仅对不同于

accuracy_score 的多标签分类有意义）。

sample_weight array-like of shape (n_samples,), default=None 样本权重。

zero_division

“warn”, 0 or 1, default=”warn” 设置零分频时返回的值。如果设置为“

warn”，则该值为0，但也会发出警告。

值

说明

recall

float (if average is not None) or array of float, shape = [n_unique_labels] 二进制

分类中的正例类的召回率或多类别任务的每个类别的召回率加权平均

返回值：

4. P-R曲线：以查准率为纵轴，查全率为横轴，就得到了查准率-查全率曲线，又被称为P-R曲线。P-

R曲线能直观地显示出学习器在样本总体上的查全率、查准率。如下图，学习器A优于学习器C(学

习器A的曲线完全包住学习器C)，但是学习器A与B很难比较，因为出现了交叉，平衡点(BEP)也就

是查准率等于查全率的时候，对应的坐标值，坐标值大的相对优一点。但BEP过于简化，因此常用

F1。

剩余144页未读，继续阅读

mseeding

粉丝: 1695
资源: 5

Python机器学习入门：实战六大算法详解

机器学习算法总结

机器学习算法总结.docx

机器学习算法总结1

机器学习算法对比：XGBoost与主流算法的深入分析

资深数据分析师所具的技能，用思维导图进行总结

Kotlin多平台库：Kotlin多平台库。 如果您发现或创建新的Kotlin Multiplatform库，欢迎使用PR

随机游走和强化学习

1家——学习ppt课件

腾讯漫画数据分析：可视化的Python爬虫与机器学习应用

蒙特卡洛算法在查询推荐系统中的应用研究

最新资源

Kotlin多平台库：Kotlin多平台库。如果您发现或创建新的Kotlin Multiplatform库，欢迎使用PR