数据分类学习：定义与实例解析

版权申诉

83 浏览量更新于2024-07-07 收藏 4.02MB PDF 举报

"01-第5章数据分类.pdf，主要介绍了数据分类的基本概念、定义以及数据集格式，通过中国大学MOOC平台进行在线学习。" 在机器学习领域，数据分类是一项基础且重要的任务，其目标是根据输入的特征对数据进行预定义类别的归属预测。第5章的数据分类主要探讨了以下几个核心知识点： 1. **分类的定义**：分类是一种监督学习方法，它涉及到将数据样本依据其属性特征映射到预先设定的类别中。这个过程通常基于归纳学习算法，如决策树、朴素贝叶斯、逻辑回归、支持向量机等，通过学习已知的属性向量与对应的类标签，来构建一个分类模型。 2. **数据集格式**：在分类问题中，数据集通常包含两部分：描述属性（或称为特征）和类别属性。描述属性是用于训练模型的输入变量，如年龄(Age)和薪水(Salary)；类别属性是需要预测的目标变量，如上述例子中的Class，可能有多个不同的类别（如c1, c2）。 3. **示例数据**：数据集通常以表格形式展示，例如： - 年龄：30, 薪水：高，类别：c1 - 年龄：25, 薪水：高，类别：c2 - 年龄：21, 薪水：低，类别：c2 - ... 这些实例展示了不同个体的属性值，可用于训练分类模型。 4. **分类问题的解决步骤**：一般包括数据预处理（如缺失值处理、异常值检测、特征选择等）、模型选择与训练、模型评估（如准确率、召回率、F1分数等）、模型调优（如参数调整）以及最终的预测应用。 5. **机器学习算法的应用**：不同的分类问题可能适合不同的算法。例如，线性问题可能选择逻辑回归，非线性问题可能选择决策树或神经网络，而支持向量机则适用于解决高维问题。每种算法都有其优缺点，需结合具体问题进行选择。 6. **交叉验证**：在模型训练过程中，为了提高模型泛化能力，通常会采用交叉验证技术，如k折交叉验证，将数据集分成k个子集，每次用k-1个子集训练模型，剩下的子集用来测试，重复k次并取平均结果。 7. **模型评估指标**：除了准确率外，还包括精确率、召回率、查准率、查全率和F1分数等，这些指标可以帮助我们全面地评估模型的性能。通过对中国大学MOOC上的这门课程的学习，读者可以掌握数据分类的基本原理和实践技巧，进一步提升在机器学习领域的分析和预测能力。

 预测的准确率常用于比较和评估分类器的性能，

它将每个类别看成同等重要，因此可能不适合用

来分析不平衡数据集。在不平衡数据集中，稀有

类别比多数类别更有意义。也就是说，需要考虑

错误决策、错误分类的成本问题。例如，在银行

贷款决策中，贷款给违规者的代价远远比由于拒

绝贷款给不违规者而造成生意的代价损失大得多；

在诊断问题中，实际没有问题的机器误诊为有问

题而产生的成本比没有诊断出问题而导致机器损

坏而产生的损失小得多。

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

2. 常用度量

真阳性率（True Positive Rate）是TP除以真实类别为yes的总数（TP+FN），即

FNTP

TPR





真阴性率（True Negative Rate）是TN除以真实类别为no的总数（FP+TN），即

TNFP

TNR





假阳性率（False Positive Rate）是FP除以真实类别为no的总数（FP+TN），即

TNFP

FPR





假阴性率（False Negative Rate）是FN除以真实类别为yes的总数（TP+FN），即

TPFN

FNR





中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

综合准确率是正确分类总数除以全体分类总数

FNFPTNTP

TNTP





准确率

知道这些“率”之后，对应的错误率则是1减去这些率。

另外，查全率（Recall）和查准率（Precision）是两个使用广

泛的度量，其定义为：

FPTP



查准率

FNTP



查全率

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

查准率确定分类器断定为正例的那部分记录中实际为

正例的记录所占的比例。查准率越高，分类器的假阳

性率就越低。查全率度量分类器正确预测的正例的比

例，如果分类器的查全率高，则很少将正例误分为负

例。实际上，查全率的值等于真阳性率。

分类算法的主要任务之一就是构建一个最大化查全率

和查准率的模型。可以将查全率和查准率合并成一个

称为F

的度量，Weka称F

为F-Measure。

FNFPTP











中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

3. 接受者操作特征曲线

接受者操作特征（Receiver Operating Characteristic，

ROC）曲线是显示分类器真阳性率和假阳性率之间折中的一

种图形化方法。在ROC曲线中，x轴为假阳性率，y轴为真

阳性率，曲线的每个点对应某个分类器归纳的模型。

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

中国大学MOOC中国大学MOOC

中国大学MOOC

剩余157页未读，继续阅读

念广隶

粉丝: 4w+
资源: 6万+

数据分类学习：定义与实例解析

《计算机网络》谢希仁版--第四章网络层.pdf

计算机网络-第5章习题答案.pdf

数学建模培训教程-第九章 随机模型.pdf

《计算机网络》谢希仁版--第一章概述.pdf

《统计学》各章习题doc-第一章练习题.pdf

第二章--招聘与配置2014.pdf

第3章-培训需求分析-习题.pdf

《大学计算机基础》第五版第1-4章课后习题答案.pdf

媒体与认知：第5章-统计学习方法-1.pdf

媒体与认知：第5章-统计学习方法-2.pdf

最新资源

数学建模培训教程-第九章随机模型.pdf