Python初学者指南：机器学习中的分类、准确率与数据预处理

需积分: 5 158 浏览量更新于2024-08-05 收藏 164KB DOCX 举报

"python初学者解析.docx" 在Python编程领域，初学者首先需要理解的是基础概念，包括分类问题、准确率、聚类问题、召回率、有监督学习以及参数传递等核心概念。分类问题在机器学习中至关重要，它涉及到根据样本特征将其归类到预定义的类别中。二元分类处理两种类别，而多元分类则处理三个或更多类别。准确率是评估分类模型性能的关键指标，表示模型正确预测的比例。聚类问题则是无监督学习的一种形式，目标是将数据自组织成不同的组或簇，无需预先知道类别信息。这在数据探索和模式发现中非常有用。召回率，或查全率，衡量的是模型找到所有正样本的能力，它是评估分类模型全面性的指标。有监督学习是机器学习中常见的一种方法，通过已有的标记数据构建模型，然后用该模型预测新的未标记数据。例如，使用线性回归或决策树等算法进行预测。在Python中，参数传递分为不可变类型和可变类型。不可变类型如数字和字符串，传递时实际上是值的副本，函数内部的修改不会影响外部。而可变类型如列表和字典，传递的是引用，函数内部的修改会直接影响到原始数据。数据预处理是数据分析的关键步骤，包括处理缺失值、纠正错误、数据规范化和转换等，以确保数据质量并提高模型的预测能力。标称属性代表那些只有名称差异的属性，比如颜色（红色、蓝色）。序数属性则具有自然的顺序，如等级（高、中、低），但具体差值未知。离散属性是那些取值有限且可数的属性，可以是整数或非整数。直方图用于可视化连续数值的分布，而散点图则用于揭示两个数值变量之间的关系，帮助识别潜在的关联或趋势。这些基础知识构成了Python数据科学和机器学习实践的基础，对于初学者来说，理解和掌握这些概念是进一步深入学习的前提。

分类问题：分类问题是数据挖掘处理的一个重要组成部分，在机器学习领域，分类问题通

常被认为属于监督式学习，也就是说，分类问题的目标是根据已知样本的某些特征，判断

一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二

元分类和多元分类。

准确率：准确率是指对一个事物表达或描述的正确程度，用来反映对事物的正确性解答。

聚类问题：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。

由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其

他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分

类问题。

召回率：召回率一般指查全率。查全率是指从数据库内检出的相关的信息量与总量的比率。

有监督学习：用已知某种或某些特性的样本作为训练集，以建立一个数学模型(如模式识别

中的判别模型，人工神经网络法中的权重模型等)，再用已建立的模型来预测未知样本，此

种方法称为有监督学习。

参数传递：可分成不可变类型与可变类型。

不可变类型参数传递本质上就是传值，常用的有数字、字符串等等，当使用传值时，即使

在函数内部对这些参数进行修改，它们的变化也不会影响到函数外的值。因为当它们被传

入函数后，相当于生成了另外一个复制的对象，使得函数内部语句在复制对象上操作。

可变类型参数传递本质上是传引用。传引用传入的是变量的地址，而当函数内部得到变量

的地址后，再进行的操作相当于对原变量进行的修改，修改后函数外部的变量也会受到影

响。

数据预处理：数据预处理(又称数据清理、数据整理或数据处理)是指对数据进行各种检查

和审查的过程，以纠正缺失值、拼写错误、使数值正常化/标准化以使其具有可比性、转换

数据(如对数转换)等问题。

标称属性：标称属性的值是一些符号或事物的名称。

序数属性：序数属性是一种属性，其可能的值之间具有有意义的序或秩评定（ranking），

但是相继值之间的差是未知的。

离散属性：具有有限个或无限个可数个数，可以用或不用整数表示。

直方图：直方图或频率直方图是一种被广泛使用的统计方法。它是一种概括给定属性 X 的

分布的图形方法。属性 A 的直方图（histogram）将 A 的数据分布划分为不相交的子集或桶。

桶表示给定属性的一个连续区间。

散点图：散点图（scaer plot）是确定两个数值变量之间看上去是否存在联系、模式或趋

势的最有效的图形方法之一。

下载后可阅读完整内容，剩余7页未读，立即下载

yk坤帝

粉丝: 1w+
资源: 35

Python初学者指南：机器学习中的分类、准确率与数据预处理

python-代码解析.docx

Python机器学习教程.docx

Python技术常见问题解析.docx

jsp留言板源代码一- 给jsp初学者..docx

Python简单应用题.docx

python爱心代码高级.docx

python有趣的库.docx

python大学排名爬取.docx

python小程序代码.docx

python网络爬虫1.docx

最新资源