数据科学入门：K近邻法与朴素贝叶斯算法解析

需积分: 0 48 浏览量更新于2024-08-05 收藏 499KB PDF 举报

"数据科学入门课程，讲解了两种基础的机器学习算法——K近邻法(KNN)和朴素贝叶斯分类。KNN算法是一种基于实例的学习，通过寻找与新样本最近的K个训练样本来预测其类别。而朴素贝叶斯算法则是利用贝叶斯定理和特征之间的条件独立性来进行分类，尤其适用于处理大规模数据集。同时，介绍了高维空间中的‘维数灾难’问题以及在概率计算中如何处理下溢问题，如使用伪计数。此外，提到了简单线性回归和多重回归分析，这两种统计方法用于衡量模型对数据的拟合程度，如决定系数R平方和线性无关的假设。" 在这段摘要中，我们可以深入探讨几个关键知识点： 1. **K近邻法(KNN)**：KNN算法是监督学习中的一种基本分类技术。它的核心思想是通过测量不同特征空间中对象之间的距离，将新的未知类别样本分配到与其最近的K个已知类别样本中最多的那个类别。K的选择对结果有直接影响，较小的K可能导致过拟合，较大的K可以减少噪声影响，但可能使得决策边界变得平滑。 2. **维数灾难**：随着数据特征维度的增加，数据点之间的距离会迅速扩大，这使得在高维空间中找到“邻居”变得更加困难。这种情况导致了计算复杂度的增加和数据稀疏性的问题，影响了模型的性能。 3. **朴素贝叶斯分类**：朴素贝叶斯算法基于贝叶斯定理，假设特征之间相互独立，简化了概率计算。在垃圾邮件过滤等应用场景中，这种假设有助于高效分类。为了避免概率为0导致的问题，可以使用平滑技术如拉普拉斯平滑或Lidstone平滑，引入伪计数来修正。 4. **简单线性回归**：这是回归分析的基础，通过找到最佳的直线(线性函数)来描述两个变量之间的关系，其中α和β是决定这条直线位置和斜率的参数。决定系数R平方衡量了模型解释因变量变异的能力，值越接近1，表示模型拟合越好。 5. **多重回归分析**：当有多个自变量时，使用多重回归分析。这里有两个重要假设：自变量间线性无关，以及误差项的独立性和同方差性。多重回归可以让我们理解各个自变量对因变量的影响，并通过调整模型来优化预测性能。这些基础概念构成了数据科学和机器学习领域的基石，理解和掌握它们对于初学者来说至关重要。

数据科学入门

12 K近邻法

最近邻法是最简单的预测模型之一，它没有多少数学上的假设，也不要求任何复杂的处理，它所要求的

仅仅是：

• 某种距离的概念

• 一种彼此接近的点具有相似性质的假设

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该

样本也属于这个类别，



算法描述：

1. 计算测试数据与各个训练数据之间的距离；

2. 按照距离的递增关系进行排序；

3. 选取距离最小的K个点；

4. 确定前K个点所在类别的出现频率；

5. 返回前K个点中出现频率最高的类别作为测试数据的预测分类。

维数灾难

高维空间过于巨大。高维空间内的点根本不会表现得彼此邻近

随着维度数量的增加，点和点之间的平均距离也增加了。但更麻烦的是最近距离和平均距离之间的

比例

在更高的维度上——除非你能以指数规模得到更多的数——大片空白空间代表的是远离你想用在预

测中的所有的点的区域



13 朴素贝叶斯算法

贝叶斯方法：使用概率统计的知识对样本数据集进行分类，特点是结合先验概率和后验概率，即避免了

只使用先验概率的主观偏见，也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较大

的情况下表现出较高的准确率，同时算法本身也比较简单

朴素贝叶斯：假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说

占有着较大的比重，也没有哪个属性变量对于决策结果占有着较小的比重

例：垃圾邮件过滤器

给定邮件是或不是垃圾邮件的条件下，其中的每个单词存在与否与其他单词毫不相干。直观地讲，就是

知道某封垃圾邮件是否含有单词 viagra 无法帮助我们判断该垃圾邮件是否含有单词 rolex。

下溢问题

通常希望尽量避免出现大量概率相乘的情况，因为计算机不擅长处理非常接近于零的浮点数。

下载后可阅读完整内容，剩余5页未读，立即下载

阿葱的葱白

粉丝: 32
资源: 311

数据科学入门：K近邻法与朴素贝叶斯算法解析

python 数据挖掘入门与实践 代码下载

Python数据科学入门（上）

Python数据科学入门教程(pyhton3matplotlib入门教程)中文pdf版最新版本

python数据科学手册 pdf

邱锡鹏python数据科学

java 数据科学 pdf

计算与推理:数据科学的基础 pdf

python数据分析入门

python数据分析入门教程

python数据分析从入门到精通

最新资源

python 数据挖掘入门与实践代码下载