朴素贝叶斯分类详解：从基础到应用

5星 · 超过95%的资源需积分: 32 111 浏览量更新于2024-09-09 3 收藏 882KB PDF 举报

"学习笔记———《朴素贝叶斯分类及其应用》" 朴素贝叶斯分类是一种基于概率理论的机器学习算法，它利用贝叶斯定理进行预测。该方法假设特征之间相互独立，这一假设使得朴素贝叶斯分类器计算简单且效率高，尽管在现实世界的数据中，这种独立性假设往往不成立，但在许多情况下，朴素贝叶斯分类器仍能表现出良好的性能。贝叶斯定理是概率论中的一个重要概念，公式为P(A|B) = P(B|A) * P(A) / P(B)。在分类问题中，我们需要找出给定特征X的情况下，数据属于某一类别Ci的概率，即P(Ci|X)。由于直接计算这个概率可能很困难，我们可以利用贝叶斯定理，通过已知的先验概率P(Ci)和特征条件概率P(X|Ci)来间接求解。朴素贝叶斯分类器有三种主要模型：高斯模型、多项式模型和伯努利模型。 1. 高斯模型（Gaussian Naive Bayes）假设特征服从高斯分布，即正态分布。在分类时，每个特征的条件概率被建模为对应的类别中心（均值）和标准差。 2. 多项式模型（Multinomial Naive Bayes）适用于离散特征数据，如文本分类中的词频。每个特征的计数被认为服从多项式分布，即特征的出现次数是一个多项式随机变量。 3. 伯努利模型（Bernoulli Naive Bayes）也用于处理离散特征，特别是在二元特征（如布尔值）的情况下。它基于伯努利分布，关注的是特征是否出现，而不是出现的次数。朴素贝叶斯分类器的训练过程通常涉及计算每个类别的先验概率和每个特征在各个类别下的条件概率。在分类时，根据贝叶斯定理计算每个类别的后验概率，并选择具有最高后验概率的类别作为预测结果。以医学检测为例，假设有一种疾病发病率低，而测试试剂准确度高。如果我们知道一个人测试呈阳性，利用贝叶斯定理，我们可以计算出他实际患有该病的概率，这在决策过程中非常有用，因为直接计算患病概率可能非常困难，但可以通过试剂的准确率和发病率来估算。朴素贝叶斯分类器因其简单、快速和在某些场景下的高效性而被广泛应用，尤其是在文本分类、垃圾邮件过滤和推荐系统等领域。然而，它的性能受限于特征之间的独立性假设，如果数据集中特征之间存在关联，模型的准确性可能会降低。尽管如此，通过调整和正则化技术，朴素贝叶斯模型仍然可以在实际应用中得到优化。

朴素贝叶斯分类（Naive Bayes, NB）及应用!

作者:MJ

时间:2015.12.06

邮箱:369387335@qq.com

1、摘要!

首先介绍一下什么是分类？!

我们常常需要把一个事物分到某个类别，一个事物具有很多属性，

把它的众多属性看做一个向量，即

X = {F

, F

,!, F

}

，用 X 这个向量来

代表这个事物。类别也是有很多种，用集合

C = {C

,!,C

}

表示。如

果 X 属于

类别，就可以给 X 打上 i 标签，意思是说 X 属于

类别，

这就是所谓的分类(Classification)。!

下面我们再继续讲贝叶斯。贝叶斯是一种基于概率的学习方法。

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，

故统称为贝叶斯分类。本文将首先介绍贝叶斯分类算法的基础——贝

叶斯定理，然后，介绍贝叶斯分类中最简单的一种：朴素贝叶斯分类，

并对常用的三种模型：高斯模型、多项式模型和伯努利模型进行讲解。!

2、贝叶斯定理!

贝叶斯定理是关于随机事件 A 和 B 条件概率的一则定理，下式定

了已在事件 B 发生的情况下事件 A 发生的条件概率：

!!!!

P( A | B) =

P(B | A) i P( A)

P(B)

(1)

! !

其中

P( A)

是指事件 A 发生的先验概率，

P(B)

是指事件 B 发生的先

验概率，

P( A | B)

是指在事件 B 发生后事件 A 发生的条件概率或者称

为事件 A 的后验概率，

P(B | A)

是指在事件 A 发生后事件 B 发生的条

件概率或者称为事件 B 的后验概率。贝叶斯定理是由条件概率推导出

来的，具体推导过程如下：

1) 事件 B 发生的条件下事件 A 发生的概率：

下载后可阅读完整内容，剩余9页未读，立即下载

李承锦MJ

粉丝: 21
资源: 7

朴素贝叶斯分类详解：从基础到应用

机器学习方法在评论情感分析中的应用——朴素贝叶斯与支持向量机对比

理解朴素贝叶斯算法及其应用示例

朴素贝叶斯分类与概率图模型——以贝叶斯网络为例

机器学习2022学习笔记（课上）

machine-learning-notes:机器学习笔记

傻瓜机器学习笔记，简单例子&手推题目

Python-数据科学笔记本分类任务使用sklearn和Tensorflow实现

斯坦福机器学习ML公开课笔记1-15（完整版、带目录索引和NG原版讲义）

模式分类 pattern classification

斯坦福ML公开课笔记13A1

最新资源