朴素贝叶斯定理的详细推导过程,给一个计算案例
时间: 2024-05-27 07:14:01 浏览: 20
朴素贝叶斯定理是一种基于贝叶斯定理的分类算法,其基本假设是特征之间相互独立。其推导过程如下:
假设有 $n$ 个样本,每个样本都有 $m$ 个特征,特征向量为 $\boldsymbol{x} = (x_1, x_2, ..., x_m)$,每个样本都属于 $k$ 个类别中的一个,类别向量为 $\boldsymbol{y} = (y_1, y_2, ..., y_k)$。根据贝叶斯定理,我们可以得到:
$$P(\boldsymbol{y}|\boldsymbol{x}) = \frac{P(\boldsymbol{x}|\boldsymbol{y})P(\boldsymbol{y})}{P(\boldsymbol{x})}$$
其中,$P(\boldsymbol{x}|\boldsymbol{y})$ 表示在已知类别 $\boldsymbol{y}$ 的情况下,特征向量 $\boldsymbol{x}$ 出现的概率;$P(\boldsymbol{y})$ 表示类别 $\boldsymbol{y}$ 出现的概率;$P(\boldsymbol{x})$ 表示特征向量 $\boldsymbol{x}$ 出现的概率。由于 $P(\boldsymbol{x})$ 是一个常数,我们可以忽略它,得到:
$$P(\boldsymbol{y}|\boldsymbol{x}) \propto P(\boldsymbol{x}|\boldsymbol{y})P(\boldsymbol{y})$$
朴素贝叶斯算法的基本假设是,特征之间相互独立,即:
$$P(\boldsymbol{x}|\boldsymbol{y}) = \prod_{i=1}^m P(x_i|\boldsymbol{y})$$
将其带入上式,得到:
$$P(\boldsymbol{y}|\boldsymbol{x}) \propto P(\boldsymbol{y}) \prod_{i=1}^m P(x_i|\boldsymbol{y})$$
这个式子就是朴素贝叶斯定理。为了进行分类,我们需要计算每个类别的后验概率 $P(\boldsymbol{y}|\boldsymbol{x})$,并选择具有最大概率的类别作为预测结果。具体地,我们需要计算以下两个概率:
1. 先验概率 $P(\boldsymbol{y})$,即每个类别出现的概率。
2. 条件概率 $P(x_i|\boldsymbol{y})$,即在已知类别 $\boldsymbol{y}$ 的情况下,第 $i$ 个特征 $x_i$ 出现的概率。
这些概率可以通过统计训练数据集中的频率来估计。具体地,对于每个类别,我们可以计算其出现的频率,即:
$$P(\boldsymbol{y}) = \frac{\text{number of samples in } \boldsymbol{y}}{\text{total number of samples}}$$
对于每个特征,我们可以计算在每个类别下该特征出现的频率,即:
$$P(x_i|\boldsymbol{y}) = \frac{\text{number of samples in } \boldsymbol{y} \text{ with } x_i}{\text{number of samples in } \boldsymbol{y}}$$
这些概率可以用于计算后验概率 $P(\boldsymbol{y}|\boldsymbol{x})$,从而进行分类。
下面给一个朴素贝叶斯分类的计算案例。假设有以下数据集:
| 编号 | 颜色 | 直径 | 类别 |
| --- | --- | --- | --- |
| 1 | 红色 | 3cm | 苹果 |
| 2 | 红色 | 4cm | 苹果 |
| 3 | 红色 | 5cm | 橘子 |
| 4 | 黄色 | 4cm | 橘子 |
| 5 | 黄色 | 5cm | 柠檬 |
现在有一个新的水果,颜色为红色,直径为4.5cm,问它是什么水果。
首先需要计算每个类别的先验概率:
$$P(\text{苹果}) = \frac{2}{5} = 0.4$$
$$P(\text{橘子}) = \frac{2}{5} = 0.4$$
$$P(\text{柠檬}) = \frac{1}{5} = 0.2$$
然后需要计算每个特征在各个类别下的条件概率:
$$P(\text{红色}|\text{苹果}) = \frac{2}{2} = 1$$
$$P(\text{红色}|\text{橘子}) = \frac{1}{2} = 0.5$$
$$P(\text{红色}|\text{柠檬}) = 0$$
$$P(\text{4.5cm}|\text{苹果}) = 0$$
$$P(\text{4.5cm}|\text{橘子}) = \frac{1}{2} = 0.5$$
$$P(\text{4.5cm}|\text{柠檬}) = \frac{1}{1} = 1$$
由于特征之间相互独立,我们可以将它们的条件概率相乘,从而得到每个类别的后验概率:
$$P(\text{苹果}|\text{红色},\text{4.5cm}) \propto P(\text{苹果})P(\text{红色}|\text{苹果})P(\text{4.5cm}|\text{苹果}) = 0$$
$$P(\text{橘子}|\text{红色},\text{4.5cm}) \propto P(\text{橘子})P(\text{红色}|\text{橘子})P(\text{4.5cm}|\text{橘子}) = 0.2$$
$$P(\text{柠檬}|\text{红色},\text{4.5cm}) \propto P(\text{柠檬})P(\text{红色}|\text{柠檬})P(\text{4.5cm}|\text{柠檬}) = 0.2$$
因此,我们可以预测这个水果是橘子或柠檬,由于它更接近柠檬,因此最终的预测结果是柠檬。
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)