当数据集中有数值型特征时,可以使用高斯朴素贝叶斯分类器来计算分类。请给我一个简单的例题讲解
时间: 2024-04-22 16:23:42 浏览: 165
好的,假设我们有一个二分类问题,数据集中有两个特征 "身高" 和 "体重",分别表示一个人的身高和体重,而且这两个特征都是数值型特征。现在我们已经知道了训练集中每个样本的类别(1表示正样本,0表示负样本)以及对应的身高和体重,我们要使用高斯朴素贝叶斯分类器来对新样本进行分类。
假设训练集中有如下6个样本:
|样本编号|身高(cm)|体重(kg)|类别|
|:-:|:-:|:-:|:-:|
|1|170|60|1|
|2|180|70|1|
|3|160|50|0|
|4|175|65|1|
|5|165|55|0|
|6|172|68|1|
现在有一个身高为175cm,体重为58kg的新样本,我们要使用高斯朴素贝叶斯分类器来对其进行分类。
首先,我们需要计算每个类别的每个特征的均值和标准差,如下表所示:
| |身高(cm)|体重(kg)|
|:-:|:-:|:-:|
|类别0|162.5(标准差12.9099)|52.5(标准差3.5355)|
|类别1|174.25(标准差5.3151)|65.75(标准差3.3040)|
其中,标准差表示每个特征在每个类别下的标准差。
接下来,对于新样本的身高和体重,我们需要计算它在每个类别下的概率密度函数值。由于假设每个特征都服从高斯分布,因此可以使用高斯分布的概率密度函数计算,如下所示:
$$P(x|C_i) = \frac{1}{\sqrt{2\pi}\sigma_i}exp(-\frac{(x-\mu_i)^2}{2\sigma_i^2})$$
其中 $x$ 表示新样本的特征值,$\mu_i$ 和 $\sigma_i$ 分别表示类别 $C_i$ 下特征的均值和标准差。
例如,对于新样本的身高 $x_1=175$,我们可以计算它在类别0和类别1下的身高概率密度函数值:
$$P(x_1=175|C_0) = \frac{1}{\sqrt{2\pi}\times 12.9099}exp(-\frac{(175-162.5)^2}{2\times 12.9099^2}) \approx 0.028$$
$$P(x_1=175|C_1) = \frac{1}{\sqrt{2\pi}\times 5.3151}exp(-\frac{(175-174.25)^2}{2\times 5.3151^2}) \approx 0.258$$
同样的,对于新样本的体重 $x_2=58$,我们也可以计算它在类别0和类别1下的体重概率密度函数值:
$$P(x_2=58|C_0) = \frac{1}{\sqrt{2\pi}\times 3.5355}exp(-\frac{(58-52.5)^2}{2\times 3.5355^2}) \approx 0.014$$
$$P(x_2=58|C_1) = \frac{1}{\sqrt{2\pi}\times 3.3040}exp(-\frac{(58-65.75)^2}{2\times 3.3040^2}) \approx 0.052$$
接下来,我们需要计算新样本属于每个类别的概率。根据贝叶斯公式,可以使用如下公式计算:
$$P(C_i|x) = \frac{P(x|C_i)P(C_i)}{P(x)}$$
其中 $P(C_i)$ 表示类别 $C_i$ 的先验概率,$P(x)$ 表示新样本的概率。
由于我们只比较 $P(C_i|x)$ 的大小,因此可以省略 $P(x)$ 的计算。假设类别0和类别1的先验概率相等,即 $P(C_0)=P(C_1)=0.5$,则可以计算新样本属于类别0和类别1的概率分别为:
$$P(C_0|x) = P(x_1=175|C_0)\times P(x_2=58|C_0)\times P(C_0) \approx 0.0006$$
$$P(C_1|x) = P(x_1=175|C_1)\times P(x_2=58|C_1)\times P(C_1) \approx 0.007$$
因此,根据概率大小,可以将新样本分类为类别1(正样本)。
以上就是使用高斯朴素贝叶斯分类器进行分类的一个简单例子。
阅读全文