高斯朴素贝叶斯计算公式
时间: 2024-11-11 15:14:06 浏览: 12
高斯朴素贝叶斯(Gaussian Naive Bayes,GNB)是一种常用的机器学习分类算法,特别适用于连续数值型数据,如文本特征向量中的TF-IDF值。它的基本思想是假设每个输入特征(变量)独立于其他特征,且它们都服从正态分布。
对于单个特征,其概率可以按以下方式计算:
1. **条件概率**:给定类别的条件下,特征值 \( x \) 的概率 \( P(x|y) \),假设特征 \( x \) 对应的观测值服从均值 \( \mu_y \) 和方差 \( \sigma^2_y \) 的正态分布,即:
\( P(x|y) = \frac{1}{\sqrt{2\pi\sigma^2_y}} e^{-\frac{(x-\mu_y)^2}{2\sigma^2_y}} \)
2. **先验概率**:类别 \( y \) 出现的概率 \( P(y) \) 可以从训练数据集中直接计算得出,因为这是在所有类别中独立均匀分配的:
\( P(y) = \frac{\text{类别y的实例数}}{\text{总实例数}} \)
3. **联合概率**:最终,给定观测到的特征向量 \( \mathbf{x} \),属于类别 \( y \) 的概率是所有特征的概率乘积,这实际上是各特征的条件概率相乘(由于朴素贝叶斯的“朴素”假设):
\( P(\mathbf{x}|y) = \prod_{i=1}^{n} P(x_i|y) \)
4. **分类决策**:使用贝叶斯定理,判断属于各个类别的后验概率 \( P(y|\mathbf{x}) \),选择后验概率最大的类别作为预测类别。
阅读全文