使用Python完成朴素贝叶斯算法实现周志华《机器学习》好瓜坏瓜分类

首先，我们需要加载数据集，好瓜坏瓜数据集可以在UCI机器学习库中找到，下载地址为：https://archive.ics.uci.edu/ml/datasets/Watermelon+Dataset+3.0。数据集中包含17个属性，如下所示： 1. 编号 2. 色泽 3. 根蒂 4. 敲声 5. 纹理 6. 脐部 7. 触感 8. 密度 9. 含糖率 10. 类别其中，前9个属性为特征，第10个属性为类别，表示该瓜是好瓜还是坏瓜。接下来，我们先加载数据集，然后将数据集划分为训练集和测试集。代码如下： ```python import pandas as pd import numpy as np from sklearn.model_selection import train_test_split # 加载数据集 data = pd.read_csv('watermelon.csv') # 划分训练集和测试集 train_data, test_data = train_test_split(data, test_size=0.3, random_state=1) ``` 接着，我们需要对训练集进行处理，计算出每个特征在不同类别下出现的概率以及每个类别的概率。具体地，我们需要计算出以下三个概率： 1. P(c)：类别为c的概率 2. P(x|c)：在类别为c的情况下，特征x出现的概率 3. P(x)：特征x出现的概率其中，P(c)可以通过训练集中类别为c的样本数量除以总样本数量得到，P(x|c)可以通过训练集中类别为c且特征x出现的样本数量除以类别为c的样本数量得到，P(x)可以通过训练集中特征x出现的样本数量除以总样本数量得到。代码如下： ```python # 计算P(c) def calc_pc(train_data): pc = {} for i in train_data['class'].unique(): pc[i] = (train_data['class']==i).sum() / train_data.shape[0] return pc # 计算P(x|c) def calc_pxc(train_data): pxc = {} for c in train_data['class'].unique(): pxc[c] = {} for column in train_data.columns[:-1]: pxc[c][column] = {} for value in train_data[column].unique(): pxc[c][column][value] = \ ((train_data[column]==value) & (train_data['class']==c)).sum() \ / (train_data['class']==c).sum() return pxc # 计算P(x) def calc_px(train_data): px = {} for column in train_data.columns[:-1]: px[column] = {} for value in train_data[column].unique(): px[column][value] = (train_data[column]==value).sum() / train_data.shape[0] return px # 计算P(c)、P(x|c)和P(x) pc = calc_pc(train_data) pxc = calc_pxc(train_data) px = calc_px(train_data) ``` 最后，我们可以根据朴素贝叶斯算法，计算出测试集中每个样本属于不同类别的概率，并根据概率大小进行分类。代码如下： ```python # 对测试集进行分类 def classify(test_data, pc, pxc, px): y_pred = [] for i in test_data.index: p = {} for c in pc.keys(): p[c] = pc[c] for column in test_data.columns[:-1]: p[c] *= pxc[c][column][test_data.loc[i, column]] / px[column][test_data.loc[i, column]] y_pred.append(max(p, key=p.get)) return y_pred # 对测试集进行分类 y_pred = classify(test_data, pc, pxc, px) # 计算分类准确率 acc = (y_pred==test_data['class']).sum() / test_data.shape[0] print('Accuracy:', acc) ``` 完整代码如下：

阅读全文

使用Python完成朴素贝叶斯算法实现周志华《机器学习》好瓜坏瓜分类

相关推荐

机器学习周志华课后习题编程题，Python实现

Python编程实现周志华《机器学习》课后习题.zip

《机器学习-周志华》学习笔记

使用Java完成朴素贝叶斯算法实现周志华《机器学习》好瓜坏瓜分类

周志华机器学习朴素贝叶斯公式c++代码实现

机器学习周志华西瓜数据集

《机器学习》 周志华学习笔记第十四章 概率图模型 python实现

周志华机器学习全部课程

《机器学习》 周志华学习笔记第十四章 概率图模型（课后习题）python实现

机器学习周志华pdf

机器学习周志华6.3

机器学习导论 周志华

机器学习周志华 线性模型思维导图

机器学习-南瓜书 面试必备材料

numpy实现的周志华《机器学习》书中的算法及其他一些传统机器学习算法.zip

周志华《机器学习》课后系统答案.zip

机器学习南瓜书.pdf

《机器学习》（周志华）章节笔记和课后题

实现机器学习实战以及关于周志华西瓜书中的一些扩展算法等.zip

西瓜书《机器学习》---第四章 决策树python代码实现

最新推荐

机器学习简答题笔记.docx

基于Flask，mysql slope one的图书推荐系统全部资料+详细文档.zip

舰艇2 glb模型文件，航空母舰glb模型（亲测可用） 效果图见描述

HengCe-18900-2024-2030中国聚乙烯醇缩丁醛市场现状研究分析与发展前景预测报告-样本.docx

SpringBoot集成Neo4j图数据库+朴素贝叶斯分类器实现基于电影知识图谱的智能问答系统源码+项目说明.zip

WordPress作为新闻管理面板的实现指南

管理建模和仿真的文件

函数与模块化编程宝典：J750编程高效之路

用C语言求有4个圆塔，圆心分别为（2，2)，(2，-2)，(-2，2)，(-2，-2)圆半径为1， 这4个塔的高度为10m 塔以外无建筑物接输入任意点的坐标 求该点的建筑高度（塔外的高度为零)的程序

NPC_Generator：使用Ruby打造的游戏角色生成器

《机器学习》周志华学习笔记第十四章概率图模型 python实现

《机器学习》周志华学习笔记第十四章概率图模型（课后习题）python实现

机器学习导论周志华

机器学习周志华线性模型思维导图

机器学习-南瓜书面试必备材料

西瓜书《机器学习》---第四章决策树python代码实现

舰艇2 glb模型文件，航空母舰glb模型（亲测可用）效果图见描述

用C语言求有4个圆塔，圆心分别为（2，2)，(2，-2)，(-2，2)，(-2，-2)圆半径为1，这4个塔的高度为10m 塔以外无建筑物接输入任意点的坐标求该点的建筑高度（塔外的高度为零)的程序