from sklearn.naive_bayes import BernoulliNB,MultinomialNB from sklearn.feature_extraction.text import CountVectorizer from sklearn.model_selection import train_test_split import pandas as pd path = 'E:/Python_file/zuoye/SMSSpamCollection.txt' Cnames=['labels','messages'] data = pd.read_csv(path,sep='\t', header=None, names=Cnames) #读取数据集,分隔符是\t data=data.replace({'ham':0,'spam':1}) #替换标签值 print('数据集展示:') print(data) print('\n----------------------------------\n') X=data['messages'] y=data['labels'] x_train,x_test,y_train,y_test=train_test_split(X,y,train_size=0.8,random_state=123) vector_nomial=CountVectorizer() #实现词袋模型 vector_bernou=CountVectorizer() #多项式模型分类垃圾短信 train_matrix=vector_nomial.fit_transform(x_train) test_matrix=vector_nomial.transform(x_test) polynomial=MultinomialNB() clm_nomial=polynomial.fit(train_matrix,y_train) result_nomial=clm_nomial.predict(test_matrix) #伯努利模型分类垃圾短信 train_matrix=vector_bernou.fit_transform(x_train) test_matrix=vector_bernou.transform(x_test) Bernoulli=BernoulliNB() clm_bernoulli=Bernoulli.fit(train_matrix,y_train) result_bernou=clm_bernoulli.predict(test_matrix) print('多项式模型的预测结果,类型,长度:') print(result_nomial,type(result_nomial),result_nomial.shape) print('多项式模型的前一百个预测结果:') print(result_nomial[0:100]) print('多项式模型模型R²评分:'+ str(clm_nomial.score(test_matrix,y_test))) print('\n----------------------------------\n') print('伯努利模型的预测结果,类型,长度:') print(result_bernou,type(result_bernou),result_bernou.shape) print('伯努利模型的前一百个预测结果:') print(result_bernou[0:100]) print('伯努利模型R²评分:'+ str(clm_bernoulli.score(test_matrix,y_test)))

时间: 2024-02-17 19:04:20 浏览: 39
这段代码是一个简单的垃圾短信分类器的实现。具体来说,它使用了朴素贝叶斯算法中的多项式模型和伯努利模型来分类短信为垃圾短信或非垃圾短信。以下是代码的详细解释: 1. 导入必要的库和模块: ```python from sklearn.naive_bayes import BernoulliNB, MultinomialNB from sklearn.feature_extraction.text import CountVectorizer from sklearn.model_selection import train_test_split import pandas as pd ``` 2. 读取数据集,并将标签值替换为0或1: ```python path = 'E:/Python_file/zuoye/SMSSpamCollection.txt' Cnames=['labels','messages'] data = pd.read_csv(path, sep='\t', header=None, names=Cnames) data = data.replace({'ham':0, 'spam':1}) ``` 3. 划分训练集和测试集: ```python X = data['messages'] y = data['labels'] x_train, x_test, y_train, y_test = train_test_split(X, y, train_size=0.8, random_state=123) ``` 4. 实现词袋模型和多项式模型: ```python vector_nomial = CountVectorizer() # 实现词袋模型 vector_bernou = CountVectorizer() # 多项式模型 ``` 5. 使用多项式模型分类垃圾短信: ```python train_matrix = vector_nomial.fit_transform(x_train) test_matrix = vector_nomial.transform(x_test) polynomial = MultinomialNB() clm_nomial = polynomial.fit(train_matrix, y_train) result_nomial = clm_nomial.predict(test_matrix) ``` 6. 使用伯努利模型分类垃圾短信: ```python train_matrix = vector_bernou.fit_transform(x_train) test_matrix = vector_bernou.transform(x_test) Bernoulli = BernoulliNB() clm_bernoulli = Bernoulli.fit(train_matrix, y_train) result_bernou = clm_bernoulli.predict(test_matrix) ``` 7. 输出结果: ```python print('多项式模型的预测结果,类型,长度:') print(result_nomial, type(result_nomial), result_nomial.shape) print('多项式模型的前一百个预测结果:') print(result_nomial[0:100]) print('多项式模型模型R²评分:'+ str(clm_nomial.score(test_matrix, y_test))) print('\n----------------------------------\n') print('伯努利模型的预测结果,类型,长度:') print(result_bernou, type(result_bernou), result_bernou.shape) print('伯努利模型的前一百个预测结果:') print(result_bernou[0:100]) print('伯努利模型R²评分:'+ str(clm_bernoulli.score(test_matrix, y_test))) ``` 其中,输出结果包括模型的预测结果、类型、长度、前一百个预测结果以及模型的R²评分。

相关推荐

最新推荐

recommend-type

Java 员工管理系统项目源代码(可做毕设项目参考)

Java 员工管理系统项目是一个基于 Java 编程语言开发的桌面应用程序,旨在管理员工的信息、津贴、扣除和薪资等功能。该系统通过提供结构和工具集,使公司能够有效地管理其员工数据和薪资流程。 系统特点 员工管理:管理员可以添加、查看和更新员工信息。 津贴管理:管理员可以添加和管理员工的津贴信息。 扣除管理:管理员可以添加和管理员工的扣除信息。 搜索功能:可以通过员工 ID 搜索员工详细信息。 更新薪资:管理员可以更新员工的薪资信息。 支付管理:处理员工的支付和生成支付记录。 模块介绍 员工管理模块:管理员可以添加、查看和更新员工信息,包括员工 ID、名字、姓氏、年龄、职位和薪资等。 津贴管理模块:管理员可以添加和管理员工的津贴信息,如医疗津贴、奖金和其他津贴。 扣除管理模块:管理员可以添加和管理员工的扣除信息,如税收和其他扣除。 搜索功能模块:可以通过员工 ID 搜索员工详细信息。 更新薪资模块:管理员可以更新员工的薪资信息。 支付管理模块:处理员工的支付和生成支付记录 可以作为毕业设计项目参考
recommend-type

CAD实验报告:制药车间动力控制系统图、烘烤车间电气控制图、JSJ型晶体管式时间继电器原理图、液位控制器电路图

CAD实验报告:制药车间动力控制系统图、烘烤车间电气控制图、JSJ型晶体管式时间继电器原理图、液位控制器电路图
recommend-type

使用 Arduino 和 Python 实时数据绘图的温度监控系统源码(可做毕设项目参考)

项目简介: 本项目将教您如何使用 Arduino 和 Python 实时数据绘图来构建温度监控系统。通过这个项目,您将学习如何从 Arduino 到 Python 进行串行通信,并实时收集和监控温度数据。 项目目标: 实时监控和绘制温度数据。 提供用户友好的操作界面。 提高用户的编程技能,特别是Arduino和Python的应用能力。 项目功能 实时温度监控: 传感器每秒读取一次温度数据,并通过串行监视器发送到Python程序。 数据保存: Python程序将温度数据保存到CSV文件中。 实时数据绘图: 使用Matplotlib库实时绘制温度数据,温度在Y轴,时间在X轴。 项目优势 高效的数据监控: 实时监控和绘制温度数据,提高数据监控的效率。 用户友好: 界面简洁,操作简单,用户可以轻松使用该应用程序。 提高编程技能: 通过实践项目,提高对Arduino和Python的应用能力。 项目技术细节 项目详情: 项目名:使用 Arduino 和 Python 实时数据绘图的温度监控系统 项目平台:Arduino 和 Python 使用的编程语言:C++(Arduino)、Python ID
recommend-type

软件测试-软件测试方案pdf

本测试计划提供给深圳移动公司PMS核心小组成员,对PMS EXPRESS 系统进行功能测试。测试计划主要通过对基站项目管理过程的模拟,从项目的立项开始直至基站的验收交付以及知识沉淀,对基站建设全过程中涉及的管理内容进行模拟测 试。测试计划中设计了两个基站项目一明宁花园、椰风海岸。其中明宁花园按 原计划如期完工,而椰风海岸因为设备没能如期到货导致了个整个项目工期的延误。
recommend-type

博物馆智能化系统的解决方案.pptx

博物馆智能化系统的解决方案.pptx
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

优化MATLAB分段函数绘制:提升效率,绘制更快速

![优化MATLAB分段函数绘制:提升效率,绘制更快速](https://ucc.alicdn.com/pic/developer-ecology/666d2a4198c6409c9694db36397539c1.png?x-oss-process=image/resize,s_500,m_lfit) # 1. MATLAB分段函数绘制概述** 分段函数绘制是一种常用的技术,用于可视化不同区间内具有不同数学表达式的函数。在MATLAB中,分段函数可以通过使用if-else语句或switch-case语句来实现。 **绘制过程** MATLAB分段函数绘制的过程通常包括以下步骤: 1.
recommend-type

SDN如何实现简易防火墙

SDN可以通过控制器来实现简易防火墙。具体步骤如下: 1. 定义防火墙规则:在控制器上定义防火墙规则,例如禁止某些IP地址或端口访问,或者只允许来自特定IP地址或端口的流量通过。 2. 获取流量信息:SDN交换机会将流量信息发送给控制器。控制器可以根据防火墙规则对流量进行过滤。 3. 过滤流量:控制器根据防火墙规则对流量进行过滤,满足规则的流量可以通过,不满足规则的流量则被阻止。 4. 配置交换机:控制器根据防火墙规则配置交换机,只允许通过满足规则的流量,不满足规则的流量则被阻止。 需要注意的是,这种简易防火墙并不能完全保护网络安全,只能起到一定的防护作用,对于更严格的安全要求,需要
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。