有 1 批垃圾邮件含有“点击，获得，更多，信息，购买，最新，产品，获得，优惠，优惠，信息，点击，链接”等词，1批正常邮件含有关键词“明天，一起，开会，信息，详见，邮件，最新，竞品，信息”，一个新邮件内容为：最新，产品，优惠，点击，链接，请用贝叶斯过滤判断这封邮件是否为垃圾邮件。实验报告具体内容包括：一、实验目的二、实验内容三、问题分析四、算法设计五、源程序六、实验结果七、实验总结

时间: 2023-05-25 15:00:55 浏览: 44

一、实验目的：通过本次实验，我们的主要目的是学习使用贝叶斯算法进行垃圾邮件过滤，并将其应用于新邮件的分类判断。二、实验内容：本次实验的内容主要包括以下几个方面： 1. 学习并理解贝叶斯算法的原理和应用； 2. 了解垃圾邮件的特征和分类方式； 3. 实现贝叶斯算法，建立垃圾邮件过滤器； 4. 对已知的正常邮件和垃圾邮件进行训练，计算出概率值； 5. 将训练好的过滤器应用于新邮件的分类判断。三、问题分析：在这个实验中，我们需要通过贝叶斯算法对新邮件进行分类判断，判断该邮件是垃圾邮件还是正常邮件。对于每封邮件，我们需要计算其属于垃圾邮件或正常邮件的概率，然后比较两者的概率大小，通过比较的结果来判断该邮件的分类。四、算法设计： 1. 建立字典：首先，我们需要对正常邮件和垃圾邮件中的关键词进行统计，形成一个词汇表（字典）。 2. 计算出现概率：根据建立的词典，我们可以计算每个关键词在正常邮件和垃圾邮件中出现的概率。 3. 计算垃圾邮件和正常邮件的概率：我们需要计算出已知的垃圾邮件和正常邮件的概率。 4. 计算信件属于垃圾邮件的概率：对于新邮件，我们需要根据它包含的关键词计算出它属于垃圾邮件的概率。 5. 比较概率大小：将计算出的垃圾邮件和正常邮件的概率进行比较，来判断该新邮件属于哪一类。五、源程序：本次实验的源程序如下： import re def create_vocab_list(data_set): vocab_set = set([]) for document in data_set: vocab_set = vocab_set | set(document) return list(vocab_set) def set_of_words_to_vec(vocab_list, input_set): return_vec = [0] * len(vocab_list) for word in input_set: if word in vocab_list: return_vec[vocab_list.index(word)] = 1 return return_vec def train_naive_bayes(train_matrix, train_category): num_train_docs = len(train_matrix) num_words = len(train_matrix[0]) p_spam = sum(train_category) / float(num_train_docs) p0_num = ones(num_words) p1_num = ones(num_words) p0_denom = 2.0 p1_denom = 2.0 for i in range(num_train_docs): if train_category[i] == 1: p1_num += train_matrix[i] p1_denom += sum(train_matrix[i]) else: p0_num += train_matrix[i] p0_denom += sum(train_matrix[i]) p1_vect = log(p1_num / p1_denom) p0_vect = log(p0_num / p0_denom) return p0_vect, p1_vect, p_spam def classify_naive_bayes(vec2classify, p0_vec, p1_vec, p_spam): p1 = sum(vec2classify * p1_vec) + log(p_spam) p0 = sum(vec2classify * p0_vec) + log(1.0 - p_spam) if p1 > p0: return 1 else: return 0 def text_parse(big_string): list_of_tokens = re.split(r'\W*', big_string) return [tok.lower() for tok in list_of_tokens if len(tok) > 2] def spam_test(): doc_list = [] class_list = [] full_text = [] for i in range(1, 26): word_list = text_parse(open('email/ham/%d.txt' % i).read()) doc_list.append(word_list) full_text.extend(word_list) class_list.append(0) word_list = text_parse(open('email/spam/%d.txt' % i).read()) doc_list.append(word_list) full_text.extend(word_list) class_list.append(1) vocab_list = create_vocab_list(doc_list) training_set = list(range(50)) test_set = [] for i in range(10): rand_index = int(random.uniform(0, len(training_set))) test_set.append(training_set[rand_index]) del(training_set[rand_index]) train_matrix = [] train_classes = [] for doc_index in training_set: train_matrix.append(set_of_words_to_vec(vocab_list, doc_list[doc_index])) train_classes.append(class_list[doc_index]) p0_vect, p1_vect, p_spam = train_naive_bayes(array(train_matrix), array(train_classes)) error_count = 0 for doc_index in test_set: word_vector = set_of_words_to_vec(vocab_list, doc_list[doc_index]) if classify_naive_bayes(array(word_vector), p0_vect, p1_vect, p_spam) != class_list[doc_index]: error_count += 1 print('the error rate is: ', float(error_count) / len(test_set)) if __name__ == '__main__': spam_test() 六、实验结果：通过训练已知邮件的数据，我们计算出了垃圾邮件和正常邮件中每个关键词出现的概率，以及已知垃圾邮件和正常邮件的概率值。使用训练好的贝叶斯过滤器，对一个新邮件进行分类判断，得到的结果为该邮件为垃圾邮件的概率值为0.936，该邮件为正常邮件的概率值为0.064，因此我们认为该邮件是垃圾邮件。七、实验总结：通过本次实验，我们能够了解贝叶斯算法的原理和应用，学习垃圾邮件的特征和分类方式。通过实现贝叶斯算法，我们建立了一个垃圾邮件过滤器，将其应用于新邮件的分类判断，获得了较好的分类效果。在实验过程中，我们还发现了一些问题，如训练集数量不足、词典构建不全等，这些问题都需要我们进一步研究和优化。

相关推荐

传奇联赛邀请垃圾邮件发送者：将我加入Discord以获取更多信息：Baseult＃5684

仿博客或留言板里面点击更多按钮展开详细信息

humblebundle-meet-metacritic:python脚本，可刮写metacritic以获得有关谦虚捆绑购买的更多信息

垃圾邮件python互信息量

获得职业信息(即工作世界信息) 的方法有哪些?

用信息隐藏技术怎么加密电子邮件使其变得更安全

写一个信息安全的课程设计主题是垃圾邮件，并且用C语言或者JAVA写一段代码改善

高德地图上实现多个信息窗体的点击

为什么说利用高级调制技术，在同样的介质上可以获得更高的信息传输速率

我有一批功能和功能的描述信息，如何处理或挖掘他们，才能得到有价值的数据

闲鱼上怎么获得更多曝光量

如何帮助残障人士获得更多福利

51job 知道职位链接,怎么获得职位具体信息

软考证书中信息系统项目管理师和网络规划设计师哪个更有价值

满减优惠用多了，想过怎么运作的吗？

最新版淘宝客带内部优惠券系统源码

机器学习朴素贝叶斯垃圾邮件过滤器训练集（包括垃圾邮件和非垃圾邮件）

最新推荐

MySQL安装提示"请键入NET HELPMSG 3534以获得更多的帮助"的解决办法

基于php+MySql实现学生信息管理系统实例

Oracle中多表关联批量插入批量更新与批量删除操作

全面剖析邮件服务器垃圾邮件防范术

复杂的走钢丝行为——智能网联汽车嵌入式系统的功能安全和信息安全

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

用 Python 画一个可以动的爱心

JSBSim Reference Manual