没有合适的资源?快使用搜索试试~ 我知道了~
首页贝叶斯算法(bayesian)介绍
资源详情
资源评论
资源推荐

贝叶斯算法(bayesian)介绍
贝叶斯是基于概率的一种算法,是 Thomas Bayes:一位伟大的数学大师所创建的,
目前此种算法用于过滤垃圾邮件得到了广泛地好评。贝叶斯过滤器是基于“自我学习”的智
能技术,能够使自己适应垃圾邮件制造者的新把戏,同时为合法电子邮件提供保护。在智
能邮件过滤技术中,贝叶斯(Bayesian)过滤技术取得了较大的成功,被越来越多地应用
在反垃圾邮件的产品中。
贝叶斯过滤算法的基本步骤
1. 收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集。
2. 提取邮件主题和邮件体中的独立字符串,例如 ABC32,¥234 等作为 TOKEN 串并统
计提取出的 TOKEN 串出现的次数即字频。按照上述的方法分别处理垃圾邮件集和非垃圾
邮件集中的所有邮件。
3. 每一个邮件集对应一个哈希表,hashtable_good 对应非垃圾邮件集而
hashtable_bad 对应垃圾邮件集。表中存储 TOKEN 串到字频的映射关系。
4. 计算每个哈希表中 TOKEN 串出现的概率 P=(某 TOKEN 串的字频)/(对应哈希表的
长度)
5. 综合考虑 hashtable_good 和 hashtable_bad,推断出当新来的邮件中出现某个
TOKEN 串时,该新邮件为垃圾邮件的概率。数学表达式为:
A 事件 ---- 邮件为垃圾邮件;
t1,t2 …….tn 代表 TOKEN 串
则 P ( A|ti )表示在邮件中出现 TOKEN 串 ti 时,该邮件为垃圾邮件的概率。
设
P1 ( ti ) = ( ti 在 hashtable_good 中的值)
P2 ( ti ) = ( ti 在 hashtable_ bad 中的值)
则 P ( A|ti ) =P2 ( ti ) /[ ( P1 ( ti ) +P2 ( ti ) ] ;
6. 建立新的哈希表 hashtable_probability 存储 TOKEN 串 ti 到 P(A|ti)的映射
7. 至此,垃圾邮件集和非垃圾邮件集的学习过程结束。根据建立的哈希表


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论2