用python写朴素贝叶斯文本分类

时间: 2023-10-01 12:09:25 浏览: 34
好的,以下是一个用 Python 编写朴素贝叶斯文本分类的示例代码: ```python import os import re import math import random def tokenize(text): """ 对文本进行分词(这里简单的按空格分割) """ return text.split() def load_documents_from_dir(dir_path, label): """ 从指定目录中加载指定标签的所有文档 """ documents = [] for file_name in os.listdir(dir_path): with open(os.path.join(dir_path, file_name), 'r', encoding='utf-8') as f: text = f.read() tokens = tokenize(text) documents.append((tokens, label)) return documents def load_documents(dirs): """ 从多个指定目录中加载所有文档(每个目录都对应一个标签) """ documents = [] for dir_path, label in dirs: documents += load_documents_from_dir(dir_path, label) return documents def count_words(documents): """ 统计所有文档中每个词出现的次数,以及每个标签中所有词的总数 """ word_counts = {} label_word_counts = {} for tokens, label in documents: if label not in label_word_counts: label_word_counts[label] = 0 label_word_counts[label] += len(tokens) for token in tokens: if token not in word_counts: word_counts[token] = {} if label not in word_counts[token]: word_counts[token][label] = 0 word_counts[token][label] += 1 return word_counts, label_word_counts def train(documents): """ 训练朴素贝叶斯分类器 """ word_counts, label_word_counts = count_words(documents) vocabulary_size = len(word_counts) labels = set(label_word_counts.keys()) prior_probabilities = {} conditional_probabilities = {} for label in labels: prior_probabilities[label] = label_word_counts[label] / len(documents) conditional_probabilities[label] = {} for word in word_counts: if label in word_counts[word]: count = word_counts[word][label] else: count = 0 conditional_probabilities[label][word] = (count + 1) / (label_word_counts[label] + vocabulary_size) return prior_probabilities, conditional_probabilities def predict(tokens, prior_probabilities, conditional_probabilities): """ 预测文本的标签 """ scores = {} for label in prior_probabilities: score = math.log(prior_probabilities[label]) for token in tokens: if token in conditional_probabilities[label]: score += math.log(conditional_probabilities[label][token]) scores[label] = score best_label = max(scores, key=scores.get) return best_label if __name__ == '__main__': # 加载训练数据 train_dirs = [ ('./pos', 'pos'), ('./neg', 'neg') ] train_documents = load_documents(train_dirs) # 训练模型 prior_probabilities, conditional_probabilities = train(train_documents) # 随机选取10个测试文档进行测试 test_dirs = [ ('./pos_test', 'pos'), ('./neg_test', 'neg') ] test_documents = load_documents(test_dirs) test_documents = random.sample(test_documents, 10) # 对测试文档进行预测,并打印结果 for tokens, true_label in test_documents: predicted_label = predict(tokens, prior_probabilities, conditional_probabilities) print('true label:', true_label) print('predicted label:', predicted_label) ``` 这个示例程序实现了一个简单的朴素贝叶斯文本分类器,使用两个目录(./pos和./neg)中的文本作为训练数据,其中./pos目录下的文本被标记为"pos",./neg目录下的文本被标记为"neg"。 程序首先通过load_documents函数加载所有的训练文本,然后通过train函数训练朴素贝叶斯分类器,最后从./pos_test和./neg_test目录中随机选取10个测试文档进行测试。在每个测试文档预测完标签后,程序会将真实标签和预测标签打印出来。

相关推荐

最新推荐

Gin+Vue 前后端分离项目实战后端部分.zip

Gin+Vue 前后端分离项目实战后端部分.zip

Resource Hacker 安装包

Resource Hacker 安装包

该答题卡识别程序是基于matlab的Hough直线检测所构成,可以快速识别答题卡.zip

使用说明在zip压缩包 README 文件中,请仔细阅读。

信息系统集成管理工程项目师必考重点内部资料.doc

信息系统集成管理工程项目师必考重点内部资料.doc

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire

扎实基础工具:Maya在二维动画中的应用

# 1. Maya简介 ## 1.1 Maya软件概述 Maya是Autodesk公司推出的一款专业三维动画制作软件,被广泛应用于影视、游戏、动画等领域。它拥有强大的建模、动画、渲染等功能,是影视特效行业的主流软件之一。 ## 1.2 Maya在动画制作中的应用领域 Maya在动画制作中的应用非常广泛,可以用于制作影视特效、三维动画、角色动画、游戏动画等。其丰富的工具和功能使得动画制作更加高效和精确。 ## 1.3 Maya在二维动画制作中的优势 虽然Maya主打三维动画制作,但在二维动画制作中也有独特的优势。通过Maya的工具和功能,可以实现丰富多彩的二维动画效果,为动画制作带来

一个IP地址是用四个字节(每个字节8个位)的二进制码组成。请将32位二进制码表示的IP地址转换为十进制格式表示的IP地址输出。 输入格式: 输入在一行中给出32位二进制字符串。 输出格式: 在一行中输出十进制格式的IP地址,其由4个十进制数组成(分别对应4个8位的二进制数),中间用“.”分隔开。 输入样例: 11001100100101000001010101110010 输出样例: 204.148.21.114做题

好的,这是一个简单的二进制转十进制的问题。以下是一个C++代码示例,可以实现该功能: ```cpp #include <iostream> #include <bitset> // 二进制转十进制需要使用bitset库 using namespace std; int main() { string binary; cin >> binary; // 将二进制字符串转换为bitset类型 bitset<32> bits(binary); // 依次输出四个字节的十进制数 cout << bits.to_ulong() >> 24 << "

工程项目预算与管理讲义.doc

工程项目预算与管理讲义.doc

"互动学习:行动中的多样性与论文攻读经历"

多样性她- 事实上SCI NCES你的时间表ECOLEDO C Tora SC和NCESPOUR l’Ingén学习互动,互动学习以行动为中心的强化学习学会互动,互动学习,以行动为中心的强化学习计算机科学博士论文于2021年9月28日在Villeneuve d'Asq公开支持马修·瑟林评审团主席法布里斯·勒菲弗尔阿维尼翁大学教授论文指导奥利维尔·皮耶昆谷歌研究教授:智囊团论文联合主任菲利普·普雷教授,大学。里尔/CRISTAL/因里亚报告员奥利维耶·西格德索邦大学报告员卢多维奇·德诺耶教授,Facebook /索邦大学审查员越南圣迈IMT Atlantic高级讲师邀请弗洛里安·斯特鲁布博士,Deepmind对于那些及时看到自己错误的人...3谢谢你首先,我要感谢我的两位博士生导师Olivier和Philippe。奥利维尔,"站在巨人的肩膀上"这句话对你来说完全有意义了。从科学上讲,你知道在这篇论文的(许多)错误中,你是我可以依

Flash动画制作教程:从入门到精通

# 1. Flash动画基础知识 ## 1.1 什么是Flash动画 Flash动画是一种基于矢量图形的动画制作技术,通过Adobe Flash软件创建,并以.swf格式输出的动画作品。Flash动画能够实现丰富的动画效果和交互体验,被广泛运用于网页动画、游戏开发、教育培训等领域。 ## 1.2 Flash动画的历史与发展 Flash动画起源于1996年,由FutureWave Software公司开发,后被Macromedia收购并发展成为Flash软件。随着互联网的发展,Flash动画在网页设计和互动媒体方面扮演了重要角色,但随着HTML5等技术的兴起,Flash动画逐渐退出历史舞台。