使用了 Anaconda 管理 Python 环境,如何运行import pandas as pd import numpy as np from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import accuracy_score from sklearn.model_selection import train_test_split filename = 'D:/111/20news-18828.tar/20newsgroups.srv' with open(filename, 'r', encoding='UTF-8') as file: A = file.readlines() data = [] for line in A: category, text = line.split('\t') data.append((category, text)) df = pd.DataFrame(data, columns=['category', 'text']) # 分割数据集为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(df['text'], df['category'], random_state=42) # 对文本进行特征提取 tfidf = TfidfVectorizer(stop_words='english') X_train_tfidf = tfidf.fit_transform(X_train.astype(str)) X_test_tfidf = tfidf.transform(X_test.astype(str)) # 使用多项式朴素贝叶斯模型进行训练和预测 clf = MultinomialNB() clf.fit(X_train_tfidf, y_train) y_pred = clf.predict(X_test_tfidf) # 输出模型的准确率 print('Accuracy:', accuracy_score(y_test, y_pred))
时间: 2023-06-19 21:10:39 浏览: 196
可以在 Anaconda Prompt 或者终端中打开 Python 解释器,然后将代码复制粘贴进去并运行。具体步骤如下:
1. 打开 Anaconda Prompt 或者终端。
2. 输入 `python` 命令进入 Python 解释器。
3. 将代码复制粘贴进去,并按下回车键执行。
4. 等待代码执行完毕,最后会输出模型的准确率。
注意,在运行代码之前,需要将文件路径 `D:/111/20news-18828.tar/20newsgroups.srv` 修改为实际存在的文件路径。
阅读全文