数据集放在“code/”的五个文件夹里，文件夹名称分别是a,b,c,d,e 每个文件夹里分别有50个文档，命名为1-50，本实验数据集是新闻文本数据，包括五个类别“财经新闻”、“体育新闻”、“教育新闻”、“军事新闻”和“娱乐新闻”每个类别均包括50篇文档。话题检测 1. 数据预处理：利用Jieba分词对每篇文档进行分词；利用TF-ID对F每篇文档提取关键特征词；利用特征词的TF-IDF值作为文档的特征向量。 2. 对预处理后的文档（每篇文档用特征向量表示），从每个类别中随机选取40篇文档，共得到40×5=200篇文档。 3. 对提取的200篇文档，采用K-means算法，划分5个簇，每个簇代表一个类别 4. 画出聚类结果散点图，同时计算FMI指数话题跟踪 1. 每个类别剩余10篇文档，用于话题跟踪实验 2. 每篇文档与5个簇中心向量（均值向量）计算它们之间的欧氏距离 3. 将文档划分到距离最近的簇中 4. 计算每个簇分类的，查准率、查全率和F1指数python具体代码实现

时间: 2024-01-24 19:18:35 浏览: 25

由于数据集没有提供，以下代码仅为参考实现： # 数据预处理 import jieba import os from sklearn.feature_extraction.text import TfidfVectorizer folders = ['a', 'b', 'c', 'd', 'e'] docs = [] for folder in folders: for i in range(1, 51): with open(os.path.join('code', folder, str(i) + '.txt'), 'r', encoding='utf-8') as f: text = f.read() docs.append(text) # 利用Jieba分词对每篇文档进行分词 docs_seg = [] for doc in docs: doc_seg = jieba.cut(doc) docs_seg.append(' '.join(doc_seg)) # 利用TF-ID对每篇文档提取关键特征词 vectorizer = TfidfVectorizer(use_idf=True) X = vectorizer.fit_transform(docs_seg) # 对预处理后的文档，从每个类别中随机选取40篇文档 import random docs_index = [i for i in range(len(docs))] random.shuffle(docs_index) selected_docs_index = [] for i in range(5): selected_docs_index += docs_index[i*50+10:i*50+50] selected_docs = [docs[i] for i in selected_docs_index] selected_docs_seg = [docs_seg[i] for i in selected_docs_index] # 采用K-means算法，划分5个簇 from sklearn.cluster import KMeans kmeans = KMeans(n_clusters=5, init='k-means++') clusters = kmeans.fit_predict(X[selected_docs_index]) # 计算FMI指数 from sklearn.metrics import fowlkes_mallows_score fmi = fowlkes_mallows_score(clusters, [i // 40 for i in range(200)]) # 类别编号为0~4 print('FMI指数：', fmi) # 画出聚类结果散点图 import numpy as np import matplotlib.pyplot as plt colors = ['r', 'g', 'b', 'c', 'm'] for i in range(5): plt.scatter(X[clusters == i, 0], X[clusters == i, 1], s=50, c=colors[i], label='Cluster ' + str(i)) plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, marker='*', c='black', label='Centroids') plt.legend() plt.show() # 话题跟踪 remaining_docs_index = [] for i in range(5): remaining_docs_index += docs_index[i*50:i*50+10] remaining_docs = [docs[i] for i in remaining_docs_index] remaining_docs_seg = [docs_seg[i] for i in remaining_docs_index] # 将文档划分到距离最近的簇中 remaining_X = vectorizer.transform(remaining_docs_seg) predicted_clusters = kmeans.predict(remaining_X) # 计算查准率、查全率和F1指数 from sklearn.metrics import precision_recall_fscore_support precision, recall, f1, _ = precision_recall_fscore_support([i // 10 for i in range(50)], predicted_clusters, average='weighted') print('查准率：', precision) print('查全率：', recall) print('F1指数：', f1)

相关推荐

SCGAN:[ICME 2019]“跨类别服装匹配的半监督兼容性学习”的源代码和数据集-Source code learning

车牌识别数据集2深度学习.zip

Aspect-level-sentiment:ACL2018论文“利用文档知识进行方面级别的情感分类”的代码和数据集

使用MPAndroidChart在 安卓中绘制一张多线图，使用GSON将数据从三个Json文件读入，分别显示为温度，湿度，烟雾

使用python完成人脸LBP特征提取，可以使用ORL人脸数据集

从https://www.kaggle.com/datasets上爬取Oil Spill Classifications数据

labelme批量标注制作vol标签

deeplabcut GPU教程

如何用matlab写程序代码-STOCA:多维数据集分配的随机电路综合

leetcode递归专题-100-Days-of-Code:在这个存储库中，我将上传我正在从各种平台（如leetcode、geeksforge

来自论文“人们在问什么关于COVID-19？问题分类数据集”的论文中的COVID-Q：COVID-19问题数据集

数据融合matlab代码-moveflow:ISBI2018/2019：追踪钙图像中的神经元

最新推荐

zigbee-cluster-library-specification

管理建模和仿真的文件

MATLAB柱状图在信号处理中的应用：可视化信号特征和频谱分析

帮我设计一个基于Android平台的便签APP的代码

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

MATLAB柱状图在数据分析中的作用：从可视化到洞察

ISP图像工程师需要掌握的知识技能

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

关系数据表示学习

使用MPAndroidChart在安卓中绘制一张多线图，使用GSON将数据从三个Json文件读入，分别显示为温度，湿度，烟雾