我的代码里怎么看聚类结果？df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 设置停用词 stopwords = set() content = [line.strip() for line in open('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/hit_stopwords.txt','r',encoding='utf-8').readlines()] # print(content) stopwords.update(content) jieba.load_userdict(stopwords) # 对文本数据进行分词 df['content_cut'] = df['微博正文'].apply(lambda x: ' '.join(jieba.cut(x))) # print(df['content_cut']) # 构建TF-IDF矩阵 tfidf = TfidfVectorizer() tfidf_matrix = tfidf.fit_transform(df['content_cut']) print(tfidf_matrix) # 聚类分析 n_cluster = 3 kmeans = KMeans(n_clusters=n_cluster, random_state=0) kmeans.fit(tfidf_matrix) # 将聚类结果添加到原始数据中 df['cluster'] = kmeans.labels_ # 生成词云图 for i in range(n_cluster): text = ' '.join(df[df['cluster']==i]['content_cut']) wordcloud = WordCloud( stopwords=stopwords, background_color='white', width=800, height=600,font_path='/System/Library/Fonts/Supplemental/Songti.ttc').generate(text) plt.imshow(wordcloud) plt.axis('off') plt.show()

时间: 2024-03-14 09:47:14 浏览: 231

在你的代码中，聚类结果已经被存储在了 `df['cluster']` 列中，每个样本被分配到了一个聚类簇。你可以使用 Pandas 的一些函数来查看聚类结果，例如： 1. 查看每个聚类簇的样本数： ```python print(df['cluster'].value_counts()) ``` 2. 查看每个聚类簇的样本： ```python for i in range(n_cluster): print(f'Cluster {i}:') print(df[df['cluster']==i]['微博正文']) ``` 你也可以通过可视化来更好地查看聚类结果。例如，你可以使用 Seaborn 的 `scatterplot` 函数绘制每个样本的分布情况，并使用不同的颜色表示不同的聚类簇： ```python import seaborn as sns sns.scatterplot(x='x_axis', y='y_axis', hue='cluster', data=df) ``` 其中，`x_axis` 和 `y_axis` 分别是你使用 PCA 或 t-SNE 降维后得到的两个维度，`hue` 参数指定了颜色映射的变量，即聚类簇。

聚类分析的结果怎么看？import pandas as pd import jieba from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans from wordcloud import WordCloud import matplotlib.pyplot as plt # 读取中文文本数据 df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 设置停用词 stopwords = set() content = [line.strip() for line in open('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/hit_stopwords.txt','r',encoding='utf-8').readlines()] # print(content) stopwords.update(content) jieba.load_userdict(stopwords) # 对文本数据进行分词 df['content_cut'] = df['微博正文'].apply(lambda x: ' '.join(jieba.cut(x))) # print(df['content_cut']) # 构建TF-IDF矩阵 tfidf = TfidfVectorizer() tfidf_matrix = tfidf.fit_transform(df['content_cut']) print(tfidf_matrix) # 聚类分析 n_cluster = 3 kmeans = KMeans(n_clusters=n_cluster, random_state=0) kmeans.fit(tfidf_matrix) # 将聚类结果添加到原始数据中 df['cluster'] = kmeans.labels_

在这段代码中，通过对中文文本数据进行分词和构建 TF-IDF 矩阵，然后使用 KMeans 聚类算法将文本数据分为 n_cluster 个簇。每个簇代表一个主题或者一个类别，可以通过观察每个簇中的文本数据的内容来理解这个簇所代表的主题或类别。在这里，我们可以通过查看每个簇中的文本数据来了解聚类结果。可以使用 Pandas 的 groupby 函数将原始数据按照 cluster 列进行分组，然后查看每个簇中的微博正文内容： ``` groups = df.groupby('cluster') for i in range(n_cluster): print('Cluster %d:' % i) print(groups.get_group(i)['微博正文'].tolist()) print() ``` 此外，我们还可以使用词云图来可视化聚类结果。可以将每个簇中的微博正文内容合并为一个字符串，然后使用 WordCloud 库生成词云图。以下是示例代码： ``` for i in range(n_cluster): text = ' '.join(groups.get_group(i)['微博正文'].tolist()) wordcloud = WordCloud(background_color='white', width=800, height=600).generate(text) plt.imshow(wordcloud) plt.axis('off') plt.show() ``` 这样可以生成 n_cluster 张词云图，每张词云图代表一个簇。通过观察词云图中出现频率较高的词语，可以初步了解该簇所代表的主题或类别。

这个代码我的mac m1显示不出词云，怎么修改df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 设置停用词 stopwords = set() content = [line.strip() for line in open('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/hit_stopwords.txt','r',encoding='utf-8').readlines()] # print(content) stopwords.update(content) jieba.load_userdict(stopwords) # 对文本数据进行分词 df['content_cut'] = df['微博正文'].apply(lambda x: ' '.join(jieba.cut(x))) # print(df['content_cut']) # 构建TF-IDF矩阵 tfidf = TfidfVectorizer() tfidf_matrix = tfidf.fit_transform(df['content_cut']) print(tfidf_matrix) # 聚类分析 n_cluster = 3 kmeans = KMeans(n_clusters=n_cluster, random_state=0) kmeans.fit(tfidf_matrix) # 将聚类结果添加到原始数据中 df['cluster'] = kmeans.labels_ # 生成词云图 font_path='/System/Library/Fonts/Supplemental/Songti.ttc' for i in range(n_cluster): text = ' '.join(df[df['cluster']==i]['content_cut']) wordcloud = WordCloud( stopwords=stopwords, background_color='white', width=800, height=600).generate(text) plt.imshow(wordcloud) plt.axis('off') plt.show()

这个问题可能是因为你的mac m1默认的字体库没有'Songti.ttc'这个字体文件而导致的。你可以尝试修改代码中的font_path，指定一个你mac m1中存在的字体文件路径，例如： ```python font_path='/Library/Fonts/Arial.ttf' ``` 将上面的代码中的Arial.ttf替换成你mac m1中存在的字体文件即可。

阅读全文

相关推荐

sim.tar.gz_M/M/S_event_k-mean_m/m/

UML.rar_K._数值算法/人工智能

entity-postorder.zip_K._人工智能/神经网络/深度学习

6种聚类评价指标ppt+代码.zip_6种聚类评价指标_聚类_聚类ppt_聚类评价_聚类评价指标

matlab模糊聚类程序 动态聚类图程序.zip_MATLAB 聚类_matlab 聚类程序_matlab谱系图_模糊动态聚类_

FCM聚类.rar_FCM聚类_fcm_聚类_聚类代码_聚类算法

聚类分析程序.zip_K._k均值聚类分析_private55n_聚类_聚类分析

m.zip_文章/文档_matlab__文章/文档_matlab_

聚类分析程序.rar_K._模糊C均值聚类_模糊聚类_聚类分析_聚类分析程序

聚类算法代码.rar_DBSCAN_DBSCAN聚类算法_beato4u_密度聚类_聚类算法代码

聚类分析实验.rar_K._N87_聚类分析实验

Matlab K均值聚类分析作业.zip_K._k均值聚类_k均值聚类matlab_k均值聚类作业_均值聚类

K-Nearest Neighbor无监督聚类.zip_K._instantvpo_无监督聚类_聚类方法

三维图像聚类的子文件.zip_三维 聚类_三维图像的聚类算法_图像 聚类_图像聚类_聚类

聚类算法Matlab源代码.rar_madfxg_matlab源代码_matlab聚类算法_聚类代码_聚类算法

cluster_by_distances.rar_C/C++_

yangjao_v12.zip_文章/文档_Pascal_

ntcgt.zip_GPS/INS

大家在看

彩虹聚合DNS管理系统V1.3+搭建教程

关于初始参数异常时的参数号-无线通信系统arm嵌入式开发实例精讲

香港地铁的安全风险管理 (2007年)

AllegroENV设置大全.rar

MIPI-D-PHY-specification-v1.1.pdf

最新推荐

白色简洁的艺术展示网页模板下载.zip

电商平台开发需求文档.doc

STM32F030单片机控制LED灯.zip

RStudio中集成Connections包以优化数据库连接管理

管理建模和仿真的文件

Keil uVision5全面精通指南

flink提交给yarn19个全量同步MYsqlCDC的作业，flink的配置参数怎样设置

PHP博客旅游的探索之旅

"互动学习：行动中的多样性与论文攻读经历"

【单片机编程实战】：掌握流水灯与音乐盒同步控制的高级技巧

matlab模糊聚类程序动态聚类图程序.zip_MATLAB 聚类_matlab 聚类程序_matlab谱系图_模糊动态聚类_

三维图像聚类的子文件.zip_三维聚类_三维图像的聚类算法_图像聚类_图像聚类_聚类