这个代码我的mac m1显示不出词云，怎么修改df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 设置停用词 stopwords = set() content = [line.strip() for line in open('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/hit_stopwords.txt','r',encoding='utf-8').readlines()] # print(content) stopwords.update(content) jieba.load_userdict(stopwords) # 对文本数据进行分词 df['content_cut'] = df['微博正文'].apply(lambda x: ' '.join(jieba.cut(x))) # print(df['content_cut']) # 构建TF-IDF矩阵 tfidf = TfidfVectorizer() tfidf_matrix = tfidf.fit_transform(df['content_cut']) print(tfidf_matrix) # 聚类分析 n_cluster = 3 kmeans = KMeans(n_clusters=n_cluster, random_state=0) kmeans.fit(tfidf_matrix) # 将聚类结果添加到原始数据中 df['cluster'] = kmeans.labels_ # 生成词云图 font_path='/System/Library/Fonts/Supplemental/Songti.ttc' for i in range(n_cluster): text = ' '.join(df[df['cluster']==i]['content_cut']) wordcloud = WordCloud( stopwords=stopwords, background_color='white', width=800, height=600).generate(text) plt.imshow(wordcloud) plt.axis('off') plt.show()

时间: 2024-03-14 19:46:34 浏览: 68

这个问题可能是因为你的mac m1默认的字体库没有'Songti.ttc'这个字体文件而导致的。你可以尝试修改代码中的font_path，指定一个你mac m1中存在的字体文件路径，例如： ```python font_path='/Library/Fonts/Arial.ttf' ``` 将上面的代码中的Arial.ttf替换成你mac m1中存在的字体文件即可。

我需要统计无重复数据的数量和有重复数据，重复多少次的数据，不需要知道具体是哪个id重复，帮我改一下代码import pandas as pd # 读取数据到DataFrame df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv',encoding='gbk') # 查找重复的id duplicates = df[df.duplicated('user_id', keep=False)] if not duplicates.empty: print("以下是重复的id：") print(duplicates['id']) else: print("没有重复的id")

好的，可以使用以下代码来实现您的需求： ```python import pandas as pd # 读取数据到DataFrame df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 统计无重复数据的数量 num_unique = df['user_id'].nunique() print("无重复数据的数量为：", num_unique) # 统计有重复数据，并输出重复次数 duplicates = df[df.duplicated('user_id', keep=False)] if not duplicates.empty: num_duplicates = len(duplicates) print("有重复数据的数量为：", num_duplicates) print("其中重复了{}次".format(num_duplicates-1)) else: print("没有重复数据") ``` 这样，就可以输出无重复数据的数量和有重复数据的数量以及重复次数。如果没有重复数据，则只会输出"没有重复数据"。

我的代码里怎么看聚类结果？df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 设置停用词 stopwords = set() content = [line.strip() for line in open('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/hit_stopwords.txt','r',encoding='utf-8').readlines()] # print(content) stopwords.update(content) jieba.load_userdict(stopwords) # 对文本数据进行分词 df['content_cut'] = df['微博正文'].apply(lambda x: ' '.join(jieba.cut(x))) # print(df['content_cut']) # 构建TF-IDF矩阵 tfidf = TfidfVectorizer() tfidf_matrix = tfidf.fit_transform(df['content_cut']) print(tfidf_matrix) # 聚类分析 n_cluster = 3 kmeans = KMeans(n_clusters=n_cluster, random_state=0) kmeans.fit(tfidf_matrix) # 将聚类结果添加到原始数据中 df['cluster'] = kmeans.labels_ # 生成词云图 for i in range(n_cluster): text = ' '.join(df[df['cluster']==i]['content_cut']) wordcloud = WordCloud( stopwords=stopwords, background_color='white', width=800, height=600,font_path='/System/Library/Fonts/Supplemental/Songti.ttc').generate(text) plt.imshow(wordcloud) plt.axis('off') plt.show()

在你的代码中，聚类结果已经被存储在了 `df['cluster']` 列中，每个样本被分配到了一个聚类簇。你可以使用 Pandas 的一些函数来查看聚类结果，例如： 1. 查看每个聚类簇的样本数： ```python print(df['cluster'].value_counts()) ``` 2. 查看每个聚类簇的样本： ```python for i in range(n_cluster): print(f'Cluster {i}:') print(df[df['cluster']==i]['微博正文']) ``` 你也可以通过可视化来更好地查看聚类结果。例如，你可以使用 Seaborn 的 `scatterplot` 函数绘制每个样本的分布情况，并使用不同的颜色表示不同的聚类簇： ```python import seaborn as sns sns.scatterplot(x='x_axis', y='y_axis', hue='cluster', data=df) ``` 其中，`x_axis` 和 `y_axis` 分别是你使用 PCA 或 t-SNE 降维后得到的两个维度，`hue` 参数指定了颜色映射的变量，即聚类簇。

阅读全文

相关推荐

基于jieba & wordcloud的词云生成（完整源代码等）

词云的生成代码

中文词云生成，先通过jieba分词，再调用wordcloud生成词云

我在httpd服务上配置了某些用户可以访问/var/www/html，然后我的需求是httpd可以根据认证的用户，跳转到某个目录，比如说，dashan用户认证后，只能跳转到/var/www/html/dashan

pduke_query.rar

安卓android 动态权限DEMO 代码里设置动态权限

20200704_岳阳_论文展示1

20201205_王念硕_论文展示1

20201226_屠雪永_论文展示1

20211107_雷印如_论文展示1

初三计算机考试题.pdf

(affective_machine_learning) dashan@dashandeMacBook-Pro ~ % brew install pyqt5 Warning: No remote 'origin' in /opt/homebrew/Homebrew, skipping update! Running brew update --auto-update...

我想查看csv中“发布时间”这一列的时间情况，想要列个表格看数据每天的时间段

用python结合jieba和wordcloud实现词云效果

大家在看

ORACLE_EBS用户 职责 菜单 预置文件

地图分幅制作生产方法

surfer教程

和利时macs3手册

多變異圖的概念-minitab的PPT简易教程

最新推荐

白色简洁风格的软件UI界面后台管理系统模板.zip

自动软包电芯极耳短路测试精切一体机sw17可编辑全套技术资料100%好用.zip

RuntimeException如何解决.md

云链客服需要注意的事项

白色简洁风格的室内设计案例源码下载.rar

掌握HTML/CSS/JS和Node.js的Web应用开发实践

管理建模和仿真的文件

计算机体系结构概述：基础概念与发展趋势

int a[][3]={{1,2},{4}}输出这个数组

勒玛算法研讨会项目：在线商店模拟与Qt界面实现

ORACLE_EBS用户职责菜单预置文件