这个代码我的mac m1显示不出词云,怎么修改df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 设置停用词 stopwords = set() content = [line.strip() for line in open('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/hit_stopwords.txt','r',encoding='utf-8').readlines()] # print(content) stopwords.update(content) jieba.load_userdict(stopwords) # 对文本数据进行分词 df['content_cut'] = df['微博正文'].apply(lambda x: ' '.join(jieba.cut(x))) # print(df['content_cut']) # 构建TF-IDF矩阵 tfidf = TfidfVectorizer() tfidf_matrix = tfidf.fit_transform(df['content_cut']) print(tfidf_matrix) # 聚类分析 n_cluster = 3 kmeans = KMeans(n_clusters=n_cluster, random_state=0) kmeans.fit(tfidf_matrix) # 将聚类结果添加到原始数据中 df['cluster'] = kmeans.labels_ # 生成词云图 font_path='/System/Library/Fonts/Supplemental/Songti.ttc' for i in range(n_cluster): text = ' '.join(df[df['cluster']==i]['content_cut']) wordcloud = WordCloud( stopwords=stopwords, background_color='white', width=800, height=600).generate(text) plt.imshow(wordcloud) plt.axis('off') plt.show()
时间: 2024-03-14 19:46:34 浏览: 68
这个问题可能是因为你的mac m1默认的字体库没有'Songti.ttc'这个字体文件而导致的。你可以尝试修改代码中的font_path,指定一个你mac m1中存在的字体文件路径,例如:
```python
font_path='/Library/Fonts/Arial.ttf'
```
将上面的代码中的Arial.ttf替换成你mac m1中存在的字体文件即可。
相关问题
我需要统计无重复数据的数量和有重复数据,重复多少次的数据,不需要知道具体是哪个id重复,帮我改一下代码import pandas as pd # 读取数据到DataFrame df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv',encoding='gbk') # 查找重复的id duplicates = df[df.duplicated('user_id', keep=False)] if not duplicates.empty: print("以下是重复的id:") print(duplicates['id']) else: print("没有重复的id")
好的,可以使用以下代码来实现您的需求:
```python
import pandas as pd
# 读取数据到DataFrame
df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk')
# 统计无重复数据的数量
num_unique = df['user_id'].nunique()
print("无重复数据的数量为:", num_unique)
# 统计有重复数据,并输出重复次数
duplicates = df[df.duplicated('user_id', keep=False)]
if not duplicates.empty:
num_duplicates = len(duplicates)
print("有重复数据的数量为:", num_duplicates)
print("其中重复了{}次".format(num_duplicates-1))
else:
print("没有重复数据")
```
这样,就可以输出无重复数据的数量和有重复数据的数量以及重复次数。如果没有重复数据,则只会输出"没有重复数据"。
我的代码里怎么看聚类结果?df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 设置停用词 stopwords = set() content = [line.strip() for line in open('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/hit_stopwords.txt','r',encoding='utf-8').readlines()] # print(content) stopwords.update(content) jieba.load_userdict(stopwords) # 对文本数据进行分词 df['content_cut'] = df['微博正文'].apply(lambda x: ' '.join(jieba.cut(x))) # print(df['content_cut']) # 构建TF-IDF矩阵 tfidf = TfidfVectorizer() tfidf_matrix = tfidf.fit_transform(df['content_cut']) print(tfidf_matrix) # 聚类分析 n_cluster = 3 kmeans = KMeans(n_clusters=n_cluster, random_state=0) kmeans.fit(tfidf_matrix) # 将聚类结果添加到原始数据中 df['cluster'] = kmeans.labels_ # 生成词云图 for i in range(n_cluster): text = ' '.join(df[df['cluster']==i]['content_cut']) wordcloud = WordCloud( stopwords=stopwords, background_color='white', width=800, height=600,font_path='/System/Library/Fonts/Supplemental/Songti.ttc').generate(text) plt.imshow(wordcloud) plt.axis('off') plt.show()
在你的代码中,聚类结果已经被存储在了 `df['cluster']` 列中,每个样本被分配到了一个聚类簇。你可以使用 Pandas 的一些函数来查看聚类结果,例如:
1. 查看每个聚类簇的样本数:
```python
print(df['cluster'].value_counts())
```
2. 查看每个聚类簇的样本:
```python
for i in range(n_cluster):
print(f'Cluster {i}:')
print(df[df['cluster']==i]['微博正文'])
```
你也可以通过可视化来更好地查看聚类结果。例如,你可以使用 Seaborn 的 `scatterplot` 函数绘制每个样本的分布情况,并使用不同的颜色表示不同的聚类簇:
```python
import seaborn as sns
sns.scatterplot(x='x_axis', y='y_axis', hue='cluster', data=df)
```
其中,`x_axis` 和 `y_axis` 分别是你使用 PCA 或 t-SNE 降维后得到的两个维度,`hue` 参数指定了颜色映射的变量,即聚类簇。
阅读全文