from wordcloud import WordCloud #设置停用词 stopwords = set() content = [line.strip() for line in open('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/hit_stopwords.txt','r',encoding='utf-8').readlines()] # print(content) stopwords.update(content) jieba.load_userdict(stopwords) import matplotlib.pyplot as plt def frequencies_dict(cluster_index): if cluster_index > true_k - 1: return term_frequencies = km.cluster_centers_[cluster_index] sorted_terms = centroids[cluster_index] frequencies = {train_unique[i]: term_frequencies[i] for i in sorted_terms} return frequencies def makeImage(frequencies): wc = WordCloud(background_color="white", max_words=50,stopwords=stopwords) # generate word cloud wc.generate_from_frequencies(frequencies) # show plt.imshow(wc, interpolation="bilinear") plt.axis("off") plt.show() for i in range('true_k'): freq = frequencies_dict(i) makeImage(freq) print()

这个代码我的mac m1显示不出词云，怎么修改df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 设置停用词 stopwords = set() content = [line.strip() for line in open('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/hit_stopwords.txt','r',encoding='utf-8').readlines()] # print(content) stopwords.update(content) jieba.load_userdict(stopwords) # 对文本数据进行分词 df['content_cut'] = df['微博正文'].apply(lambda x: ' '.join(jieba.cut(x))) # print(df['content_cut']) # 构建TF-IDF矩阵 tfidf = TfidfVectorizer() tfidf_matrix = tfidf.fit_transform(df['content_cut']) print(tfidf_matrix) # 聚类分析 n_cluster = 3 kmeans = KMeans(n_clusters=n_cluster, random_state=0) kmeans.fit(tfidf_matrix) # 将聚类结果添加到原始数据中 df['cluster'] = kmeans.labels_ # 生成词云图 font_path='/System/Library/Fonts/Supplemental/Songti.ttc' for i in range(n_cluster): text = ' '.join(df[df['cluster']==i]['content_cut']) wordcloud = WordCloud( stopwords=stopwords, background_color='white', width=800, height=600).generate(text) plt.imshow(wordcloud) plt.axis('off') plt.show()

这个问题可能是因为你的mac m1默认的字体库没有'Songti.ttc'这个字体文件而导致的。你可以尝试修改代码中的font_path，指定一个你mac m1中存在的字体文件路径，例如： python font_path='/Library/Fonts/Arial....

import re import jieba import pandas as pd # 读取微博数据 df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 读取停用词文件 stopwords = [] with open('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/hit_stopwords.txt', encoding='utf-8') as f: for line in f: stopwords.append(line.strip()) # 去除 HTML 标签和表情符号 def clean_text(text): # 去除 HTML 标签 text = re.sub('<[^>]+>', '', text) # 去除表情符号 text = re.sub('\[.*?\]', '', text) return text # 去除网址和@用户 def remove_url_and_at(text): # 去除网址 text = re.sub('https?://[^\s]+', '', text) # 去除@用户 text = re.sub('@[^\s]+', '', text) return text # 分词，去除停用词和标点符号 def tokenize(text): # 分词 words = jieba.cut(text) # 去除停用词和标点符号 words = [word.strip() for word in words if word.strip() not in stopwords and re.match(r'^[\w\u4e00-\u9fa5]+$', word)] return words # 对每条微博进行处理 for i, row in df.iterrows(): text = row['text'] # 去除 HTML 标签和表情符号 text = clean_text(text) # 去除网址和@用户 text = remove_url_and_at(text) # 分词，去除停用词和标点符号 words = tokenize(text) # 将处理后的文本保存到新列中 df.at[i, 'processed_text'] = ' '.join(words) # 将处理后的数据保存到新的 csv 文件中 df.to_csv('weibo_processed.csv', index=False, encoding='gbk')

这段代码是一个微博文本数据的预处理过程，包括读取微博数据、读取停用词文件、去除 HTML 标签和表情符号、去除网址和@用户、分词，去除停用词和标点符号等步骤，最终将处理后的数据保存到新的 csv 文件中。...

安卓android 动态权限DEMO 代码里设置动态权限

在Android系统中，从6.0（API级别23）开始，引入了一种新的权限管理模型，即运行时权限（Runtime Permissions）。这个模型改变了之前在安装应用时一次性授予所有权限的做法，转为在应用需要使用特定敏感权限时，用户...

pduke_query.rar

标题中的“pduke_query.rar”可能是指一个与PDUKE相关的查询数据集，而“pduke”可能是一个特定的项目、工具或者数据库的名字。由于没有提供更具体的信息，我将基于通常的数据集和查询处理的上下文来展开讨论。...

初三计算机考试题.doc

5. E-mail地址：dashan@sina.com是一个电子邮件地址，用于网络通信。 6. Word退出命令：执行退出命令会关闭Word窗口，但不一定会关机或进入DOS状态。 7. IP地址：202.112.7.12是一个IPv4地址，用于标识网络上的设备...

初三计算机考试题文.pdf

"初三计算机考试题文.pdf" 此文件为初三计算机考试题文，涵盖了计算机基础知识、 office 软件操作、计算机硬件知识等方面的内容。下面是对标题和描述中所说的知识点的详细说明： 1. 计算机考试理论题：涵盖了...

我需要统计无重复数据的数量和有重复数据，重复多少次的数据，不需要知道具体是哪个id重复，帮我改一下代码import pandas as pd # 读取数据到DataFrame df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv',encoding='gbk') # 查找重复的id duplicates = df[df.duplicated('user_id', keep=False)] if not duplicates.empty: print("以下是重复的id：") print(duplicates['id']) else: print("没有重复的id")

df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 统计无重复数据的数量 num_unique = df['user_id'].nunique() ...

我在httpd服务上配置了某些用户可以访问/var/www/html，然后我的需求是httpd可以根据认证的用户，跳转到某个目录，比如说，dashan用户认证后，只能跳转到/var/www/html/dashan

如果是，它将把所有根路径（“/”）请求重定向到“/dashan/”目录。请确保“/dashan/”目录已经存在并包含您想要显示的内容。如果您想让其他用户访问不同的目录，只需添加更多的RewriteCond和RewriteRule规则即可...

(affective_machine_learning) dashan@dashandeMacBook-Pro ~ % brew install pyqt5 Warning: No remote 'origin' in /opt/homebrew/Homebrew, skipping update! Running brew update --auto-update...

这个警告信息表明Homebrew没有找到名为“origin”的远程Git存储库，因此它跳过了更新操作。您可以尝试手动更新Homebrew，然后再次尝试安装PyQt5。在终端中运行以下命令更新Homebrew： brew update ...

基于springboot的在线答疑系统文件源码（java毕业设计完整源码+LW）.zip

项目均经过测试，可正常运行！环境说明：开发语言：java JDK版本：jdk1.8 框架：springboot 数据库：mysql 5.7/8 数据库工具：navicat 开发软件：eclipse/idea

最简单，最实用的数据库文档生成工具，支持SqlServer/MySQL/Oracle/PostgreSQL/DB2/SQLite数据库

DBCHM 是一款数据库文档生成工具！该工具从最初支持chm文档格式开始，通过开源，集思广益，不断改进，又陆续支持word、excel、pdf、html、xml、markdown等文档格式的导出。

基于springboot的微服务的旅行社门店系统的设计实现源码（java毕业设计完整源码+LW）.zip

功能说明：可以管理首页、个人中心、用户管理、旅行社管理、产品分类管理、门店公告管理、行政中心管理、订单信息管理、合同信息管理、社区留言、系统管理等功能模块。环境说明：开发语言：Java框架：springboot，mybatisJDK版本：JDK1.8数据库：mysql 5.7数据库工具：Navicat11开发软件：eclipse/ideaMaven包：Maven3.6

“书籍导航”：构建高效的图书管理系统

在信息化技术不断进步和现代经济快速发展的今天，传统的数据管理方式已经被软件化的存储、归纳和集中处理所取代。图书管理系统正是在这种背景下应运而生，旨在帮助管理者高效处理大量数据信息，提升事务处理效率，实现高效工作的目标。该系统采用成熟的SSM框架，利用跨平台的Java语言开发，数据库则选用广泛使用的MySQL，以满足大型商业网站的需求。系统实现了用户在线选书、答题和查看考核分数的功能，同时，管理员可以进行字典管理、留言板管理、书籍管理、书籍收藏管理、书籍留言管理、书籍借阅订单管理、书籍挂失管理、书籍需求管理、用户管理和管理员管理等。图书管理系统的界面设计简洁美观，功能模块布局与同类网站保持一致，不仅实现了基本功能，还提供了数据安全问题的实用解决方案。该系统不仅提高了管理者处理工作事务的效率，而且实现了数据信息管理的整体化、规范化和自动化。

电子手轮Ver1.1（位置跟随，X轴或Y轴） 1.200smart、威纶通触摸屏 2.手轮或编码器+PLC+伺服驱动器 3.手轮接入PLC，伺服接Q0.0或Q0.1，手轮转动，伺服电机准确跟随 4

电子手轮Ver1.1（位置跟随，X轴或Y轴） 1.200smart、威纶通触摸屏 2.手轮或编码器+PLC+伺服驱动器 3.手轮接入PLC，伺服接Q0.0或Q0.1，手轮转动，伺服电机准确跟随。 4.采用PLS指令编写 5.不带加减速 6.可选择X轴或Y轴跟随手轮。

相关推荐

基于双目视觉惯性的四轮差速自主导航机器人

基于51单片机的简易抢答器.zip

初三计算机考试题.pdf

安卓android 动态权限DEMO 代码里设置动态权限

pduke_query.rar

初三计算机考试题.doc

初三计算机考试题文.pdf

我在httpd服务上配置了某些用户可以访问/var/www/html，然后我的需求是httpd可以根据认证的用户，跳转到某个目录，比如说，dashan用户认证后，只能跳转到/var/www/html/dashan

(affective_machine_learning) dashan@dashandeMacBook-Pro ~ % brew install pyqt5 Warning: No remote 'origin' in /opt/homebrew/Homebrew, skipping update! Running brew update --auto-update...

基于springboot的在线答疑系统文件源码（java毕业设计完整源码+LW）.zip

最简单，最实用的数据库文档生成工具，支持SqlServer/MySQL/Oracle/PostgreSQL/DB2/SQLite数据库

基于springboot的微服务的旅行社门店系统的设计实现源码（java毕业设计完整源码+LW）.zip

“书籍导航”：构建高效的图书管理系统

电子手轮Ver1.1（位置跟随，X轴或Y轴） 1.200smart、威纶通触摸屏 2.手轮或编码器+PLC+伺服驱动器 3.手轮接入PLC，伺服接Q0.0或Q0.1，手轮转动，伺服电机准确跟随 4

大家在看

FineBI Windows版本安装手册

电子秤Multisim仿真+数字电路.zip

计算机与人脑-形式语言与自动机

基于CZT和ZoomFFT法的频谱细化在电动机故障诊断中的应用

用单片机实现声级计智能

最新推荐

基于springboot的在线答疑系统文件源码（java毕业设计完整源码+LW）.zip

最简单，最实用的数据库文档生成工具，支持SqlServer/MySQL/Oracle/PostgreSQL/DB2/SQLite数据库

基于springboot的微服务的旅行社门店系统的设计实现源码（java毕业设计完整源码+LW）.zip

“书籍导航”：构建高效的图书管理系统

电子手轮Ver1.1（位置跟随，X轴或Y轴） 1.200smart、威纶通触摸屏 2.手轮或编码器+PLC+伺服驱动器 3.手轮接入PLC，伺服接Q0.0或Q0.1，手轮转动，伺服电机准确跟随 4

WildFly 8.x中Apache Camel结合REST和Swagger的演示

管理建模和仿真的文件

【声子晶体模拟全能指南】：20年经验技术大佬带你从入门到精通

2024-07-27怎么用python转换成农历日期

FDFS客户端Python库1.2.6版本发布