from wordcloud import WordCloud #设置停用词 stopwords = set() content = [line.strip() for line in open('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/hit_stopwords.txt','r',encoding='utf-8').readlines()] # print(content) stopwords.update(content) jieba.load_userdict(stopwords) import matplotlib.pyplot as plt def frequencies_dict(cluster_index): if cluster_index > true_k - 1: return term_frequencies = km.cluster_centers_[cluster_index] sorted_terms = centroids[cluster_index] frequencies = {train_unique[i]: term_frequencies[i] for i in sorted_terms} return frequencies def makeImage(frequencies): wc = WordCloud(background_color="white", max_words=50,stopwords=stopwords) # generate word cloud wc.generate_from_frequencies(frequencies) # show plt.imshow(wc, interpolation="bilinear") plt.axis("off") plt.show() for i in range('true_k'): freq = frequencies_dict(i) makeImage(freq) print()

这个代码我的mac m1显示不出词云，怎么修改df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 设置停用词 stopwords = set() content = [line.strip() for line in open('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/hit_stopwords.txt','r',encoding='utf-8').readlines()] # print(content) stopwords.update(content) jieba.load_userdict(stopwords) # 对文本数据进行分词 df['content_cut'] = df['微博正文'].apply(lambda x: ' '.join(jieba.cut(x))) # print(df['content_cut']) # 构建TF-IDF矩阵 tfidf = TfidfVectorizer() tfidf_matrix = tfidf.fit_transform(df['content_cut']) print(tfidf_matrix) # 聚类分析 n_cluster = 3 kmeans = KMeans(n_clusters=n_cluster, random_state=0) kmeans.fit(tfidf_matrix) # 将聚类结果添加到原始数据中 df['cluster'] = kmeans.labels_ # 生成词云图 font_path='/System/Library/Fonts/Supplemental/Songti.ttc' for i in range(n_cluster): text = ' '.join(df[df['cluster']==i]['content_cut']) wordcloud = WordCloud( stopwords=stopwords, background_color='white', width=800, height=600).generate(text) plt.imshow(wordcloud) plt.axis('off') plt.show()

这个问题可能是因为你的mac m1默认的字体库没有'Songti.ttc'这个字体文件而导致的。你可以尝试修改代码中的font_path，指定一个你mac m1中存在的字体文件路径，例如： python font_path='/Library/Fonts/Arial....

import re import jieba import pandas as pd # 读取微博数据 df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 读取停用词文件 stopwords = [] with open('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/hit_stopwords.txt', encoding='utf-8') as f: for line in f: stopwords.append(line.strip()) # 去除 HTML 标签和表情符号 def clean_text(text): # 去除 HTML 标签 text = re.sub('<[^>]+>', '', text) # 去除表情符号 text = re.sub('\[.*?\]', '', text) return text # 去除网址和@用户 def remove_url_and_at(text): # 去除网址 text = re.sub('https?://[^\s]+', '', text) # 去除@用户 text = re.sub('@[^\s]+', '', text) return text # 分词，去除停用词和标点符号 def tokenize(text): # 分词 words = jieba.cut(text) # 去除停用词和标点符号 words = [word.strip() for word in words if word.strip() not in stopwords and re.match(r'^[\w\u4e00-\u9fa5]+$', word)] return words # 对每条微博进行处理 for i, row in df.iterrows(): text = row['text'] # 去除 HTML 标签和表情符号 text = clean_text(text) # 去除网址和@用户 text = remove_url_and_at(text) # 分词，去除停用词和标点符号 words = tokenize(text) # 将处理后的文本保存到新列中 df.at[i, 'processed_text'] = ' '.join(words) # 将处理后的数据保存到新的 csv 文件中 df.to_csv('weibo_processed.csv', index=False, encoding='gbk')

这段代码是一个微博文本数据的预处理过程，包括读取微博数据、读取停用词文件、去除 HTML 标签和表情符号、去除网址和@用户、分词，去除停用词和标点符号等步骤，最终将处理后的数据保存到新的 csv 文件中。...

我需要统计无重复数据的数量和有重复数据，重复多少次的数据，不需要知道具体是哪个id重复，帮我改一下代码import pandas as pd # 读取数据到DataFrame df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv',encoding='gbk') # 查找重复的id duplicates = df[df.duplicated('user_id', keep=False)] if not duplicates.empty: print("以下是重复的id：") print(duplicates['id']) else: print("没有重复的id")

df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 统计无重复数据的数量 num_unique = df['user_id'].nunique() ...

(affective_machine_learning) dashan@dashandeMacBook-Pro ~ % brew install pyqt5 Warning: No remote 'origin' in /opt/homebrew/Homebrew, skipping update! Running brew update --auto-update...

这个警告信息表明Homebrew没有找到名为“origin”的远程Git存储库，因此它跳过了更新操作。您可以尝试手动更新Homebrew，然后再次尝试安装PyQt5。在终端中运行以下命令更新Homebrew： brew update ...

我在httpd服务上配置了某些用户可以访问/var/www/html，然后我的需求是httpd可以根据认证的用户，跳转到某个目录，比如说，dashan用户认证后，只能跳转到/var/www/html/dashan

如果是，它将把所有根路径（“/”）请求重定向到“/dashan/”目录。请确保“/dashan/”目录已经存在并包含您想要显示的内容。如果您想让其他用户访问不同的目录，只需添加更多的RewriteCond和RewriteRule规则即可...

不用去统计每天每个小时的评率，我想要这样的效果：2023-03-01，22-0点；2023-03-03，22-0

df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 将发布时间转换为日期类型 df['发布时间'] = pd.to_datetime(df['...

我需要统计的是文件中出现的某日的时间跨度

df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 将发布时间转换为日期类型 df['发布时间'] = pd.to_datetime(df['...

不用去统计每天每个小时的评率，我想要这样的效果：2023-03-01，22：26-23:59；2023-03-03，22：19-23:58

df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 将发布时间转换为日期类型 df['发布时间'] = pd.to_datetime(df['...

我想查看csv中“发布时间”这一列的时间情况，想要列个表格看数据每天的时间段

df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk') # 将发布时间转换为日期类型 df['发布时间'] = pd.to_datetime(df['...

ChatGPT原理1-3

aiohttp-3.4.0b2.tar.gz

Python库是一组预先编写的代码模块，旨在帮助开发者实现特定的编程任务，无需从零开始编写代码。这些库可以包括各种功能，如数学运算、文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库，如NumPy、Pandas和Requests，极大地丰富了Python的应用领域，从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径，而且为经验丰富的开发者提供了强大的工具，以高效率、高质量地完成复杂任务。例如，Matplotlib和Seaborn库在数据可视化领域内非常受欢迎，它们提供了广泛的工具和技术，可以创建高度定制化的图表和图形，帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

小程序版通过CNN训练识别印刷体数字和字母-不含数据集图片-含逐行注释和说明文档.zip

本代码是基于python pytorch环境安装的。总共是3个py文件，十分的简便且代码里面的每一行都是含有中文注释的,小白也能看懂代码然后是关于数据集的介绍。本代码是不含数据集图片的，下载本代码后需要自行搜集图片放到对应的文件夹下即可在数据集文件夹下是我们的各个类别,这个类别不是固定的，可自行创建文件夹增加分类数据集需要我们往每个文件夹下搜集来图片放到对应文件夹下，每个对应的文件夹里面也有一张提示图，提示图片放的位置然后我们需要将搜集来的图片，直接放到对应的文件夹下，就可以对代码进行训练了。运行01数据集文本生成制作.py,是将数据集文件夹下的图片路径和对应的标签生成txt格式,划分了训练集和验证集。运行02深度学习模型训练.py就会将txt文本中记录的训练集和验证集进行读取训练，训练好后会保存模型在本地。训练完成之后会有log日志保存本地，里面记录了每个epoch的验证集损失值和准确率。运行03flask_服务端.py就可以生成与小程序交互的url了然后需要我们运行微信开发者工具，如果之前没有下载过，则需要在电脑网页上，搜微信开发者工具进行下载。导入我们的小

AI+智慧校园建设方案PPT(100页).pptx

智慧校园大数据信息化AIOT平台建设整体解决方案是一个综合性的校园智能化升级计划，旨在通过应用物联网、大数据、人工智能等高新技术，打造一个安全、便捷、绿色的校园环境。该方案遵循国家教育信息化2.0规划和相关标准，强调技术在教育领域的深度应用。方案的核心内容包括全场景的智能互联、物信融合、AI赋能创新应用，以及校园营运指挥中心的建设。它涵盖了智慧管理、智慧服务、智慧教学等多个方面，通过SAAS、PAAS、DAAS、IAAS等多层次的系统架构，实现从数据存储、管理到智能分析和应用的全面覆盖。智慧应用聚焦于校园特色场景，如教室、宿舍、图书馆和食堂，通过AI视频智能分析技术，提供便捷服务。方案还包括智能安防、智慧消防、能耗监管等，以实现校园的智能化管理。例如，人脸门禁系统提供无感通行，提高安全性和便捷性；车辆管理系统通过轨迹分析和布控，优化交通秩序。此外，方案还强调了智能照明、智能水控和电控等节能环保措施，以及通过智能语音分析和录播方案提升教学质量。智慧宿舍通过人脸宿管和智能节电，提高宿舍管理效率。整体上，该方案通过技术集成和创新，推动校园向智能化、信息化转型，为师生创造更安全、便捷、环保的学习和生活环境。

pyzmq-26.0.0b2-cp312-cp312-win_arm64.whl

Python库是一组预先编写的代码模块，旨在帮助开发者实现特定的编程任务，无需从零开始编写代码。这些库可以包括各种功能，如数学运算、文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库，如NumPy、Pandas和Requests，极大地丰富了Python的应用领域，从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径，而且为经验丰富的开发者提供了强大的工具，以高效率、高质量地完成复杂任务。例如，Matplotlib和Seaborn库在数据可视化领域内非常受欢迎，它们提供了广泛的工具和技术，可以创建高度定制化的图表和图形，帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

相关推荐

基于51单片机的简易抢答器.zip

初三计算机考试题.pdf

初三计算机考试题文.pdf

(affective_machine_learning) dashan@dashandeMacBook-Pro ~ % brew install pyqt5 Warning: No remote 'origin' in /opt/homebrew/Homebrew, skipping update! Running brew update --auto-update...

我在httpd服务上配置了某些用户可以访问/var/www/html，然后我的需求是httpd可以根据认证的用户，跳转到某个目录，比如说，dashan用户认证后，只能跳转到/var/www/html/dashan

不用去统计每天每个小时的评率，我想要这样的效果：2023-03-01，22-0点；2023-03-03，22-0

我需要统计的是文件中出现的某日的时间跨度

不用去统计每天每个小时的评率，我想要这样的效果：2023-03-01，22：26-23:59；2023-03-03，22：19-23:58

我想查看csv中“发布时间”这一列的时间情况，想要列个表格看数据每天的时间段

ChatGPT原理1-3

aiohttp-3.4.0b2.tar.gz

小程序版通过CNN训练识别印刷体数字和字母-不含数据集图片-含逐行注释和说明文档.zip

AI+智慧校园建设方案PPT(100页).pptx

pyzmq-26.0.0b2-cp312-cp312-win_arm64.whl

最新推荐

ChatGPT原理1-3

aiohttp-3.4.0b2.tar.gz

小程序版通过CNN训练识别印刷体数字和字母-不含数据集图片-含逐行注释和说明文档.zip

AI+智慧校园建设方案PPT(100页).pptx

pyzmq-26.0.0b2-cp312-cp312-win_arm64.whl

爬壁清洗机器人设计.doc

管理建模和仿真的文件

Python并发编程：从新手到专家的进阶之路（多线程与多进程篇）

matlab小程序代码

喷涂机器人.doc