实验要求实验目的：学会使用Pandas操作数据集，并进行可视化。数据集描述：该数据集是CNKI中与“中药毒理反应”相关的文献信息，包含文章题目、作者、来源（出版社）、摘要、发表时间等信息。实验要求： 1. 使用Pandas读取数据集。 2. 统计每年的发文数量，并绘制折线图。 3. 统计出版社的发文量信息，列出发文前10位的出版社。 4. 使用jieba分词，对摘要进行分词统计，制作词频前30位的词云图。（需安装jieba分词和词云工具包）。结果提交：使用jupyter notebook进行程序编写，形成.ipynb文件，使用“学号姓名”的方式进行命名，数据文件放在该文件同目录下。

时间: 2023-11-28 22:50:14 浏览: 95

好的，这个实验比较有趣，我们来一步一步实现。首先，我们需要导入必要的库：pandas、matplotlib、jieba和wordcloud。如果你还没有安装这些库，请在命令行中运行以下命令安装： ``` pip install pandas matplotlib jieba wordcloud ``` 然后，我们开始实验： ## 1. 使用Pandas读取数据集首先，我们需要导入Pandas库，并使用read_csv函数读取CSV格式的数据集。 ```python import pandas as pd # 读取CSV文件 df = pd.read_csv('data.csv') ``` 假设我们的数据集文件名为"data.csv"，并且它在当前工作目录中。读入数据后，我们可以使用head函数查看前5行数据： ```python print(df.head()) ``` ## 2. 统计每年的发文数量，并绘制折线图我们可以使用Pandas库中的groupby函数对年份进行分组，然后计算每年的文章数量。 ```python # 提取年份列 df['year'] = pd.to_datetime(df['发表时间']).dt.year # 按年份分组，计算每年的文章数量 count_by_year = df.groupby('year').size() print(count_by_year) ``` 最后，我们可以使用matplotlib库绘制折线图： ```python import matplotlib.pyplot as plt plt.plot(count_by_year.index, count_by_year.values) plt.xlabel('Year') plt.ylabel('Article Count') plt.title('Number of articles published each year') plt.show() ``` ## 3. 统计出版社的发文量信息，列出发文前10位的出版社我们可以使用Pandas库中的groupby函数对出版社进行分组，然后计算每个出版社的文章数量。 ```python # 按出版社分组，计算每个出版社的文章数量 count_by_publisher = df.groupby('出版社').size() # 按文章数量降序排序，获取前10名出版社 top_publishers = count_by_publisher.sort_values(ascending=False).head(10) print(top_publishers) ``` ## 4. 使用jieba分词，对摘要进行分词统计，制作词频前30位的词云图我们需要先安装jieba和wordcloud库： ``` pip install jieba wordcloud ``` 然后，我们可以使用jieba库对摘要进行分词： ```python import jieba # 定义分词函数 def cut_words(text): words = jieba.cut(text) return ' '.join(words) # 对摘要进行分词 df['摘要'] = df['摘要'].apply(cut_words) ``` 接着，我们可以使用wordcloud库制作词云图： ```python from wordcloud import WordCloud # 合并所有摘要为一个字符串 text = ' '.join(df['摘要'].tolist()) # 生成词云图 wordcloud = WordCloud(width=800, height=400, background_color='white', max_words=30).generate(text) # 显示词云图 plt.imshow(wordcloud, interpolation='bilinear') plt.axis('off') plt.show() ``` 完整代码如下：

阅读全文

相关推荐

Pandas 测试用数据集

实验用数据集

5实验报告-pandas基本操作2.doc

Bb_reports:使用Pandas和Matplotlob创建数据可视化支持数据

数据集-数据可视化（九）：Pandas北京租房数据分析-房源特征绘图、箱线图、动态可视化等高级操作

Python数据分析：活用Pandas库-数据集 pandas-for-everyone-master

数据可视化：pandas

Pandas高级操作: 时间序列与数据可视化

使用Seaborn和Pandas进行数据可视化

连通子图个数leetcode-gastrodon:使用Pandas在Jupyter中可视化RDF数据

可视化天气数据集：使用Matplotlib可视化天气数据集

用pandas导入数据集 并描述.ipynb

Python：Pandas 数据集

如何使用Python进行数据集操作：Pandas与NumPy实战教程.md

Pandas_Challenge:使用Pandas进行数据框分析

Web-Design-challenge:使用Python-Pandas进行数据可视化和分析训练营是一个挑战-明尼苏达大学双城大学

Python数据分析项目：Pandas在销售数据中的应用与可视化

数据集-数据可视化（八）：Pandas时间序列-动态绘图，重采样，自相关图，偏相关图等高级操作

3-6用 Pandas 进行数据预处理：数据清洗与可视化.html

pandas-Practice:pandas进行数据操作的实践

大家在看

ASP.NET在线播放器代码大全

Keysight N6705C直流电源分析仪.pdf

CAD二次开发-界面加载框架-代码模板

zotero各种插件，包含翻译，预览，文献管理，影响因子等等

大型滑坡变形稳定性与降雨关系研究

最新推荐

Pandas 按索引合并数据集的方法

用Pandas和Folium做一个新冠数据可视化

pandas分批读取大数据集教程

数据可视化课程练习题.docx

Python爬取股票信息，并可视化数据的示例

PHP集成Autoprefixer让CSS自动添加供应商前缀

揭秘数字音频编码的奥秘：非均匀量化A律13折线的全面解析

arduino PAJ7620U2

网站啄木鸟：深入分析SQL注入工具的效率与限制

【GPStoolbox使用技巧大全】：20个实用技巧助你精通GPS数据处理

用pandas导入数据集并描述.ipynb