1.使用Pandas读取数据集。 2.统计每年的发文数量,并绘制折线图。 3.统计出版社的发文量信息,列出发文前10位的出版社。 4.使用jieba分词,对摘要进行分词统计,制作词频前30位的词云图。(需安装jieba分词和词云工具包)。
时间: 2023-12-10 10:40:43 浏览: 68
用Python中的jieba对文章进行词频统计
以下是Python代码实现:
```python
import pandas as pd
import jieba
from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as plt
# 1.使用Pandas读取数据集
df = pd.read_csv('articles.csv')
# 2.统计每年的发文数量,并绘制折线图
year_count = df.groupby('year')['title'].count()
plt.plot(year_count.index, year_count.values)
plt.xlabel('Year')
plt.ylabel('Number of Articles')
plt.show()
# 3.统计出版社的发文量信息,列出发文前10位的出版社
publisher_count = df.groupby('publisher')['title'].count().sort_values(ascending=False)[:10]
print(publisher_count)
# 4.使用jieba分词,对摘要进行分词统计,制作词频前30位的词云图
abstracts = df['abstract'].tolist()
text = ''.join(abstracts)
words = [word for word in jieba.cut(text) if len(word) >= 2]
word_counts = Counter(words).most_common(30)
wordcloud = WordCloud(font_path='msyh.ttc', background_color='white').fit_words(dict(word_counts))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()
```
其中,'articles.csv'是数据集的文件名。在第4步中,需要先安装jieba分词和wordcloud工具包,可以使用以下命令进行安装:
```python
!pip install jieba wordcloud
```
这样就可以顺利地完成数据处理任务了。
阅读全文