怎么做爬取论文网的论文题目、作者、摘要、关键词、发表时间等数据的词云图
时间: 2023-07-04 13:05:21 浏览: 85
首先,需要使用Python爬虫技术爬取论文网站的论文数据,并将其保存为一个CSV文件。接下来,使用pandas库读取CSV文件中的数据,并使用jieba库对摘要和关键词进行分词处理。然后,使用wordcloud库生成词云图。
具体步骤如下:
1.使用Python爬虫技术爬取论文网站的论文数据,并将其保存为一个CSV文件。
2.使用pandas库读取CSV文件中的数据,并将摘要和关键词进行分词处理。
3.使用wordcloud库生成词云图,并设置相应的参数,如字体、颜色、背景等。
下面是示例代码:
```python
import pandas as pd
import jieba
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
# 读取CSV文件
data = pd.read_csv('论文数据.csv')
# 将摘要和关键词进行分词处理
abstracts = data['摘要'].tolist()
keywords = data['关键词'].tolist()
text = ''
for a in abstracts:
text += ' '.join(jieba.cut(a))
for k in keywords:
text += ' '.join(jieba.cut(k))
# 生成词云图
stopwords = set(STOPWORDS)
font_path = 'msyh.ttc' # 指定字体文件路径
background_color = 'white' # 指定背景颜色
wc = WordCloud(font_path=font_path, background_color=background_color, stopwords=stopwords)
wc.generate(text)
# 绘制词云图
import matplotlib.pyplot as plt
plt.imshow(wc, interpolation="bilinear")
plt.axis("off")
plt.show()
```
其中,`msyh.ttc`是微软雅黑字体文件的路径,可以根据自己的需要修改。`background_color`指定背景颜色,可以设置为白色、黑色等。最后使用`plt.show()`显示词云图。
相关推荐
![py](https://img-home.csdnimg.cn/images/20210720083646.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)