python 爬虫利用requests、beaugifulsoup4、openpyxl、pyecharts库爬取洛阳师范学院官网的新闻并将其存入xlsx文件并做词云图分析
时间: 2023-12-24 08:05:34 浏览: 84
使用python 3实现的一个知乎内容的爬虫,依赖requests、BeautifulSoup4。.zip
好的,你的问题是如何使用 Python 爬虫利用 requests、beautifulsoup4、openpyxl、pyecharts 库爬取洛阳师范学院官网的新闻并将其存入 xlsx 文件并做词云图分析。
首先,我们需要使用 requests 库发送 HTTP 请求获取网页内容,再使用 beautifulsoup4 库解析 HTML 标签,获取需要的信息。然后使用 openpyxl 库将信息存入 xlsx 文件,并使用 pyecharts 库生成词云图。
以下是代码示例:
```python
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
from pyecharts.charts import WordCloud
from pyecharts import options as opts
# 请求网页
url = "http://www.lynu.edu.cn/index/xwzx.htm"
response = requests.get(url)
# 解析 HTML 标签
soup = BeautifulSoup(response.content, "html.parser")
news_list = soup.find_all("li", {"class": "news"})
# 存入 xlsx 文件
wb = Workbook()
ws = wb.active
ws.append(["标题", "链接"])
for news in news_list:
title = news.find("a").text
link = "http://www.lynu.edu.cn" + news.find("a")["href"]
ws.append([title, link])
wb.save("news.xlsx")
# 生成词云图
word_cloud = WordCloud()
title_list = [news.find("a").text for news in news_list]
word_cloud.add("", list(zip(title_list, [1] * len(title_list))))
word_cloud.set_global_opts(title_opts=opts.TitleOpts(title="洛阳师范学院新闻词云图"))
word_cloud.render("news_word_cloud.html")
```
这段代码会将洛阳师范学院官网的新闻标题和链接存入 news.xlsx 文件,并生成词云图保存在 news_word_cloud.html 文件中。
阅读全文