访问广州工程技术职业学院官网新闻页面https://www.gzvtc.edu.cn/wechatNews/web/showlist1.aspx?menuOne=10001&menuTwo=10002,并在该页查找,只将新闻中包含“公示”二字的新闻的标题和标题超链、新闻内容存储在excel文件中。
时间: 2023-12-31 11:03:15 浏览: 158
你可以使用 Python 的第三方库 `requests` 和 `BeautifulSoup` 来访问网页、解析 HTML,并使用 `openpyxl` 来写入 Excel 文件。下面是一个实现该功能的示例代码:
```python
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
# 访问网页并解析 HTML
url = "https://www.gzvtc.edu.cn/wechatNews/web/showlist1.aspx?menuOne=10001&menuTwo=10002"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
# 创建 Excel 文件并写入表头
wb = Workbook()
ws = wb.active
ws.append(["标题", "标题超链", "新闻内容"])
# 遍历所有新闻标题和链接,查找包含“公示”二字的新闻并写入 Excel 文件
news_list = soup.find_all("a", class_="news_list_title")
for news in news_list:
title = news.get_text()
link = news.get("href")
news_response = requests.get(link)
news_soup = BeautifulSoup(news_response.content, "html.parser")
content = news_soup.find("div", class_="news_content").get_text()
if "公示" in title:
ws.append([title, link, content])
# 保存 Excel 文件
wb.save("news.xlsx")
```
这将在当前工作目录下创建一个名为 `news.xlsx` 的 Excel 文件,其中包含所有新闻标题和内容中包含“公示”二字的新闻。你可以根据需要对代码进行修改,以获取其他信息或使用其他条件过滤新闻。
阅读全文