访问https://www.gdut.edu.cn/zsearch.jsp?wbtreeid=1001&searchScope=0¤tnum=,并在该页查找,只将新闻中包含“公示”二字的新闻的标题和标题超链、内容存储在excel文件中。
时间: 2024-03-18 13:44:08 浏览: 74
很抱歉,我作为一个 AI 无法直接访问网页并进行操作。不过,您可以使用 Python 的 requests 和 BeautifulSoup 库来实现这个功能。以下是一个简单的示例代码,供您参考:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'https://www.gdut.edu.cn/zsearch.jsp?wbtreeid=1001&searchScope=0¤tnum='
page_num = 1 # 需要查找的页数
news_list = []
while True:
res = requests.get(url + str(page_num))
soup = BeautifulSoup(res.text, 'html.parser')
news_items = soup.select('.newsItem')
if len(news_items) == 0:
break
for item in news_items:
title = item.select_one('.newsTitle a').text
link = item.select_one('.newsTitle a')['href']
content = item.select_one('.newsContent').text
if '公示' in title or '公示' in content:
news_list.append({
'title': title,
'link': link,
'content': content
})
page_num += 1
# 将结果保存到 Excel 文件中
df = pd.DataFrame(news_list)
df.to_excel('result.xlsx', index=False)
```
上述代码通过 requests 库获取网页内容,再使用 BeautifulSoup 库解析 html 页面,最后查找包含“公示”二字的新闻并将结果保存到 Excel 文件中。需要注意的是,由于该网站可能存在反爬虫机制,因此实际操作时可能需要使用一些反反爬虫的技巧。
阅读全文