首页编写爬虫程序实现以下功能：（1）爬取红河学院校园网首页【新闻中心】下【学校要闻】的当前新闻标题及正文页链接【15分】。

编写爬虫程序实现以下功能：（1）爬取红河学院校园网首页【新闻中心】下【学校要闻】的当前新闻标题及正文页链接【15分】。

时间: 2023-10-08 20:05:29 浏览: 71

好的，以下是针对您的问题的爬虫程序代码： ```python import requests from bs4 import BeautifulSoup url = 'http://www.hru.edu.cn/xyxw.htm' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') news_list = soup.select('.newslist')[0] news_items = news_list.select('li') for item in news_items: title = item.select('a')[0].text link = item.select('a')[0]['href'] print(title, link) ``` 解析： 1. 首先导入需要用到的 requests 库和 BeautifulSoup 库； 2. 将目标网址赋值给变量 url； 3. 发送 GET 请求获取网页内容，将响应结果存储在变量 response 中； 4. 使用 BeautifulSoup 对响应结果进行解析，将结果存储在变量 soup 中； 5. 通过 select 方法找到目标区域的 HTML 元素，存储在变量 news_list 中； 6. 在目标区域中，每个新闻都被封装在一个 li 标签中，因此通过 select 方法找到所有 li 标签，存储在变量 news_items 中； 7. 遍历每个 li 标签，通过 select 方法找到标题所在的 a 标签，获取标题文本和正文页链接； 8. 输出标题和链接。希望这份代码能够对您有所帮助！

阅读全文