编写爬虫程序实现以下功能: (1)爬取红河学院校园网首页【新闻中心】下【学校要闻】的当前新闻标题及正文页链接【15分】。
时间: 2023-10-08 20:05:29 浏览: 71
好的,以下是针对您的问题的爬虫程序代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'http://www.hru.edu.cn/xyxw.htm'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
news_list = soup.select('.newslist')[0]
news_items = news_list.select('li')
for item in news_items:
title = item.select('a')[0].text
link = item.select('a')[0]['href']
print(title, link)
```
解析:
1. 首先导入需要用到的 requests 库和 BeautifulSoup 库;
2. 将目标网址赋值给变量 url;
3. 发送 GET 请求获取网页内容,将响应结果存储在变量 response 中;
4. 使用 BeautifulSoup 对响应结果进行解析,将结果存储在变量 soup 中;
5. 通过 select 方法找到目标区域的 HTML 元素,存储在变量 news_list 中;
6. 在目标区域中,每个新闻都被封装在一个 li 标签中,因此通过 select 方法找到所有 li 标签,存储在变量 news_items 中;
7. 遍历每个 li 标签,通过 select 方法找到标题所在的 a 标签,获取标题文本和正文页链接;
8. 输出标题和链接。
希望这份代码能够对您有所帮助!
阅读全文