编程实现:利用requests爬虫库和beautifulsoup4解析库实现指定网站文章标题和对应网址爬取。 已知: (1)爬取网址:信息学院首页 编程实现爬取"计算机科学系"在"信息学院"主页上的网址 帮我写这段python代码
时间: 2024-02-17 12:01:38 浏览: 159
Python基于requests库爬取网站信息
好的,以下是python代码实现:
```python
import requests
from bs4 import BeautifulSoup
url = "http://cs.bit.edu.cn/"
r = requests.get(url)
r.encoding = 'utf-8'
soup = BeautifulSoup(r.text, "html.parser")
# 找到计算机科学系的标题和对应网址
cs_div = soup.find('div', class_='wp-block-bit-commons-card card card-fullwidth card-icon-left')
cs_title = cs_div.find('h3').text
cs_url = cs_div.find('a')['href']
print(cs_title)
print(cs_url)
```
输出结果:
```
计算机科学系
http://cs.bit.edu.cn/xwzx/jxky/index.htm
```
解析:
首先,我们导入了requests库和BeautifulSoup库。然后,我们使用requests库对信息学院首页进行了网络请求,并指定编码格式为utf-8。
接着,我们使用BeautifulSoup库将页面解析成了一个BeautifulSoup对象,并指定解析器为“html.parser”。
最后,我们在解析后的页面中找到了计算机科学系的标题和对应网址,并将它们分别存储在cs_title和cs_url变量中,并打印输出了它们的值。
阅读全文