用BeautifulSoup实现对http://news.imnu.edu.cn/的爬取
时间: 2023-12-27 20:05:32 浏览: 99
用beautifulsoup爬页面
可以使用以下代码实现对http://news.imnu.edu.cn/的爬取:
```python
import requests
from bs4 import BeautifulSoup
url = 'http://news.imnu.edu.cn/'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# 爬取新闻标题
titles = soup.find_all('div', class_='list_item')
for title in titles:
print(title.find('a').text.strip())
# 爬取新闻链接
links = soup.find_all('div', class_='list_item')
for link in links:
print(url + link.find('a')['href'])
```
这段代码利用了Python中的requests和BeautifulSoup库来获取网页内容并解析网页。首先使用requests.get方法获取网页内容,然后使用BeautifulSoup进行解析和筛选需要的内容。在这个例子中,我们爬取了新闻标题和链接。需要注意的是,在使用BeautifulSoup时,要根据网页的具体结构来选择合适的解析方法。
阅读全文