用xpath和beautifulsoup爬取http://shehui.sanyau.edu.cn/?article/type/60/1.htm前5页l新闻标题和浏览量
时间: 2023-10-08 15:10:08 浏览: 93
使用BeautifulSoup爬虫程序获取百度搜索结果的标题和url示例
好的,我可以帮您解决这个问题。以下是Python代码:
``` python
import requests
from bs4 import BeautifulSoup
for page in range(1, 6):
url = f"http://shehui.sanyau.edu.cn/?article/type/60/{page}.htm"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
articles = soup.find_all("div", class_="article")
for article in articles:
title = article.find("a").get_text()
views = article.find("i").get_text()
print(f"标题:{title} 浏览量:{views}")
```
这段代码将爬取 http://shehui.sanyau.edu.cn/?article/type/60/1.htm 前5页的新闻标题和浏览量,并打印输出。其中使用了 requests 库发送 HTTP 请求,使用了 BeautifulSoup 库进行 HTML 解析,同时使用了 xpath 和 find 方法来筛选出需要的数据。
阅读全文