新闻是点击加载下一页的如何爬取新闻,写出Python代码
时间: 2024-02-29 07:54:14 浏览: 66
爬取新闻网站新闻列表的python程序
要爬取点击加载下一页的新闻,可以使用 Python 中的 requests 和 BeautifulSoup 库。以下是一个简单的代码示例:
```python
import requests
from bs4 import BeautifulSoup
url = "https://example.com/news" # 新闻网站的 URL
page = 1 # 要爬取的页面编号
while True:
# 构造请求 URL
params = {"page": page} # 请求参数
response = requests.get(url, params=params)
soup = BeautifulSoup(response.text, "html.parser")
# 解析新闻列表
news_list = soup.find_all("div", class_="news-item")
# 处理新闻列表
for news in news_list:
# 提取新闻标题、链接、摘要等信息
title = news.find("h2", class_="title").text.strip()
link = news.find("a", href=True)["href"]
summary = news.find("div", class_="summary").text.strip()
# 进行其他处理,如保存到数据库或文件中
# 检查是否有下一页
next_page = soup.find("a", class_="next", href=True)
if next_page:
page += 1
else:
break # 没有下一页,退出循环
```
在这个例子中,我们首先构造了一个带有 `page` 参数的 URL,然后发送 HTTP 请求并解析响应的 HTML 内容。我们使用 BeautifulSoup 库来查找新闻列表,并提取每个新闻的标题、链接和摘要等信息。然后我们进行其他处理,如保存到数据库或文件中。最后,我们检查是否有下一页,如果有,我们更新页面编号并继续循环,否则退出循环。
阅读全文