python爬取多页新闻网页
时间: 2023-07-29 13:12:42 浏览: 129
要爬取多页新闻网页,可以使用 Python 中的 requests 库和 BeautifulSoup 库,具体步骤如下:
1. 导入 requests 和 BeautifulSoup 库:
```
import requests
from bs4 import BeautifulSoup
```
2. 定义要爬取的新闻网页链接列表,包含多个页面链接:
```
urls = ['https://www.example.com/news/page1', 'https://www.example.com/news/page2', 'https://www.example.com/news/page3']
```
3. 遍历链接列表,使用 requests 库获取网页内容并解析:
```
for url in urls:
# 发送 GET 请求获取网页内容
response = requests.get(url)
# 解析网页内容
soup = BeautifulSoup(response.content, 'html.parser')
# 处理网页内容,比如提取新闻标题和链接
news_list = soup.find_all('div', class_='news-item')
for news in news_list:
title = news.find('a').text.strip()
link = news.find('a')['href']
print(title, link)
```
在遍历链接列表时,可以使用循环变量 i 来命名每个网页的文件名,比如:
```
for i, url in enumerate(urls):
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
with open(f'news_page{i+1}.html', 'w', encoding='utf-8') as f:
f.write(str(soup))
```
这样就可以将每个新闻网页的内容保存到以数字命名的文件中了。
阅读全文