首页python爬取多页新闻网页

python爬取多页新闻网页

时间: 2023-07-29 10:12:42 浏览: 55

要爬取多页新闻网页，可以使用 Python 中的 requests 库和 BeautifulSoup 库，具体步骤如下： 1. 导入 requests 和 BeautifulSoup 库： ``` import requests from bs4 import BeautifulSoup ``` 2. 定义要爬取的新闻网页链接列表，包含多个页面链接： ``` urls = ['https://www.example.com/news/page1', 'https://www.example.com/news/page2', 'https://www.example.com/news/page3'] ``` 3. 遍历链接列表，使用 requests 库获取网页内容并解析： ``` for url in urls: # 发送 GET 请求获取网页内容 response = requests.get(url) # 解析网页内容 soup = BeautifulSoup(response.content, 'html.parser') # 处理网页内容，比如提取新闻标题和链接 news_list = soup.find_all('div', class_='news-item') for news in news_list: title = news.find('a').text.strip() link = news.find('a')['href'] print(title, link) ``` 在遍历链接列表时，可以使用循环变量 i 来命名每个网页的文件名，比如： ``` for i, url in enumerate(urls): response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') with open(f'news_page{i+1}.html', 'w', encoding='utf-8') as f: f.write(str(soup)) ``` 这样就可以将每个新闻网页的内容保存到以数字命名的文件中了。