首页如何使用Python编写脚本来爬取论坛或新闻网站的特定页面范围？需要指定开始和结束页码作为输入参数。

如何使用Python编写脚本来爬取论坛或新闻网站的特定页面范围？需要指定开始和结束页码作为输入参数。

时间: 2024-12-15 21:15:22 浏览: 6

在Python中，可以使用requests库来发送HTTP请求获取网页内容，并结合BeautifulSoup库解析HTML文档。以下是一个简单的例子，说明如何编写一个函数来爬取论坛或新闻网站的特定页面范围： ```python import requests from bs4 import BeautifulSoup def scrape_pages(start_page, end_page, url): for page_num in range(start_page, end_page + 1): # 范围包含end_page，所以加1 response = requests.get(url + f'?page={page_num}') # 这里假设url后面跟着查询参数?page=表示页码 soup = BeautifulSoup(response.text, 'html.parser') # 解析网页内容 # 根据实际HTML结构找到要抓取的数据部分，例如文章标题、链接等 titles = soup.find_all('h2', class_='post-title') # 假设文章标题在'h2'标签内 for title in titles: print(title.text) # 打印文章标题 print(title['href']) # 打印文章链接 # 使用示例 scrape_pages(1, 5, 'http://example.com/forum') # 爬取1到5页

阅读全文