如何使用Python编写脚本来爬取论坛或新闻网站的特定页面范围?需要指定开始和结束页码作为输入参数。
时间: 2024-12-15 21:15:22 浏览: 6
在Python中,可以使用requests库来发送HTTP请求获取网页内容,并结合BeautifulSoup库解析HTML文档。以下是一个简单的例子,说明如何编写一个函数来爬取论坛或新闻网站的特定页面范围:
```python
import requests
from bs4 import BeautifulSoup
def scrape_pages(start_page, end_page, url):
for page_num in range(start_page, end_page + 1): # 范围包含end_page,所以加1
response = requests.get(url + f'?page={page_num}') # 这里假设url后面跟着查询参数?page=表示页码
soup = BeautifulSoup(response.text, 'html.parser') # 解析网页内容
# 根据实际HTML结构找到要抓取的数据部分,例如文章标题、链接等
titles = soup.find_all('h2', class_='post-title') # 假设文章标题在'h2'标签内
for title in titles:
print(title.text) # 打印文章标题
print(title['href']) # 打印文章链接
# 使用示例
scrape_pages(1, 5, 'http://example.com/forum') # 爬取1到5页
阅读全文