python爬虫爬取某一节点下的所有数据
时间: 2023-09-23 18:04:52 浏览: 154
Python爬虫项目之爬取校花图片.zip
要爬取某一节点下的所有数据,需要使用递归函数来遍历整个节点树。以下是一个示例代码,可以爬取一个网站上所有的文章标题和链接:
```python
import requests
from bs4 import BeautifulSoup
def get_links(url):
# 获取页面内容
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# 获取所有的文章标题和链接
articles = soup.find_all('article')
for article in articles:
title = article.find('h2').text.strip()
link = article.find('a')['href']
print(title, link)
# 递归遍历子节点
next_page = soup.find('a', {'class': 'next'})
if next_page:
next_url = next_page['href']
get_links(next_url)
# 从首页开始爬取
get_links('https://example.com/articles/')
```
这个函数首先获取一个页面的内容,然后使用 BeautifulSoup 找到所有的文章节点,并提取出标题和链接。接下来它查找下一页的链接,如果有的话,就递归调用自己来遍历下一页。
阅读全文