首页python爬虫深度优先代码

python爬虫深度优先代码

时间: 2023-11-12 15:57:46 浏览: 71

以下是 Python 爬虫深度优先的代码示例： ```python import requests from bs4 import BeautifulSoup def dfs(url, visited): if url in visited: return visited.add(url) print(url) try: response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') links = soup.find_all('a') for link in links: dfs(link.get('href'), visited) except: pass if __name__ == '__main__': url = 'https://www.example.com' visited = set() dfs(url, visited) ``` 以上代码中，我们使用了 requests 库来发送 HTTP 请求，使用 BeautifulSoup 库来解析 HTML 页面。在 dfs 函数中，我们首先判断当前 URL 是否已经被访问过，如果已经访问过，则直接返回。否则，我们将当前 URL 加入到 visited 集合中，并打印出来。然后，我们发送 HTTP 请求，获取页面内容，并使用 BeautifulSoup 库解析页面中的所有链接。对于每个链接，我们递归调用 dfs 函数，直到所有链接都被访问过。

阅读全文