python爬虫深度优先代码
时间: 2023-11-12 15:57:46 浏览: 71
以下是 Python 爬虫深度优先的代码示例:
```python
import requests
from bs4 import BeautifulSoup
def dfs(url, visited):
if url in visited:
return
visited.add(url)
print(url)
try:
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
links = soup.find_all('a')
for link in links:
dfs(link.get('href'), visited)
except:
pass
if __name__ == '__main__':
url = 'https://www.example.com'
visited = set()
dfs(url, visited)
```
以上代码中,我们使用了 requests 库来发送 HTTP 请求,使用 BeautifulSoup 库来解析 HTML 页面。在 dfs 函数中,我们首先判断当前 URL 是否已经被访问过,如果已经访问过,则直接返回。否则,我们将当前 URL 加入到 visited 集合中,并打印出来。然后,我们发送 HTTP 请求,获取页面内容,并使用 BeautifulSoup 库解析页面中的所有链接。对于每个链接,我们递归调用 dfs 函数,直到所有链接都被访问过。
阅读全文