首页 python 不断刷新网页中的url地址当有新的url数据时打印url 再打开url地址获取网页数据

python 不断刷新网页中的url地址当有新的url数据时打印url 再打开url地址获取网页数据

时间: 2024-06-10 14:10:40 浏览: 4

以下是一个示例代码，使用了requests和BeautifulSoup库： ```python import requests from bs4 import BeautifulSoup import time url = "http://example.com" # 初始url地址，可以是任何网站 seen_urls = set() # 已经访问过的url地址集合 while True: # 获取网页内容 response = requests.get(url) soup = BeautifulSoup(response.text, "html.parser") # 打印当前url地址 print(url) # 处理当前网页内容 # ... # 获取新的url地址 for link in soup.find_all("a"): new_url = link.get("href") if new_url not in seen_urls: seen_urls.add(new_url) print("New url found:", new_url) # 等待一段时间后再刷新 time.sleep(10) ``` 该代码会不断刷新初始url地址，并获取新的url地址。当有新的url地址时，会打印出来，并将其加入已访问的url地址集合。可以根据需要自行修改代码，处理网页内容。