python 不断刷新网页中的url地址 当有新的url数据时打印url 再打开url地址获取网页数据
时间: 2024-06-10 14:10:40 浏览: 4
以下是一个示例代码,使用了requests和BeautifulSoup库:
```python
import requests
from bs4 import BeautifulSoup
import time
url = "http://example.com" # 初始url地址,可以是任何网站
seen_urls = set() # 已经访问过的url地址集合
while True:
# 获取网页内容
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
# 打印当前url地址
print(url)
# 处理当前网页内容
# ...
# 获取新的url地址
for link in soup.find_all("a"):
new_url = link.get("href")
if new_url not in seen_urls:
seen_urls.add(new_url)
print("New url found:", new_url)
# 等待一段时间后再刷新
time.sleep(10)
```
该代码会不断刷新初始url地址,并获取新的url地址。当有新的url地址时,会打印出来,并将其加入已访问的url地址集合。可以根据需要自行修改代码,处理网页内容。