python 不断刷新网页中的url地址 当有新的url数据时打印url
时间: 2024-05-12 17:17:29 浏览: 106
python+selenium打印当前页面的titl和url方法
你可以使用 Python 的 requests 库来获取网页内容,并且使用 BeautifulSoup 库来解析 HTML。然后,你可以使用 Python 的 time 模块来等待一段时间,以便定期刷新页面以获取新的 URL。
这里是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
import time
url = 'https://example.com'
prev_urls = set()
while True:
# 获取页面内容
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有的链接
urls = set()
for link in soup.find_all('a'):
urls.add(link.get('href'))
# 打印新的链接
new_urls = urls - prev_urls
if new_urls:
print('New URLs found:')
for new_url in new_urls:
print(new_url)
# 保存已经找到的链接
prev_urls = urls
# 等待 5 秒
time.sleep(5)
```
这个代码将每隔 5 秒刷新一次页面,查找新的 URL 并打印出来。你可以根据需要更改等待时间。
阅读全文