python不断循环爬取json url地址 然后遍历url 当有新的url地址打开并获取网页标题 没有新数据则继续循环
时间: 2024-04-29 13:24:47 浏览: 39
以下是一个简单的Python程序,可以实现不断循环爬取JSON URL地址并遍历URL,当有新的URL地址打开并获取网页标题,如果没有新数据则继续循环。
```python
import requests
from bs4 import BeautifulSoup
import time
# 初始URL地址
url = 'http://example.com/data.json'
# 用来存储已经处理过的URL地址
visited_urls = set()
while True:
# 发送请求获取JSON数据
response = requests.get(url)
data = response.json()
# 遍历URL地址
for link in data['links']:
# 如果URL地址已经处理过,跳过
if link in visited_urls:
continue
# 发送请求获取网页内容
try:
page = requests.get(link)
except requests.exceptions.RequestException as e:
print(e)
continue
# 解析网页内容,获取网页标题
soup = BeautifulSoup(page.content, 'html.parser')
title = soup.title.string
# 输出网页标题
print(title)
# 将URL地址添加到已处理集合中
visited_urls.add(link)
# 等待一段时间后继续循环
time.sleep(60)
```
这个程序使用了requests和BeautifulSoup库来发送请求、解析网页内容,通过不断循环的方式来处理新的URL地址。程序会每隔一分钟重新获取一遍JSON数据,从中遍历新的URL地址并获取网页标题,如果URL地址已经处理过则跳过,否则将其添加到已处理集合中。
阅读全文